OpenAI o3模型基准测试成绩遭质疑,实测分数远不及宣称
IT之家 4 月 21 日消息,OpenAI 的 o3 人工智能模型的第一方与第三方基准测试结果存在显著差异,引发了外界对其公司透明度和模型测试实践的质疑。去年 12 月,OpenAI 首次发布 o3 模型时宣称,该模型能够在 FrontierMath 这一极具挑战性的数学问题集上正确回答超过四分 ......
我们目前衡量人工智能进步的方式很糟糕
来源:MIT Technology Review每当一个新的人工智能模型发布时,通常会被宣传为在一系列基准测试中表现出色。例如,OpenAI 的 GPT-4o 在 5 月推出时,展示了一系列结果,表明其性能在多项测试中超过了其他人工智能公司的最新模型。然而,根据最新研究,这些基准测试存在 ......