标签：基准测试

OpenAI o3模型基准测试成绩遭质疑，实测表现远低于预期

IT之家 4 月 21 日消息，OpenAI 的 o3 人工智能模型的第一方与第三方基准测试结果存在显著差异，引发了外界对其公司透明度和模型测试实践的质疑。去年 12 月，OpenAI 首次发布 o3 模型时宣称，该模型能够在 FrontierMath 这一极具挑战性的数学问题集上正确回答超过四分 ......

现有方法难以准确评估人工智能的进展

来源：MIT Technology Review每当一个新的人工智能模型发布时，通常会被宣传为在一系列基准测试中表现出色。例如，OpenAI 的 GPT-4o 在 5 月推出时，展示了一系列结果，表明其性能在多项测试中超过了其他人工智能公司的最新模型。然而，根据最新研究，这些基准测试存在 ......