标签：reuel

现有方法难以准确评估人工智能的进展

来源：MIT Technology Review每当一个新的人工智能模型发布时，通常会被宣传为在一系列基准测试中表现出色。例如，OpenAI 的 GPT-4o 在 5 月推出时，展示了一系列结果，表明其性能在多项测试中超过了其他人工智能公司的最新模型。然而，根据最新研究，这些基准测试存在 ......