OpenAI 全新开源 PaperBench，助力评估 Agent 复现顶尖论文能力-Ai设计师学院

导读：论文地址：om/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf开源地址：om/openai/preparednessPaperBench 是一个由 OpenAI 开发的基准测试，旨在评估 AI Agent 复现尖端 AI 研究的能力。它专注于测试 AI 是否能理解研究论文、独立开发代码并执行实验以复现研究结果。Agent 必须从头开始复制 20 篇 ICML 20…

OpenAI 全新开源 PaperBench，助力评估 Agent 复现顶尖论文能力

论文地址：om/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf开源地址：om/openai/preparednessPaperBench 是一个由 OpenAI 开发的基准测试，旨在评估 AI Agent 复现尖端 AI 研究的能力。它专注于测试 AI 是否能理解研究论文、独立开发代码并执行实验以复现研究结果。

Agent 必须从头开始复制 20 篇 ICML 2024 Spotlight 和 Oral 论文，包括了解论文贡献、开发代码库以及成功执行实验。为了进行客观评估，OpenAI 开发了评分标准，将每个复制任务分层分解为具有明确评分标准的较小子任务。PaperBench 总共包含 8,316 个可单独评分的任务。评分标准是与每篇 ICML 论文的作者共同开发的，以确保准确性和真实性。

为了实现可扩展的评估，OpenAI 还开发了一个基于评分标准的评判者，可以自动根据评分标准对复制尝试进行评分，并通过为评判者创建单独的基准来评估评判者的表现。

OpenAI 全新开源 PaperBench，助力评估 Agent 复现顶尖论文能力