OpenAI 刚刚开源了 PaperBench,用于评估 Agent 复现顶尖论文能力!
论文地址:https://cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf开源地址:https://github.com/openai/preparednessPaperBench 是一个由 OpenAI 开发的基准测试,旨在评估 AI Agent 复现尖端 AI 研究的能 力。它专注于测试 AI 是否能理 ......