OpenAI 刚刚开源了 PaperBench,用于评估 Agent 复现顶尖论文能力!
论文地址:https://cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf开源地址:https://github.com/openai/preparednessPaperBench 是一个由 OpenAI 开发的基准测试,旨在评估 AI Agent 复现尖端 AI 研究的能 力。它专注于测试 AI 是否能理 ......
CVPR最佳论文被生成式AI占领,清华武大华南农大上科校友获奖
梦晨 西风 发自 凹非寺 量子位 | 公众号 QbitAI CVPR 2024最佳论文奖新鲜出炉,生成式AI成最大赢家! 一篇是Rich Human Feedback for Text-to-Image Generation,受大模型中的RLHF技术启发,团队用人类反馈来改进Stable Diffusion等文生图模型。 这项研究来...
当AI入侵大学论文
从今年春天开始,很多高校教师发现,AI已经悄然渗透进高校学生学业的核心考察环节。 越来越多的学生,开始借助AI完成自己的课程论文、毕业论文。AI「统一」了一部分人的写作风格,大话、套话、车轱辘话占据文章越来越多的部分。很多学校开始检测论文的AI率,...
谷歌论文提前揭示o1模型原理:AI大模型竞争或转向硬件
OpenAI最强模型o1的护城河已经没有了? 仅在OpenAI发布最新推理模型o1几日之后,海外社交平台Reddit上有网友发帖称谷歌Deepmind在8月发表的一篇论文内容与o1模型原理几乎一致,OpenAI的护城河不复存在。 澎湃科技(www.thepaper.cn)注意到,谷歌DeepMind团队...
苹果一篇论文得罪大模型圈?Transformer不会推理,所有LLM都被判死刑
划重点 01苹果研究者发现无论是OpenAI GPT-4o和o1,还是Llama、Phi、Gemma和Mistral等开源模型,均未被发现任何形式推理的证据,而更像是复杂的模式匹配器。 02为此,苹果研究者开发了一个名为GSM-Symbolic的数据集,用于客观评价LLM的数学能力极限。 03实验...
Nature论文成果:研究人员发现AI模型越大,可靠性下降越多
划重点01西班牙瓦伦西亚理工大学团队在Nature发表论文,指出随着大模型规模的扩大和可指导性增强,其可靠性反而下降。02研究发现,大模型在人类认为超高难度的任务中表现良好,但在同一领域超低难度的任务中仍可能失败。03另一方面,新模型在复杂任务上的表现优于简单任 ......
调研180多篇论文,这篇综述终于把大模型做算法设计理清了
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyun ......