共 93 篇文章

标签：模型

OpenAI o3模型基准测试成绩遭质疑，实测表现远低于预期

IT之家 4 月 21 日消息，OpenAI 的 o3 人工智能模型的第一方与第三方基准测试结果存在显著差异，引发了外界对其公司透明度和模型测试实践的质疑。去年 12 月，OpenAI 首次发布 o3 模型时宣称，该模型能够在 FrontierMath 这一极具挑战性的数学问题集上正确回答超过四分 ......

OpenAI GPT-4.1缺乏安全报告，AI安全透明度引发关注

IT之家 4 月 16 日消息，本周一，OpenAI 推出了新的 AI 模型 GPT-4.1 系列。该公司表示，该模型在某些测试中，尤其是编程基准测试方面，表现优于其现有的一些模型。然而，与 OpenAI 以往的模型发布不同，GPT-4.1 并未附带通常伴随模型发布而公布的安全报告（即系统卡） ......

EAGLE-3实现大模型推理6.5倍无损加速，持续突破Scaling Law性能

自回归解码已然成为大语言模型的推理标准。大语言模型每次前向计算需要访问它全部的参数，但只能得到一个 token，导致其生成昂贵且缓慢。近日，EAGLE 团队的新作《EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test》通过一 ......

阿里云刘伟光：新一代大模型聚焦两大技术升级方向

AI时代，伴随大模型极速迭代，推理效率突破，工具链生态愈发繁荣，一切都在以前所未有的速度进化。4月9日，在2025阿里云AI势能大会上，阿里云智能集团资深副总裁、公共云事业部总裁刘伟光表示，2025年AI应用爆发没有最快，只有更快，应该推动基础模型、推理服务、开发工 ......

麻省理工最新研究：AI价值观不稳定，对齐难题超出预期

IT之家 4 月 10 日消息，几个月前，一项研究暗示随着人工智能（AI）越来越复杂，其会发展出“价值体系”，例如优先考虑自身福祉而非人类福祉。然而，麻省理工学院（MIT）最近发表的一篇论文却给这种夸张的观点泼了冷水，得出结论认为 AI 实际上并没有任何连贯的价值观。 ......

三大LLM合力抗衡OpenAI：凭借2亿条性能数据，多模型路由实现逆袭

新智元报道编辑：LRST 好困【新智元导读】路由LLM是指一种通过router动态分配请求到若干候选LLM的机制。论文提出且开源了针对router设计的全面RouterEval基准，通过整合8500+个LLM在12个主流Benchmark上的2亿条性能记录。将大模型路由问题转化为标准的分类任务，使研究 ......

谷歌研究发现：合成数据助力大模型数学推理能力提升八倍

IT之家 4 月 7 日消息，最近，来自谷歌、卡内基梅隆大学和 MultiOn 的联合研究团队发表了一项关于合成数据在大型模型训练中应用的新研究。据专注于人工智能发展的研究机构 Epoch AI 报告显示，目前全球约有 300 万亿个公开可用的高质量文本训练标记。然而，随着类似 Cha ......

研究表明GPT-4.5大型模型成功通过图灵测试

【研究称GPT-4.5大模型通过图灵测试】《科创板日报》3日讯，美国加州大学圣地亚哥分校发布了一项研究成果，宣称首次提供了“人工智能系统能够通过标准三方图灵测试的实证证据”。研究选择了四种 AI 系统：GPT-4.5、LLaMa-3.1-405B、GPT-4o 和 ELIZA。实验设计为每轮对话 ......

OpenAI o3 模型运行成本飙升至3万美元

IT之家 4 月 3 日消息，上周，负责维护和管理 ARC-AGI 的 Arc Prize Foundation 对 OpenAI 的 o3 “推理”人工智能模型在 ARC-AGI 基准测试中的成本估算进行了重大修订，现在看起来 o3 的运行成本没有那么低。去年 12 月 OpenAI 推出 o3 模型时，与 ARC-AGI 的开发者合 ......

网友热议Deepseek V3：编程实力媲美顶尖AI，期待更强R2版本！

闷声干大事！DeepSeek悄然发布V3新版本。没有发布会，没有媒体宣传，3月24日晚间，DeepSeek就这样“悄悄地”将其最新版V3-0324模型上传至Hugging Face。根据社区测试和分析，此次更新虽然不是全新一代模型，仅属于“小版本升级”，但其编程能力已达到与Claude 3.7 Sonne ......