全球顶级模型集体0分，AI终极大考人类5分钟秒杀！Keras之父戳破AGI神话

行业资讯· 2025-03-25 13:19:37

【新智元导读】AI界「智商大考」ARC-AGI-2重磅出炉了！一个人类用5分钟轻松解开的谜题，却让最顶尖LLM全线崩盘得分挂零，o3更是从曾经76%暴跌至4%。它正式宣告，人类还未实现AGI。

时隔6年，ARC-AGI-2正式推出！

一大早，Keras之父François Chollet官宣了全新迭代后的ARC-AGI-2，再次拉高了AI「大考」的难度。

这些对人类再简单不过的题目，LLM最先败北，先上结果：

基础大模型（GPT-4.5、Claude 3.7 Sonnet、Gemini 2 ），全部得0分。

CoT推理模型（Claude Thinking、R1、o3-mini），得分也不过4%。

相较之下，2024年ARC Prize冠军模型（53.5%）却在新版本考试中，成绩仅剩3.5%。

OpenAI的o3-low模型也从75.7%骤降至4%。而且，每项任务成本效率也是o3-low和o1-pro最高，达到200美金。

相反，在ARC-AGI-2里的每个任务，都至少有两名人类能在两次尝试内成功解决。

ARC-AGI-2的出世，证明了「人类尚未实现AGI」！

现场400人实测，普通人无训练能拿下60%准确率，10人小组能达到100%

初代ARC-AGI（2019年），曾在去年揭示了AI重大转变，LLM从「纯记忆」向「测试时推理」的进化。

许多之前一眼就看透的问题，在ARC-AGI-2中，至少需要几分钟的深思熟虑——人类测试者平均需要5分钟才能解题。

最新ARC-AGI-2，恰恰暴露了当前AI三大短板：符号解释、组合推理、上下文规则应用。

这些皆需要LLM在测试时，展现真正的适应能力，具备灵活应对新问题的「流体智力」，而不是靠预训练数据「硬背」过关。

值得一提的是，2025年ARC奖本周将在Kaggle平台上线，总奖金高达100万美元。

今年的竞赛在去年基础上再加码，计算资源翻倍，旨在推动开源项目发展，助力打造能战胜ARC-AGI-2的系统。

AI「大考」难度进阶，AGI梦碎？

其他AI基准测试，基本都聚焦于测试「博士以上水平」的技能，来考察超越人类的能力或专业知识。

但ARC-AGI关注的是对人类相对容易，对AI却困难重重的任务。

这样一来，就能精准定位那些不会因为规模扩大就自动消失的能力差距。

文章链接: http://huangxinwei.com/aizixun/7892.html Chat AI人工智能机器人在线使用

[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑，如存在版权问题请发送邮件至398879136@qq.com，我们会在3个工作日内处理。非原创标注的文章，观点仅代表作者本人，不代表炎黄立场。

下一篇日均入账21亿！比亚迪交出最强年报，全年研发投入超500亿

炎黄AI写作网