文章来源:放心AI网发布时间:2025-04-02 16:29:47
近日,Arc Prize基金会推出了一项新测试——ARC-AGI-2,该测试旨在评估人工智能(AI)模型的通用智能水平。该基金会由AI研究领域的知名人士François Chollet共同创立。据基金会官方博客透露,这项新测试对众多领先的AI模型构成了严峻挑战。
根据Arc Prize排行榜显示,包括OpenAI的o1-pro和DeepSeek的R1等“推理型”AI模型在ARC-AGI-2测试中的得分仅在1%至1.3%之间。而更为强大的非推理模型,如GPT-4.5、Claude3.7Sonnet和Gemini2.0Flash,其得分也大致在1%左右。ARC-AGI测试包含了一系列拼图问题,要求AI从不同颜色的方块中识别视觉模式,并生成正确的“答案”网格。这些问题的设计初衷是迫使AI适应前所未有的新情境。
为了确立人类基准,Arc Prize基金会邀请了400余人参与ARC-AGI-2测试。这些参与者的平均得分为60%,显著超越了任何AI模型的得分。Chollet在社交媒体上表示,相较于前一个版本ARC-AGI-1,ARC-AGI-2更能有效地衡量AI模型的实际智能水平。新测试旨在评估AI系统是否能高效掌握超出其训练数据范围的新技能。
与ARC-AGI-1相比,ARC-AGI-2在设计上进行了多方面的改进,尤其是引入了“效率”这一新评估指标,并要求模型在不依赖记忆的情况下即时解析模式。正如Arc Prize基金会的共同创始人Greg Kamradt所言,智力不仅体现在解决问题的能力上,效率同样至关重要。
值得注意的是,在ARC-AGI-1测试中表现卓越的OpenAI的o3模型,曾以75.7%的得分独占鳌头,直至2024年才被其他模型超越。然而,在ARC-AGI-2测试中,o3的得分骤降至4%,且每个任务的计算成本高达200美元。ARC-AGI-2的发布正值技术界对新的AI进展衡量标准的需求日益迫切之际。Hugging Face的联合创始人Thomas Wolf曾指出,AI行业缺乏足够的测试来衡量人工通用智能的关键特征,包括创造力。
同时,Arc Prize基金会还宣布了2025年的Arc Prize竞赛。该竞赛将挑战开发者在ARC-AGI-2测试中实现85%的准确率,且每个任务的成本需控制在0.42美元以内。
划重点:
上一篇: 新AI测试ARC-AGI-2难倒顶级智能模型
近日,Arc Prize基金会推出了一项新测试——ARC-AGI-2,该测试旨在评估人工智能(AI)模型的通用智能水平。该基金会由AI研究领域的知名人士François Chollet共同创立。据基金会博客介绍,这项新测试对众多领先的AI
下一篇: 阿里Qwen2.5-VL-32B模型发布:视觉语言与数学推理双全能
在人工智能领域,阿里巴巴近日公布了一则引人瞩目的消息:他们开源了最新的多模态模型——Qwen2 5-VL-32B-Instruct。作为Qwen2 5系列的新成员,这款32B版本的模型在维持高性能的同时,还优化了本地运行体验,与其他
相关攻略 更多
最新资讯 更多
调查:超72%的企业选择AI工具时最看重易用性
更新时间:2025-04-11
ZoomAI助手AICompanion功能升级,可识别并自动完成任务
更新时间:2025-04-11
DeepMindCEO预测:五至十年内有望实现AGI
更新时间:2025-04-11
《鱿鱼游戏》明星代言!Perplexity发布新广告,幽默反击GoogleAI失误
更新时间:2025-04-11
阿里QwQ-32B大模型成功上线国家超算互联网平台,助力Chatbot服务
更新时间:2025-04-11
摩尔线程重磅开源两大AI框架,国产GPU训练效率突破90%
更新时间:2025-04-11
"躺赚"背后是陷阱:抖音副总裁警告勿信"AI无人直播"宣传
更新时间:2025-04-11
金山办公申请青丘大模型商标,布局科学仪器与网站服务领域
更新时间:2025-04-11
马斯克xAI收购视频生成初创公司Hotshot,AI视频领域竞争再升级
更新时间:2025-04-11
Anthropic发布MCP传输机制重大升级:告别长连接,迎接更灵活的"StreamableHTTP"
更新时间:2025-04-11