文章来源:放心AI网发布时间:2025-04-10 13:49:52
一位12年级的学生创建了一个革新性的平台,使得人们可以评估不同的AI模型在Minecraft创作任务中的表现,这一举措为人工智能的性能评测注入了新的视角。
随着传统的AI基准测试方法的局限性愈发显现,开发者们开始探寻更富创新性的评估路径。对一部分开发者来说,微软的沙盒建造游戏Minecraft成为了一个理想的选择。
高中生Adi Singh与他的团队共同开发的Minecraft Benchmark(简称MC-Bench)网站,让AI模型能够在面对面的挑战中展开竞争,通过Minecraft的创作来回应各类提示。用户可以通过投票选出表现更出色的模型,在投票后才能揭晓每个作品背后的AI创作者。
Singh指出,选择Minecraft作为测试平台,主要是因为其广泛的知名度——作为有史以来最热销的电子游戏之一,即便是对从未玩过的人而言,也能轻易地判断出哪个方块堆砌的菠萝更加出色。
“Minecraft让人们能更直观地看到AI开发的进展,”Singh对TechCrunch表示,“人们已经习惯了Minecraft的视觉风格和游戏氛围。”
MC-Bench目前吸引了8名志愿者参与其中。根据官网信息,Anthropic、Google、OpenAI以及阿里巴巴等公司均已为该项目提供资助,允许使用它们的产品来运行基准测试,但这些公司与项目并无其他直接联系。
Singh分享了他对这个项目的未来期望:“目前,我们只关注简单的构建任务,并反思相较于GPT-3时代我们所取得的进步。然而,我们计划将测试范围扩展至长期规划和目标导向的任务。游戏或许只是测试代理推理能力的一个媒介,它相较于现实生活更为安全,且在测试控制方面更为简便,在我看来,这是一个更为理想的选择。”
除了Minecraft之外,《精灵宝可梦红》、《街头霸王》以及《你画我猜》等游戏也被用作AI实验的基准,部分原因在于AI基准测试本身所具有的高挑战性。
研究人员通常会在标准化的评估中测试AI模型,但这些测试往往让AI占据主场优势。由于训练方式的特点,模型在某些类型的问题上表现出天生的优势,特别是那些涉及记忆或基本推理的任务。
这种矛盾在多个案例中均有所体现:OpenAI的GPT-4能在LSAT考试中取得88%的成绩,却无法准确地数出“strawberry”一词中包含多少个“R”;而Anthropic的Claude3.7Sonnet在标准化的软件工程基准测试中准确率达到了62.3%,但在玩Pokémon游戏方面的表现却不如大多数五岁的儿童。
从技术视角来看,MC-Bench相当于一个编程基准,它要求模型编写代码来创建特定的构建,例如“雪人弗罗斯蒂”或“原始沙滩上的迷人热带海滩小屋”。然而,对大多数用户而言,评估雪人的外观远比深入分析代码来得更为直观,这使得该项目能够吸引更广泛的群体参与,并有望收集到更多关于模型性能的数据。
尽管这些分数对于AI实用性的影响仍有待进一步探讨,但Singh坚信这是一个积极的信号:“目前的排行榜与我个人使用这些模型的经验高度吻合,这与许多纯文本基准测试形成鲜明对比。或许MC-Bench能够帮助企业了解他们是否正朝着正确的方向前进。”
上一篇: Claude推出实时网络搜索,引用来源可靠便捷
Anthropic公司正在为其AI助手Claude增添网络搜索功能,旨在为用户提供更及时的信息。与常规的搜索引擎相比,Claude的独特之处在于它能将在线搜索结果转化为对话形式的回应,并且会准确地标注出信息的来源,这一点
下一篇: SiderAI新DeepResearch功能:模拟人类研究并生成交互式报告
人工智能助手平台Sider AI最近推出了全新的Deep Research功能。这一创新性的工具,凭借其独特的研究方式和出色的可视化能力,迅速在X平台上引起了热烈讨论。与市面上的同类产品相比,Sider AI的Deep Research功能
相关攻略 更多
最新资讯 更多
AI语音独角兽ElevenLabs完成2.5亿美元C轮融资,估值突破30亿
更新时间:2025-04-29
百川智能推出国内首个全场景深度思考医疗大模型,革新医学推理方式
更新时间:2025-04-29
奥特曼加码长寿科技:RetroBiosciences欲筹10亿美元,挑战人类寿命极限
更新时间:2025-04-29
OpenAI新成立的PBC部门估值达300亿美元,微软投资股份尚未确定
更新时间:2025-04-29
扎克伯格表示,2025年底Meta将拥有130万个用于AI的GPU
更新时间:2025-04-29
德勤:企业在推行生成式AI项目上面临规模化挑战
更新时间:2025-04-29
AI基础设施争夺战愈演愈烈:OpenAI与微软的微妙关系
更新时间:2025-04-29
聊天机器人平台CharacterAI以第一修正案为由申请驳回与青少年自杀案的诉讼
更新时间:2025-04-29
Deezer日均上传超万首AI音乐,平台开始检测与标记
更新时间:2025-04-29
AI创业公司GameOn创始人与律师妻子被控6000万美元投资诈骗
更新时间:2025-04-29