外国高三学生创建AI评测网站:让AI在《我的世界》里“一决高下”

发布时间:2025-03-23 12:42:17 来源:互联网

3 月 22 日消息,由于传统 AI 基准测试方法难以全面评估模型能力,AI 开发者正尝试更具创意的测试方式,其中一种测试手段,则是微软沙盒建造游戏《我的世界》。

据外媒 TechCrunch 报道,名为阿迪・辛格(Adi Singh)的高三学生创建了专门为 AI 评测而开发的网站 Minecraft Benchmark(简称 MC-Bench),让 AI 模型在《我的世界》中同台竞技,基于相同的提示生成建筑作品。用户可以为自己认为更出色的作品投票,而投票结束后才会显示具体是哪款 AI 生成了哪些作品。

其认为选择《我的世界》的意义并不在于游戏本身,而在于它的知名度。即便没玩过这款游戏,人们依然能分辨哪个方块状的菠萝更逼真。“《我的世界》能让 AI 发展的进步更加直观,大家对《我的世界》的风格和视觉效果都很熟悉。”

目前,MC-Bench 的志愿贡献者共有 8 人。从 MC-Bench 网站的信息获悉,Anthropic、谷歌、OpenAI 和阿里巴巴为该项目提供了 AI 计算资源支持,但并未直接参与开发。

“目前,我们的测试仍然较为基础,主要用于观察 AI 从 GPT-3 时代至今的进步。但未来,我们或许会拓展到更复杂的目标导向任务和长期规划能力评估,游戏或许是测试 AI 智能体推理能力的一种理想方式 —— 相比现实世界,它更安全,也更可控。”

严格来说,MC-Bench 仍属于编程基准测试,因为 AI 需要编写代码来生成建筑,例如“霜雪人”或“热带风情的海滨小屋”。

相较于分析代码,大多数用户更容易通过作品本身来评判 AI 的表现。至于这些测试结果是否能真正衡量 AI 的实际应用价值,仍有待商榷。但辛格认为,这些数据仍然具备重要参考意义。“MC-Bench 当前的排行榜与我的实际使用体验高度吻合,而这在许多传统文本基准测试中并不常见。或许,它能帮助 AI 开发者判断自己是否走在正确的方向上。”

本周热门攻略

1
400多个成品视频模板如何满足不同平台需求并提高创作效率?

400多个成品视频模板如何满足不同平台需求并提高创作效率?

2025/01/02

2
《师徒1v2金银花笔趣阁林妙妙》究竟有哪些深刻的情感与成长主题?

《师徒1v2金银花笔趣阁林妙妙》究竟有哪些深刻的情感与成长主题?

2024/11/19

3
如何高效使用“我爱搞g52.ppt网页版链接”:提升你的PPT制作与分享效率

如何高效使用“我爱搞g52.ppt网页版链接”:提升你的PPT制作与分享效率

2025/01/14

4
如何通过51cg.fun192.168.1.1访问路由器管理界面并优化网络设置?

如何通过51cg.fun192.168.1.1访问路由器管理界面并优化网络设置?

2024/12/12

5
如何选择国产或欧美大尺寸SUV?比较价格、性能与未来趋势:2025年市场新动态

如何选择国产或欧美大尺寸SUV?比较价格、性能与未来趋势:2025年市场新动态

2025/01/26

6
如何避免H多p太深导致的不适?出现拔出来痛怎么办?

如何避免H多p太深导致的不适?出现拔出来痛怎么办?

2025/01/26

7
"四影虎影ww4hu48cmo"究竟代表什么?它与网络文化和技术有何关系?

"四影虎影ww4hu48cmo"究竟代表什么?它与网络文化和技术有何关系?

2024/12/02

8
亚洲VA究竟为何成为如此热门的网络话题?

亚洲VA究竟为何成为如此热门的网络话题?

2025/01/08

9
歪 歪漫画官方入口页面免费阅读-歪 歪漫画官方入口页面登录界面

歪 歪漫画官方入口页面免费阅读-歪 歪漫画官方入口页面登录界面

2024/11/19

10
《老人船上弄雨荷1至5节》:如何通过自然景象展现人生的深刻感悟与内心的平静?

《老人船上弄雨荷1至5节》:如何通过自然景象展现人生的深刻感悟与内心的平静?

2024/11/24