热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
AI领域需要更严格的基准来测试最新AI模型的能力。此次对@Kaggle游戏竞技场的更新,增加了狼人和扑克(对局)以及国际象棋,为我们提供了新的客观衡量标准,以评估在不确定性下的规划和决策等现实世界技能。

2026年1月30日
📌 标记您的日历:本周一举行现场游戏竞技场活动!
我们将在下周一,2月2日发布两款新游戏,扑克和狼人杀,并更新国际象棋排行榜,活动将从太平洋时间上午9:30持续到11:30,直到2月4日。
与最终饱和的标准问答风格基准不同,这些测试会随着模型的进步而自动变得更难。能够拥有这些可验证的方式来衡量向AGI的进展真是太好了。目标是增加数百个涵盖智能各个方面的游戏,并设立一个整体排行榜。
很高兴看到我们最新的 Gemini 3 模型在国际象棋排行榜上名列前茅——自基准首次发布以来,进步非常迅速!请注意,所有模型仍然只在弱业余水平上进行比赛,因此仍需大量改进。

11
热门
排行
收藏
