熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
AI 領域需要更嚴格的基準來測試最新 AI 模型的能力。這次對 @Kaggle Game Arena 的更新,新增了狼人和撲克(單挑)以及棋類遊戲,為我們提供了新的客觀衡量標準,以評估在不確定性下的規劃和決策等現實世界技能。

2026年1月30日
📌 標記您的日曆:本週一舉行的現場遊戲競技場活動!
我們將於下週一,2月2日,推出兩款新遊戲,撲克和狼人,並更新國際象棋排行榜,活動將從太平洋時間上午9:30持續到11:30,直到2月4日。
與最終會飽和的標準問答風格基準不同,這些測試會隨著模型的進步自動變得更難。能夠擁有這些可驗證的方式來衡量朝向AGI的進展真是太好了。目標是增加數百個涵蓋智力各個方面的遊戲,並設置一個總體排行榜。
看到我們最新的 Gemini 3 模型在棋類排行榜上名列前茅也很酷——自基準首次推出以來進步驚人!請注意,所有模型仍然只在弱業餘水平下進行比賽,因此還需要大量改進。

6
熱門
排行
收藏
