一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

多年來，我的團隊和合作者開發了許多流行的基準測試，例如 MMLU、MATH、APPS---對我們最新的基準 OMEGA Ω感到非常興奮： 🔍法學碩士真的可以在數學中跳出框框思考嗎？一個探測 3 個泛化軸的新基準： 1️⃣ 探索性 2️⃣ 構圖 3️⃣ 變革性顯示了當今前沿人工智慧和 RL 訓練在這些泛化維度上的局限性。受到博登創造力類型的啟發，歐米茄通過編程生成的數據集超越了先前的基準，該數據集將精確控制與豐富的多樣性相結合。它跨越廣泛的數學領域，專門設計用於評估不同的概括和創造性推理軸。透過隔離和量化細粒度故障模式，OMEGA 為推動法學碩士實現真正的數學創造力奠定了基礎，超越了機械熟練程度。非常感謝我的博士後@YiyouSun @UCBerkeley領導這個項目，以及出色的合作者@nouhadziri @HannaHajishirzi @allen_ai和其他合著者！