Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
📢 Bisakah LLM benar-benar bernalar di luar kotak dalam matematika? Atau apakah mereka hanya mencampur ulang strategi yang sudah dikenal?
Ingat DeepSeek R1, o1 telah mengesankan kami dalam matematika tingkat Olimpiade tetapi juga mereka gagal dalam aritmatika 😬 sederhana
Kami membangun tolok ukur untuk mengetahui → OMEGA Ω 📐
💥 Kami menemukan bahwa meskipun sangat kuat, RL berjuang untuk menyusun keterampilan dan berinovasi strategi baru yang tidak terlihat selama pelatihan. 👇
Bekerja dengan @UCBerkeley @allen_ai
Utas tentang apa yang kami pelajari 🧵

🤯 Kami memperhatikan bahwa banyak kegagalan bukan berasal dari kurangnya pengetahuan tetapi karena terlalu banyak berpikir. Model sering menemukan jawaban yang tepat di awal CoT, tetapi berputar ke koreksi diri dan meninggalkan solusi yang benar. Ini menantang asumsi:
Lebih banyak CoT ≠ hasil yang lebih baik
Terkadang mekanisme koreksi diri model secara tidak sengaja dapat menjadi bumerang

🔁 Bisakah RL secara efektif menggeneralisasi dari masalah yang mudah menjadi masalah? Kami menemukan keuntungan awal yang kuat, tetapi generalisasi dataran tinggi dengan kompleksitas tugas
Pelatihan pada level 1–4 memberikan dorongan yang solid pada masalah dalam domain, misalnya pada level 1 (📈 0,45 → 0,80 setelah RL).
TETAPI ketika kita meningkatkan kesulitan
📉 kinerja turun pada keluarga masalah yang sama.
⚠️ Ada batasan seberapa jauh strategi yang dipelajari dapat meregang

🧠 Generalisasi transformatif?
Masih di luar jangkauan. ketika keberhasilan bergantung pada penemuan strategi solusi baru (misalnya, simetri cerdas alih-alih brute force), model secara konsisten gagal bahkan setelah RL.
RL secara substansial dapat meningkatkan kinerja pada tugas yang mengikuti pola yang sudah dikenal yang diamati selama pelatihan, ia berjuang ketika keberhasilan bergantung pada wawasan kreatif atau strategi penalaran yang tidak secara eksplisit ditunjukkan dalam data.

170,12K
Teratas
Peringkat
Favorit