Menarik untuk melihat Bytedance bekerja untuk memecahkan masalah gradien 0. Ide mereka adalah untuk mengatasinya melalui anggaran komputasi adaptif; Kami mendekatinya dari perspektif penghargaan. Pelatihan GRPO biasanya menggunakan kumpulan data kecil yang dikuratori dengan hati-hati, data harus sangat sulit untuk memberikan sinyal pembelajaran yang kaya dan memungkinkan penemuan. Pelatihan pada data yang lebih mudah hanya akan mempertajam apa yang telah dilihat model di SFT/pra-pelatihan!
🚀 Senang berbagi karya kami di Bytedance Seed!
Knapsack RL: Membuka Eksplorasi LLM melalui Alokasi 🎒 Anggaran
Eksplorasi dalam pelatihan LLM sangat penting tetapi mahal.
Alokasi peluncuran yang seragam boros:
✅ Tugas mudah → selalu diselesaikan → gradien 0
❌ Tugas sulit → selalu gagal → gradien 0
💡 Ide kami: memperlakukan eksplorasi sebagai masalah ransel → mengalokasikan peluncuran di tempat yang paling penting.
✨ Hasil:
🔼 +20–40% lebih banyak gradien bukan nol
🧮 Hingga 93 peluncuran untuk tugas sulit (tanpa komputasi tambahan)
📈 +2–4 poin rata-rata, +9 kenaikan puncak pada tolok ukur matematika
💰 ~2× lebih murah daripada alokasi seragam
📄 Kertas:
🚀Pernah bertanya-tanya bagaimana cara membuat RL bekerja pada tugas sulit yang mustahil di mana pass@k = 0%? 🤔
Dalam karya baru kami, kami membagikan Resep Grokking RL: resep pelatihan yang memungkinkan LLM memecahkan masalah pengkodean yang sebelumnya tidak dapat dipecahkan! Saya akan berada di #CoLM2025 minggu depan jadi senang untuk mengobrol tentang itu!
Kami juga menyelami perdebatan sengit: apakah RL hanya mempertajam keterampilan yang dipelajari sebelumnya atau dapatkah itu membuka penalaran yang benar-benar baru? 🔥🔥
Baca blog lengkapnya di sini:
#AI #RL #NLP #reinforcementlearning #llm