Zajímavé je vidět Bytedance pracující na řešení problému 0-gradientu. Jejich představa je řešit to prostřednictvím adaptivního výpočetního rozpočtu; Přistupujeme k tomu z pohledu odměňování. Školení GRPO obvykle používá malé, pečlivě vybrané datové sady, data musí být opravdu těžká, aby poskytovala bohaté učební signály a umožňovala objevování. Trénování na jednodušších datech jen zostřuje to, co model již viděl v SFT/pre-tréninku!
🚀 Excited to share our work at Bytedance Seed!
Knapsack RL: Unlocking Exploration of LLMs via Budget Allocation 🎒
Exploration in LLM training is crucial but expensive.
Uniform rollout allocation is wasteful:
✅ Easy tasks → always solved → 0 gradient
❌ Hard tasks → always fail → 0 gradient
💡 Our idea: treat exploration as a knapsack problem → allocate rollouts where they matter most.
✨ Results:
🔼 +20–40% more non-zero gradients
🧮 Up to 93 rollouts for hard tasks (w/o extra compute)
📈 +2–4 avg points, +9 peak gains on math benchmarks
💰 ~2× cheaper than uniform allocation
📄 Paper:
🚀Přemýšleli jste někdy, jak přimět RL pracovat na nemožných těžkých úkolech, kde pass@k = 0 %? 🤔
V naší nové práci sdílíme RL Grokking Recipe: tréninkový recept, který umožňuje LLM řešit dříve neřešitelné problémy s kódováním! Příští týden budu na #CoLM2025, takže jsem ráda, že si o tom popovídám!
Ponoříme se také do vášnivé debaty: zdokonaluje RL pouze předchozí naučené dovednosti, nebo může odemknout skutečně nové uvažování? 🔥🔥
Celý blog si můžete přečíst zde:
#AI #RL #NLP #reinforcementlearning #llm