Цікаво спостерігати, як Bytedance працює над вирішенням проблеми 0-градієнта. Їхня ідея полягає в тому, щоб вирішити цю проблему за допомогою адаптивного бюджету обчислень; Ми підходимо до цього з точки зору винагороди. Навчання GRPO зазвичай використовує невеликі, ретельно підібрані набори даних, дані повинні бути дійсно жорсткими, щоб надати багаті навчальні сигнали та забезпечити можливість виявлення. Тренування на простіших даних лише загострить те, що модель вже бачила в SFT/pre-training!
🚀 Excited to share our work at Bytedance Seed!
Knapsack RL: Unlocking Exploration of LLMs via Budget Allocation 🎒
Exploration in LLM training is crucial but expensive.
Uniform rollout allocation is wasteful:
✅ Easy tasks → always solved → 0 gradient
❌ Hard tasks → always fail → 0 gradient
💡 Our idea: treat exploration as a knapsack problem → allocate rollouts where they matter most.
✨ Results:
🔼 +20–40% more non-zero gradients
🧮 Up to 93 rollouts for hard tasks (w/o extra compute)
📈 +2–4 avg points, +9 peak gains on math benchmarks
💰 ~2× cheaper than uniform allocation
📄 Paper:
🚀Ви коли-небудь замислювалися, як змусити RL працювати над неможливими важкими завданнями, де pass@k = 0%? 🤔
У нашій новій роботі ми ділимося рецептом RL Grokking: тренувальним рецептом, який дозволяє LLM вирішувати раніше нерозв'язні проблеми кодування! Наступного тижня я буду в #CoLM2025, тому радий поговорити про це!
Ми також занурюємося в гарячу дискусію: чи РЛ просто відточує раніше вивчені навички, чи може розблокувати справді нові міркування? 🔥🔥
Повний текст блогу читайте тут:
#AI #RL #NLP #reinforcementlearning #llm