Es interesante ver a Bytedance trabajando en la resolución del problema del gradiente 0. Su idea es abordarlo a través de un presupuesto de cómputo adaptativo; lo abordamos desde una perspectiva de recompensa. El entrenamiento GRPO generalmente utiliza conjuntos de datos pequeños y cuidadosamente seleccionados, los datos deben ser realmente difíciles para proporcionar señales de aprendizaje ricas y permitir el descubrimiento. ¡El entrenamiento con datos más fáciles solo agudizará lo que el modelo ya ha visto en SFT / pre-entrenamiento!
🚀 ¡Emocionado de compartir nuestro trabajo en Bytedance Seed!
Knapsack RL: Desbloqueo de la exploración de LLM a través de la asignación presupuestaria 🎒
La exploración en la capacitación de LLM es crucial pero costosa.
La asignación uniforme de implementación es un desperdicio:
✅ Las tareas fáciles siempre → resuelven → gradiente 0
❌ Las tareas difíciles siempre → fallar → gradiente 0
💡 Nuestra idea: tratar la exploración como un problema de mochila → asignar los despliegues donde más importan.
✨ Resultados:
🔼 +20-40% más pendientes distintas de cero
🧮 Hasta 93 implementaciones para tareas difíciles (sin computación adicional)
📈 +2–4 puntos promedio, +9 ganancias máximas en puntos de referencia matemáticos
💰 ~2× más barato que la asignación uniforme
📄 Papel:
🚀¿Alguna vez te has preguntado cómo hacer que RL funcione en tareas difíciles imposibles donde pass@k = 0%? 🤔
En nuestro nuevo trabajo, compartimos la receta de RL Grokking: ¡una receta de capacitación que permite a los LLM resolver problemas de codificación que antes no se podían resolver! Estaré en #CoLM2025 la próxima semana, ¡así que feliz de charlar sobre eso!
También nos sumergimos en el acalorado debate: ¿RL solo agudiza las habilidades aprendidas previamente o puede desbloquear un razonamiento genuinamente nuevo? 🔥🔥
Lea el blog completo aquí:
#AI #RL #NLP #reinforcementlearning #llm