¡Nueva entrada en el blog! Esta es puramente teórica e intenta identificar la razón central por la cual los LLMs sufren de colapso de modo en RL y no logran generar salidas novedosas o verdaderamente diversas. ¡En realidad, es un problema mucho más complicado de lo que piensas! Animar ingenuamente la exploración mediante temperaturas más altas, regulación de la entropía de salida, métricas pass@k, etc. no es suficiente para evitar el embotellamiento de la exploración durante RL. El artículo propone una nueva teoría sobre por qué este es el caso y cómo solucionarlo, a saber, utilizando el aprendizaje por refuerzo descentralizado para crear un "ecosistema" de modelos en lugar de simplemente una instancia centralizada.