Nova postagem no blog! Este é puramente teórico, tentando identificar a razão central pela qual os LLMs sofrem de colapso de modo em RL e não conseguem gerar resultados novos ou verdadeiramente diversos. Na verdade, é um problema muito mais complicado do que você pensa! Ingenuamente, encorajar a exploração por temperaturas mais altas, regulação de entropia de saída, métricas de pass@k, etc., não é suficiente para evitar gargalos na exploração durante o RL. O artigo propõe uma nova teoria sobre por que esse é o caso e como resolvê-lo, ou seja, usando o aprendizado por reforço descentralizado para criar um "ecossistema" de modelos em vez de simplesmente uma instância centralizada.