Novo post no blog! Este é um post puramente teórico que tenta identificar a razão central pela qual os LLMs sofrem de colapso de modo em RL e falham em gerar saídas novas ou verdadeiramente diversas. Na verdade, é um problema muito mais complicado do que você pensa! Incentivar ingenuamente a exploração por meio de temperaturas mais altas, regulação de entropia de saída, métricas pass@k, etc. não é suficiente para evitar o estrangulamento da exploração durante o RL. O artigo propõe uma nova teoria sobre por que isso acontece e como resolvê-lo, nomeadamente usando aprendizado por reforço descentralizado para criar um "ecossistema" de modelos em vez de simplesmente uma instância centralizada.