Nouveau billet de blog ! Celui-ci est purement théorique et tente d'identifier la raison centrale pour laquelle les LLM souffrent de l'effondrement de mode en RL et échouent à générer des sorties nouvelles ou véritablement diverses. C'est en réalité un problème beaucoup plus compliqué que vous ne le pensez ! Encourager naïvement l'exploration par des températures plus élevées, la régulation de l'entropie de sortie, les métriques pass@k, etc. n'est pas suffisant pour éviter de bloquer l'exploration pendant le RL. L'article propose une nouvelle théorie sur pourquoi c'est le cas et comment le résoudre, à savoir en utilisant l'apprentissage par renforcement décentralisé pour créer un "écosystème" de modèles plutôt qu'une simple instance centralisée.