Nowy post na blogu! Ten jest czysto teoretyczny i próbuje zidentyfikować główny powód, dla którego LLM-y cierpią na zjawisko kolapsu trybów w RL i nie są w stanie generować nowatorskich lub naprawdę zróżnicowanych wyników. To w rzeczywistości znacznie bardziej skomplikowany problem, niż myślisz! Naivna zachęta do eksploracji poprzez wyższe temperatury, regulację entropii wyjścia, metryki pass@k itp. nie jest wystarczająca, aby uniknąć wąskich gardeł w eksploracji podczas RL. Artykuł proponuje nową teorię, dlaczego tak się dzieje i jak to rozwiązać, mianowicie poprzez wykorzystanie zdecentralizowanego uczenia przez wzmocnienie do stworzenia "ekosystemu" modeli, a nie tylko jednej scentralizowanej instancji.