Uusi blogikirjoitus! Tämä on puhtaasti teoreettinen ja yrittää tunnistaa keskeisen syyn siihen, miksi LLM:t kärsivät RL:n moodiromahtamisesta eivätkä pysty tuottamaan uusia tai todella erilaisia tuloksia. Se on itse asiassa paljon monimutkaisempi ongelma kuin luuletkaan! Naiivisti etsintään kannustaminen korkeammilla lämpötiloilla, tuotoksen entropian säätelyllä, pass@k mittareilla jne. ei riitä välttämään pullonkaulojen etsintää RL:n aikana. Artikkelissa ehdotetaan uutta teoriaa siitä, miksi näin on ja miten se ratkaistaan, nimittäin käyttämällä hajautettua vahvistusoppimista mallien "ekosysteemin" luomiseen yhden keskitetyn instanssin sijaan.