Nieuwe blogpost! Deze is puur theoretisch en probeert de centrale reden te identificeren waarom LLM's lijden aan mode-verdwazing in RL en niet in staat zijn om nieuwe of echt diverse outputs te genereren. Het is eigenlijk een veel gecompliceerder probleem dan je denkt! Naïef aanmoedigen van verkenning door hogere temperaturen, output entropie regulatie, pass@k metrics, enz. is niet voldoende om bottlenecking van verkenning tijdens RL te vermijden. Het artikel stelt een nieuwe theorie voor over waarom dit het geval is en hoe het op te lossen, namelijk door gedecentraliseerd reinforcement learning te gebruiken om een "ecosysteem" van modellen te creëren in plaats van simpelweg één gecentraliseerde instantie.