ik ben nieuwsgierig geweest naar welke informatie LLM's "vergeten" tijdens RL recentelijk heb ik tijd besteed aan het doorzoeken van onderzoek naar voorbeelden van dingen waar modellen slechter in worden na RL het blijkt dat leren redeneren modellen beter maakt in vrijwel alles. best een beangstigende realisatie, om eerlijk te zijn.