Jeg har vært nysgjerrig på hvilken informasjon LLM-er "glemmer" under RL nylig brukte jeg tid på å finkjemme forskning for eksempler på ting modeller blir verre på etter RL Det viser seg at det å lære å resonnere gjør modeller bedre på stort sett alt. Skremmende erkjennelse tbh