He tenido curiosidad por saber qué información "olvidan" los LLM durante RL recientemente pasé tiempo revisando la investigación en busca de ejemplos de cosas en las que los modelos empeoran después de RL resulta que aprender a razonar hace que los modelos sean mejores en casi todo. aterradora realización para ser honesto