he estado curioso sobre qué información "olvidan" los LLM durante el RL recientemente pasé tiempo revisando investigaciones en busca de ejemplos de cosas en las que los modelos empeoran después del RL resulta que aprender a razonar hace que los modelos sean mejores en prácticamente todo. es una realización aterradora, la verdad.