estive curioso sobre que informações os LLMs "esquecem" durante o RL recentemente passei um tempo analisando pesquisas em busca de exemplos de coisas em que os modelos pioram após o RL acontece que aprender a raciocinar torna os modelos melhores em praticamente tudo. uma realização assustadora, para ser sincero.