Estou curioso sobre quais informações os LLMs "esquecem" durante o RL recentemente passei um tempo vasculhando pesquisas em busca de exemplos de coisas que os modelos pioram depois do RL Acontece que aprender a raciocinar torna os modelos melhores em praticamente tudo. realização assustadora, para ser honesto