Мне было интересно, какую информацию LLM забывают во время RL. Недавно я потратил время на изучение исследований, чтобы найти примеры того, как модели становятся хуже после RL. Оказалось, что обучение рассуждению делает модели лучше практически во всем. Честно говоря, это пугающее осознание.