Мені було цікаво, яку інформацію «забувають» ЛЛМ під час РЛ Нещодавно я провів час, прочісуючи дослідження в пошуках прикладів речей, у яких моделі погіршуються після RL Виявляється, що навчання міркуванню робить моделей кращими практично у всьому. Страшне усвідомлення TBH