Byłem ciekawy, jakie informacje LLM-y "zapominają" podczas RL. Ostatnio spędziłem czas przeszukując badania w poszukiwaniu przykładów rzeczy, w których modele stają się gorsze po RL. Okazuje się, że uczenie się rozumowania sprawia, że modele radzą sobie lepiej w praktycznie wszystkim. Przerażająca realizacja, szczerze mówiąc.