Ich habe mich gefragt, welche Informationen LLMs während des RL "vergessen". Kürzlich habe ich Zeit damit verbracht, Forschung nach Beispielen zu durchsuchen, bei denen Modelle nach RL schlechter werden. Es stellt sich heraus, dass das Lernen zu schlussfolgern Modelle in fast allem besser macht. Ehrlich gesagt eine beängstigende Erkenntnis.