Tôi đã tò mò về những thông tin mà LLMs "quên" trong quá trình RL. Gần đây, tôi đã dành thời gian để tìm kiếm nghiên cứu về những ví dụ mà các mô hình trở nên kém hơn sau RL. Hóa ra, việc học cách lập luận giúp các mô hình cải thiện ở hầu hết mọi thứ. Thực sự là một nhận thức đáng sợ.