Saya penasaran dengan informasi apa yang "lupa" LLM selama RL baru-baru ini saya menghabiskan waktu menyisir penelitian untuk contoh hal-hal yang menjadi lebih buruk model setelah RL Ternyata belajar bernalar membuat model lebih baik dalam hampir semua hal. Realisasi menakutkan tbh