Am fost curios ce informații "uită" LLM-urile în timpul RL recent am petrecut timp cercetând exemple de lucruri la care modelele se înrăutățesc după RL Se pare că învățarea de a raționa face modelele mai bune la aproape orice. Realizare înfricoșătoare TBH