byl jsem zvědavý, jaké informace LLM "zapomínají" během RL Nedávno jsem strávil čas procházením výzkumu a hledáním příkladů věcí, ve kterých se modely po RL zhoršují Ukázalo se, že když se naučíme uvažovat, budou modely lepší téměř ve všem. děsivé uvědomění, upřímně řečeno.