Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Мне было интересно, какую информацию LLM забывают во время RL.
Недавно я потратил время на изучение исследований, чтобы найти примеры того, как модели становятся хуже после RL.
Оказалось, что обучение рассуждению делает модели лучше практически во всем. Честно говоря, это пугающее осознание.
Топ
Рейтинг
Избранное