Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Новая запись в блоге! Эта запись является чисто теоретической попыткой определить центральную причину, по которой LLM страдают от коллапса режимов в RL и не могут генерировать новые или по-настоящему разнообразные выходные данные. На самом деле это гораздо более сложная проблема, чем вы думаете!
Наивное поощрение исследования с помощью более высоких температур, регулирования энтропии выходных данных, метрик pass@k и т.д. недостаточно, чтобы избежать узких мест в исследовании во время RL.
Статья предлагает новую теорию о том, почему это так и как это решить, а именно с помощью децентрализованного обучения с подкреплением для создания "экосистемы" моделей, а не просто одной централизованной инстанции.

Топ
Рейтинг
Избранное

