Новая запись в блоге! Эта запись является чисто теоретической попыткой определить центральную причину, по которой LLM страдают от коллапса режимов в RL и не могут генерировать новые или по-настоящему разнообразные выходные данные. На самом деле это гораздо более сложная проблема, чем вы думаете! Наивное поощрение исследования с помощью более высоких температур, регулирования энтропии выходных данных, метрик pass@k и т.д. недостаточно, чтобы избежать узких мест в исследовании во время RL. Статья предлагает новую теорию о том, почему это так и как это решить, а именно с помощью децентрализованного обучения с подкреплением для создания "экосистемы" моделей, а не просто одной централизованной инстанции.