今では誰もがRL環境とGRPOについて話しているが、それがどのように機能するかは誰も知らないので、説明ビデオ+実行できるコードを作成するのはクールだと考えました。 これは、GRPOを使用してQwen 2.5をトレーニングして2048を再生する例です(スレッド内のコード)。 🧵
45.63K