Bytedanceが0勾配問題の解決に取り組んでいるのを見るのは興味深いことです。彼らのアイデアは、適応型コンピューティング バジェットを通じてそれに対処することです。私たちは報酬の観点からアプローチします。GRPOトレーニングは通常、慎重に厳選された小規模なデータセットを使用しますが、豊富な学習シグナルを提供し、発見を可能にするには、データが非常に難しい必要があります。より簡単なデータでトレーニングすると、モデルが SFT/事前トレーニングですでに見てきたものが鮮明になります。