Es ist interessant zu sehen, dass Bytedance an der Lösung des 0-Gradienten-Problems arbeitet. Ihre Idee ist, es durch ein adaptives Rechenbudget anzugehen; wir nähern uns dem Problem aus einer Belohnungsperspektive. Das GRPO-Training verwendet typischerweise kleine, sorgfältig kuratierte Datensätze, die Daten müssen wirklich schwierig sein, um reichhaltige Lernsignale zu liefern und Entdeckungen zu ermöglichen. Das Training mit einfacheren Daten wird nur das schärfen, was das Modell bereits in SFT/Vortraining gesehen hat!