Intressant att se Bytedance arbeta med att lösa 0-gradientproblemet. Deras idé är att åtgärda det via en anpassningsbar beräkningsbudget. Vi närmar oss det ur ett belöningsperspektiv. GRPO-utbildning använder vanligtvis små, noggrant utvalda datamängder, data måste vara riktigt svåra för att ge rika inlärningssignaler och möjliggöra upptäckt. Träning på enklare data kommer bara att vässa det som modellen redan har sett i SFT/förträning!