Interessant å se Bytedance jobbe med å løse 0-gradient-problemet. Ideen deres er å løse det gjennom et adaptivt databudsjett; Vi nærmer oss det fra et belønningsperspektiv. GRPO-trening bruker vanligvis små, nøye kuraterte datasett, dataene må være veldig vanskelige for å gi rike læringssignaler og muliggjøre oppdagelse. Trening på enklere data vil bare skjerpe det modellen allerede har sett i SFT/pre-training!
🚀 Spent på å dele arbeidet vårt på Bytedance Seed!
Ryggsekk RL: Låser opp utforskning av LLM-er via budsjettallokering 🎒
Utforskning i LLM-opplæring er avgjørende, men dyrt.
Ensartet utrullingstildeling er bortkastet:
✅ Enkle oppgaver → alltid løst → 0 gradient
❌ Harde oppgaver → alltid mislykkes → gradering på 0
💡 Ideen vår: behandle utforskning som et ryggsekkproblem → tildele utrullinger der de betyr mest.
✨ Resultater:
🔼 +20–40 % flere graderinger som ikke er null
🧮 Opptil 93 utrullinger for vanskelige oppgaver (uten ekstra databehandling)
📈 +2–4 gjennomsnittspoeng, +9 toppgevinster på matematikkreferanser
💰 ~2× billigere enn enhetlig tildeling
📄 Papir:
🚀Har du noen gang lurt på hvordan du kan få RL til å fungere på umulige vanskelige oppgaver der pass@k = 0 %? 🤔
I vårt nye arbeid deler vi RL Grokking-oppskriften: en opplæringsoppskrift som gjør det mulig for LLM-er å løse tidligere uløselige kodeproblemer! Jeg kommer til #CoLM2025 neste uke, så glad for å prate om det!
Vi dykker også ned i den opphetede debatten: skjerper RL bare tidligere lærte ferdigheter, eller kan det låse opp virkelig nye resonnementer? 🔥🔥
Les hele bloggen her:
#AI #RL #NLP #reinforcementlearning #llm