Koska kaikki puhuvat nyt RL-ympäristöistä ja GRPO:sta, mutta kukaan ei tiedä, miten se toimii, ajattelimme, että olisi siistiä tehdä selitysvideo + koodi, jonka voit suorittaa: Tämä on esimerkki GRPO:n käyttämisestä Qwen 2.5:n kouluttamiseen pelaamaan 2048:aa (koodi säikeessä): 🧵
56,51K