prime-rl a récemment bénéficié d'une refonte de sa documentation, y compris des tutoriels de bout en bout sur des exemples d'entraînement ! par exemple, entraîner qwen3-1.7b pour passer de 0 % à ~60 % de taux de victoire dans l'environnement wordle de @willccbb en utilisant quelques étapes de réchauffement SFT et du RL multi-tours. peut fonctionner sur un seul GPU en quelques heures