DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

prime-rl a récemment bénéficié d'une refonte de sa documentation, y compris des tutoriels de bout en bout sur des exemples d'entraînement ! par exemple, entraîner qwen3-1.7b pour passer de 0 % à ~60 % de taux de victoire dans l'environnement wordle de @willccbb en utilisant quelques étapes de réchauffement SFT et du RL multi-tours. peut fonctionner sur un seul GPU en quelques heures

Meilleurs

Classement

Favoris