prime-rl recibió recientemente una revisión de documentos que incluye tutoriales E2E de ejemplos de capacitación. Por ejemplo, entrenar qwen3-1.7b para pasar de 0% -> ~60% de tasa de victorias en Wordle Env de @willccbb usando un par de pasos de calentamiento de SFT y RL de varios turnos. Puede ejecutarse en una sola GPU en unas pocas horas