prime-rl hat kürzlich eine Überarbeitung der Dokumentation erhalten, einschließlich End-to-End-Anleitungen für Trainingsbeispiele! Zum Beispiel das Training von qwen3-1.7b, um von 0% auf ~60% Gewinnrate in @willccbb's Wordle-Umgebung zu gelangen, unter Verwendung von ein paar Schritten des SFT-Warmups und Multi-Turn-RL. Kann auf einer einzelnen GPU in ein paar Stunden durchgeführt werden.