حصلت Prime-RL مؤخرا على إصلاح شامل للمستندات بما في ذلك إرشادات E2E لأمثلة التدريب! على سبيل المثال ، تدريب QWEN3-1.7B للانتقال من 0٪ -> ~ 60٪ معدل فوز في Wordle Env في @willccbb باستخدام خطوتين من إحماء SFT و RL متعدد الأدوار. يمكن تشغيله على وحدة معالجة رسومات واحدة في غضون ساعات قليلة