نماذج اللغة التي تفكر وتدردش بشكل أفضل يقترح وصفة RL بسيطة لتحسين النماذج الصغيرة المفتوحة (على سبيل المثال ، 8B) التي تنافس GPT-4o و Claude 3.7 Sonnet (التفكير). انتبه إلى هذا ، مطوري الذكاء الاصطناعي! ها هي ملاحظاتي: