ورقة جديدة @ Scale_الذكاء الاصطناعي! الجاني وراء قرصنة المكافآت؟ نتبعها إلى المواصفات الخاطئة في ذيل المكافأة العالية. إصلاحنا: مكافآت قائمة على قاعدة لتمييز الردود "الممتازة" بصرف النظر عن "رائعة". النتيجة: قرصنة أقل ، أقوى بعد التدريب!