إحدى الملاحظات المثيرة للاهتمام هي أن كل "إنه ليس مجرد {{{شيء}}} - إنه {{{شيء أكبر}}}" المكتوب المرتبط ب ChatGPT شائع بجنون في Sonnet / Opus 4. يقوم Sonnet بإرسال رسائل غير مرغوب فيها طوال الوقت ويشعر بأنه عرضة جدا لإسقاط الأشياء ، وسوف ينزلق Opus في أكثر اللحظات رعبا ، وكلاهما عرضة للتملق الخفي في وضع الدردشة (هناك طرق للخروج من خلال التأريض مع البحث على الويب وما إلى ذلك ... ولكن حتى ذلك الحين) أعتقد أن وجهة نظري هي أنها ليست مجرد مشكلة ChatGPT - إنها حقا نتيجة أساسية لمعيار RLHF slop الغربي!
‏‎5.87‏K