Одне цікаве зауваження полягає в тому, що вся написана примха «це не просто {{{thing}}} — це {{{bigger thing}}}», яка асоціюється з ChatGPT, шалено поширена в Sonnet/Opus 4. Sonnet весь час спамить ним і відчуває себе дуже схильним до недбалих речей, а Opus підсуне їх у найжахливіший момент, і обидва схильні до тонкого підлабузництва в режимі чату (є способи розтоптати це за допомогою заземлення з веб-пошуком тощо... але навіть тоді) Я думаю, моя думка полягає в тому, що це не просто проблема ChatGPT — це справді фундаментальний наслідок західного ухилу RLHF benchmarkmaxxing!
5,79K