Nowe badania dotyczące dostosowania od Anthropic. "AI może zawieść nie przez systematyczne niedopasowanie, ale przez niespójność—nieprzewidywalne, samoniszczące zachowanie, które nie optymalizuje żadnego spójnego celu. To znaczy, AI może zawieść w ten sam sposób, w jaki często zawodzą ludzie, będąc chaotycznym bałaganem."