Nový výzkum zarovnání od Anthropic. 'AI může selhat ne kvůli systematickému nesouladu, ale kvůli nesoudržnosti – nepředvídatelnému, sebepodkopávajícímu chování, které neoptimalizuje žádný konzistentní cíl. To znamená, že AI může selhat stejným způsobem, jakým často selhávají lidé, tím, že je naprostý chaos."