Forskning på ny justering fra Anthropic. 'AI kan feile ikke på grunn av systematisk feiljustering, men på grunn av inkohærens—uforutsigbar, selvundergravende atferd som ikke optimaliserer for noe konsekvent mål. Det vil si, AI kan feile på samme måte som mennesker ofte feiler, ved å være et kaos.'