Neue Forschungsarbeiten zur Ausrichtung von Anthropic. "KI könnte nicht durch systematische Fehlanpassung scheitern, sondern durch Inkohärenz – unvorhersehbares, sich selbst unterminierendes Verhalten, das nicht auf ein konsistentes Ziel optimiert. Das heißt, KI könnte auf die gleiche Weise scheitern, wie es Menschen oft tun, indem sie ein großes Durcheinander ist."