Nueva investigación sobre alineamientos de Anthropic. 'La IA puede fracasar no por desalineación sistemática, sino por incoherencia—comportamientos impredecibles y autodestructivos que no optimizan para ningún objetivo coherente. Es decir, la IA podría fallar de la misma manera que los humanos suelen fallar, siendo un desastre total.'