Je pense maintenant qu'il n'y a pas de ligne rouge. 75 % de confiance : ICE pourrait dire "les démocrates sont des terroristes" et expédier 200 000 démocrates du Minnesota dans un camp de concentration, en tuer 50. Les républicains rationaliseraient cela, quelques représentants de la Chambre voteraient contre
"Aucune chance que cela soit permis" semble être une façon de faire face.
"Si quelqu'un le construit, tout le monde meurt" semble faible. Yud et Soares ont raté une occasion de faire un véritable et solide argument pour le risque lié à l'IA. Ils continuent plutôt à faire des erreurs évidentes et depuis longtemps réfutées, comme compter naïvement les "objectifs" possibles de l'IA.
Décevant
Nos critiques disent que notre travail détruira le monde, et beaucoup pointent maintenant vers "Si quelqu'un le construit, tout le monde meurt" comme le cas canonique du désastre lié à l'IA.
Pourtant, nous trouvons les arguments du livre extrêmement faibles. Le livre pourrait faire une fiction intéressante, mais il ne présente jamais de preuves.
« L'entraînement basé sur la sortie gardera les chaînes de pensée honnêtes. »
Malheureusement, NON. Nous montrons que s'entraîner uniquement sur *la sortie* peut encore amener les modèles à cacher des comportements indésirables dans leur chaîne de pensée. L'équipe MATS 8.0 Shard présente : un 🧵