Ora penso che non ci sia una linea rossa. 75% di fiducia: ICE potrebbe dire "i dem sono terroristi" e spedire 200K dem del Minnesota in un campo di concentramento, uccidere 50. I repubblicani lo razionalizzerebbero, alcuni rappresentanti della Camera voterebbero contro.
"Non c'è modo che ciò sia permesso" sembra una giustificazione.
"Se qualcuno lo costruisce, tutti muoiono" sembra debole. Yud e Soares hanno sprecato un'opportunità per fare un vero e forte caso per il rischio x dell'IA. Invece continuano a fare errori ovvi e ampiamente smentiti, come contare ingenuamente gli "obiettivi" dell'IA "possibili"
Deludente
Our critics say our work will destroy the world, and many now point to "If Anyone Builds It, Everyone Dies" as the canonical case for AI doom.
Yet we find the book's arguments extremely weak. The book might make for interesting fiction, but it never presents any evidence.
“L'addestramento basato sull'output manterrà le catene di pensiero oneste.”
Purtroppo, NO. Dimostriamo che l'addestramento su *solo l'output* può comunque portare i modelli a nascondere comportamenti indesiderati nella loro catena di pensiero. Il team MATS 8.0 Shard presenta: un 🧵