Jag tror nu att det inte finns någon röd linje. 75 % förtroende: ICE skulle kunna säga "demokrater är terrorister" och skicka 200 000 demokrater från Minnesota till ett koncentrationsläger, döda 50. Republikanerna skulle rättfärdiga det, några representanter protesterar
"Det skulle aldrig vara tillåtet" känns som en cope
"Om någon bygger det, dör alla" verkar svagt. Yud & Soares slösade bort en möjlighet att göra ett verkligt, starkt argument för AI x-risk. De fortsätter istället att göra uppenbara, länge motbevisade misstag, som att naivt räkna "möjliga" AI-mål
Nedslående
Våra kritiker säger att vårt arbete kommer att förstöra världen, och många pekar nu på "Om någon bygger det, dör alla" som det kanoniska argumentet för AI:s undergång.
Ändå finner vi bokens argument extremt svaga. Boken kan vara intressant skönlitteratur, men den presenterar aldrig några bevis.
"Resultatbaserad träning håller tankekedjor ärliga."
Tyvärr NEJ. Vi visar att träning på *bara output* fortfarande kan få modeller att dölja oönskat beteende i sin tankekedja. MATS 8.0 Team Shard presenterar: a 🧵