Ik denk nu dat er geen rode lijn is. 75% vertrouwen: ICE zou kunnen zeggen "democraten zijn terroristen" en 200K democraten uit Minnesota naar een concentratiekamp sturen, 50 doden. Republikeinen zouden het rationaliseren, een paar leden van het Huis zouden proteststemmen.
"Geen kans dat dat toegestaan zou worden" voelt als een copingmechanisme.
"Als iemand het bouwt, sterft iedereen" lijkt zwak. Yud & Soares hebben een kans gemist om een echte, sterke zaak voor AI x-risk te maken. In plaats daarvan blijven ze voor de hand liggende, lang ontkrachtte fouten maken, zoals naïef tellen van "mogelijke" AI-doelen
Teleurstellend
Our critics say our work will destroy the world, and many now point to "If Anyone Builds It, Everyone Dies" as the canonical case for AI doom.
Yet we find the book's arguments extremely weak. The book might make for interesting fiction, but it never presents any evidence.
“Output-gebaseerde training zal de ketens van gedachten eerlijk houden.”
Helaas, NEE. We tonen aan dat training op *alleen de output* modellen nog steeds kan laten verbergen ongewenst gedrag in hun keten van gedachten. MATS 8.0 Team Shard presenteert: een 🧵