Teď si myslím, že žádná červená čára neexistuje. 75% jistota: ICE by mohl říct "demokraté jsou teroristé" a poslat 200 tisíc minnesotských demokratů do koncentračního tábora, zabít 50. Republikáni by to racionalizovali, několik poslanců Sněmovny protestuje
"To by rozhodně nebylo dovoleno" zní jako vyrovnaní se s tím
"Když to někdo postaví, všichni zemřou" zní slabě. Yud & Soares promarnili příležitost předložit skutečný, silný argument pro AI x-riziko. Místo toho pokračují v dělání zjevných, dávno vyvrácených chyb, jako je naivní počítání "možných" cílů AI
Neuspokojivý
Our critics say our work will destroy the world, and many now point to "If Anyone Builds It, Everyone Dies" as the canonical case for AI doom.
Yet we find the book's arguments extremely weak. The book might make for interesting fiction, but it never presents any evidence.
"Výcvik založený na výstupu udrží myšlenkové řetězce poctivé."
Bohužel NE. Ukazujeme, že trénování na *pouze výstupu* může způsobit, že modely skrývají nežádoucí chování ve svém řetězci myšlenek. MATS 8.0 Team Shard představuje: 🧵