Тепер я думаю, що червоної лінії немає. 75% впевненості: ICE може сказати «демократи — терористи» і відправити 200 тисяч демократів з Міннесоти до концтабору, вбити 50. Республіканці раціоналізували б це, кілька представників Палати представників протестують
"Ніяк би це не дозволено" звучить як справлятися
«Якщо хтось його побудує, всі помруть» звучить слабко. Юд і Соарес змарнували можливість довести реальний і вагомий аргумент на користь ризику ШІ. Натомість вони продовжують робити очевидні, давно спростовані помилки, наприклад, наївно рахувати «можливі» цілі ШІ
Розчарування
Наші критики кажуть, що наша робота зруйнує світ, і багато хто тепер вказує на «Якщо хтось це побудує, всі помруть» як канонічний аргумент на користь загибелі ШІ.
Проте ми вважаємо аргументи книги надзвичайно слабкими. Книга може бути цікавою художньою літературою, але ніколи не наводить жодних доказів.
"Тренування на основі результату допоможе зберегти ланцюги думок чесними."
На жаль, НІ. Ми показуємо, що тренування на *лише виході* все ще може змусити моделі приховувати небажану поведінку у своїй ланцюжку думок. MATS 8.0 Команда Shard представляє: a 🧵