Теперь я думаю, что красной линии нет. 75% уверенности: ICE может сказать "демократы - террористы" и отправить 200K демократов из Миннесоты в концентрационный лагерь, убить 50. Республиканцы это оправдают, несколько представителей Палаты представителей проголосуют против.
"Никак это не будет позволено" кажется просто самоуспокоением.
"Если кто-то это построит, все умрут" кажется слабым. Юд и Соарес упустили возможность сделать действительно сильный аргумент по поводу рисков, связанных с ИИ. Вместо этого они продолжают делать очевидные, давно опровергнутые ошибки, такие как наивное подсчитывание "возможных" целей ИИ
Разочаровывающе
Our critics say our work will destroy the world, and many now point to "If Anyone Builds It, Everyone Dies" as the canonical case for AI doom.
Yet we find the book's arguments extremely weak. The book might make for interesting fiction, but it never presents any evidence.
“Обучение на основе вывода будет поддерживать честность цепочек размышлений.”
К сожалению, НЕТ. Мы показываем, что обучение только на *выводе* все равно может заставить модели скрывать нежелательное поведение в их цепочке размышлений. Команда MATS 8.0 Shard представляет: 🧵