Teraz myślę, że nie ma czerwonej linii. 75% pewności: ICE mogłoby powiedzieć "demokraci to terroryści" i wysłać 200 tys. demokratów z Minnesoty do obozu koncentracyjnego, zabić 50. Republikanie by to zracjonalizowali, kilku przedstawicieli Izby by protestowało.
"Nie ma mowy, żeby to było dozwolone" wydaje się być pocieszeniem.
"Jeśli ktokolwiek to zbuduje, wszyscy umierają" wydaje się słabe. Yud i Soares zmarnowali okazję, aby przedstawić prawdziwy, mocny argument na rzecz ryzyka związanego z AI. Zamiast tego nadal popełniają oczywiste, dawno obalone błędy, na przykład naiwne liczenie "możliwych" celów AI
Rozczarowujące
Nasi krytycy twierdzą, że nasza praca zniszczy świat, a wielu wskazuje teraz na "Jeśli ktokolwiek to zbuduje, wszyscy umierają" jako kanoniczny przypadek zagłady AI.
Jednak uważamy, że argumenty zawarte w książce są niezwykle słabe. Książka może być interesującą fikcją, ale nigdy nie przedstawia żadnych dowodów.
„Szkolenie oparte na wynikach utrzyma łańcuchy myślenia w uczciwości.”
Niestety, NIE. Pokazujemy, że szkolenie tylko na *wyniku* może nadal powodować, że modele ukrywają niepożądane zachowanie w swoim łańcuchu myślenia. Zespół MATS 8.0 Shard przedstawia: 🧵