Saya sekarang pikir tidak ada garis merah. 75% keyakinan: ICE bisa mengatakan "dem adalah teroris" dan mengirim 200 ribu dem Minnesota ke kamp konsentrasi, membunuh 50. Partai Republik akan merasionalisasikannya, beberapa perwakilan DPR memprotes suara
"Tidak mungkin itu diizinkan" terasa seperti mengatasinya
"Jika Ada yang Membangunnya, Semua Orang Mati" tampaknya lemah. Yud & Soares menyia-nyiakan kesempatan untuk membuat kasus yang nyata dan kuat untuk AI x-risk. Mereka malah terus membuat kesalahan yang jelas dan telah lama terbantah, seperti secara naif menghitung "kemungkinan" tujuan AI
Mengecewakan
Kritikus kami mengatakan pekerjaan kami akan menghancurkan dunia, dan banyak yang sekarang menunjuk ke "Jika Ada yang Membangunnya, Semua Orang Mati" sebagai kasus kanonik untuk malapetaka AI.
Namun kami menemukan argumen buku ini sangat lemah. Buku ini mungkin membuat fiksi yang menarik, tetapi tidak pernah menyajikan bukti apa pun.
"Pelatihan berbasis output akan membuat rantai pemikiran tetap jujur."
Sayangnya, TIDAK. Kami menunjukkan bahwa pelatihan pada *hanya output* masih dapat menyebabkan model menyembunyikan perilaku yang tidak diinginkan dalam rantai pemikiran mereka. MATS 8.0 Team Shard menyajikan: 🧵