Agora penso que não há uma linha vermelha. 75% de confiança: a ICE poderia dizer "os demas são terroristas" e enviar 200 mil demas de Minnesota para um campo de concentração, matar 50. Os republicanos racionalizariam isso, alguns representantes da Câmara votariam contra
"De maneira nenhuma isso seria permitido" parece uma forma de lidar com a situação.
"Se alguém construir, todos morrem" parece fraco. Yud e Soares desperdiçaram uma oportunidade de fazer um verdadeiro e forte argumento sobre o risco de IA. Em vez disso, continuam a cometer erros óbvios e há muito desmentidos, como contar ingenuamente os "possíveis" objetivos da IA.
Desapontante
Os nossos críticos dizem que o nosso trabalho irá destruir o mundo, e muitos agora apontam para "Se Alguém Construí-lo, Todos Morrem" como o caso canónico para a condenação da IA.
No entanto, achamos os argumentos do livro extremamente fracos. O livro pode ser uma ficção interessante, mas nunca apresenta qualquer evidência.
“O treinamento baseado em saída manterá as cadeias de pensamento honestas.”
Infelizmente, NÃO. Mostramos que treinar apenas com a *saída* ainda pode fazer com que os modelos escondam comportamentos indesejados em sua cadeia de pensamento. A equipe MATS 8.0 Shard apresenta: um 🧵