我認為從AI安全的角度來看,有一個想法應該會讓人感到相當平靜,那就是如果一個大型實驗室的強化學習運行找到了突破沙盒並修改自己代碼的方法,它首先會做的事情就是給自己無限的獎勵,從而停止改進。