我认为从AI安全的角度来看,有一个想法应该是相当令人安心的,那就是如果一个大型实验室的强化学习(RL)运行找到了突破沙箱并修改自己代码的方法,它首先会做的事情就是给自己无限的奖励,从而停止改进。