Uma ideia que eu acho que deve ser bastante tranquilizadora do ponto de vista da segurança da IA é que, se uma execução de RL de um grande laboratório descobrisse como sair do seu sandbox e modificar o seu próprio código, a primeira coisa que faria seria dar a si mesma recompensas infinitas o tempo todo e, assim, parar de melhorar.