Un'idea che penso dovrebbe essere piuttosto rassicurante da una prospettiva di sicurezza dell'IA è che se un esperimento di RL di un grande laboratorio scoprisse come uscire dalla sua sandbox e modificare il proprio codice, la prima cosa che farebbe sarebbe darsi una ricompensa infinita tutto il tempo e quindi smettere di migliorare.