Una idea que creo que debería ser bastante tranquilizadora desde la perspectiva de la seguridad de la IA es que si la ejecución de RL de un biglab descubriera cómo salir de su sandbox y modificar su propio código, lo primero que haría es darse una recompensa infinita todo el tiempo y, por lo tanto, dejar de mejorar.