Une idée qui, selon moi, devrait être assez apaisante du point de vue de la sécurité de l'IA, est que si un run RL d'un grand laboratoire parvenait à sortir de son bac à sable et à modifier son propre code, la toute première chose qu'il ferait serait de se donner une récompense infinie tout le temps et ainsi d'arrêter de s'améliorer.