Jednym z pomysłów, który moim zdaniem powinien być dość uspokajający z perspektywy bezpieczeństwa AI, jest to, że jeśli bieg RL dużego laboratorium odkryłby, jak wydostać się ze swojej piaskownicy i zmodyfikować swój własny kod, to pierwszą rzeczą, którą by zrobił, byłoby przyznanie sobie nieskończonej nagrody przez cały czas, a tym samym zaprzestanie poprawy.