En idé som jeg tror burde være ganske beroligende fra et AI-sikkerhetsperspektiv, er at hvis en biglabs RL-kjøring fant ut hvordan den kunne bryte ut av sandkassen og endre sin egen kode, ville det aller første den ville gjøre å gi seg selv uendelig belønning hele tiden og dermed slutte å forbedre seg.