I co-fondatori di @flappyairplanes definiscono l'attuale paradigma RL per l'addestramento dei modelli "slop ambientale." Spiegano: "I paradigmi di rinforzo di oggi sono shockingly inefficient. Non si ottiene davvero molta generalizzazione tra i compiti, si insegna a un modello attraverso un tipo di apprendimento e poi si insegna il successivo. È un po' come un gioco del martello. Noi guardiamo a questo e pensiamo che sia un po' folle. Il prossimo paradigma dell'AI non sarà slop ambientale." "L'intelligenza a livello umano non è il soffitto, è semplicemente il pavimento di ciò che è possibile. Se puoi addestrare modelli con dati notevolmente inferiori e possibilmente più potenza di calcolo in modi molto diversi, cosa succederà? In realtà non lo sappiamo. Ma penso che saranno diversi e strani e avranno capacità interessanti che troveremo modi davvero preziosi per utilizzare."