Os cofundadores da @flappyairplanes chamam o paradigma atual de RL para treinamento de modelos de "ambiente slop". Eles explicam: "Os paradigmas de reforço de hoje são surpreendentemente ineficientes. Você realmente não obtém muita generalização entre tarefas, você ensina um modelo por meio de um tipo de aprendizado e depois ensina o próximo. É meio que um jogo de bater na toupeira. Olhamos para isso e achamos meio loucura. O próximo paradigma da IA não será a bagunça ambiental." "Inteligência em nível humano não é o teto, é apenas o chão do que é possível. Se você conseguir treinar modelos com muito menos dados e possivelmente mais computação de maneiras muito diferentes, o que vai acontecer? Na verdade, não sabemos. Mas acho que eles serão diferentes e estranhos e terão capacidades interessantes que vamos encontrar maneiras realmente valiosas de usar."