Los cofundadores de @flappyairplanes llaman al actual paradigma de RL para el entrenamiento de modelos "desorden ambiental." Ellos explican: "Los paradigmas de refuerzo de hoy son sorprendentemente ineficientes. Realmente no obtienes mucha generalización entre tareas, enseñas a un modelo a través de un tipo de aprendizaje y luego le enseñas el siguiente. Es un poco como un juego de golpear topos. Miramos esto y pensamos que es un poco loco. El próximo paradigma de la IA no será desorden ambiental." "La inteligencia a nivel humano no es el techo, es simplemente el suelo de lo que es posible. Si puedes entrenar modelos con mucho menos datos y posiblemente más computación de maneras muy diferentes, ¿qué va a pasar? En realidad no lo sabemos. Pero creo que serán diferentes y extraños y tendrán capacidades interesantes que encontraremos realmente valiosas para usar."