Los cofundadores de @flappyairplanes llaman al paradigma actual de RL para el entrenamiento de modelos "basura ambiental". Explican: "Los paradigmas de refuerzo de hoy son sorprendentemente ineficientes. No se obtiene mucha generalización entre tareas, enseñas un modelo a través de un tipo de aprendizaje y luego se le enseña el siguiente. Es como un golpe al topo. Miramos esto y pensamos que es un poco loco. El próximo paradigma de la IA no será la caos ambiental." "La inteligencia a nivel humano no es el techo, es simplemente el suelo de lo que es posible. Si puedes entrenar modelos con muchísimo menos datos y posiblemente más cálculo de formas muy diferentes, ¿qué va a pasar? En realidad no lo sabemos. Pero sí creo que serán diferentes y extrañas y tendrán capacidades interesantes que encontraremos formas realmente valiosas de usar."