Die Mitbegründer von @flappyairplanes nennen das aktuelle RL-Paradigma für das Modelltraining "Umgebungschaos." Sie erklären: "Die Verstärkungsparadigmen von heute sind schockierend ineffizient. Man erhält nicht wirklich viel Verallgemeinerung über Aufgaben hinweg, man bringt einem Modell durch eine Art des Lernens etwas bei und dann das nächste. Es ist ein bisschen wie ein Whack-a-Mole. Wir schauen uns das an und denken, es ist irgendwie verrückt. Das nächste Paradigma der KI wird kein Umgebungschaos sein." "Intelligenz auf menschlichem Niveau ist nicht die Decke, sondern lediglich der Boden dessen, was möglich ist. Wenn man Modelle mit deutlich weniger Daten und möglicherweise mehr Rechenleistung auf sehr unterschiedliche Weise trainieren kann, was wird dann passieren? Wir wissen es tatsächlich nicht. Aber ich denke, sie werden anders und seltsam sein und sie werden interessante Fähigkeiten haben, die wir auf wirklich wertvolle Weise nutzen werden."