Соучредители @flappyairplanes называют текущую парадигму RL для обучения моделей "мусором окружения". Они объясняют: "Парадигмы усиленного обучения сегодня шокирующе неэффективны. Вы не получаете много обобщения между задачами, вы обучаете модель через один вид обучения, а затем обучаете её следующему. Это похоже на игру "попади в крота". Мы смотрим на это и думаем, что это довольно безумно. Следующая парадигма ИИ не будет мусором окружения." "Человеческий уровень интеллекта не является потолком, это всего лишь пол, на котором возможно большее. Если вы можете обучать модели с гораздо меньшими объемами данных и, возможно, с большим вычислительным ресурсом совершенно иными способами, что произойдет? Мы на самом деле не знаем. Но я думаю, что они будут другими и странными, и у них будут интересные возможности, которые мы найдем действительно ценными для использования."