تتوقع تجربة كارل بوبر الفكرية "آلة الاستثراء" الكثير من المناقشات المعرفية حول RL والتعلم غير الخاضع للإشراف. هل تتعلم النماذج المعرفة بشكل استقرائي؟ أو إلى أي مدى تعتمد معرفتهم على وظيفة الخسارة المصممة من قبل الإنسان؟