Thí nghiệm tư tưởng "máy quy nạp" của Karl Popper dự đoán nhiều cuộc tranh luận về nhận thức luận xung quanh RL và học không giám sát. Liệu các mô hình có học kiến thức theo cách quy nạp không? Hay mức độ kiến thức của chúng phụ thuộc vào một hàm mất mát được thiết kế bởi con người đến mức nào?