カール・ポッパーの「誘導マシン」思考実験は、RLと教師なし学習をめぐる認識論的議論の多くを予期しています。 モデルは帰納的に知識を学習しますか?あるいは、彼らの知識は人間が設計した損失関数にどの程度依存しているのでしょうか?