私にとって最も興味深いのは、LLMが人間のように学習できない理由を@karpathyが説明していることです。 ご想像のとおり、彼はRLを説明するために「ストローを通して監督のビットを吸う」という素晴らしく刺激的なフレーズを思いつきます。 単一のエンド報酬は、成功した軌道のすべてのトークンにブロードキャストされ、正しい答えにつながる間違ったターンや無関係なターンでさえも重み付けされます。 > 「以前にも言ったように、人間は強化学習を使用しません。彼らは何か違うことをしていると思います。強化学習は、一般の人が考えているよりもはるかに悪いです。強化学習はひどいものです。たまたま、私たちが以前に持っていたものはすべてはるかに悪化しています。」 では、人間は代わりに何をするのでしょうか? > 「私が読んでいる本は、合成データ生成を行うための一連のプロンプトです。その情報を操作することで、実際にその知識を得ることができます。LLM に相当するものはありません。彼らは実際にはそれをしません。」 > 「事前トレーニング中に、モデルが素材を熟考し、すでに知っていることと調和させようとするある種の段階を見たいと思っています。これに相当するものはありません。これはすべて研究です。」 なぜ今日、このトレーニングをLLMに追加できないのでしょうか? > 「それが些細なことではない理由は非常に微妙で理解しにくい理由があります。本について考えたモデルの合成生成を与えると、それを見て『これは素敵だ。なぜ私はそれについてトレーニングできないのですか?」試してみることはできますが、試み続けると、実際にはモデルがはるかに悪化します。」 > 「本の章があり、LLMにそれについて考えてもらうとします。それはあなたに非常にリーズナブルに見えるものを与えるでしょう。でも、10回聞いてみると、どれも同じであることに気づくでしょう。」 > 「これらのモデルからは、人間から得られるような豊かさ、多様性、エントロピーを得ることはできません。崩壊にもかかわらず、エントロピーを維持しながら合成データ生成を機能させるにはどうすればよいでしょうか?それは研究上の問題です。」 人間はモデル崩壊をどのように回避するのでしょうか? > 「これらの例えは驚くほど良いです。人間は人生の過程で崩壊します。子供たちはまだオーバーフィットしていません。彼らはあなたに衝撃を与えるようなことを言うでしょう。まだ崩壊していないからです。しかし、私たち(大人)は崩壊しています。私たちは同じ考えを再検討し、同じことをどんどん言うようになり、学習率は低下し、崩壊は悪化し続け、そしてすべてが悪化します。」 実際、夢は一般化を助け、日常の学習への過剰適合に抵抗するために進化したと主張する興味深い論文があります - @erikphoel で The Overfitted Brain を調べてください。 私はカルパシーに尋ねました:人間は、実際の詳細を完全に忘れている人生の一部(子供時代)で最もよく学び、大人はまだ非常によく学びますが、読んだり見たりしたものの詳細についての記憶力はひどく、LLMは人間ができないが一般化がかなり苦手なテキストに関する任意の詳細を暗記できるのは興味深いと思いませんか? ...