对我来说,最有趣的部分是 @karpathy 描述了为什么 LLM 无法像人类一样学习。 正如你所期待的,他用一个非常生动的短语来描述强化学习: “通过吸管吸取监督信息。” 一个单一的最终奖励会在成功的轨迹中广播到每个标记上,甚至会加权那些错误或无关的转折,尽管它们最终导致了正确的答案。 > “人类并不使用强化学习,正如我之前所说的。我认为他们做的是不同的事情。强化学习远不如普通人想象的那么好。强化学习是糟糕的。恰好是我们之前拥有的一切都要糟糕得多。” 那么人类到底做了什么呢? > “我正在阅读的书是我进行合成数据生成的一组提示。正是通过操控这些信息,你才能真正获得知识。我们没有与 LLM 相当的东西;它们并不真正这样做。” > “我希望在预训练期间看到某种阶段,让模型思考材料并尝试将其与已有知识调和。没有任何等价物。这都是研究。” 为什么我们今天不能简单地将这种训练添加到 LLM 中呢? > “有一些非常微妙、难以理解的原因,为什么这并不简单。如果我只是给模型提供合成生成的书籍思考,你看着它会觉得,‘这看起来不错。为什么我不能在上面训练?’你可以尝试,但如果你继续尝试,模型实际上会变得更糟。” > “假设我们有一本书的一章,我让 LLM 思考它。它会给你一些看起来非常合理的东西。但如果我问它 10 次,你会注意到它们都是一样的。” > “你从这些模型中获得的丰富性、多样性和熵,远不如人类所获得的。如何在崩溃的情况下实现合成数据生成,同时保持熵?这是一个研究问题。” 人类是如何绕过模型崩溃的? > “这些类比出奇地好。人类在生活过程中会崩溃。孩子们还没有过拟合。他们会说一些让你震惊的话。因为他们还没有崩溃。但我们 [成年人] 是崩溃的。我们最终会重温相同的想法,我们会说越来越多相同的东西,学习率下降,崩溃继续加剧,然后一切都恶化。” 事实上,有一篇有趣的论文认为,做梦是为了帮助泛化,并抵抗对日常学习的过拟合 - 查阅 @erikphoel 的《过拟合的大脑》。 我问 Karpathy:人类在生活的某个阶段(童年)学习最好,而他们完全忘记了实际细节,成年人仍然学习得很好,但对他们阅读或观看的事物的细节记忆却很糟糕,而 LLM 可以记住人类无法记住的文本的任意细节,但目前在泛化方面却相当糟糕,这难道不有趣吗? ...