熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Dwarkesh Patel
對我來說,最有趣的部分是 @karpathy 描述了為什麼 LLM 無法像人類一樣學習。
正如你所期望的,他提出了一個非常生動的短語來描述強化學習: “通過吸管吸取監督位元。”
單一的最終獎勵會在成功的軌跡中廣播到每個標記上,甚至會加權那些導致正確答案的錯誤或不相關的轉折。
> “人類不使用強化學習,正如我之前所說的。我認為他們做的是不同的事情。強化學習比一般人想的要糟糕得多。強化學習是可怕的。恰好的是,我們之前擁有的一切都要糟糕得多。”
那麼人類到底做了什麼呢?
> “我正在閱讀的書是我進行合成數據生成的一組提示。正是通過操縱這些信息,你實際上獲得了知識。我們在 LLM 中沒有這樣的等價物;它們並不真正這樣做。”
> “我希望在預訓練期間能有某種階段,讓模型思考材料並試圖將其與已知的內容調和。這些都沒有等價物。這都是研究。”
為什麼我們今天不能簡單地將這種訓練添加到 LLM 中呢?
> “有一些非常微妙、難以理解的原因,為什麼這並不簡單。如果我只是給模型提供合成生成的書籍思考,你看著它會覺得,‘這看起來很棒。為什麼我不能在上面訓練?’你可以嘗試,但如果你繼續嘗試,模型實際上會變得更糟。”
> “假設我們有一本書的一章,我請 LLM 思考它。它會給你一些看起來非常合理的東西。但如果我問它 10 次,你會注意到它們都是一樣的。”
> “你從這些模型中獲得的豐富性、多樣性和熵,並不像你從人類那裡獲得的那樣。你如何在崩潰的情況下使合成數據生成工作,同時保持熵?這是一個研究問題。”
人類如何克服模型崩潰?
> “這些類比出奇地好。人類在生活過程中會崩潰。孩子們還沒有過擬合。他們會說一些讓你震驚的話。因為他們還沒有崩潰。但我們 [成年人] 已經崩潰了。我們最終會重複相同的想法,會越來越多地說相同的東西,學習速率下降,崩潰會變得更糟,然後一切都會惡化。”
事實上,有一篇有趣的論文認為,做夢是為了幫助泛化,並抵抗對日常學習的過擬合 - 查找 @erikphoel 的《過擬合的大腦》。
我問 Karpathy:人類在生活的某個階段(童年)學習得最好,卻完全忘記了具體細節,成年人仍然學習得很好,但對他們閱讀或觀看的事物的具體內容記憶卻很糟糕,而 LLM 可以記住人類無法記住的任意細節,但目前在泛化方面卻相當糟糕,這不是很有趣嗎?
> “[易錯的人類記憶] 是一個特徵,而不是一個缺陷,因為它迫使你只學習可泛化的組件。LLM 被它們對預訓練文檔的所有記憶所分心。這就是為什麼當我談論認知核心時,我實際上想要去除記憶。我希望它們擁有更少的記憶,這樣它們就必須查找信息,並且只保留思考的算法、實驗的概念,以及所有這些行動的認知粘合劑。”

Dwarkesh Patel8 小時前
@karpathy 的訪談
0:00:00 – AGI 還需要十年
0:30:33 – LLM 認知缺陷
0:40:53 – RL 很糟糕
0:50:26 – 人類是如何學習的?
1:07:13 – AGI 將融入 2% 的 GDP 增長
1:18:24 – ASI
1:33:38 – 智力與文化的演變
1:43:43 - 為什麼自駕車花了這麼長時間
1:57:08 - 教育的未來
在 YouTube、Apple Podcasts、Spotify 等平台上查找 Dwarkesh Podcast,享受吧!
182.25K
熱門
排行
收藏