熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
新文章:nanochat 小型系列 v1
正確思考 LLM 的方式是,你不是在為單一特定模型進行優化,而是為一系列由單一旋鈕(你希望花費的計算量)控制的模型進行優化,以實現單調更好的結果。這使你能夠仔細研究擴展法則,最終這就是讓你有信心在支付 "大規模運行" 時,外推會有效且你的錢會花得值得的原因。對於 nanochat 的第一次公開發布,我的重點是端到端的管道,運行整個 LLM 管道及其所有階段。現在,在之前 YOLO 幾次運行後,我回過頭來完善一些我匆忙通過的部分,當然首先是預訓練,這在計算上是繁重的,也是這些模型智能和知識的基礎。
在本地調整了一些超參數後,我掃描了一些模型,固定了 FLOPs 預算。(對於每個 FLOPs 目標,你可以長時間訓練一個小模型,或短時間訓練一個大模型。)結果發現 nanochat 遵循非常好的擴展法則,基本上重現了 Chinchilla 論文的圖表:
這只是 Chinchilla 的這個圖的簡化版本:
非常重要且令人鼓舞的是,N(參數)和 D(標記)的指數大約等於 0.5,因此就像 Chinchilla 一樣,我們得到了與模型大小和標記訓練範圍相關的單一(計算無關)常數。在 Chinchilla 中,這被測量為 20。在 nanochat 中,似乎是 8!
一旦我們能夠訓練計算最佳模型,我掃描了一個從 d10 到 d20 的小型系列,這些是 nanochat 大小,可以在 8XH100 節點上進行 2**19 ~= 0.5M 批次大小的訓練,而不需要梯度累積。我們為每個模型大小獲得了漂亮的、不相交的訓練圖。
然後有趣的部分是將這個小型系列 v1 與 GPT-2 和 GPT-3 小型系列相關聯,以便我們知道我們走在正確的道路上。驗證損失有很多問題,無法進行比較,因此我使用 CORE 分數(來自 DCLM 論文)。我為 GPT-2 計算了它,並為 GPT-3 估算了它,這使我們最終能夠將 nanochat 美觀地放在同一尺度上:
這個小型系列的總成本僅為 ~$100 (~4 小時在 8XH100 上)。這些實驗讓我們有信心一切運行得相當順利,並且如果我們支付更多(轉動旋鈕),我們會獲得越來越好的模型。
簡而言之:我們可以訓練計算最佳的小型系列,並通過客觀的 CORE 分數將它們與 GPT-2/3 相關聯,但進一步的改進是可取且必要的。例如,匹配 GPT-2 目前需要 ~$500,但我認為應該可以在更多工作下做到 <$100。
完整文章有更多細節在這裡:
所有的調整和代碼都已推送到主分支,大家可以通過 scaling_laws .sh 和 miniseries .sh bash 腳本重現這些。




熱門
排行
收藏
