一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

新文章：nanochat 小型系列 v1 正確思考 LLM 的方式是，你不是在為單一特定模型進行優化，而是為一系列由單一旋鈕（你希望花費的計算量）控制的模型進行優化，以實現單調更好的結果。這使你能夠仔細研究擴展法則，最終這就是讓你有信心在支付 "大規模運行" 時，外推會有效且你的錢會花得值得的原因。對於 nanochat 的第一次公開發布，我的重點是端到端的管道，運行整個 LLM 管道及其所有階段。現在，在之前 YOLO 幾次運行後，我回過頭來完善一些我匆忙通過的部分，當然首先是預訓練，這在計算上是繁重的，也是這些模型智能和知識的基礎。在本地調整了一些超參數後，我掃描了一些模型，固定了 FLOPs 預算。（對於每個 FLOPs 目標，你可以長時間訓練一個小模型，或短時間訓練一個大模型。）結果發現 nanochat 遵循非常好的擴展法則，基本上重現了 Chinchilla 論文的圖表：這只是 Chinchilla 的這個圖的簡化版本：非常重要且令人鼓舞的是，N（參數）和 D（標記）的指數大約等於 0.5，因此就像 Chinchilla 一樣，我們得到了與模型大小和標記訓練範圍相關的單一（計算無關）常數。在 Chinchilla 中，這被測量為 20。在 nanochat 中，似乎是 8！一旦我們能夠訓練計算最佳模型，我掃描了一個從 d10 到 d20 的小型系列，這些是 nanochat 大小，可以在 8XH100 節點上進行 2**19 ~= 0.5M 批次大小的訓練，而不需要梯度累積。我們為每個模型大小獲得了漂亮的、不相交的訓練圖。然後有趣的部分是將這個小型系列 v1 與 GPT-2 和 GPT-3 小型系列相關聯，以便我們知道我們走在正確的道路上。驗證損失有很多問題，無法進行比較，因此我使用 CORE 分數（來自 DCLM 論文）。我為 GPT-2 計算了它，並為 GPT-3 估算了它，這使我們最終能夠將 nanochat 美觀地放在同一尺度上：這個小型系列的總成本僅為 ~$100 (~4 小時在 8XH100 上)。這些實驗讓我們有信心一切運行得相當順利，並且如果我們支付更多（轉動旋鈕），我們會獲得越來越好的模型。簡而言之：我們可以訓練計算最佳的小型系列，並通過客觀的 CORE 分數將它們與 GPT-2/3 相關聯，但進一步的改進是可取且必要的。例如，匹配 GPT-2 目前需要 ~$500，但我認為應該可以在更多工作下做到 <$100。完整文章有更多細節在這裡：所有的調整和代碼都已推送到主分支，大家可以通過 scaling_laws .sh 和 miniseries .sh bash 腳本重現這些。