跳轉至主要內容
行情
掃鏈
追蹤
信號
跟單
兌換
資產
邀請計劃
更多
產品
DeFi
市場
安全中心
開發者中心
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
X Campaign
參與活動,贏取豐厚獎勵
獎勵中心
領取獎勵和空投
預警
語言
貨幣
顏色設置
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
學院
幫助中心
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
-10.91%
USELESS
-14.53%
IKUN
-11.95%
gib
-6.42%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
-6.78%
ALON
-12.59%
LAUNCHCOIN
-6.26%
GOONC
-2.42%
KLED
-8.06%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
-3.15%
Boopa
-11.72%
PORK
0.00%
主頁
Andrej Karpathy
建築@EurekaLabsAI。曾任 AI 總監 @ 特斯拉,創始團隊 @ OpenAI,CS231n/PhD @ 史丹佛大學。我喜歡訓練大型深層神經網路。
查看原文
Andrej Karpathy
1月29日 03:15
你可能會遇到的傳統敘述是,AI 的發展已經太過成熟,以至於一個新的、以研究為重點的初創公司無法超越並執行 AI 的現有企業。這正是我在 OpenAI 創立時經常聽到的情緒(「你們幾個怎麼可能與 Google 競爭?」),而且 1) 這是非常錯誤的,然後 2) 這在另一輪現在正在挑戰 OpenAI 的初創公司中再次是非常錯誤的,在我看來,今天仍然是錯誤的。擴展和在本地改進有效的東西將繼續創造驚人的進步,但隨著如此快速解鎖的進展,過程中揚起了如此多的灰塵,並且在前沿 LLM 和一個在 20 瓦特運行的心智的魔力示例之間仍然存在著很大的差距,產生接近 10 倍改進(而不是 10%)的研究突破的概率在我看來仍然感覺非常高——足夠高以繼續下注並尋找。 當然,棘手的部分是創造可能發現這些突破的條件。我認為這樣的環境很少會湊在一起,但 @bfspector 和 @amspector100 是天才,對 LLM 的全棧理解(從頂部的數學/算法到底部的巨型內核/相關)非常罕見,他們對人才有很好的眼光,我認為他們能夠建立一些非常特別的東西。祝賀你們的啟動,我期待你們的成果!
Flapping Airplanes
1月29日 01:30
宣布 Flapping Airplanes! 我們已經從 GV、Sequoia 和 Index 籌集了 1.8 億美元,以組建一個新的 AI 護衛:一個想像著模型能夠在不攝取互聯網一半內容的情況下,達到人類思考水平的世界。
84
Andrej Karpathy
1月8日 07:01
新文章:nanochat 小型系列 v1 正確思考 LLM 的方式是,你不是在為單一特定模型進行優化,而是為一系列由單一旋鈕(你希望花費的計算量)控制的模型進行優化,以實現單調更好的結果。這使你能夠仔細研究擴展法則,最終這就是讓你有信心在支付 "大規模運行" 時,外推會有效且你的錢會花得值得的原因。對於 nanochat 的第一次公開發布,我的重點是端到端的管道,運行整個 LLM 管道及其所有階段。現在,在之前 YOLO 幾次運行後,我回過頭來完善一些我匆忙通過的部分,當然首先是預訓練,這在計算上是繁重的,也是這些模型智能和知識的基礎。 在本地調整了一些超參數後,我掃描了一些模型,固定了 FLOPs 預算。(對於每個 FLOPs 目標,你可以長時間訓練一個小模型,或短時間訓練一個大模型。)結果發現 nanochat 遵循非常好的擴展法則,基本上重現了 Chinchilla 論文的圖表: 這只是 Chinchilla 的這個圖的簡化版本: 非常重要且令人鼓舞的是,N(參數)和 D(標記)的指數大約等於 0.5,因此就像 Chinchilla 一樣,我們得到了與模型大小和標記訓練範圍相關的單一(計算無關)常數。在 Chinchilla 中,這被測量為 20。在 nanochat 中,似乎是 8! 一旦我們能夠訓練計算最佳模型,我掃描了一個從 d10 到 d20 的小型系列,這些是 nanochat 大小,可以在 8XH100 節點上進行 2**19 ~= 0.5M 批次大小的訓練,而不需要梯度累積。我們為每個模型大小獲得了漂亮的、不相交的訓練圖。 然後有趣的部分是將這個小型系列 v1 與 GPT-2 和 GPT-3 小型系列相關聯,以便我們知道我們走在正確的道路上。驗證損失有很多問題,無法進行比較,因此我使用 CORE 分數(來自 DCLM 論文)。我為 GPT-2 計算了它,並為 GPT-3 估算了它,這使我們最終能夠將 nanochat 美觀地放在同一尺度上: 這個小型系列的總成本僅為 ~$100 (~4 小時在 8XH100 上)。這些實驗讓我們有信心一切運行得相當順利,並且如果我們支付更多(轉動旋鈕),我們會獲得越來越好的模型。 簡而言之:我們可以訓練計算最佳的小型系列,並通過客觀的 CORE 分數將它們與 GPT-2/3 相關聯,但進一步的改進是可取且必要的。例如,匹配 GPT-2 目前需要 ~$500,但我認為應該可以在更多工作下做到 <$100。 完整文章有更多細節在這裡: 所有的調整和代碼都已推送到主分支,大家可以通過 scaling_laws .sh 和 miniseries .sh bash 腳本重現這些。
1.78K
Andrej Karpathy
1月7日 06:18
大多數的 ruff ruff 是那些關注當前點的人和關注當前斜率的人。
675
熱門
排行
收藏