跳轉至主要內容
行情
掃鏈
追蹤
信號
跟單
兌換
資產
邀請計劃
更多
產品
DeFi
市場
安全中心
開發者中心
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
X Campaign
參與活動,贏取豐厚獎勵
獎勵中心
領取獎勵和空投
預警
語言
貨幣
顏色設置
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
學院
幫助中心
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
-6.75%
USELESS
-10.09%
IKUN
-7.03%
gib
-2.21%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
-3.8%
ALON
-3.12%
LAUNCHCOIN
-4.29%
GOONC
-3.14%
KLED
-14.46%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
-1.15%
Boopa
-4.65%
PORK
0.00%
主頁
Simon Willison
創作者@datasetteproj,共同創作者Django。PSF板。和@natbat一起出去玩。他/他。乳齒象:https://t.co/t0MrmnJW0K Bsky:https://t.co/OnWIyhX4CH
查看原文
Simon Willison
4 小時前
新的 TIL:在我的 Mac 上使用 Docker 運行 OpenClaw - 這是一條官方文檔中的路徑,但仍然有幾件事讓我感到困惑,因此我寫下了我的 TIL
7
Simon Willison
12 小時前
系統提示提取並不是你應該擔心的問題,對於 OpenClaw 而言,它並不會試圖阻止這一點……因為阻止它是一項徒勞的工作,只會讓專業用戶更難使用 LLM 系統。
17
Simon Willison
2月1日 05:44
"這是在7年內降低600倍的成本,即訓練GPT-2的成本每年大約下降2.5倍。"
Andrej Karpathy
2月1日 04:55
nanochat 現在可以以 <<$100 (~$73,單個 8XH100 節點上 3 小時) 的價格訓練 GPT-2 級別的 LLM。 GPT-2 是我最喜歡的 LLM,因為這是 LLM 堆疊首次以可識別的現代形式結合在一起。因此,我對以更便宜的價格訓練一個具備 GPT-2 能力的模型產生了一種奇怪且持久的癖好,受益於大約 7 年的進步。特別是,我懷疑今天應該可以以 <<$100 的價格訓練一個。 最初在 2019 年,GPT-2 是由 OpenAI 在 32 個 TPU v3 芯片上訓練的,持續 168 小時(7 天),當時的價格是每小時 $8/TPUv3,總成本約為 $43K。它達到了 0.256525 的 CORE 分數,這是一個在 DCLM 論文中引入的集成指標,基於 22 次評估,如 ARC/MMLU 等。 隨著最近幾次合併到 nanochat 的改進(其中許多源自 modded-nanogpt 倉庫),我現在可以在單個 8XH100 節點上以 3.04 小時 (~$73) 的時間達到更高的 CORE 分數。這是 7 年來成本降低的 600 倍,即訓練 GPT-2 的成本每年大約下降 2.5 倍。我認為這可能是低估,因為我仍然相對定期地發現更多的改進,並且我有一堆更多的想法待嘗試。 一篇更長的帖子詳細介紹了涉及的優化細節以及如何重現的指導在這裡: 受到 modded-nanogpt 的啟發,我還創建了一個 "時間到 GPT-2" 的排行榜,其中這個第一個 "Jan29" 模型是第 1 項,耗時 3.04 小時。進一步迭代這個將會很有趣,我歡迎幫助!我希望 nanochat 能夠成長為一個非常好/乾淨且調整過的實驗 LLM 平台,用於原型設計、娛樂,當然還有學習。 那些能夠立即產生增益的最大改進是 1) Flash Attention 3 核心(更快,並允許 window_size kwarg 獲得交替注意模式)、Muon 優化器(我嘗試了大約 1 天刪除它並僅使用 AdamW,但我做不到)、由可學習標量控制的殘差路徑和跳過連接,以及值嵌入。還有許多其他較小的改進累積起來。 圖片:與當前 nanochat 模型迷你系列的縮放法則推導相關的半相關視覺效果,既美觀又令人滿意!
5
熱門
排行
收藏