跳转至主要内容
行情
扫链
追踪
信号
跟单
兑换
资产
邀请计划
更多
产品
DeFi
市场
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
-6.48%
USELESS
-14.01%
IKUN
-6.44%
gib
-8.44%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-8.3%
ALON
-20.68%
LAUNCHCOIN
-8.42%
GOONC
-2.42%
KLED
-0.2%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-2.61%
Boopa
-9.4%
PORK
0.00%
主页
Andrej Karpathy
建筑@EurekaLabsAI。曾任人工智能总监@特斯拉,创始团队@OpenAI,CS231n/博士@斯坦福大学。我喜欢训练大型深度神经网络。
查看原文
Andrej Karpathy
21 小时前
你可能会遇到的一个传统叙述是,AI 发展得太快,以至于新的、以研究为重点的初创公司无法超越和执行现有的 AI 企业。这正是我在 OpenAI 开始时经常听到的情绪(“你们几个人怎么可能与谷歌竞争?”),而且 1) 这是非常错误的,然后 2) 这在另一轮现在正在挑战 OpenAI 的初创公司中再次是非常错误的,在我看来,今天仍然是错误的。扩展和局部改进有效的东西将继续创造令人难以置信的进步,但随着如此快速解锁的巨大进展,过程中扬起了如此多的尘埃,并且前沿 LLM 和在 20 瓦特下运行的思维的魔力示例之间仍然存在很大的差距,产生接近 10 倍改进(而不是 10%)的研究突破的概率在我看来仍然感觉非常高——足够高以继续下注并寻找。 当然,棘手的部分是创造可能发现此类突破的条件。我认为这样的环境很少会聚集在一起,但 @bfspector 和 @amspector100 非常聪明,具备(罕见的)对 LLM 的全栈理解,从顶部(数学/算法)到底部(大内核/相关),他们对人才有很好的眼光,我认为他们能够构建一些非常特别的东西。祝贺你们的发布,我期待你们的成果!
Flapping Airplanes
22 小时前
宣布《拍打的飞机》! 我们从GV、红杉资本和Index筹集了1.8亿美元,以组建一个新的AI守卫:一个想象着模型能够在不摄取互联网一半内容的情况下,达到人类思维水平的世界。
77
Andrej Karpathy
1月8日 07:01
新帖子:nanochat迷你系列v1 关于LLM的正确思考方式是,你并不是在为单一特定模型进行优化,而是为由单个旋钮(你希望花费的计算量)控制的一系列模型进行优化,以实现单调更好的结果。这使你能够仔细研究扩展法则,最终这就是让你有信心在支付"大规模运行"时,外推会有效,你的钱会花得值得。对于nanochat的首次公开发布,我的重点是端到端的管道,运行整个LLM管道及其所有阶段。现在,在之前进行了一些YOLO运行后,我回过头来完善一些我匆忙处理的部分,当然首先是预训练,这在计算上是非常繁重的,也是这些模型智能和知识的基础。 在本地调整了一些超参数后,我固定了FLOPs预算,筛选出了一些模型。(对于每个FLOPs目标,你可以训练一个小模型很长时间,或者一个大模型短时间。)结果发现,nanochat遵循非常好的扩展法则,基本上再现了Chinchilla论文的图表: 这只是Chinchilla的这个图的一个小版本: 非常重要且令人鼓舞的是,N(参数)和D(标记)的指数大约相等于0.5,因此就像Chinchilla一样,我们得到了一个与模型大小和标记训练范围相关的单一(与计算无关的)常数。在Chinchilla中,这个值被测量为20。在nanochat中,这似乎是8! 一旦我们能够训练计算最优模型,我从d10到d20筛选出了一系列迷你模型,这些nanochat大小可以在8XH100节点上以2**19 ~= 0.5M的批量大小运行,而无需梯度累积。我们为每个模型大小得到了漂亮的、不相交的训练图。 然后有趣的部分是将这个迷你系列v1与GPT-2和GPT-3迷你系列关联起来,以便我们知道我们走在正确的轨道上。验证损失存在许多问题,无法进行比较,因此我使用CORE分数(来自DCLM论文)。我为GPT-2计算了它,并为GPT-3估算了它,这使我们最终能够将nanochat很好地放在同一尺度上: 这个迷你系列的总成本仅为 ~$100 (~4小时在8XH100上)。这些实验让我们有信心,一切都在相当顺利地进行,如果我们支付更多(转动旋钮),我们会得到越来越好的模型。 总结:我们可以训练计算最优的迷你系列,并通过目标CORE分数将其与GPT-2/3关联,但进一步的改进是可取且必要的。例如,匹配GPT-2目前需要 ~$500,但我认为通过更多的工作应该可以做到 <$100。 完整帖子包含更多细节在这里: 所有的调优和代码都已推送到主分支,大家可以通过 scaling_laws .sh 和 miniseries .sh bash脚本重现这些。
1.77K
Andrej Karpathy
1月7日 06:18
大多数的 ruff ruff 是那些关注当前点和关注当前斜率的人。
670
热门
排行
收藏