热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
新帖子:nanochat迷你系列v1
关于LLM的正确思考方式是,你并不是在为单一特定模型进行优化,而是为由单个旋钮(你希望花费的计算量)控制的一系列模型进行优化,以实现单调更好的结果。这使你能够仔细研究扩展法则,最终这就是让你有信心在支付"大规模运行"时,外推会有效,你的钱会花得值得。对于nanochat的首次公开发布,我的重点是端到端的管道,运行整个LLM管道及其所有阶段。现在,在之前进行了一些YOLO运行后,我回过头来完善一些我匆忙处理的部分,当然首先是预训练,这在计算上是非常繁重的,也是这些模型智能和知识的基础。
在本地调整了一些超参数后,我固定了FLOPs预算,筛选出了一些模型。(对于每个FLOPs目标,你可以训练一个小模型很长时间,或者一个大模型短时间。)结果发现,nanochat遵循非常好的扩展法则,基本上再现了Chinchilla论文的图表:
这只是Chinchilla的这个图的一个小版本:
非常重要且令人鼓舞的是,N(参数)和D(标记)的指数大约相等于0.5,因此就像Chinchilla一样,我们得到了一个与模型大小和标记训练范围相关的单一(与计算无关的)常数。在Chinchilla中,这个值被测量为20。在nanochat中,这似乎是8!
一旦我们能够训练计算最优模型,我从d10到d20筛选出了一系列迷你模型,这些nanochat大小可以在8XH100节点上以2**19 ~= 0.5M的批量大小运行,而无需梯度累积。我们为每个模型大小得到了漂亮的、不相交的训练图。
然后有趣的部分是将这个迷你系列v1与GPT-2和GPT-3迷你系列关联起来,以便我们知道我们走在正确的轨道上。验证损失存在许多问题,无法进行比较,因此我使用CORE分数(来自DCLM论文)。我为GPT-2计算了它,并为GPT-3估算了它,这使我们最终能够将nanochat很好地放在同一尺度上:
这个迷你系列的总成本仅为 ~$100 (~4小时在8XH100上)。这些实验让我们有信心,一切都在相当顺利地进行,如果我们支付更多(转动旋钮),我们会得到越来越好的模型。
总结:我们可以训练计算最优的迷你系列,并通过目标CORE分数将其与GPT-2/3关联,但进一步的改进是可取且必要的。例如,匹配GPT-2目前需要 ~$500,但我认为通过更多的工作应该可以做到 <$100。
完整帖子包含更多细节在这里:
所有的调优和代码都已推送到主分支,大家可以通过 scaling_laws .sh 和 miniseries .sh bash脚本重现这些。




热门
排行
收藏
