一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Andrej Karpathy

建筑@EurekaLabsAI。曾任人工智能总监@特斯拉，创始团队@OpenAI，CS231n/博士@斯坦福大学。我喜欢训练大型深度神经网络。

新帖子：nanochat迷你系列v1 关于LLM的正确思考方式是，你并不是在为单一特定模型进行优化，而是为由单个旋钮（你希望花费的计算量）控制的一系列模型进行优化，以实现单调更好的结果。这使你能够仔细研究扩展法则，最终这就是让你有信心在支付"大规模运行"时，外推会有效，你的钱会花得值得。对于nanochat的首次公开发布，我的重点是端到端的管道，运行整个LLM管道及其所有阶段。现在，在之前进行了一些YOLO运行后，我回过头来完善一些我匆忙处理的部分，当然首先是预训练，这在计算上是非常繁重的，也是这些模型智能和知识的基础。在本地调整了一些超参数后，我固定了FLOPs预算，筛选出了一些模型。（对于每个FLOPs目标，你可以训练一个小模型很长时间，或者一个大模型短时间。）结果发现，nanochat遵循非常好的扩展法则，基本上再现了Chinchilla论文的图表：这只是Chinchilla的这个图的一个小版本：非常重要且令人鼓舞的是，N（参数）和D（标记）的指数大约相等于0.5，因此就像Chinchilla一样，我们得到了一个与模型大小和标记训练范围相关的单一（与计算无关的）常数。在Chinchilla中，这个值被测量为20。在nanochat中，这似乎是8！一旦我们能够训练计算最优模型，我从d10到d20筛选出了一系列迷你模型，这些nanochat大小可以在8XH100节点上以2**19 ~= 0.5M的批量大小运行，而无需梯度累积。我们为每个模型大小得到了漂亮的、不相交的训练图。然后有趣的部分是将这个迷你系列v1与GPT-2和GPT-3迷你系列关联起来，以便我们知道我们走在正确的轨道上。验证损失存在许多问题，无法进行比较，因此我使用CORE分数（来自DCLM论文）。我为GPT-2计算了它，并为GPT-3估算了它，这使我们最终能够将nanochat很好地放在同一尺度上：这个迷你系列的总成本仅为 ~$100 (~4小时在8XH100上)。这些实验让我们有信心，一切都在相当顺利地进行，如果我们支付更多（转动旋钮），我们会得到越来越好的模型。总结：我们可以训练计算最优的迷你系列，并通过目标CORE分数将其与GPT-2/3关联，但进一步的改进是可取且必要的。例如，匹配GPT-2目前需要 ~$500，但我认为通过更多的工作应该可以做到 <$100。完整帖子包含更多细节在这里：所有的调优和代码都已推送到主分支，大家可以通过 scaling_laws .sh 和 miniseries .sh bash脚本重现这些。