我目前咨询工作的50%是帮助公司大规模使用开源模型。 每个人都知道如何在自己的电脑上使用开源LLM,但要为数千个用户大规模做到这一点真的很难。 事情是这样发展的: 1. 一个团队使用DeepSeek构建原型。 2. 一切看起来不错。它工作正常! 3. 他们按照在线指南将模型部署到网上。 4. 他们请10个用户试用这个应用。 5. 延迟到处飙升。 6. 整个系统停止运行。 7. 他们指责DeepSeek,并尝试使用新模型再来一次。 问题总是在于推理的扩展,而不是模型本身。 这是我给公司的一个建议: 如果你不想再考虑部署开源模型,请查看Nebius Token Factory。 这是一个用于大规模部署开源LLM的托管推理平台。 这不是用于原型或研究实验的。这是针对你有真实应用和真实用户的情况。 关于Token Factory的三个重要说明: • 你可以完全控制推理的运行方式。 • 你有可预测的尾部延迟(P99,而不是平均值)。 • 当你扩展时没有意外费用。你可以提前规划你的预算。 ...