我目前顧問工作的 50% 是幫助公司大規模使用開源模型。 每個人都知道如何在自己的電腦上使用開源 LLM,但對於數千名用戶來說,這真的很難做到。 這是如何發生的: 1. 一個團隊使用 DeepSeek 建立了一個原型。 2. 一切看起來都很好。它運作正常! 3. 他們遵循在線指南將模型部署到線上。 4. 他們請 10 名用戶試用該應用。 5. 延遲在各處飆升。 6. 整個系統停止運作。 7. 他們指責 DeepSeek,並嘗試使用新模型再次進行。 問題總是出在推理的擴展上,而不是模型本身。 這是我給公司的建議之一: 如果你不想再考慮部署開源模型,請查看 Nebius Token Factory。 這是一個管理推理平台,用於大規模部署開源 LLM。 這不是用於原型或研究實驗。這是當你有一個真正的應用程序和真正的用戶時使用的。 關於 Token Factory 的三個重要說明: • 你可以完全控制推理的運行方式。 • 你有可預測的尾部延遲(P99,而不是平均值)。 • 當你擴展時沒有意外成本。你可以提前計劃你的預算。 ...