我们将我们的 @LiquidAI_ LFM2-350M 模型训练到了 "计算最优" 的 1400 倍 > Chinchilla 扩展法则:每个参数约 20 个标记 > LFM2-350M:每个参数约 28,000 个标记(多 1400 倍) 为什么? 因为 Chinchilla 只关注训练计算,而我们关心的是推理成本