我們將我們的 @LiquidAI_ LFM2-350M 模型訓練到了 "計算最優" 的 1400 倍 > Chinchilla 擴展法則:每個參數約 20 個標記 > LFM2-350M:每個參數約 28,000 個標記(多 1400 倍) 為什麼? 因為 Chinchilla 只關注訓練計算,而我們關心的是推理成本