🚀 擴展嵌入,而不僅僅是專家——為高效的 LLMs 引入一條新路徑。 關鍵發現:在高稀疏場景中,N-gram 嵌入比僅僅增加更多 MoE 專家產生更好的 Pareto 邊界。 因此,我們推出 LongCat-Flash-Lite——基於這一見解構建的第一個開源模型。 ⚙️ 68.5B 總參數(37.13B 非嵌入)| 2.9B~4.5B 活躍 📊 高性能:SWE-Bench 54.4 | τ²-Bench 72.8 | TerminalBench 33.75 📃 256K 上下文窗口(YARN 驅動) ✨ 優化於 Agentic/Coding,通用推理能力強 ⚡ ~700 tokens/s 峰值推理速度 結果:在其規模內實現具有競爭力的性能,成本和延遲顯著降低。 Hugging Face: 技術報告: