🚀 Mở rộng embeddings, không chỉ là các chuyên gia—giới thiệu một con đường mới cho các LLM hiệu quả. Phát hiện chính: Trong các tình huống có độ thưa cao, embeddings N-gram mang lại một biên giới Pareto tốt hơn so với việc chỉ thêm nhiều chuyên gia MoE. Do đó, chúng tôi giới thiệu LongCat-Flash-Lite—mô hình mã nguồn mở đầu tiên được xây dựng dựa trên hiểu biết này. ⚙️ 68.5B Tổng số tham số (37.13B không phải embedding) | 2.9B~4.5B Hoạt động 📊 Hiệu suất cao: SWE-Bench 54.4 | τ²-Bench 72.8 | TerminalBench 33.75 📃 Cửa sổ ngữ cảnh 256K (được hỗ trợ bởi YARN) ✨ Tối ưu hóa cho Agentic/Coding, mạnh mẽ trong lý luận tổng quát ⚡ ~700 tokens/s tốc độ suy diễn đỉnh Kết quả: Đạt được hiệu suất cạnh tranh trong quy mô của nó với chi phí và độ trễ thấp hơn đáng kể. Hugging Face: Báo cáo công nghệ: