🚀 Élargir les embeddings, pas seulement les experts—introduisant un nouveau chemin pour des LLMs efficaces. Découverte clé : Dans des scénarios de haute sparsité, les embeddings N-gram offrent une meilleure frontière de Pareto que d'ajouter simplement plus d'experts MoE. Par conséquent, nous introduisons LongCat-Flash-Lite—le premier modèle open source construit sur cette idée. ⚙️ 68,5B Total Params (37,13B non-embedding) | 2,9B~4,5B Actifs 📊 Haute Performance : SWE-Bench 54,4 | τ²-Bench 72,8 | TerminalBench 33,75 📃 256K Fenêtre de Contexte (alimenté par YARN) ✨ Optimisé pour l'Agentic/Codage, fort en raisonnement général ⚡ ~700 tokens/s vitesse d'inférence de pointe Le résultat : Atteint une performance compétitive dans son échelle à un coût et une latence significativement inférieurs. Hugging Face : Rapport Technique :