🚀 Escalando embeddings, não apenas especialistas—introduzindo um novo caminho para LLMs eficientes. Descoberta Principal: Em cenários de alta esparsidade, embeddings N-gram oferecem uma melhor fronteira de Pareto do que apenas adicionar mais especialistas MoE. Portanto, apresentamos o LongCat-Flash-Lite—o primeiro modelo opensource construído com base nesta percepção. ⚙️ 68.5B Total de Parâmetros (37.13B não-embedding) | 2.9B~4.5B Ativos 📊 Alto Desempenho: SWE-Bench 54.4 | τ²-Bench 72.8 | TerminalBench 33.75 📃 Janela de Contexto de 256K (potenciado por YARN) ✨ Otimizado para Agente/Codificação, forte em raciocínio geral ⚡ ~700 tokens/s de velocidade de inferência máxima O resultado: Alcança desempenho competitivo dentro de sua escala a um custo e latência significativamente mais baixos. Hugging Face: Relatório Técnico: