es una locura que esta escasa atención funcione tan bien, solo están esparciendo el 50% de las capas MLA en la base LongCat-Flash a mitad de entrenamiento y obtienen resultados similares al modelo original
La calibración consiste en seleccionar qué capas MLA se dispersan. LongCat-Flash tiene esta estructura de capas "rara" (no en el mal sentido) donde hay 2 capas de atención en una capa, no se menciona ningún tratamiento diferente para esas dos capas, así que supongo que aplican el mismo proceso a ambas. El paso de calibración es:
Salida = a_i · output_dense + (1 - a_i) · output_sparse
Y hacen descenso de gradiente en a_i (que es por capa de atención). Si a_i es alta => esta capa debe ser densa, si no, puedes esparsarla. De esta manera esparsionan el 50% de las capas (desafortunadamente no tenemos la distribución de capas dispersas). Este paso de calibración tiene un impacto enorme en la longeval
La atención escasa también es muy sencilla, es fija y no consciente del contexto como deepseek DSA/NSA o MiniCPM InfiLLMv2, es una ventana deslizante con 8 bloques de 128 tokens (tamaño de ventana 1024), los primeros 128 tokens y los últimos 896 tokens
¡Tengo curiosidad por saber si los futuros modelos de @Meituan_LongCat usarán esto en producción y si es robusto para la vida real!
La mayoría de los datos web en lenguajes (muy) de pocos recursos son la Biblia y Wikipedia. ¿El resto? @huggingface equipo de datos ejecutó Gemma3 27B durante 3 meses para traducirlo al inglés, mejorar los modelos de traducción y traer contexto cultural de 500+ comunidades lingüísticas a datos de entrenamiento en inglés. Aquí está la cartera completa
Estamos lanzando un conjunto de datos sintético a gran escala: 💬FineTranslations.
Tomamos 🥂 FineWeb2, nuestro conjunto de datos multilingüe previo al entrenamiento, y lo tradujimos al inglés usando Gemma3 27B.
El resultado es un enorme corpus paralelo, ¡con más de 1 billón de tokens!