¡El equipo de GLM ahora está usando MLA! Este es un modelo bastante loco con 30B de parámetros totales y unos 4B activos. Muy buen lanzamiento
En cuanto a estructura, tiene aproximadamente la misma profundidad que el GLM4.5 Air y el Qwen3 30B A3B, 64 en total de Expert en lugar de 128, pero solo activan 5 en vez de 9 si cuentas el Shared Expert
Presentamos GLM-4.7-Flash: Tu asistente local de codificación y agentes.
Marcando un nuevo estándar para la clase 30B, el GLM-4.7-Flash equilibra alto rendimiento con eficiencia, convirtiéndose en la opción perfecta para un despliegue ligero. Más allá de la programación, también se recomienda para escritura creativa, traducción, tareas de contexto largo y juegos de rol.
Pesos:
API:
- GLM-4.7-Flash: Gratis (1 concurrencia)
- GLM-4.7-FlashX: Alta velocidad y asequible
es una locura que esta escasa atención funcione tan bien, solo están esparciendo el 50% de las capas MLA en la base LongCat-Flash a mitad de entrenamiento y obtienen resultados similares al modelo original
La calibración consiste en seleccionar qué capas MLA se dispersan. LongCat-Flash tiene esta estructura de capas "rara" (no en el mal sentido) donde hay 2 capas de atención en una capa, no se menciona ningún tratamiento diferente para esas dos capas, así que supongo que aplican el mismo proceso a ambas. El paso de calibración es:
Salida = a_i · output_dense + (1 - a_i) · output_sparse
Y hacen descenso de gradiente en a_i (que es por capa de atención). Si a_i es alta => esta capa debe ser densa, si no, puedes esparsarla. De esta manera esparsionan el 50% de las capas (desafortunadamente no tenemos la distribución de capas dispersas). Este paso de calibración tiene un impacto enorme en la longeval
La atención escasa también es muy sencilla, es fija y no consciente del contexto como deepseek DSA/NSA o MiniCPM InfiLLMv2, es una ventana deslizante con 8 bloques de 128 tokens (tamaño de ventana 1024), los primeros 128 tokens y los últimos 896 tokens
¡Tengo curiosidad por saber si los futuros modelos de @Meituan_LongCat usarán esto en producción y si es robusto para la vida real!