¡El equipo de GLM ahora está utilizando MLA! ¡Este es un modelo bastante increíble con 30B de parámetros totales y alrededor de 4B activos! Muy buen lanzamiento En términos de estructura, tiene aproximadamente la misma profundidad que glm4.5 air y qwen3 30B A3B, 64 expertos totales en lugar de 128, pero solo activan 5 en lugar de 9 si cuentas el experto compartido.