GLM团队现在正在使用MLA!!这是一个非常疯狂的模型,总参数为30B,活跃参数约为4B。发布得非常不错。 在结构方面,它的深度大致与glm4.5 air和qwen3 30B A3B相同,总专家数量为64,而不是128,但他们只激活5个,而不是9个(如果你计算共享专家的话)。