嵌入参数再次火热,来自 LongCat Flash 的惊人论文,与 DeepSeek 的 Engram 同时发布! 与 Engram 的区别: -> 没有每层嵌入(他们尝试过每层嵌入(PLE),但没有真正的收益) -> 使用简单的平均融合,而不是 Engram 的动态上下文感知门控 -> 仅在输入层进行嵌入(与 Engram 的更深层注入相比) 与 Engram 相同: -> 多个哈希子表以减少冲突 -> MoE 与 N-gram 分配的 U 形缩放法则相似 -> 仅在高稀疏性下有利(当 MoE 达到收益递减时) 其他关键发现: -> 更宽的模型受益更多;更深的模型收益递减 -> 必须放大嵌入输出(√D 或 LayerNorm),以防止被第一个注意力层淹没 -> 词汇大小必须避免基词汇的整数倍(冲突峰值) -> ≤50% 的参数用于嵌入,否则纯 MoE 胜出 -> 与推测解码有良好的协同效应