嵌入參數再次受到熱議,來自 LongCat Flash 的驚人論文,與 DeepSeek 的 Engram 同時發表! 與 Engram 的差異: -> 沒有每層嵌入(他們嘗試過每層嵌入(PLE),但沒有實際增益) -> 簡單的平均融合,而不是 Engram 的動態上下文感知閘控 -> 僅在輸入層進行嵌入(與 Engram 的更深層注入相比) 與 Engram 相同: -> 多個哈希子表以減少碰撞 -> MoE 與 N-gram 分配的 U 形縮放法則相似 -> 只有在高稀疏性下才有益(當 MoE 遇到收益遞減時) 其他關鍵發現: -> 更寬的模型受益更多;更深的模型則會看到收益遞減 -> 必須放大嵌入輸出(√D 或 LayerNorm),以防止被第一個注意力層淹沒 -> 詞彙大小必須避免基礎詞彙的整數倍數(碰撞峰值) -> 嵌入的參數必須 ≤50%,否則純 MoE 獲勝 -> 與推測解碼有良好的協同效應