熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
嵌入參數再次受到熱議,來自 LongCat Flash 的驚人論文,與 DeepSeek 的 Engram 同時發表!
與 Engram 的差異:
-> 沒有每層嵌入(他們嘗試過每層嵌入(PLE),但沒有實際增益)
-> 簡單的平均融合,而不是 Engram 的動態上下文感知閘控
-> 僅在輸入層進行嵌入(與 Engram 的更深層注入相比)
與 Engram 相同:
-> 多個哈希子表以減少碰撞
-> MoE 與 N-gram 分配的 U 形縮放法則相似
-> 只有在高稀疏性下才有益(當 MoE 遇到收益遞減時)
其他關鍵發現:
-> 更寬的模型受益更多;更深的模型則會看到收益遞減
-> 必須放大嵌入輸出(√D 或 LayerNorm),以防止被第一個注意力層淹沒
-> 詞彙大小必須避免基礎詞彙的整數倍數(碰撞峰值)
-> 嵌入的參數必須 ≤50%,否則純 MoE 獲勝
-> 與推測解碼有良好的協同效應

熱門
排行
收藏
