热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
嵌入参数再次火热,来自 LongCat Flash 的惊人论文,与 DeepSeek 的 Engram 同时发布!
与 Engram 的区别:
-> 没有每层嵌入(他们尝试过每层嵌入(PLE),但没有真正的收益)
-> 使用简单的平均融合,而不是 Engram 的动态上下文感知门控
-> 仅在输入层进行嵌入(与 Engram 的更深层注入相比)
与 Engram 相同:
-> 多个哈希子表以减少冲突
-> MoE 与 N-gram 分配的 U 形缩放法则相似
-> 仅在高稀疏性下有利(当 MoE 达到收益递减时)
其他关键发现:
-> 更宽的模型受益更多;更深的模型收益递减
-> 必须放大嵌入输出(√D 或 LayerNorm),以防止被第一个注意力层淹没
-> 词汇大小必须避免基词汇的整数倍(冲突峰值)
-> ≤50% 的参数用于嵌入,否则纯 MoE 胜出
-> 与推测解码有良好的协同效应

热门
排行
收藏
