一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

#

Bonk 生态迷因币展现强韧势头

#

有消息称 Pump.fun 计划 40 亿估值发币，引发市场猜测

LAUNCHCOIN-14.11%

#

Solana 新代币发射平台 Boop.Fun 风头正劲

header

elie

elie

elie2026年1月30日

新的 Alec Radford 论文 😮

36

elie

elie2026年1月29日

嵌入参数再次火热，来自 LongCat Flash 的惊人论文，与 DeepSeek 的 Engram 同时发布！与 Engram 的区别： -> 没有每层嵌入（他们尝试过每层嵌入（PLE），但没有真正的收益） -> 使用简单的平均融合，而不是 Engram 的动态上下文感知门控 -> 仅在输入层进行嵌入（与 Engram 的更深层注入相比）与 Engram 相同： -> 多个哈希子表以减少冲突 -> MoE 与 N-gram 分配的 U 形缩放法则相似 -> 仅在高稀疏性下有利（当 MoE 达到收益递减时）其他关键发现： -> 更宽的模型受益更多；更深的模型收益递减 -> 必须放大嵌入输出（√D 或 LayerNorm），以防止被第一个注意力层淹没 -> 词汇大小必须避免基词汇的整数倍（冲突峰值） -> ≤50% 的参数用于嵌入，否则纯 MoE 胜出 -> 与推测解码有良好的协同效应

Meituan LongCat

Meituan LongCat2026年1月29日

🚀 扩展嵌入，而不仅仅是专家——为高效的LLM引入一条新路径。关键发现：在高稀疏场景中，N-gram嵌入比仅仅增加更多MoE专家产生更好的帕累托前沿。因此，我们推出了LongCat-Flash-Lite——第一个基于这一见解的开源模型。 ⚙️ 68.5B 总参数（37.13B 非嵌入）| 2.9B~4.5B 活跃 📊 高性能：SWE-Bench 54.4 | τ²-Bench 72.8 | TerminalBench 33.75 📃 256K 上下文窗口（YARN驱动） ✨ 针对Agentic/Coding进行了优化，在一般推理方面表现强劲 ⚡ ~700 tokens/s 峰值推理速度结果：在其规模内以显著更低的成本和延迟实现竞争性能。 Hugging Face：技术报告：

27

elie

elie2026年1月27日

15T的预算与kimi k2的初始预训练相同，据我所知，这是团队首次公开使用之前的检查点来构建更强大的模型。我们将会看到越来越多的这种“中期训练”干预，以改变架构、模态、改善长上下文、提升代理数据…… 这非常令人兴奋，并使其他公司能够加入竞争（光标？），感谢像kimi（以及其他如deepseek、美团、在等）这样的提供商发布基础模型。

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)2026年1月27日

> 通过对大约15万亿个混合视觉和文本标记的持续预训练构建而成，基于Kimi-K2-Base …本质上是一个全新的模型，具有新的能力。30T标记 @ Muon。 «Kimi K2.5代表了开源社区向AGI迈出的重要一步» 哇，好的

37

热门

排行

收藏

©2017 - 2026 WEB3.OKX.COM

简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska Türkçe

关于 OKX Wallet

下载学院关于我们就业机会联系我们服务条款隐私政策 X (原推特)

产品

行情币币兑换市场赚币发现开发者中心浏览器安全

用户支持

帮助中心官方渠道验证公告 DEX 费率标准加入社群比特币钱包以太坊钱包 Solana 钱包