跳转至主要内容
行情
扫链
追踪
信号
跟单
兑换
资产
邀请计划
更多
产品
DeFi
市场
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
-9.17%
USELESS
-17.84%
IKUN
-2.73%
gib
-19.34%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-9.21%
ALON
-10.91%
LAUNCHCOIN
-2.4%
GOONC
+0.25%
KLED
-16.75%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
+0.94%
Boopa
-8.47%
PORK
0.00%
主页
elie
elie
2026年1月30日
新的 Alec Radford 论文 😮
25
elie
2026年1月29日
嵌入参数再次火热,来自 LongCat Flash 的惊人论文,与 DeepSeek 的 Engram 同时发布! 与 Engram 的区别: -> 没有每层嵌入(他们尝试过每层嵌入(PLE),但没有真正的收益) -> 使用简单的平均融合,而不是 Engram 的动态上下文感知门控 -> 仅在输入层进行嵌入(与 Engram 的更深层注入相比) 与 Engram 相同: -> 多个哈希子表以减少冲突 -> MoE 与 N-gram 分配的 U 形缩放法则相似 -> 仅在高稀疏性下有利(当 MoE 达到收益递减时) 其他关键发现: -> 更宽的模型受益更多;更深的模型收益递减 -> 必须放大嵌入输出(√D 或 LayerNorm),以防止被第一个注意力层淹没 -> 词汇大小必须避免基词汇的整数倍(冲突峰值) -> ≤50% 的参数用于嵌入,否则纯 MoE 胜出 -> 与推测解码有良好的协同效应
Meituan LongCat
2026年1月29日
🚀 扩展嵌入,而不仅仅是专家——为高效的LLM引入一条新路径。 关键发现:在高稀疏场景中,N-gram嵌入比仅仅增加更多MoE专家产生更好的帕累托前沿。 因此,我们推出了LongCat-Flash-Lite——第一个基于这一见解的开源模型。 ⚙️ 68.5B 总参数(37.13B 非嵌入)| 2.9B~4.5B 活跃 📊 高性能:SWE-Bench 54.4 | τ²-Bench 72.8 | TerminalBench 33.75 📃 256K 上下文窗口(YARN驱动) ✨ 针对Agentic/Coding进行了优化,在一般推理方面表现强劲 ⚡ ~700 tokens/s 峰值推理速度 结果:在其规模内以显著更低的成本和延迟实现竞争性能。 Hugging Face: 技术报告:
20
elie
2026年1月27日
15T的预算与kimi k2的初始预训练相同,据我所知,这是团队首次公开使用之前的检查点来构建更强大的模型。 我们将会看到越来越多的这种“中期训练”干预,以改变架构、模态、改善长上下文、提升代理数据…… 这非常令人兴奋,并使其他公司能够加入竞争(光标?),感谢像kimi(以及其他如deepseek、美团、在等)这样的提供商发布基础模型。
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
2026年1月27日
> 通过对大约15万亿个混合视觉和文本标记的持续预训练构建而成,基于Kimi-K2-Base …本质上是一个全新的模型,具有新的能力。30T标记 @ Muon。 «Kimi K2.5代表了开源社区向AGI迈出的重要一步» 哇,好的
30
热门
排行
收藏