跳轉至主要內容
行情
掃鏈
追蹤
信號
跟單
兌換
資產
邀請計劃
更多
產品
DeFi
市場
安全中心
開發者中心
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
X Campaign
參與活動,贏取豐厚獎勵
獎勵中心
領取獎勵和空投
預警
語言
貨幣
顏色設置
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
學院
幫助中心
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
-12.1%
USELESS
-20.17%
IKUN
-10.9%
gib
-13.99%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
-10.37%
ALON
-4.38%
LAUNCHCOIN
-12.83%
GOONC
-9.69%
KLED
-0.16%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
+0.85%
Boopa
-11.92%
PORK
0.00%
主頁
elie
elie
2026年1月30日
新的 Alec Radford 論文 😮
34
elie
2026年1月29日
嵌入參數再次受到熱議,來自 LongCat Flash 的驚人論文,與 DeepSeek 的 Engram 同時發表! 與 Engram 的差異: -> 沒有每層嵌入(他們嘗試過每層嵌入(PLE),但沒有實際增益) -> 簡單的平均融合,而不是 Engram 的動態上下文感知閘控 -> 僅在輸入層進行嵌入(與 Engram 的更深層注入相比) 與 Engram 相同: -> 多個哈希子表以減少碰撞 -> MoE 與 N-gram 分配的 U 形縮放法則相似 -> 只有在高稀疏性下才有益(當 MoE 遇到收益遞減時) 其他關鍵發現: -> 更寬的模型受益更多;更深的模型則會看到收益遞減 -> 必須放大嵌入輸出(√D 或 LayerNorm),以防止被第一個注意力層淹沒 -> 詞彙大小必須避免基礎詞彙的整數倍數(碰撞峰值) -> 嵌入的參數必須 ≤50%,否則純 MoE 獲勝 -> 與推測解碼有良好的協同效應
Meituan LongCat
2026年1月29日
🚀 擴展嵌入,而不僅僅是專家——為高效的 LLMs 引入一條新路徑。 關鍵發現:在高稀疏場景中,N-gram 嵌入比僅僅增加更多 MoE 專家產生更好的 Pareto 邊界。 因此,我們推出 LongCat-Flash-Lite——基於這一見解構建的第一個開源模型。 ⚙️ 68.5B 總參數(37.13B 非嵌入)| 2.9B~4.5B 活躍 📊 高性能:SWE-Bench 54.4 | τ²-Bench 72.8 | TerminalBench 33.75 📃 256K 上下文窗口(YARN 驅動) ✨ 優化於 Agentic/Coding,通用推理能力強 ⚡ ~700 tokens/s 峰值推理速度 結果:在其規模內實現具有競爭力的性能,成本和延遲顯著降低。 Hugging Face: 技術報告:
25
elie
2026年1月27日
15T的預算與kimi k2的初始預訓練相同,據我所知,這是第一次有團隊公開使用先前的檢查點來構建更強大的模型。 我們將會看到越來越多的這種「中途訓練」干預來改變架構、模態、更好的長上下文、更好的代理數據…… 這非常令人興奮,並使其他公司能夠參加競賽(cursor?),這要歸功於像kimi(以及其他像deepseek、美團、在等)這樣的提供者釋放基礎模型。
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
2026年1月27日
> 透過對約 15 兆混合視覺和文本標記的持續預訓練而建立於 Kimi-K2-Base 上 …這基本上是一個全新的模型,擁有新的能力。30T 標記 @ Muon。 «Kimi K2.5 代表了開源社區邁向 AGI 的重要一步» 哇,好吧
35
熱門
排行
收藏