一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

15T的預算與kimi k2的初始預訓練相同，據我所知，這是第一次有團隊公開使用先前的檢查點來構建更強大的模型。我們將會看到越來越多的這種「中途訓練」干預來改變架構、模態、更好的長上下文、更好的代理數據…… 這非常令人興奮，並使其他公司能夠參加競賽（cursor？），這要歸功於像kimi（以及其他像deepseek、美團、在等）這樣的提供者釋放基礎模型。