15T的預算與kimi k2的初始預訓練相同,據我所知,這是第一次有團隊公開使用先前的檢查點來構建更強大的模型。 我們將會看到越來越多的這種「中途訓練」干預來改變架構、模態、更好的長上下文、更好的代理數據…… 這非常令人興奮,並使其他公司能夠參加競賽(cursor?),這要歸功於像kimi(以及其他像deepseek、美團、在等)這樣的提供者釋放基礎模型。