15T的预算与kimi k2的初始预训练相同,据我所知,这是团队首次公开使用之前的检查点来构建更强大的模型。 我们将会看到越来越多的这种“中期训练”干预,以改变架构、模态、改善长上下文、提升代理数据…… 这非常令人兴奋,并使其他公司能够加入竞争(光标?),感谢像kimi(以及其他如deepseek、美团、在等)这样的提供商发布基础模型。