一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

15T的预算与kimi k2的初始预训练相同，据我所知，这是团队首次公开使用之前的检查点来构建更强大的模型。我们将会看到越来越多的这种“中期训练”干预，以改变架构、模态、改善长上下文、提升代理数据…… 这非常令人兴奋，并使其他公司能够加入竞争（光标？），感谢像kimi（以及其他如deepseek、美团、在等）这样的提供商发布基础模型。