我想我得写一篇关于DeepSeek的Engram的长篇解释。 如果你想要一个解释,给这条帖子点赞 - 关于梯度如何通过哈希函数流向嵌入 - 或者它们如何融合成一个单一的FP8 MMA - 或者为什么他们在变换器中使用卷积