Je suppose que je dois écrire un explicatif long sur l'Engram de DeepSeek. Aimez ce post si vous voulez un explicatif sur - comment les gradients se propagent vers les embeddings accessibles via des fonctions de hachage - ou ce qu'ils fusionnent en un seul FP8 MMA - ou POURQUOI DIABLE UTILISENT-ILS DES CONVOLUTIONS DANS LE TRANSFORMER