È piuttosto incredibile come la moltiplicazione di matrici, che è un'operazione così semplice, possa avere così tanta profondità e complessità quando cerchi di renderla estremamente veloce. Miglioramenti notevoli nei chip Nvidia negli ultimi anni sono stati puramente per accelerare la moltiplicazione di matrici. Ad esempio, nel B200 hai: - Core Tensor (i co-processori solo per le moltiplicazioni di matrici). Possono gestire tile più grandi rispetto alle generazioni precedenti. - Memoria Tensor, una nuova cache solo per memorizzare gli output intermedi dei core Tensor. - Acceleratore di memoria Tensor (TMA), hardware (introdotto nell'H100) solo per spostare la memoria in modo asincrono per i core Tensor. E poi ottieni molta complessità da tutto il software e le astrazioni necessarie per orchestrare tutto quell'hardware in modo efficiente.