É bastante impressionante como a multiplicação de matrizes, que é uma operação tão simples, pode ter tanta profundidade e complexidade quando você tenta torná-la extremamente rápida. Muitas das melhorias mais notáveis nos chips da Nvidia ao longo das últimas gerações são puramente para acelerar a multiplicação de matrizes. Por exemplo, no B200 você tem: - Núcleos Tensor (os coprocessadores apenas para matmuls). Eles podem fazer blocos maiores do que as gerações anteriores. - Memória Tensor, um novo cache apenas para armazenar saídas intermediárias dos núcleos Tensor. - Acelerador de Memória Tensor (TMA), hardware (introduzido no H100) apenas para mover memória de forma assíncrona para os núcleos Tensor. E então você obtém muita complexidade de todo o software e abstrações que você precisa para orquestrar todo esse hardware de forma eficiente.