Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
É bastante impressionante como a multiplicação de matrizes, que é uma operação tão simples, pode ter tanta profundidade e complexidade quando você tenta torná-la extremamente rápida.
Muitas das melhorias mais notáveis nos chips da Nvidia ao longo das últimas gerações são puramente para acelerar a multiplicação de matrizes.
Por exemplo, no B200 você tem:
- Núcleos Tensor (os coprocessadores apenas para matmuls). Eles podem fazer blocos maiores do que as gerações anteriores.
- Memória Tensor, um novo cache apenas para armazenar saídas intermediárias dos núcleos Tensor.
- Acelerador de Memória Tensor (TMA), hardware (introduzido no H100) apenas para mover memória de forma assíncrona para os núcleos Tensor.
E então você obtém muita complexidade de todo o software e abstrações que você precisa para orquestrar todo esse hardware de forma eficiente.
Top
Classificação
Favoritos

