Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Es bastante salvaje cómo la multiplicación de matrices, que es una operación tan simple, puede tener tanta profundidad y complejidad cuando intentas hacerla extremadamente rápida.
Muchas de las mejoras más notables en los chips de Nvidia en las últimas generaciones son puramente para acelerar la multiplicación de matrices.
Por ejemplo, en el B200 tienes:
- Núcleos tensoriales (los coprocesadores solo para matmuls). Pueden hacer baldosas más grandes que las generaciones anteriores.
- Memoria tensorial, una nueva caché solo para almacenar salidas intermedias de núcleos tensoriales.
- Tensor memory accelerator (TMA), hardware (introducido en H100) solo para mover memoria de forma asíncrona para tensoriales.
Y luego obtienes mucha complejidad de todo el software y las abstracciones que necesitas para orquestar todo ese hardware de manera eficiente.
Populares
Ranking
Favoritas

