Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Es bastante sorprendente cómo la multiplicación de matrices, que es una operación tan simple, puede tener tanta profundidad y complejidad cuando intentas hacerla extremadamente rápida.
Muchas de las mejoras más notables en los chips de Nvidia en las últimas generaciones son puramente para acelerar la multiplicación de matrices.
Por ejemplo, en el B200 tienes:
- Núcleos tensoriales (los coprocesadores solo para matmuls). Pueden manejar bloques más grandes que las generaciones anteriores.
- Memoria tensorial, una nueva caché solo para almacenar salidas intermedias de los núcleos tensoriales.
- Acelerador de memoria tensorial (TMA), hardware (introducido en H100) solo para mover memoria de manera asíncrona para los núcleos tensoriales.
Y luego obtienes mucha complejidad de todo el software y las abstracciones que necesitas para orquestar todo ese hardware de manera eficiente.
Parte superior
Clasificación
Favoritos

