DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Es bastante sorprendente cómo la multiplicación de matrices, que es una operación tan simple, puede tener tanta profundidad y complejidad cuando intentas hacerla extremadamente rápida. Muchas de las mejoras más notables en los chips de Nvidia en las últimas generaciones son puramente para acelerar la multiplicación de matrices. Por ejemplo, en el B200 tienes: - Núcleos tensoriales (los coprocesadores solo para matmuls). Pueden manejar bloques más grandes que las generaciones anteriores. - Memoria tensorial, una nueva caché solo para almacenar salidas intermedias de los núcleos tensoriales. - Acelerador de memoria tensorial (TMA), hardware (introducido en H100) solo para mover memoria de manera asíncrona para los núcleos tensoriales. Y luego obtienes mucha complejidad de todo el software y las abstracciones que necesitas para orquestar todo ese hardware de manera eficiente.

Parte superior

Clasificación

Favoritos