Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Es bastante salvaje cómo la multiplicación de matrices, que es una operación tan simple, puede tener tanta profundidad y complejidad cuando intentas hacerla extremadamente rápida. Muchas de las mejoras más notables en los chips de Nvidia en las últimas generaciones son puramente para acelerar la multiplicación de matrices. Por ejemplo, en el B200 tienes: - Núcleos tensoriales (los coprocesadores solo para matmuls). Pueden hacer baldosas más grandes que las generaciones anteriores. - Memoria tensorial, una nueva caché solo para almacenar salidas intermedias de núcleos tensoriales. - Tensor memory accelerator (TMA), hardware (introducido en H100) solo para mover memoria de forma asíncrona para tensoriales. Y luego obtienes mucha complejidad de todo el software y las abstracciones que necesitas para orquestar todo ese hardware de manera eficiente.

Populares

Ranking

Favoritas