Je to docela divoké, jak násobení matic, což je tak jednoduchá operace, může mít takovou hloubku a složitost, když se ji snažíte udělat extrémně rychlou.
Mnohá z nejpozoruhodnějších vylepšení čipů Nvidia za posledních několik generací mají čistě urychlit násobení matic.
Například v B200 máte:
- Tensor jádra (koprocesory jen pro matmuly). Umí dělat větší dlaždice než předchozí generace.
- Tenzorová paměť, nová cache pouze pro ukládání mezilehlých výstupů tenzorových jader.
- Tensor paměťový akcelerátor (TMA), hardware (představený v H100) pouze pro asynchronní přesun paměti pro tenzorová jádra.
A pak získáte spoustu složitosti ze všeho toho softwaru a abstrakcí, které potřebujete k efektivní orchestraci veškerého toho hardwaru.