On aika hurjaa, kuinka matriisikertolaskulla, joka on niin yksinkertainen operaatio, voi olla niin paljon syvyyttä ja monimutkaisuutta, kun yrität tehdä siitä erittäin nopean. Monet Nvidian sirujen merkittävimmistä parannuksista viimeisten sukupolvien aikana ovat puhtaasti matriisin kertolaskun nopeuttamista. Esimerkiksi B200:ssa sinulla on: - Tensoritytimet (apuprosessorit vain matmuleille). He osaavat tehdä suurempia laattoja kuin aiemmat sukupolvet. - Tensorimuisti, uusi välimuisti vain tensoriytimien välilähtöjen tallentamiseen. - Tensor-muistikiihdytin (TMA), laitteisto (esitelty H100:ssa) vain muistin siirtämiseen asynkronisesti tensoriytimille. Ja sitten saat paljon monimutkaisuutta kaikista ohjelmistoista ja abstraktioista, joita tarvitset kaiken laitteiston tehokkaaseen orkestrointiin.