非常に単純な操作である行列の乗算が、非常に高速にしようとすると、これほど深みと複雑さを持つ可能性があるのは、かなりワイルドです。 過去数世代にわたる Nvidia のチップの最も注目すべき改善の多くは、純粋に行列の乗算を高速化するためです。 たとえば、B200 には次のものがあります。 - テンソルコア(マットル専用のコプロセッサ)。彼らは前世代よりも大きなタイルを作ることができます。 - テンソルメモリ、テンソルコアの中間出力を格納するためだけの新しいキャッシュ。 - テンソルメモリアクセラレータ(TMA)、テンソルコアのメモリを非同期に移動するためのハードウェア(H100で導入)。 そして、すべてのハードウェアを効率的にオーケストレーションするために必要なすべてのソフトウェアと抽象化から、非常に複雑になります。