分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

非常に単純な操作である行列の乗算が、非常に高速にしようとすると、これほど深みと複雑さを持つ可能性があるのは、かなりワイルドです。過去数世代にわたる Nvidia のチップの最も注目すべき改善の多くは、純粋に行列の乗算を高速化するためです。たとえば、B200 には次のものがあります。 - テンソルコア(マットル専用のコプロセッサ)。彼らは前世代よりも大きなタイルを作ることができます。 - テンソルメモリ、テンソルコアの中間出力を格納するためだけの新しいキャッシュ。 - テンソルメモリアクセラレータ(TMA)、テンソルコアのメモリを非同期に移動するためのハードウェア(H100で導入)。そして、すべてのハードウェアを効率的にオーケストレーションするために必要なすべてのソフトウェアと抽象化から、非常に複雑になります。

トップ

ランキング

お気に入り