Досить дивно, як множення матриць, яке є такою простою операцією, може мати таку глибину та складність, коли ви намагаєтеся зробити його надзвичайно швидким. Багато з найбільш помітних поліпшень в чіпах Nvidia за останні кілька поколінь спрямовані виключно на прискорення множення матриць. Наприклад, у B200 ви маєте: - Тензорні ядра (співпроцесори тільки для матмулів). Вони можуть робити плитку більшого розміру, ніж попередні покоління. - Tensor пам'ять, новий кеш тільки для зберігання проміжних виходів тензорних ядер. - Прискорювач тензорної пам'яті (TMA), апаратний (введений в H100) тільки для асинхронного переміщення пам'яті для тензорних ядер. І тоді ви отримуєте багато складності від усього програмного забезпечення та абстракцій, які вам потрібні для ефективного оркестрування всього цього обладнання.