Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Досить дивно, як множення матриць, яке є такою простою операцією, може мати таку глибину та складність, коли ви намагаєтеся зробити його надзвичайно швидким.
Багато з найбільш помітних поліпшень в чіпах Nvidia за останні кілька поколінь спрямовані виключно на прискорення множення матриць.
Наприклад, у B200 ви маєте:
- Тензорні ядра (співпроцесори тільки для матмулів). Вони можуть робити плитку більшого розміру, ніж попередні покоління.
- Tensor пам'ять, новий кеш тільки для зберігання проміжних виходів тензорних ядер.
- Прискорювач тензорної пам'яті (TMA), апаратний (введений в H100) тільки для асинхронного переміщення пам'яті для тензорних ядер.
І тоді ви отримуєте багато складності від усього програмного забезпечення та абстракцій, які вам потрібні для ефективного оркестрування всього цього обладнання.
Найкращі
Рейтинг
Вибране

