矩阵乘法是如此简单的操作,但当你试图让它变得极快时,却可以有如此深度和复杂性,真是令人惊讶。 在过去几代中,Nvidia芯片上最显著的改进纯粹是为了加速矩阵乘法。 例如,在B200中,你有: - 张量核心(专门用于矩阵乘法的协处理器)。它们可以处理比以前更大的块。 - 张量内存,一个新的缓存,仅用于存储张量核心的中间输出。 - 张量内存加速器(TMA),硬件(在H100中引入)专门用于异步移动张量核心的内存。 然后,你会从所有需要高效协调这些硬件的软件和抽象中获得很多复杂性。