宣布我们在 LLM 的 FP4 推理方面的早期工作! - QuTLASS:对 Blackwell GPU 的低精度内核支持 - FP-Quant:用于 Llama/Qwen 的灵活量化工具 与 BF16 相比,我们达到了 4 倍的加速,通过 MXFP4 微缩放 + 融合的 Hadamard 旋转具有良好的精度。
22.56K