宣布我們在 LLM 的 FP4 推理方面的早期工作! - QuTLASS:對 Blackwell GPU 的低精度內核支持 - FP-Quant:適用於 Llama/Qwen 的靈活量化工具 與 BF16 相比,我們達到了 4 倍的加速,通過 MXFP4 微縮放 + 融合的 Hadamard 旋轉具有良好的準確性。
22.56K