LLMのFP4推論に関する初期の研究を発表します! - QuTLASS: Blackwell GPU の低精度カーネル サポート - FP-Quant:Llama/Qwen用の柔軟な量子化ハーネス MXFP4マイクロスケーリング+融合アダマール回転により、BF16と比較して4倍の高速化を実現し、高い精度を実現しています。
22.56K