Mengumumkan pekerjaan awal kami tentang inferensi FP4 untuk LLM! - QuTLASS: dukungan kernel presisi rendah untuk GPU Blackwell - FP-Quant: harness kuantisasi fleksibel untuk Llama/Qwen Kami mencapai percepatan 4x vs BF16, dengan akurasi yang baik melalui skala mikro MXFP4 + rotasi Hadamard yang menyatu.
22,56K