Thông báo công việc ban đầu của chúng tôi về suy luận FP4 cho LLM! - QuTLASS: hỗ trợ hạt nhân có độ chính xác thấp cho GPU Blackwell - FP-Quant: một khai thác lượng tử hóa linh hoạt cho Llama/Qwen Chúng tôi đạt tốc độ tăng gấp 4 lần so với BF16, với độ chính xác tốt thông qua vi tỷ lệ MXFP4 + vòng quay Hadamard hợp nhất.
22,57K