Annunciamo il nostro primo lavoro sull'inferenza FP4 per gli LLM! - QuTLASS: supporto del kernel a bassa precisione per le GPU Blackwell - FP-Quant: un cablaggio di quantizzazione flessibile per Llama/Qwen Raggiungiamo un'accelerazione 4x rispetto a BF16, con una buona precisione grazie al microscaling MXFP4 + rotazioni Hadamard fuse.
22,56K