Anunciando nosso trabalho inicial sobre inferência FP4 para LLMs! - QuTLASS: suporte de kernel de baixa precisão para GPUs Blackwell - FP-Quant: um chicote de quantização flexível para Llama/Qwen Alcançamos 4x de aceleração vs BF16, com boa precisão através de microscaling MXFP4 + rotações Hadamard fundidas.
22,59K