Anunciando nosso trabalho inicial na inferência do FP4 para LLMs! - QuTLASS: suporte de kernel de baixa precisão para GPUs Blackwell - FP-Quant: um arnês de quantização flexível para Llama/Qwen Atingimos uma velocidade de 4x vs BF16, com boa precisão através de microescalonamento MXFP4 + rotações Hadamard fundidas.
22,57K