¡Anunciamos nuestro trabajo inicial sobre la inferencia FP4 para LLM! - QuTLASS: soporte de kernel de baja precisión para GPU Blackwell - FP-Quant: un arnés de cuantificación flexible para Llama/Qwen Alcanzamos una aceleración de 4x vs BF16, con buena precisión a través del microescalado MXFP4 + rotaciones de Hadamard fusionadas.
22,57K