Ankündigung unserer frühen Arbeit an der FP4-Inferenz für LLMs! - QuTLASS: Kernel-Unterstützung mit niedriger Genauigkeit für Blackwell-GPUs - FP-Quant: ein flexibles Quantisierungs-Harness für Llama/Qwen Wir erreichen eine 4-fache Beschleunigung im Vergleich zu BF16, mit guter Genauigkeit durch MXFP4-Mikroskalierung + fusionierte Hadamard-Rotationen.
22,57K