Aankondiging van ons vroege werk aan FP4-inferentie voor LLM's! - QuTLASS: low-precision kernel ondersteuning voor Blackwell GPU's - FP-Quant: een flexibel kwantisatieharnas voor Lama/Qwen We bereiken 4x versnelling versus BF16, met goede nauwkeurigheid door MXFP4-microschaling + gefuseerde Hadamard-rotaties.
22,57K