Vi kunngjør vårt tidlige arbeid med FP4-slutning for LLM-er! - QuTLASS: kjernestøtte med lav presisjon for Blackwell GPUer - FP-Quant: en fleksibel kvantiseringssele for lama / Qwen Vi når 4x speedup vs BF16, med god nøyaktighet gjennom MXFP4 mikroskalering + smeltede Hadamard-rotasjoner.
22,56K