Oznamujeme naši ranou práci na inferenci FP4 pro LLM! - QuTLASS: podpora jádra s nízkou přesností pro GPU Blackwell - FP-Quant: flexibilní kvantizační svazek pro lamu/Qwen Dosahujeme 4x zrychlení vs BF16, s dobrou přesností díky mikroškálování MXFP4 + fúzovaným Hadamardovým rotacím.
22,56K