Ilmoitamme varhaisesta työstämme FP4-päättelyn parissa LLM:ille! - QuTLASS: matalan tarkkuuden ytimen tuki Blackwellin grafiikkasuorittimille - FP-Quant: joustava kvantisointivaljaat laama/Qwenille Saavutamme 4-kertaisen nopeuden BF16:een verrattuna hyvällä tarkkuudella MXFP4-mikroskaalauksen + sulatettujen Hadamard-kierrosten avulla.
22,57K