Ogłaszamy nasze wczesne prace nad wnioskowaniem w 4PR dla LLM! - QuTLASS: obsługa jądra o niskiej precyzji dla procesorów graficznych Blackwell - FP-Quant: elastyczna wiązka do kwantyzacji dla lamy/Qwen Osiągamy 4-krotne przyspieszenie w stosunku do BF16, z dobrą dokładnością dzięki mikroskalowaniu MXFP4 + stopione obroty Hadamarda.
22,57K