Объявляем о начале нашей работы над выводом FP4 для LLM! - QuTLASS: поддержка ядра низкой точности для графических процессоров Blackwell - FP-Quant: гибкий жгут квантования для Llama/Qwen Мы достигаем 4-кратного ускорения по сравнению с BF16 с хорошей точностью за счет микромасштабирования MXFP4 + совмещенных вращений Адамара.
22,57K