Оголошуємо про нашу ранню роботу над висновком FP4 для LLM! - QuTLASS: підтримка низькоточного ядра для графічних процесорів Blackwell - FP-Quant: гнучкий джгут квантування для Llama/Qwen Ми досягаємо 4-кратного прискорення проти BF16, з хорошою точністю завдяки мікромасштабуванню MXFP4 + плавленим обертанням Хадамара.
22,56K