الإعلان عن عملنا المبكر على استدلال FP4 لLLMs! - QuTLASS: دعم kernel منخفض الدقة لوحدات معالجة الرسومات Blackwell - FP-Quant: تسخير تكميم مرن ل Llama / Qwen نصل إلى تسريع 4x مقابل BF16 ، بدقة جيدة من خلال تحجيم MXFP4 + دورات Hadamard المنصهرة.
‏‎22.57‏K