一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

宣布我们在 LLM 的 FP4 推理方面的早期工作！ - QuTLASS：对 Blackwell GPU 的低精度内核支持 - FP-Quant：用于 Llama/Qwen 的灵活量化工具与 BF16 相比，我们达到了 4 倍的加速，通过 MXFP4 微缩放 + 融合的 Hadamard 旋转具有良好的精度。

22.56K