认识 LFM2-8B-A1B,我们的首款设备内 Mixture-of-Experts (MoE)! 🐘 > LFM2-8B-A1B 是在质量和速度方面最好的设备内 MoE。 > 性能相当于 3B-4B 模型类别,在 CPU 和 GPU 上的推理速度快达 5 倍。 > 量化变体可以舒适地适配高端手机、平板电脑和笔记本电脑。 支持在现代手机、平板电脑、笔记本电脑和嵌入式系统上快速、私密、低延迟的应用程序。 1/n 🧵
LFM2-8B-A1B 的知识容量超过竞争模型,并经过训练以在多种能力上提供高质量的推理。包括: > 知识 > 指令遵循 > 数学 > 语言翻译 2/n
架构。大多数 MoE 研究集中在大规模批量服务环境中的云模型。对于设备上的应用,关键是优化延迟和能耗,同时满足严格的内存要求。LFM2-8B-A1B 是第一个挑战 MoE 架构在较小参数规模上无效这一普遍看法的模型之一。LFM2-8B-A1B 允许在保持低延迟和能耗的同时,稍微增加内存占用以提高质量。 LFM2‑8B-A1B 保持了 LFM2 快速主干,并引入稀疏 MoE 前馈网络,以在不显著增加活跃计算路径的情况下增加表示能力。 > LFM2 主干:18 个门控短卷积块和 6 个 GQA 块。 > 大小:总参数 83 亿,活跃参数 15 亿。 > MoE 放置:除了前两层,所有层都包括一个 MoE 块。前两层保持稠密以确保稳定性。 > 专家粒度:每个 MoE 块 32 个专家,每个令牌应用前 4 个活跃专家。此配置在保持快速路由和可移植内核的同时,提供了比较低粒度配置更强的质量提升。 > 路由器:归一化的 sigmoid 门控,具有自适应路由偏置,以实现更好的负载平衡和训练动态。 3/n
在CPU上,LFM2-8B-A1B在各设备上的速度明显快于Qwen3-1.7B、IBM Granite 4.0及其他最快的变体。 4/n
除了在 llama.cpp 和 ExecuTorch 中集成 LFM2-8B-A1B 以验证仅 CPU 设备上的推理效率外,我们还将该模型集成到 vLLM 中,以便在 GPU 上以单请求和在线批处理设置进行部署。 我们的 8B LFM2 MoE 模型不仅在 CPU 上超越了同类大小的模型,而且在 GPU(1xH100)上也表现出色,采用全 CUDA 图编译进行解码,并在预填充期间采用分段 CUDA 图。 5/n
63.01K