一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

认识 LFM2-8B-A1B，我们的首款设备内 Mixture-of-Experts (MoE)! 🐘 > LFM2-8B-A1B 是在质量和速度方面最好的设备内 MoE。 > 性能相当于 3B-4B 模型类别，在 CPU 和 GPU 上的推理速度快达 5 倍。 > 量化变体可以舒适地适配高端手机、平板电脑和笔记本电脑。支持在现代手机、平板电脑、笔记本电脑和嵌入式系统上快速、私密、低延迟的应用程序。 1/n 🧵

LFM2-8B-A1B 的知识容量超过竞争模型，并经过训练以在多种能力上提供高质量的推理。包括： > 知识 > 指令遵循 > 数学 > 语言翻译 2/n

架构。大多数 MoE 研究集中在大规模批量服务环境中的云模型。对于设备上的应用，关键是优化延迟和能耗，同时满足严格的内存要求。LFM2-8B-A1B 是第一个挑战 MoE 架构在较小参数规模上无效这一普遍看法的模型之一。LFM2-8B-A1B 允许在保持低延迟和能耗的同时，稍微增加内存占用以提高质量。 LFM2‑8B-A1B 保持了 LFM2 快速主干，并引入稀疏 MoE 前馈网络，以在不显著增加活跃计算路径的情况下增加表示能力。 > LFM2 主干：18 个门控短卷积块和 6 个 GQA 块。 > 大小：总参数 83 亿，活跃参数 15 亿。 > MoE 放置：除了前两层，所有层都包括一个 MoE 块。前两层保持稠密以确保稳定性。 > 专家粒度：每个 MoE 块 32 个专家，每个令牌应用前 4 个活跃专家。此配置在保持快速路由和可移植内核的同时，提供了比较低粒度配置更强的质量提升。 > 路由器：归一化的 sigmoid 门控，具有自适应路由偏置，以实现更好的负载平衡和训练动态。 3/n

在CPU上，LFM2-8B-A1B在各设备上的速度明显快于Qwen3-1.7B、IBM Granite 4.0及其他最快的变体。 4/n

除了在 llama.cpp 和 ExecuTorch 中集成 LFM2-8B-A1B 以验证仅 CPU 设备上的推理效率外，我们还将该模型集成到 vLLM 中，以便在 GPU 上以单请求和在线批处理设置进行部署。我们的 8B LFM2 MoE 模型不仅在 CPU 上超越了同类大小的模型，而且在 GPU（1xH100）上也表现出色，采用全 CUDA 图编译进行解码，并在预填充期间采用分段 CUDA 图。 5/n

63.01K