热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
认识 LFM2-8B-A1B,我们的首款设备内 Mixture-of-Experts (MoE)! 🐘
> LFM2-8B-A1B 是在质量和速度方面最好的设备内 MoE。
> 性能相当于 3B-4B 模型类别,在 CPU 和 GPU 上的推理速度快达 5 倍。
> 量化变体可以舒适地适配高端手机、平板电脑和笔记本电脑。
支持在现代手机、平板电脑、笔记本电脑和嵌入式系统上快速、私密、低延迟的应用程序。
1/n 🧵

LFM2-8B-A1B 的知识容量超过竞争模型,并经过训练以在多种能力上提供高质量的推理。包括:
> 知识
> 指令遵循
> 数学
> 语言翻译
2/n

架构。大多数 MoE 研究集中在大规模批量服务环境中的云模型。对于设备上的应用,关键是优化延迟和能耗,同时满足严格的内存要求。LFM2-8B-A1B 是第一个挑战 MoE 架构在较小参数规模上无效这一普遍看法的模型之一。LFM2-8B-A1B 允许在保持低延迟和能耗的同时,稍微增加内存占用以提高质量。
LFM2‑8B-A1B 保持了 LFM2 快速主干,并引入稀疏 MoE 前馈网络,以在不显著增加活跃计算路径的情况下增加表示能力。
> LFM2 主干:18 个门控短卷积块和 6 个 GQA 块。
> 大小:总参数 83 亿,活跃参数 15 亿。
> MoE 放置:除了前两层,所有层都包括一个 MoE 块。前两层保持稠密以确保稳定性。
> 专家粒度:每个 MoE 块 32 个专家,每个令牌应用前 4 个活跃专家。此配置在保持快速路由和可移植内核的同时,提供了比较低粒度配置更强的质量提升。
> 路由器:归一化的 sigmoid 门控,具有自适应路由偏置,以实现更好的负载平衡和训练动态。
3/n

在CPU上,LFM2-8B-A1B在各设备上的速度明显快于Qwen3-1.7B、IBM Granite 4.0及其他最快的变体。
4/n

除了在 llama.cpp 和 ExecuTorch 中集成 LFM2-8B-A1B 以验证仅 CPU 设备上的推理效率外,我们还将该模型集成到 vLLM 中,以便在 GPU 上以单请求和在线批处理设置进行部署。
我们的 8B LFM2 MoE 模型不仅在 CPU 上超越了同类大小的模型,而且在 GPU(1xH100)上也表现出色,采用全 CUDA 图编译进行解码,并在预填充期间采用分段 CUDA 图。
5/n

63.01K
热门
排行
收藏

