Seznamte se s LFM2-8B-A1B, naší první směsí odborníků (MoE) na zařízení! 🐘 > LFM2-8B-A1B je nejlepší MOE na zařízení jak z hlediska kvality, tak rychlosti. > Výkon modelové třídy 3B-4B s až 5x rychlejším inferenčním profilem na CPU a GPU. > Kvantizované varianty se pohodlně vejdou na špičkové telefony, tablety a notebooky. Umožňují rychlé, soukromé aplikace s nízkou latencí napříč moderními telefony, tablety, notebooky a vestavěnými systémy. 1/n 🧵
LFM2-8B-A1B má větší znalostní kapacitu než konkurenční modely a je vyškolen tak, aby poskytoval odvození kvality napříč různými schopnostmi. Včetně: > znalosti > Následuje návod > Matematika > Jazykový překlad 2/N
Architektura. Většina výzkumů MoE se zaměřuje na cloudové modely v rozsáhlých dávkových službách. U aplikací na zařízení je klíčové optimalizovat latenci a spotřebu energie při přísných požadavcích na paměť. LFM2-8B-A1B je jedním z prvních modelů, který zpochybňuje obecné přesvědčení, že architektura MoE není efektivní při menších velikostech parametrů. LFM2-8B-A1B umožňuje obchodovat s mírně větší paměťovou stopou pro vyšší kvalitu při zachování nízké latence a spotřeby energie. LFM2-8B-A1B zachovává rychlou páteřní síť LFM2 a zavádí řídké dopředné sítě MoE, které zvyšují reprezentační kapacitu bez výrazného zvýšení aktivní výpočetní cesty. > LFM2 Backbone: 18 hradlových krátkých konvolučních bloků a 6 GQA bloků. > Velikost: 8,3 B celkových parametrů, 1,5 B aktivních parametrů. > umístění MoE: S výjimkou prvních dvou vrstev obsahují všechny vrstvy blok MoE. První dvě vrstvy zůstávají z důvodu stability husté. > Expertní granularita: 32 odborníků na blok MoE, přičemž na token jsou aplikováni 4 nejlepší aktivní odborníci. Tato konfigurace poskytuje silné zvýšení kvality oproti konfiguracím s nižší granularitou při zachování rychlého směrování a přenosných jader. > Router: Normalizované sigmoid hradlování s adaptivním směrováním pro lepší vyvažování zátěže a dynamiku tréninku. 3/n
Napříč zařízeními na CPU je LFM2-8B-A1B výrazně rychlejší než nejrychlejší varianty Qwen3-1.7B, IBM Granite 4.0 a další. 4/N
Kromě integrace LFM2-8B-A1B na llama.cpp a ExecuTorch pro ověření efektivity odvozování na zařízeních pouze s procesorem jsme model integrovali také do vLLM pro nasazení na GPU v nastavení s jedním požadavkem i v online dávkách. Náš model 8B LFM2 MoE nejenže překonává srovnatelné modely na procesoru, ale také vyniká proti stejným modelům na grafu GPU (1xH100) s plnou kompilací CUDA grafu během dekódování a po částech CUDA grafem během předplnění. 5/n
63K