Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Seznamte se s LFM2-8B-A1B, naší první směsí odborníků (MoE) na zařízení! 🐘
> LFM2-8B-A1B je nejlepší MOE na zařízení jak z hlediska kvality, tak rychlosti.
> Výkon modelové třídy 3B-4B s až 5x rychlejším inferenčním profilem na CPU a GPU.
> Kvantizované varianty se pohodlně vejdou na špičkové telefony, tablety a notebooky.
Umožňují rychlé, soukromé aplikace s nízkou latencí napříč moderními telefony, tablety, notebooky a vestavěnými systémy.
1/n 🧵

LFM2-8B-A1B má větší znalostní kapacitu než konkurenční modely a je vyškolen tak, aby poskytoval odvození kvality napříč různými schopnostmi. Včetně:
> znalosti
> Následuje návod
> Matematika
> Jazykový překlad
2/N

Architektura. Většina výzkumů MoE se zaměřuje na cloudové modely v rozsáhlých dávkových službách. U aplikací na zařízení je klíčové optimalizovat latenci a spotřebu energie při přísných požadavcích na paměť. LFM2-8B-A1B je jedním z prvních modelů, který zpochybňuje obecné přesvědčení, že architektura MoE není efektivní při menších velikostech parametrů. LFM2-8B-A1B umožňuje obchodovat s mírně větší paměťovou stopou pro vyšší kvalitu při zachování nízké latence a spotřeby energie.
LFM2-8B-A1B zachovává rychlou páteřní síť LFM2 a zavádí řídké dopředné sítě MoE, které zvyšují reprezentační kapacitu bez výrazného zvýšení aktivní výpočetní cesty.
> LFM2 Backbone: 18 hradlových krátkých konvolučních bloků a 6 GQA bloků.
> Velikost: 8,3 B celkových parametrů, 1,5 B aktivních parametrů.
> umístění MoE: S výjimkou prvních dvou vrstev obsahují všechny vrstvy blok MoE. První dvě vrstvy zůstávají z důvodu stability husté.
> Expertní granularita: 32 odborníků na blok MoE, přičemž na token jsou aplikováni 4 nejlepší aktivní odborníci. Tato konfigurace poskytuje silné zvýšení kvality oproti konfiguracím s nižší granularitou při zachování rychlého směrování a přenosných jader.
> Router: Normalizované sigmoid hradlování s adaptivním směrováním pro lepší vyvažování zátěže a dynamiku tréninku.
3/n

Napříč zařízeními na CPU je LFM2-8B-A1B výrazně rychlejší než nejrychlejší varianty Qwen3-1.7B, IBM Granite 4.0 a další.
4/N

Kromě integrace LFM2-8B-A1B na llama.cpp a ExecuTorch pro ověření efektivity odvozování na zařízeních pouze s procesorem jsme model integrovali také do vLLM pro nasazení na GPU v nastavení s jedním požadavkem i v online dávkách.
Náš model 8B LFM2 MoE nejenže překonává srovnatelné modely na procesoru, ale také vyniká proti stejným modelům na grafu GPU (1xH100) s plnou kompilací CUDA grafu během dekódování a po částech CUDA grafem během předplnění.
5/n

63K
Top
Hodnocení
Oblíbené