Muuntaja vs. LLM-asiantuntijoiden sekoitus, selkeästi selitetty (visuaalisesti):
Asiantuntijasekoitus (MoE) on suosittu arkkitehtuuri, joka käyttää erilaisia "asiantuntijoita" Transformer-mallien parantamiseen. Alla oleva kuva selittää, miten ne eroavat Transformersista. Sukellaan sisään ja opitaan lisää MoE:stä!
Muuntaja ja MoE eroavat toisistaan dekooderilohkossa: - Transformer käyttää välitysverkkoa. - MoE käyttää asiantuntijoita, jotka ovat feed-forward-verkkoja, mutta pienempiä kuin Transformerissa. Päättelyn aikana valitaan osajoukko asiantuntijoita. Tämä nopeuttaa päättelyä MoE:ssä.
Koska verkossa on useita dekooderikerroksia: - Teksti kulkee eri asiantuntijoiden kautta eri tasoilla. - Valitut asiantuntijat eroavat myös tokenien välillä. Mutta miten malli päättää, ketkä asiantuntijat ovat ihanteellisia? Reititin tekee sen. Keskustellaan siitä seuraavaksi.
Reititin on kuin moniluokkainen luokittelija, joka tuottaa softmax-pisteitä asiantuntijoihin nähden. Pisteiden perusteella valitsemme parhaat K-asiantuntijat. Reititin on koulutettu verkon kanssa ja se oppii valitsemaan parhaat asiantuntijat. Mutta se ei ole suoraviivaista. Keskustellaan haasteista!
Haaste 1) Huomaa tämä kaava harjoituksen alussa: - Malli valitsee "Expert 2" - Asiantuntija paranee hieman - Se voidaan valita uudelleen - Asiantuntija oppii lisää - Se valitaan uudelleen - Se oppii lisää - Ja niin edelleen! Monet asiantuntijat ovat alikoulutettuja!
Ratkaisemme tämän kahdessa vaiheessa: - Lisää kohinaa reitittimen eteenpäin syötettävään lähtöön, jotta muut asiantuntijat voivat saada korkeampia kirjautumisia. - Aseta kaikki paitsi K ylimmät lokit -äärettömäksi. Softmaxin jälkeen näistä pisteistä tulee nolla. Näin myös muut asiantuntijat saavat mahdollisuuden kouluttautua.
Haaste 2) Jotkut asiantuntijat voivat altistua useammille tokeneille kuin toiset, mikä johtaa alikoulutettuihin asiantuntijoihin. Estämme tämän rajoittamalla asiantuntijan käsittelemien tokenien määrää. Jos asiantuntija saavuttaa rajan, syöttötunnus välitetään sen sijaan seuraavaksi parhaalle asiantuntijalle.
MoE:llä on enemmän ladattavia parametreja. Murto-osa niistä kuitenkin aktivoituu, koska valitsemme vain joitain asiantuntijoita. Tämä johtaa nopeampaan päättelyyn. Mixtral 8x7B by @MistralAI on yksi kuuluisa LLM, joka perustuu MoE:hen. Tässä on jälleen visuaalinen kuva, joka vertaa Transformersia ja MoE:tä!
Jos se oli mielestäsi oivaltava, jaa se uudelleen verkostosi kanssa. Etsi minut → @akshay_pachaar ✔️ Lisää näkemyksiä ja opetusohjelmia LLM:istä, tekoälyagenteista ja koneoppimisesta!
Akshay 🚀
Akshay 🚀21.7.2025
Muuntaja vs. LLM-asiantuntijoiden sekoitus, selkeästi selitetty (visuaalisesti):
228,87K