DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Ahmad

AI-forskare och mjukvaruingenjör, på uppdrag att bygga ett DGX B200 GPU-kluster

steg-för-steg LLM Engineering Projekt Varje projekt = ett koncept som lärts in på det hårda (dvs. verkliga) sättet Tokenisering och inbäddningar > bygger byte-parkodare + tränar ditt eget underordvokabulär > skriva en "tokenvisualiserare" för att mappa ord/segment till ID:n > one-hot vs learned-embedding: plot cosinusavstånd Positionella inbäddningar > klassiska sinusformade vs inlärda vs RoPE vs ALiBi: demo alla fyra > animera en leksakssekvens som är "positionskodad" i 3D > avlägsna positioner – se hur uppmärksamheten kollapsar Själv-Uppmärksamhet & Uppmärksamhet på flera huvuden > hand-wire dot-produktuppmärksamhet för en token > skala till värmekartor med flera huvuden, plotta per vikt per huvud > maskera framtida tokens, verifiera orsakssamband transformatorer, QKV och stapling > stapla Attention-implementeringarna med LayerNorm och rester → transformator med ett block > generalisera: n-block "mini-former" på leksaksdata > dissekera Q, K, V: byt ut dem, bryt dem, se vad som exploderar Provtagningsparametrar: temp/top-k/top-p > koda en sampler-instrumentpanel – justera temp/k/p och provutdata interaktivt > plotta entropi kontra utdatadiversitet när du sveper parametrar > Nuke Temp=0 (argmax): Titta på repetition KV-cache (snabb inferens) > spela in och återanvända KV-tillstånd; Mät SpeedUp jämfört med No-Cache > skapar en "cache hit/miss"-visualiserare för tokenströmmar Kostnad för > profilcacheminne för långa jämfört med korta sekvenser Långkontextstrick: Infini-Attention / Sliding Window > implementera uppmärksamhet vid skjutfönster; Mät förlust på långa dokument > benchmark "minneseffektiva" varianter (recompute, flash) > intrigens förvirring kontra kontextens längd; Hitta kontext komprimeringspunkt Blandning av experter (MoE) > koda ett 2-expertrouterlager; Dirigera token dynamiskt > diagram över datamängder för expertanvändning > simulera glesa/täta växlingar; mäta FLOP-besparingar Uppmärksamhet för grupperade frågor > konvertera din mini-förstnämnda till grupperad frågelayout > mäta hastighet jämfört med vanilj multi-head på stora partier > ablatera antalet grupper, plotta latens Normalisering och aktiveringar > implementera LayerNorm, RMSNorm, SwiGLU, GELU för hand > ta bort var och en – vad händer med tränings-/testförlusten? > plotta aktiveringsfördelningar skiktvis Mål för förträning > tåg maskerad LM vs kausal LM vs prefix LM på leksakstext > plotta förlustkurvor; jämför vilka som lär sig "engelska" snabbast > generera samplingar från var och en – notera egenheter Finjustering vs Instruktion Tuning vs RLHF > finjustera en liten anpassad datauppsättning > instruktionsjustering genom att vänta på uppgifter ("Sammanfatta: ...") > RLHF: hacka en belöningsmodell, använd PPO i 10 steg, plotta belöning Skalningslagar och modellkapacitet > träna små, små, medelstora modeller – tomtförlust kontra storlek > benchmark väggklocka, VRAM, genomströmning > extrapolera skalningskurvan – hur "dum" kan du bli? Kvantisering > kod PTQ & QAT; exportera till GGUF/AWQ; Minskning av diagrammets noggrannhet Slutsatsdragnings-/träningsstackar: > porta en modell från HuggingFace till Deepspeed, vLLM, ExLlama > profilgenomströmning, VRAM, svarstid för alla tre Syntetisk data > generera leksaksdata, lägga till brus, deduplicera, skapa eval-delningar > visualisera modellens inlärningskurvor på real vs synth Varje projekt = en grundläggande insikt. bygga. komplott. paus. upprepa. > fastnar inte för länge i teorin > kod, felsöka, ablate, till och med meme dina grafer lol > avsluta varje och lägg upp vad du lärt dig ditt framtida jag kommer att tacka dig senare

Topp

Rankning

Favoriter