Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ahmad
AI-forskare och mjukvaruingenjör, på uppdrag att bygga ett DGX B200 GPU-kluster
> kan inte säga så mycket än
> saker och ting är i rörelse
> kalendern är fullspäckad
> bra grejer på gång
> Köp en GPU, lär dig LLM, lokalt AI-toppmöte
> hårdvara, mjukvara, båda sidor
> innehåll, video, kanske ett toppmöte
> kvalitet tar tid
> inte för att pressa tempot
> mer snart
PS kanske gör en AMA fredag

8,25K
steg-för-steg LLM Engineering Projekt
Varje projekt = ett koncept som lärts in på det hårda (dvs. verkliga) sättet
Tokenisering och inbäddningar
> bygger byte-parkodare + tränar ditt eget underordvokabulär
> skriva en "tokenvisualiserare" för att mappa ord/segment till ID:n
> one-hot vs learned-embedding: plot cosinusavstånd
Positionella inbäddningar
> klassiska sinusformade vs inlärda vs RoPE vs ALiBi: demo alla fyra
> animera en leksakssekvens som är "positionskodad" i 3D
> avlägsna positioner – se hur uppmärksamheten kollapsar
Själv-Uppmärksamhet & Uppmärksamhet på flera huvuden
> hand-wire dot-produktuppmärksamhet för en token
> skala till värmekartor med flera huvuden, plotta per vikt per huvud
> maskera framtida tokens, verifiera orsakssamband
transformatorer, QKV och stapling
> stapla Attention-implementeringarna med LayerNorm och rester → transformator med ett block
> generalisera: n-block "mini-former" på leksaksdata
> dissekera Q, K, V: byt ut dem, bryt dem, se vad som exploderar
Provtagningsparametrar: temp/top-k/top-p
> koda en sampler-instrumentpanel – justera temp/k/p och provutdata interaktivt
> plotta entropi kontra utdatadiversitet när du sveper parametrar
> Nuke Temp=0 (argmax): Titta på repetition
KV-cache (snabb inferens)
> spela in och återanvända KV-tillstånd; Mät SpeedUp jämfört med No-Cache
> skapar en "cache hit/miss"-visualiserare för tokenströmmar
Kostnad för > profilcacheminne för långa jämfört med korta sekvenser
Långkontextstrick: Infini-Attention / Sliding Window
> implementera uppmärksamhet vid skjutfönster; Mät förlust på långa dokument
> benchmark "minneseffektiva" varianter (recompute, flash)
> intrigens förvirring kontra kontextens längd; Hitta kontext komprimeringspunkt
Blandning av experter (MoE)
> koda ett 2-expertrouterlager; Dirigera token dynamiskt
> diagram över datamängder för expertanvändning
> simulera glesa/täta växlingar; mäta FLOP-besparingar
Uppmärksamhet för grupperade frågor
> konvertera din mini-förstnämnda till grupperad frågelayout
> mäta hastighet jämfört med vanilj multi-head på stora partier
> ablatera antalet grupper, plotta latens
Normalisering och aktiveringar
> implementera LayerNorm, RMSNorm, SwiGLU, GELU för hand
> ta bort var och en – vad händer med tränings-/testförlusten?
> plotta aktiveringsfördelningar skiktvis
Mål för förträning
> tåg maskerad LM vs kausal LM vs prefix LM på leksakstext
> plotta förlustkurvor; jämför vilka som lär sig "engelska" snabbast
> generera samplingar från var och en – notera egenheter
Finjustering vs Instruktion Tuning vs RLHF
> finjustera en liten anpassad datauppsättning
> instruktionsjustering genom att vänta på uppgifter ("Sammanfatta: ...")
> RLHF: hacka en belöningsmodell, använd PPO i 10 steg, plotta belöning
Skalningslagar och modellkapacitet
> träna små, små, medelstora modeller – tomtförlust kontra storlek
> benchmark väggklocka, VRAM, genomströmning
> extrapolera skalningskurvan – hur "dum" kan du bli?
Kvantisering
> kod PTQ & QAT; exportera till GGUF/AWQ; Minskning av diagrammets noggrannhet
Slutsatsdragnings-/träningsstackar:
> porta en modell från HuggingFace till Deepspeed, vLLM, ExLlama
> profilgenomströmning, VRAM, svarstid för alla tre
Syntetisk data
> generera leksaksdata, lägga till brus, deduplicera, skapa eval-delningar
> visualisera modellens inlärningskurvor på real vs synth
Varje projekt = en grundläggande insikt. bygga. komplott. paus. upprepa.
> fastnar inte för länge i teorin
> kod, felsöka, ablate, till och med meme dina grafer lol
> avsluta varje och lägg upp vad du lärt dig
ditt framtida jag kommer att tacka dig senare
37,53K
Viktiga ämnen för att lära dig hur LLM:er fungerar, allt som krävs är < 2 år om du har CS Foundation > tokenisering och inbäddningar
> positionella inbäddningar (absolut, rep, alibi)
> självuppmärksamhet och uppmärksamhet med flera huvuden
> transformatorer
> qkv
> provtagningsparametrar: temperatur, top-k top-p
> kv-cache (och varför slutsatsdragningen är snabb)
> Infini Attention & Sliding Window (långa kontext tricks)
> blandning av experter (moe routing layers)
> grupperad fråga uppmärksamhet
> normalisering och aktiveringar
> förträningsmål (kausala, maskerade, etc.)
> finjustering vs instruktionstrimning vs rlhf
> skalningslagar och modellkapacitetskurvor
Bonusämnen:
> kvantiseringar - QAT vs PTQ (ggufs, AWQ, etc.)
> träning jämfört med inferensstackar (DeepSpeed, vllm osv.)
> generering av syntetisk data
5,54K
Topp
Rankning
Favoriter