Klíčová témata Chcete-li se dozvědět, jak LLMS fungují, stačí < 2 roky, pokud máte CS Foundation > tokenizaci a vkládání > polohových vnoření (absolutní, lanové, alibi) > sebepozornost a vícehlavá pozornost > transformátory > qkv > vzorkovací parametry: teplota, top-k top-p > kv cache (a proč je inference rychlá) > Infini Pozornost & Posuvné okno (triky s dlouhým kontextem) > mix expertů (MOE routingové vrstvy) > pozornost seskupeného dotazu > normalizace a aktivace > cíle předtréninku (kauzální, maskované atd.) > ladění vs ladění instrukcí vs rlhf > zákony škálování a kapacitní křivky modelu Bonusová témata: > kvantizace - qat vs ptq (ggufs, awq, atd.) > trénink vs. inferenční zásobníky (deepspeed, vllm atd.) > generování syntetických dat