To je blesková pozornost vpřed: 'TestPcontig.test_flash_attention' Není kolem toho ani "pojistka", vzorec je zřejmý z toku dat. Zpětně chybí dva triky: výstup q.grad a k.grad dohromady a volba přepočítání výsledkové matice namísto jejího uložení.
Jakmile je zpětná záblesková pozornost automatická, představte si další vzorce, které tím objevíte. Kvůli rychlosti pracujeme na propustce podobné hromovým koťatům, která vše rozdělí na dlaždice o rozměrech 16x16. Už žádné uvažování o "místních", což je také nabídka Tritonu.
Vědí lidé, jak číst tyto diagramy? Ve srovnání s příspěvky s kódem nemají tyto příspěvky velkou trakci, ale o diagramu se mi mnohem snadněji přemýšlí.
9,2K