Hodnocení kódovacího agenta jsou užitečná pro zlepšení vašeho agenta, ale ne pro prokázání, že je nejlepší (ať už to znamená cokoli). Proto o evalech veřejně nemluvíme. Ale hodně lidí se ptá, takže zde je delší vysvětlení, proč nejsou smysluplné pro srovnání mezi agenty. Včera v noci jsem z rozmaru spustil Next.js evals[0] proti @AmpCode a dostal jsem [VYMAZÁNO; nechci, aby to bylo o číslech, ale pokud vás to zajímá, posuňte se dolů]%, vysoko nad další nejvyšší (Claude Code) na 42%. Pak jsem požádal několik dalších lidí, aby se pokusili tyto výsledky replikovat. Jiní lidé dostali [VYMAZÁNO]% pro Amp, někteří s AGENT𛲔md, který zněl následovně: > Při práci v projektu Next.js vždy spusťte příkaz npm exec tsc -b, abyste zkontrolovali chyby typu, a poté před dokončením spusťte příkaz npm run build a npm run test. Opravte všechny zobrazené chyby a zkuste to znovu, dokud se neobjeví žádné chyby. Při použití Claude Code s tím v CLAUDE𛲔md se to dostalo až na 72 % (ze 40-42 % bez). Poznatky: • Jednoduchý soubor AGENTS𛲔md masivně zvyšuje úspěšnost (v praxi ~ mají ho všichni skuteční uživatelé, ale evalové ho dodávají jen zřídka) • Vysoká variabilita napříč běhy (je obzvláště obtížné zajistit, aby kódovací agenti byli determinističtí) • Existuje tolik příležitostí pro jiné druhy neúmyslného posunu (například mě znervózňuje, že většina výsledků Terminal Bench není ověřena nezávisle) S tolika různými sadami evalů, které jsou nyní k dispozici, uslyšíte od tvůrců agentů pouze tvrzení o hodnoceních, na kterých se jim náhodou daří (p-hacking se setkává s "Proč je většina publikovaných výsledků výzkumu nepravdivá"). Bylo by nečestné tvrdit, že tato čísla znamenají, že Amp je nejlepší. Je to prostě příliš umělé prostředí a je v něm příliš mnoho náhody. A nemyslím si, že by si někdo opravdu někdy vybral kódovacího agenta kvůli výsledkům benchmarků, natož kvůli těm, které nahlásila 1. strana. Ale evals nám pomáhají dělat Amp lepší. Z jedné zprávy můžete vidět, že Amp pokaždé selhal v určitých případech, na které se podíváme. A děláme všechny druhy úzkých hodnocení, například pro našeho vyhledávacího subagenta[1]. POZNÁMKA: Toto není míněno jako rýpání do Next.js evalů /vůbec/. Je to celkově skvělá sada pro testování a plní svůj účel, aby nám pomohla zlepšit Amp v Next.js věcech. [VYMAZÁNO]: Já jsem měl 50-58% v mých počátečních hodnoceních zesilovače a ostatní dostali 48-76%.