Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hodnocení kódovacího agenta jsou užitečná pro zlepšení vašeho agenta, ale ne pro prokázání, že je nejlepší (ať už to znamená cokoli). Proto o evalech veřejně nemluvíme.
Ale hodně lidí se ptá, takže zde je delší vysvětlení, proč nejsou smysluplné pro srovnání mezi agenty.
Včera v noci jsem z rozmaru spustil Next.js evals[0] proti @AmpCode a dostal jsem [VYMAZÁNO; nechci, aby to bylo o číslech, ale pokud vás to zajímá, posuňte se dolů]%, vysoko nad další nejvyšší (Claude Code) na 42%.
Pak jsem požádal několik dalších lidí, aby se pokusili tyto výsledky replikovat. Jiní lidé dostali [VYMAZÁNO]% pro Amp, někteří s AGENT𛲔md, který zněl následovně:
> Při práci v projektu Next.js vždy spusťte příkaz npm exec tsc -b, abyste zkontrolovali chyby typu, a poté před dokončením spusťte příkaz npm run build a npm run test. Opravte všechny zobrazené chyby a zkuste to znovu, dokud se neobjeví žádné chyby.
Při použití Claude Code s tím v CLAUDE𛲔md se to dostalo až na 72 % (ze 40-42 % bez).
Poznatky:
• Jednoduchý soubor AGENTS𛲔md masivně zvyšuje úspěšnost (v praxi ~ mají ho všichni skuteční uživatelé, ale evalové ho dodávají jen zřídka)
• Vysoká variabilita napříč běhy (je obzvláště obtížné zajistit, aby kódovací agenti byli determinističtí)
• Existuje tolik příležitostí pro jiné druhy neúmyslného posunu (například mě znervózňuje, že většina výsledků Terminal Bench není ověřena nezávisle)
S tolika různými sadami evalů, které jsou nyní k dispozici, uslyšíte od tvůrců agentů pouze tvrzení o hodnoceních, na kterých se jim náhodou daří (p-hacking se setkává s "Proč je většina publikovaných výsledků výzkumu nepravdivá").
Bylo by nečestné tvrdit, že tato čísla znamenají, že Amp je nejlepší. Je to prostě příliš umělé prostředí a je v něm příliš mnoho náhody. A nemyslím si, že by si někdo opravdu někdy vybral kódovacího agenta kvůli výsledkům benchmarků, natož kvůli těm, které nahlásila 1. strana.
Ale evals nám pomáhají dělat Amp lepší. Z jedné zprávy můžete vidět, že Amp pokaždé selhal v určitých případech, na které se podíváme. A děláme všechny druhy úzkých hodnocení, například pro našeho vyhledávacího subagenta[1].
POZNÁMKA: Toto není míněno jako rýpání do Next.js evalů /vůbec/. Je to celkově skvělá sada pro testování a plní svůj účel, aby nám pomohla zlepšit Amp v Next.js věcech.
[VYMAZÁNO]: Já jsem měl 50-58% v mých počátečních hodnoceních zesilovače a ostatní dostali 48-76%.


Top
Hodnocení
Oblíbené

