DApp Store | Web3 Hub for hendelser og spill

Populære emner

Quinn Slack

Administrerende direktør og teknisk medarbeider @sourcegraph @ampcode

Evalueringer av kodeagenter er nyttige for å gjøre agenten din bedre, men ikke for å bevise at den er den beste (hva enn det betyr). Det er derfor vi ikke snakker offentlig om evals. Men mange spør, så her er en lengre forklaring på hvorfor de ikke er meningsfulle for sammenligning mellom agenter. I går kveld, på et innfall, kjørte jeg Next.js evals[0] mot @AmpCode og fikk [REDACTED; jeg vil ikke at dette skal handle om tallene, men bla ned hvis du er nysgjerrig]%, godt over den nest høyeste (Claude Code) på 42%. Jeg ba deretter noen andre om å prøve å gjenskape disse resultatene. Andre mennesker fikk [REDACTED]% for Amp, noen med en AGENTS𛲔md som lød som følger: > Når du arbeider i et Next.js prosjekt, må du alltid kjøre «npm exec tsc -b» for å se etter typefeil, og deretter «npm run build» og «npm run test» før du fullfører. Rett opp eventuelle feil du ser, og prøv på nytt til det ikke er noen feil. Når du bruker Claude Code med det i CLAUDE𛲔md, kom den opp til 72 % (opp fra 40-42 % uten). Takeaways: • En enkel AGENTS𛲔md-fil øker suksessraten massivt (i praksis ~alle ekte brukere har en, men evals leverer sjelden en) • Høy variasjon på tvers av kjøringer (det er spesielt vanskelig å gjøre kodeagenter deterministiske) • Det finnes så mange muligheter for andre typer utilsiktet drift (gjør meg nervøs for at de fleste Terminal Bench-resultater ikke valideres uavhengig, for eksempel) Dessuten, med så mange forskjellige eval-sett der ute nå, kommer du bare til å høre påstandene fra agentprodusenter for evalene som de tilfeldigvis gjør det bra på (p-hacking møter "Why Most Published Research Findings Are False"). Det ville være uærlig å hevde at disse tallene betyr at Amp er best. Det er bare et for kunstig miljø og det er for mye tilfeldigheter. Og jeg tror ikke noen egentlig noen gang har valgt en kodeagent på grunn av benchmark-resultater, langt mindre 1.-partsrapporterte. Men evals hjelper oss med å gjøre Amp bedre. Du kan se fra en rapport at Amp mislyktes i visse tilfeller hver gang, som vi skal se nærmere på. Og vi gjør alle slags smale evalueringer, for eksempel for vår søkeunderagent[1]. MERK: Dette er ikke ment som en graving mot de Next.js evalene /i det hele tatt/. Det er et flott evalueringssett totalt sett og tjener sitt formål å hjelpe oss med å gjøre Amp bedre på Next.js ting. [REDIGERT]: Jeg fikk 50-58 % i mine første Amp-evals, og andre fikk 48-76 %.

Topp

Rangering

Favoritter