Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Koodausagenttien evalit ovat hyödyllisiä agentin parantamiseksi, mutta eivät sen todistamiseksi, että se on paras (mitä se sitten tarkoittaakaan). Siksi emme puhu julkisesti evaleista.
Mutta monet ihmiset kysyvät, joten tässä on pidempi selitys siitä, miksi ne eivät ole merkityksellisiä agenttien välisessä vertailussa.
Eilen illalla juoksin hetken mielijohteesta Next.js evals[0] @AmpCode vastaan ja sain [POISTETTU; en halua, että tässä on kyse numeroista, mutta vieritä alaspäin, jos olet utelias]%, selvästi seuraavaksi korkeimman (Claude-koodi) yläpuolella 42 %:lla.
Pyysin sitten joitain muita ihmisiä yrittämään toistaa nämä tulokset. Toiset ihmiset saivat [POISTETTU]% Ampista, joillakin AGENTIT𛲔md, joka kuului seuraavasti:
> Kun työskentelet Next.js projektissa, suorita aina 'npm exec tsc -b' tarkistaaksesi tyyppivirheet ja sitten 'npm run build' ja 'npm run test' ennen kuin lopetat. Korjaa näkemäsi virheet ja yritä uudelleen, kunnes virheitä ei ole.
Kun Claude Codea käytettiin CLAUDE𛲔md:n kanssa, se nousi 72 prosenttiin (40-42 prosentista ilman).
Takeawayt:
• Yksinkertainen AGENTS𛲔md-tiedosto lisää onnistumisprosenttia huomattavasti (käytännössä ~kaikilla todellisilla käyttäjillä on sellainen, mutta valit tarjoavat harvoin sellaista)
• Suuri vaihtelu ajojen välillä (koodausagenteista on erityisen vaikea tehdä deterministisiä)
• On niin paljon mahdollisuuksia toisenlaiseen tahattomaan ajautumiseen (minua hermostuttaa esimerkiksi se, että useimpia Terminal Bench -tuloksia ei validoida itsenäisesti)
Lisäksi, koska nyt on niin monia erilaisia eval-sarjoja, kuulet vain agenttien valmistajien väitteet evaleista, joissa he sattuvat menestymään hyvin (p-hakkerointi kohtaa "Miksi useimmat julkaistut tutkimustulokset ovat vääriä").
Olisi epärehellistä väittää, että nämä luvut tarkoittavat, että Amp on paras. Se on vain liian keinotekoinen ympäristö ja siinä on liikaa satunnaisuutta. Enkä usko, että kukaan on oikeastaan koskaan valinnut koodausagenttia vertailutulosten vuoksi, saati sitten 1. osapuolen raportoimien tulosten vuoksi.
Mutta evalit auttavat meitä tekemään Ampista paremman. Yhdestä raportista näet, että Amp epäonnistui joka kerta tietyissä tapauksissa, joita tutkimme. Ja teemme kaikenlaisia kapeita evaleja, kuten hakualiagentillemme[1].
HUOM: Tätä ei ole tarkoitettu kaivamiseksi Next.js evals-arvoja vastaan /ollenkaan/. Se on kaiken kaikkiaan loistava ja palvelee tarkoitustaan auttaa meitä tekemään Ampista paremman Next.js asioissa.
[MUOKATTU]: Sain 50-58 % ensimmäisissä vahvistimissani, ja muut saivat 48-76 %.


Johtavat
Rankkaus
Suosikit

