Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Quinn Slack
Generální ředitel a člen technického personálu @sourcegraph @ampcode
More for less: the average paying Amp user now pays ~21% less per day vs. a few weeks ago, while # {threads,messages} {,per user}, users, & total revenue are all growing.
We did this while keeping Amp's `smart` mode quality the same or better, and without subsidizing you (which is unsustainable and leads to bad incentives).
- We shipped /handoff and ripped out compaction. This leads to smaller and more focused threads: better output for less tokens and less money.
- ~20% (and growing) of paying Amp users (excl. enterprise) now also use Amp Free for some threads on any given day, which lets you choose your desired mix of quality/cost.
- We switched Amp's search subagent to Haiku, which makes it ~50% faster with the same eval performance.
- People are publicly sharing some great Amp threads that show off how to use it effectively (mainly small, focused threads).
- And a lot of smaller things.
(p90 paid user spend per day is down ~12%.)
On the Amp team, we're committed to keeping `smart` mode the very best, no matter the cost. Amp Free is proving to be a useful testbed for us to make broad efficiency gains, and as a pressure valve so that we don't need to compromise quality in `smart` mode to reach a broad userbase.
Happy coding!

4,15K
Hodnocení kódovacího agenta jsou užitečná pro zlepšení vašeho agenta, ale ne pro prokázání, že je nejlepší (ať už to znamená cokoli). Proto o evalech veřejně nemluvíme.
Ale hodně lidí se ptá, takže zde je delší vysvětlení, proč nejsou smysluplné pro srovnání mezi agenty.
Včera v noci jsem z rozmaru spustil Next.js evals[0] proti @AmpCode a dostal jsem [VYMAZÁNO; nechci, aby to bylo o číslech, ale pokud vás to zajímá, posuňte se dolů]%, vysoko nad další nejvyšší (Claude Code) na 42%.
Pak jsem požádal několik dalších lidí, aby se pokusili tyto výsledky replikovat. Jiní lidé dostali [VYMAZÁNO]% pro Amp, někteří s AGENT𛲔md, který zněl následovně:
> Při práci v projektu Next.js vždy spusťte příkaz npm exec tsc -b, abyste zkontrolovali chyby typu, a poté před dokončením spusťte příkaz npm run build a npm run test. Opravte všechny zobrazené chyby a zkuste to znovu, dokud se neobjeví žádné chyby.
Při použití Claude Code s tím v CLAUDE𛲔md se to dostalo až na 72 % (ze 40-42 % bez).
Poznatky:
• Jednoduchý soubor AGENTS𛲔md masivně zvyšuje úspěšnost (v praxi ~ mají ho všichni skuteční uživatelé, ale evalové ho dodávají jen zřídka)
• Vysoká variabilita napříč běhy (je obzvláště obtížné zajistit, aby kódovací agenti byli determinističtí)
• Existuje tolik příležitostí pro jiné druhy neúmyslného posunu (například mě znervózňuje, že většina výsledků Terminal Bench není ověřena nezávisle)
S tolika různými sadami evalů, které jsou nyní k dispozici, uslyšíte od tvůrců agentů pouze tvrzení o hodnoceních, na kterých se jim náhodou daří (p-hacking se setkává s "Proč je většina publikovaných výsledků výzkumu nepravdivá").
Bylo by nečestné tvrdit, že tato čísla znamenají, že Amp je nejlepší. Je to prostě příliš umělé prostředí a je v něm příliš mnoho náhody. A nemyslím si, že by si někdo opravdu někdy vybral kódovacího agenta kvůli výsledkům benchmarků, natož kvůli těm, které nahlásila 1. strana.
Ale evals nám pomáhají dělat Amp lepší. Z jedné zprávy můžete vidět, že Amp pokaždé selhal v určitých případech, na které se podíváme. A děláme všechny druhy úzkých hodnocení, například pro našeho vyhledávacího subagenta[1].
POZNÁMKA: Toto není míněno jako rýpání do Next.js evalů /vůbec/. Je to celkově skvělá sada pro testování a plní svůj účel, aby nám pomohla zlepšit Amp v Next.js věcech.
[VYMAZÁNO]: Já jsem měl 50-58% v mých počátečních hodnoceních zesilovače a ostatní dostali 48-76%.


24,33K
Top
Hodnocení
Oblíbené

