热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Quinn Slack
首席执行官兼技术人员@sourcegraph @ampcode
More for less: the average paying Amp user now pays ~21% less per day vs. a few weeks ago, while # {threads,messages} {,per user}, users, & total revenue are all growing.
We did this while keeping Amp's `smart` mode quality the same or better, and without subsidizing you (which is unsustainable and leads to bad incentives).
- We shipped /handoff and ripped out compaction. This leads to smaller and more focused threads: better output for less tokens and less money.
- ~20% (and growing) of paying Amp users (excl. enterprise) now also use Amp Free for some threads on any given day, which lets you choose your desired mix of quality/cost.
- We switched Amp's search subagent to Haiku, which makes it ~50% faster with the same eval performance.
- People are publicly sharing some great Amp threads that show off how to use it effectively (mainly small, focused threads).
- And a lot of smaller things.
(p90 paid user spend per day is down ~12%.)
On the Amp team, we're committed to keeping `smart` mode the very best, no matter the cost. Amp Free is proving to be a useful testbed for us to make broad efficiency gains, and as a pressure valve so that we don't need to compromise quality in `smart` mode to reach a broad userbase.
Happy coding!

10.06K
编码代理评估对于提升您的代理性能非常有用,但并不能证明它是最好的(无论这意味着什么)。这就是为什么我们不公开讨论评估。
但很多人询问,所以这里有一个更长的解释,说明为什么它们对代理之间的比较没有意义。
昨晚,我心血来潮,针对 @AmpCode 运行了 Next.js 评估[0],得到了 [REDACTED; 𝘐 𝘥𝘰𝘯'𝘵 𝘸𝘢𝘯𝘵 𝘵𝘩𝘪𝘴 𝘵𝘰 𝘣𝘦 𝘢𝘣𝘰𝘶𝘵 𝘵𝘩𝘦 𝘯𝘶𝘮𝘣𝘦𝘳𝘴, 𝘣𝘶𝘵 𝘴𝘤𝘳𝘰𝘭𝘭 𝘥𝘰𝘸𝘯 𝘪𝘧 𝘤𝘶𝘳𝘪𝘰𝘶𝘴]%,远高于第二高的(Claude Code)42%。
然后我请其他人尝试复制这些结果。其他人得到了 [REDACTED]% 的 Amp 结果,有些人使用了如下的 AGENTS𛲔md:
> 在 Next.js 项目中工作时,始终运行 `npm exec tsc -b` 来检查类型错误,然后运行 `npm run build` 和 `npm run test`,在完成之前。修复您看到的任何错误,并尝试再次运行,直到没有错误。
在 CLAUDE𛲔md 中使用 Claude Code 时,得分高达 72%(比没有时的 40-42% 提高)。
要点:
• 一个简单的 AGENTS𛲔md 文件大大提高了成功率(实际上几乎所有真实用户都有一个,但评估很少提供一个)
• 运行之间的高变异性(使得编码代理变得确定性尤其困难)
• 存在许多其他类型的无意漂移的机会(例如,我对大多数 Terminal Bench 结果没有独立验证感到紧张)
此外,随着现在有这么多不同的评估集,您只会听到代理制造商对他们表现良好的评估的声明(p-hacking 遇上“为什么大多数已发表的研究结果是错误的”)。
声称这些数字意味着 Amp 是最好的将是不诚实的。这只是一个过于人工的环境,随机性太大。而且我认为没有人真正因为基准结果而选择编码代理,更不用说第一方报告的结果了。
但评估确实帮助我们改进 Amp。您可以从一份报告中看到,Amp 在某些情况下每次都失败,我们会对此进行调查。我们还进行各种狭窄的评估,例如针对我们的搜索子代理[1]。
注意:这并不是对 Next.js 评估的攻击 /根本不是/。这是一个很好的评估集,总体上服务于帮助我们在 Next.js 方面改进 Amp 的目的。
[REDACTED]:我在最初的 Amp 评估中得到了 50-58%,其他人得到了 48-76%。


24.46K
热门
排行
收藏

