一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

发现功能使用指南

discoveryBanners

热门话题

#

Bonk 生态迷因币展现强韧势头

#

有消息称 Pump.fun 计划 40 亿估值发币，引发市场猜测

LAUNCHCOIN-11.06%

#

Solana 新代币发射平台 Boop.Fun 风头正劲

header

Quinn Slack

首席执行官兼技术人员@sourcegraph @ampcode

Quinn Slack

Quinn Slack2025年10月31日

More for less: the average paying Amp user now pays ~21% less per day vs. a few weeks ago, while # {threads,messages} {,per user}, users, & total revenue are all growing. We did this while keeping Amp's `smart` mode quality the same or better, and without subsidizing you (which is unsustainable and leads to bad incentives). - We shipped /handoff and ripped out compaction. This leads to smaller and more focused threads: better output for less tokens and less money. - ~20% (and growing) of paying Amp users (excl. enterprise) now also use Amp Free for some threads on any given day, which lets you choose your desired mix of quality/cost. - We switched Amp's search subagent to Haiku, which makes it ~50% faster with the same eval performance. - People are publicly sharing some great Amp threads that show off how to use it effectively (mainly small, focused threads). - And a lot of smaller things. (p90 paid user spend per day is down ~12%.) On the Amp team, we're committed to keeping `smart` mode the very best, no matter the cost. Amp Free is proving to be a useful testbed for us to make broad efficiency gains, and as a pressure valve so that we don't need to compromise quality in `smart` mode to reach a broad userbase. Happy coding!

10.06K

Quinn Slack

Quinn Slack2025年10月30日

需要有人加入Amp团队，帮助我们为Amp Free构建广告基础设施和用户流程。后端、前端，每天多次交付，并与客户合作。这个职位仅限于旧金山。需要大量的努力和应对不确定性。私信我。

26.73K

Quinn Slack

Quinn Slack2025年10月28日

编码代理评估对于提升您的代理性能非常有用，但并不能证明它是最好的（无论这意味着什么）。这就是为什么我们不公开讨论评估。但很多人询问，所以这里有一个更长的解释，说明为什么它们对代理之间的比较没有意义。昨晚，我心血来潮，针对 @AmpCode 运行了 Next.js 评估[0]，得到了 [REDACTED; 𝘐 𝘥𝘰𝘯'𝘵 𝘸𝘢𝘯𝘵 𝘵𝘩𝘪𝘴 𝘵𝘰 𝘣𝘦 𝘢𝘣𝘰𝘶𝘵 𝘵𝘩𝘦 𝘯𝘶𝘮𝘣𝘦𝘳𝘴, 𝘣𝘶𝘵 𝘴𝘤𝘳𝘰𝘭𝘭 𝘥𝘰𝘸𝘯 𝘪𝘧 𝘤𝘶𝘳𝘪𝘰𝘶𝘴]%，远高于第二高的（Claude Code）42%。然后我请其他人尝试复制这些结果。其他人得到了 [REDACTED]% 的 Amp 结果，有些人使用了如下的 AGENTS𛲔md： > 在 Next.js 项目中工作时，始终运行 `npm exec tsc -b` 来检查类型错误，然后运行 `npm run build` 和 `npm run test`，在完成之前。修复您看到的任何错误，并尝试再次运行，直到没有错误。在 CLAUDE𛲔md 中使用 Claude Code 时，得分高达 72%（比没有时的 40-42% 提高）。要点： • 一个简单的 AGENTS𛲔md 文件大大提高了成功率（实际上几乎所有真实用户都有一个，但评估很少提供一个） • 运行之间的高变异性（使得编码代理变得确定性尤其困难） • 存在许多其他类型的无意漂移的机会（例如，我对大多数 Terminal Bench 结果没有独立验证感到紧张）此外，随着现在有这么多不同的评估集，您只会听到代理制造商对他们表现良好的评估的声明（p-hacking 遇上“为什么大多数已发表的研究结果是错误的”）。声称这些数字意味着 Amp 是最好的将是不诚实的。这只是一个过于人工的环境，随机性太大。而且我认为没有人真正因为基准结果而选择编码代理，更不用说第一方报告的结果了。但评估确实帮助我们改进 Amp。您可以从一份报告中看到，Amp 在某些情况下每次都失败，我们会对此进行调查。我们还进行各种狭窄的评估，例如针对我们的搜索子代理[1]。注意：这并不是对 Next.js 评估的攻击 /根本不是/。这是一个很好的评估集，总体上服务于帮助我们在 Next.js 方面改进 Amp 的目的。 [REDACTED]：我在最初的 Amp 评估中得到了 50-58%，其他人得到了 48-76%。

24.46K

热门

排行

收藏

©2017 - 2025 WEB3.OKX.COM

简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska

关于 OKX Wallet

下载学院关于我们就业机会联系我们服务条款隐私政策 X (原推特)

产品

行情币币兑换市场赚币发现开发者中心浏览器安全

用户支持

帮助中心官方渠道验证公告 DEX 费率标准加入社群比特币钱包以太坊钱包 Solana 钱包