一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

#

Bonk 生态迷因币展现强韧势头

#

有消息称 Pump.fun 计划 40 亿估值发币，引发市场猜测

LAUNCHCOIN-6.86%

#

Solana 新代币发射平台 Boop.Fun 风头正劲

header

Robert Youssef

Robert Youssef

Robert Youssef6 小时前

天哪……斯坦福刚刚展示了为什么大型语言模型听起来聪明，但在现实反击时仍然失败。这篇论文解决了每个构建代理的人都见过的一个残酷失败模式：给模型一个不明确的任务，它会愉快地幻想缺失的部分，产生一个看起来流畅但在执行时崩溃的计划。核心见解很简单，但对仅依赖提示的方法来说是毁灭性的：当前提条件未知时，推理会中断。而大多数现实世界的任务充满了未知。斯坦福的解决方案称为自查询双向分类规划（SQ-BCP），它迫使模型停止假装自己知道它们不知道的事情。每个行动都明确跟踪其前提条件，而不是假设缺失的事实，具体如下： • 满足 • 违反 • 未知未知是关键。当模型遇到未知时，它不被允许继续。它必须： 1. 提出一个有针对性的问题来解决缺失的事实或者 2. 提出一个建立条件的桥接行动（测量、检查、准备等）只有在所有前提条件解决后，计划才能继续。但这里的真正突破是：计划不是因为看起来接近目标而被接受。只有在通过使用范畴理论的拉回检查的正式验证步骤后，计划才会被接受。相似性分数仅用于排名，从不用于正确性。翻译：漂亮的计划不算数。可执行的计划才算数。结果非常惊人。在WikiHow和RecipeNLG任务中，隐藏约束的情况： • 资源违规率从26%降至14.9% • 从15.7%降至5.8% 同时保持竞争力的质量分数。更多的搜索没有帮助。更长的思维链没有帮助。即使是自询问单独也仍然错过了约束。真正有效的是将不确定性视为一等公民，并拒绝在解决之前向前推进。这篇论文悄悄地划定了一条界限：代理失败不是关于模型的大小。而是关于假装不完整的信息是完整的。如果你想要能够行动的代理，而不仅仅是叙述，这就是前进的方向。

1

Robert Youssef

Robert Youssef1月28日 21:19

经过两年的 AI 研究使用，我可以说这些工具彻底改变了我的工作流程。以下是 12 个跨 ChatGPT、Claude 和 Perplexity 的提示，它们改变了我的研究（也可以为你带来同样的效果）：

31

Robert Youssef

Robert Youssef1月27日 19:02

如何使用Claude和n8n构建AI代理：只需将此提示复制/粘贴到Claude中。它将从头开始构建您的代理，包括工作流程、步骤和逻辑。这是我使用的确切提示 👇

59

热门

排行

收藏

©2017 - 2026 WEB3.OKX.COM

简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska Türkçe

关于 OKX Wallet

下载学院关于我们就业机会联系我们服务条款隐私政策 X (原推特)

产品

行情币币兑换市场赚币发现开发者中心浏览器安全

用户支持

帮助中心官方渠道验证公告 DEX 费率标准加入社群比特币钱包以太坊钱包 Solana 钱包