跳转至主要内容
行情
扫链
追踪
信号
跟单
兑换
资产
邀请计划
更多
产品
DeFi
市场
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
-3.13%
USELESS
-12.98%
IKUN
-6.44%
gib
-1.41%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-7.67%
ALON
-19.4%
LAUNCHCOIN
-6.86%
GOONC
-2.42%
KLED
-1.34%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-2.06%
Boopa
-9.4%
PORK
0.00%
主页
Robert Youssef
Robert Youssef
6 小时前
天哪……斯坦福刚刚展示了为什么大型语言模型听起来聪明,但在现实反击时仍然失败。 这篇论文解决了每个构建代理的人都见过的一个残酷失败模式:给模型一个不明确的任务,它会愉快地幻想缺失的部分,产生一个看起来流畅但在执行时崩溃的计划。 核心见解很简单,但对仅依赖提示的方法来说是毁灭性的:当前提条件未知时,推理会中断。而大多数现实世界的任务充满了未知。 斯坦福的解决方案称为自查询双向分类规划(SQ-BCP),它迫使模型停止假装自己知道它们不知道的事情。 每个行动都明确跟踪其前提条件,而不是假设缺失的事实,具体如下: • 满足 • 违反 • 未知 未知是关键。当模型遇到未知时,它不被允许继续。 它必须: 1. 提出一个有针对性的问题来解决缺失的事实 或者 2. 提出一个建立条件的桥接行动(测量、检查、准备等) 只有在所有前提条件解决后,计划才能继续。 但这里的真正突破是:计划不是因为看起来接近目标而被接受。 只有在通过使用范畴理论的拉回检查的正式验证步骤后,计划才会被接受。相似性分数仅用于排名,从不用于正确性。 翻译:漂亮的计划不算数。可执行的计划才算数。 结果非常惊人。 在WikiHow和RecipeNLG任务中,隐藏约束的情况: • 资源违规率从26%降至14.9% • 从15.7%降至5.8% 同时保持竞争力的质量分数。 更多的搜索没有帮助。 更长的思维链没有帮助。 即使是自询问单独也仍然错过了约束。 真正有效的是将不确定性视为一等公民,并拒绝在解决之前向前推进。 这篇论文悄悄地划定了一条界限: 代理失败不是关于模型的大小。 而是关于假装不完整的信息是完整的。 如果你想要能够行动的代理,而不仅仅是叙述,这就是前进的方向。
1
Robert Youssef
1月28日 21:19
经过两年的 AI 研究使用,我可以说这些工具彻底改变了我的工作流程。 以下是 12 个跨 ChatGPT、Claude 和 Perplexity 的提示,它们改变了我的研究(也可以为你带来同样的效果):
31
Robert Youssef
1月27日 19:02
如何使用Claude和n8n构建AI代理: 只需将此提示复制/粘贴到Claude中。 它将从头开始构建您的代理,包括工作流程、步骤和逻辑。 这是我使用的确切提示 👇
59
热门
排行
收藏