热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
天哪……斯坦福刚刚展示了为什么大型语言模型听起来聪明,但在现实反击时仍然失败。
这篇论文解决了每个构建代理的人都见过的一个残酷失败模式:给模型一个不明确的任务,它会愉快地幻想缺失的部分,产生一个看起来流畅但在执行时崩溃的计划。
核心见解很简单,但对仅依赖提示的方法来说是毁灭性的:当前提条件未知时,推理会中断。而大多数现实世界的任务充满了未知。
斯坦福的解决方案称为自查询双向分类规划(SQ-BCP),它迫使模型停止假装自己知道它们不知道的事情。
每个行动都明确跟踪其前提条件,而不是假设缺失的事实,具体如下:
• 满足
• 违反
• 未知
未知是关键。当模型遇到未知时,它不被允许继续。
它必须:
1. 提出一个有针对性的问题来解决缺失的事实
或者
2. 提出一个建立条件的桥接行动(测量、检查、准备等)
只有在所有前提条件解决后,计划才能继续。
但这里的真正突破是:计划不是因为看起来接近目标而被接受。
只有在通过使用范畴理论的拉回检查的正式验证步骤后,计划才会被接受。相似性分数仅用于排名,从不用于正确性。
...

热门
排行
收藏
