一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

天哪……斯坦福刚刚展示了为什么大型语言模型听起来聪明，但在现实反击时仍然失败。这篇论文解决了每个构建代理的人都见过的一个残酷失败模式：给模型一个不明确的任务，它会愉快地幻想缺失的部分，产生一个看起来流畅但在执行时崩溃的计划。核心见解很简单，但对仅依赖提示的方法来说是毁灭性的：当前提条件未知时，推理会中断。而大多数现实世界的任务充满了未知。斯坦福的解决方案称为自查询双向分类规划（SQ-BCP），它迫使模型停止假装自己知道它们不知道的事情。每个行动都明确跟踪其前提条件，而不是假设缺失的事实，具体如下： • 满足 • 违反 • 未知未知是关键。当模型遇到未知时，它不被允许继续。它必须： 1. 提出一个有针对性的问题来解决缺失的事实或者 2. 提出一个建立条件的桥接行动（测量、检查、准备等）只有在所有前提条件解决后，计划才能继续。但这里的真正突破是：计划不是因为看起来接近目标而被接受。只有在通过使用范畴理论的拉回检查的正式验证步骤后，计划才会被接受。相似性分数仅用于排名，从不用于正确性。 ...