なんてこと。。。スタンフォードは、なぜLLMが賢そうに聞こえるのに、現実が反発するとすぐに失敗するのかを示しました。 この論文は、構築エージェントが誰もが目にした過酷な失敗モードに取り組んでいます。すなわち、モデルに過小評価されたタスクを与えれば、モデルは欠けているピースを喜んで幻覚のように見せ、流暢に見える計画を作り出し、実行すると崩壊します。 核心的な洞察はシンプルですが、プロンプトのみのアプローチでは致命的です。前提条件が不明になると推論は崩れます。そして、ほとんどの現実のタスクは未知の要素で溢れています。 スタンフォードの解決策は自己問い合わせ双方向カテゴリ計画(SQ-BCP)と呼ばれ、モデルに知らないことを装うのをやめさせます。 欠落した事実を仮定する代わりに、すべてのアクションはその前提条件を明示的に追跡します: ・満足 ・違反 ・不明 「不明」が鍵です。モデルが未知の領域に到達すると、進行を許されません。 それは以下のいずれかでなければなりません: 1. 欠けている事実を解決するためにターゲットを絞った質問をする または 2. まず条件を確立するブリッジアクション(測定、チェック、準備など)を提案します。 すべての前提条件が解決されて初めて、計画は継続されます。 しかし、本当の突破口はこうです。計画が目標に近づいているからといって受け入れられるわけではありません。 これらは圏論的なプルバックチェックを用いた形式的な検証ステップを通過した場合のみ受け入れられます。類似度スコアはランキングのためのみ使用され、正確さには使われません。 ...