今日の AI エージェント アーキテクチャ (ReAct、Plan-then-Act など) では、誤った応答が多すぎます。 私たちの新しいベンチマークは、マルチホップ質問応答で5つの人気のあるエージェントアーキテクチャを評価し、これを裏付けています。 次に、それぞれにリアルタイムの信頼スコアリングを追加したところ、Act から 56%、ReAct (ゼロショット) から 56%、ReAct (少数ショット) から 16%、PlanAct から 25%、PlanReAct から 10% という、すべてのエージェントタイプで誤った回答が減少しました。 AI エラーを許容できない場合、信頼スコアリングはどの AI エージェントでも機能し、わずか数行のコードで済みます。 ベンチマークの全文はこちらからご覧ください。
5.51K