今天的AI代理架构(ReAct、Plan-then-Act等)产生了太多错误的响应。 我们的新基准确认了这一点,评估了5种流行的代理架构在多跳问答中的表现。 然后我们为每个架构添加了实时信任评分,这减少了所有代理类型的错误响应:Act减少了56%,ReAct(零样本)减少了56%,ReAct(少样本)减少了16%,PlanAct减少了25%,PlanReAct减少了10%。 如果你无法容忍AI错误,信任评分适用于任何AI代理,只需几行代码。 在这里查看完整的基准:
5.51K