今天的AI代理架構(ReAct、Plan-then-Act等)產生了太多錯誤的回應。 我們的新基準確認了這一點,評估了5種流行的代理架構在多跳問答中的表現。 然後我們為每個架構添加了即時信任評分,這減少了所有代理類型的錯誤回應:Act減少了56%,ReAct(零樣本)減少了56%,ReAct(少樣本)減少了16%,PlanAct減少了25%,PlanReAct減少了10%。 如果你無法容忍AI錯誤,信任評分適用於任何AI代理,只需幾行代碼。 在這裡查看完整的基準:
5.51K