一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

今天的AI代理架構（ReAct、Plan-then-Act等）產生了太多錯誤的回應。我們的新基準確認了這一點，評估了5種流行的代理架構在多跳問答中的表現。然後我們為每個架構添加了即時信任評分，這減少了所有代理類型的錯誤回應：Act減少了56%，ReAct（零樣本）減少了56%，ReAct（少樣本）減少了16%，PlanAct減少了25%，PlanReAct減少了10%。如果你無法容忍AI錯誤，信任評分適用於任何AI代理，只需幾行代碼。在這裡查看完整的基準：

5.51K