Arhitecturile AI Agent de astăzi (ReAct, Plan-then-Act etc.) produc prea multe răspunsuri incorecte. Noul nostru benchmark confirmă acest lucru, evaluând 5 arhitecturi populare de agenți în răspunsuri la întrebări multi-hop. Apoi am adăugat scorul de încredere în timp real la fiecare, ceea ce a redus răspunsurile incorecte la toate tipurile de agenți: de la Act cu 56%, de la ReAct (Zero-shot) cu 56%, de la ReAct (Few-shot) cu 16%, de la PlanAct cu 25% și de la PlanReAct cu 10%. Dacă nu puteți tolera erorile AI, scorul de încredere funcționează pentru orice agent AI și este doar câteva linii de cod. Consultați benchmark-ul complet aici:
5,53K