De huidige AI Agent-architecturen (ReAct, Plan-then-Act, enz.) produceren te veel onjuiste antwoorden. Onze nieuwe benchmark bevestigt dit, door 5 populaire Agent-architecturen te evalueren in multi-hop Vraag-Antwoord. We hebben vervolgens real-time vertrouwensscores aan elk van hen toegevoegd, wat het aantal onjuiste antwoorden over alle Agent-types verminderde: van Act met 56%, van ReAct (Zero-shot) met 56%, van ReAct (Few-shot) met 16%, van PlanAct met 25%, en van PlanReAct met 10%. Als je AI-fouten niet kunt tolereren, werkt vertrouwensscoring voor elke AI Agent en is het slechts een paar regels code. Bekijk de volledige benchmark hier:
5,51K