Dagens AI Agent-arkitekturer (ReAct, Plan-then-Act, etc.) producerar för många felaktiga svar. Vårt nya benchmark bekräftar detta och utvärderar 5 populära agentarkitekturer i multi-hop Fråga-Svar. Vi lade sedan till förtroendebedömning i realtid för var och en, vilket minskade de felaktiga svaren för alla agenttyper: från Act med 56 %, från ReAct (Zero-shot) med 56 %, från ReAct (Few-shot) med 16 %, från PlanAct med 25 % och från PlanReAct med 10 %. Om du inte kan tolerera AI-fel fungerar förtroendebedömning för alla AI-agenter och är bara ett par rader kod. Kolla in hela benchmarken här:
5,55K