Dagens AI Agent-arkitekturer (ReAct, Plan-then-Act, etc) produserer for mange feil svar. Vår nye benchmark bekrefter dette, og evaluerer 5 populære agentarkitekturer i multi-hop spørsmålssvar. Vi la deretter til tillitspoeng i sanntid til hver enkelt, noe som reduserte feil svar på tvers av alle agenttyper: fra Act med 56 %, fra ReAct (Zero-shot) med 56 %, fra ReAct (Few-shot) med 16 %, fra PlanAct med 25 % og fra PlanReAct med 10 %. Hvis du ikke kan tolerere AI-feil, fungerer tillitspoengsum for alle AI-agenter og er bare et par linjer med kode. Sjekk ut hele referansen her:
5,48K