As arquiteturas atuais do AI Agent (ReAct, Plan-then-Act, etc.) produzem muitas respostas incorretas. Nosso novo benchmark confirma isso, avaliando 5 arquiteturas populares de agentes em perguntas e respostas multi-hop. Em seguida, adicionamos pontuação de confiança em tempo real a cada um, o que reduziu as respostas incorretas em todos os tipos de agentes: de Act em 56%, de ReAct (Zero-shot) em 56%, de ReAct (Few-shot) em 16%, de PlanAct em 25% e de PlanReAct em 10%. Se você não puder tolerar erros de IA, a pontuação de confiança funcionará para qualquer agente de IA e terá apenas algumas linhas de código. Confira o benchmark completo aqui:
5,52K