As arquiteturas de agentes de IA de hoje (ReAct, Plan-then-Act, etc.) produzem muitas respostas incorretas. Nosso novo benchmark confirma isso, avaliando 5 arquiteturas populares de agentes em perguntas e respostas de múltiplas etapas. Em seguida, adicionamos uma pontuação de confiança em tempo real a cada uma, o que reduziu as respostas incorretas em todos os tipos de agentes: de Act em 56%, de ReAct (Zero-shot) em 56%, de ReAct (Few-shot) em 16%, de PlanAct em 25% e de PlanReAct em 10%. Se você não pode tolerar erros de IA, a pontuação de confiança funciona para qualquer agente de IA e é apenas algumas linhas de código. Confira o benchmark completo aqui:
5,51K