Las arquitecturas actuales de AI Agent (ReAct, Plan-then-Act, etc.) producen demasiadas respuestas incorrectas. Nuestro nuevo punto de referencia confirma esto, evaluando 5 arquitecturas de agentes populares en preguntas y respuestas de múltiples saltos. Luego agregamos una puntuación de confianza en tiempo real a cada uno, lo que redujo las respuestas incorrectas en todos los tipos de agentes: de Act en un 56%, de ReAct (Zero-shot) en un 56%, de ReAct (Few-shot) en un 16%, de PlanAct en un 25% y de PlanReAct en un 10%. Si no puede tolerar errores de IA, la puntuación de confianza funciona para cualquier agente de IA y es solo un par de líneas de código. Echa un vistazo al punto de referencia completo aquí:
5.52K