Las arquitecturas de agentes de IA de hoy (ReAct, Plan-then-Act, etc.) producen demasiadas respuestas incorrectas. Nuestro nuevo estándar lo confirma, evaluando 5 arquitecturas de agentes populares en preguntas y respuestas de múltiples saltos. Luego, añadimos una puntuación de confianza en tiempo real a cada una, lo que redujo las respuestas incorrectas en todos los tipos de agentes: de Act en un 56%, de ReAct (Zero-shot) en un 56%, de ReAct (Few-shot) en un 16%, de PlanAct en un 25% y de PlanReAct en un 10%. Si no puedes tolerar errores de IA, la puntuación de confianza funciona para cualquier agente de IA y son solo un par de líneas de código. Consulta el estándar completo aquí:
5,51K