Современные архитектуры AI-агентов (ReAct, Plan-then-Act и т.д.) генерируют слишком много неверных ответов. Наш новый бенчмарк это подтверждает, оценивая 5 популярных архитектур агентов в многопроходном вопросно-ответном формате. Мы добавили оценку доверия в реальном времени к каждому из них, что снизило количество неверных ответов для всех типов агентов: от Act на 56%, от ReAct (Zero-shot) на 56%, от ReAct (Few-shot) на 16%, от PlanAct на 25% и от PlanReAct на 10%. Если вы не можете терпеть ошибки AI, оценка доверия работает для любого AI-агента и требует всего пару строк кода. Полный бенчмарк можно посмотреть здесь:
5,51K