Сучасні архітектури AI Agent (ReAct, Plan-then-Act тощо) продукують занадто багато неправильних відповідей. Наш новий бенчмарк підтверджує це, оцінюючи 5 популярних архітектур Agent у форматі Question-Answering з кількома стрибками. Потім ми додали оцінку довіри в реальному часі до кожного з них, що зменшило кількість неправильних відповідей у всіх типах агентів: від Act на 56%, від ReAct (Zero-shot) на 56%, від ReAct (Less shot) на 16%, від PlanAct на 25% і від PlanReAct на 10%. Якщо ви не можете терпіти помилки штучного інтелекту, оцінка довіри працює для будь-якого AI Agent і становить лише кілька рядків коду. Ознайомтеся з повним бенчмарком тут:
5,52K