Các kiến trúc AI Agent ngày nay (ReAct, Plan-then-Act, v.v.) tạo ra quá nhiều phản hồi không chính xác. Tiêu chuẩn mới của chúng tôi xác nhận điều này, đánh giá 5 kiến trúc Agent phổ biến trong việc trả lời câu hỏi đa bước. Chúng tôi sau đó đã thêm điểm tin cậy theo thời gian cho từng kiến trúc, điều này đã giảm phản hồi không chính xác trên tất cả các loại Agent: từ Act giảm 56%, từ ReAct (Zero-shot) giảm 56%, từ ReAct (Few-shot) giảm 16%, từ PlanAct giảm 25%, và từ PlanReAct giảm 10%. Nếu bạn không thể chịu đựng lỗi AI, điểm tin cậy hoạt động cho bất kỳ AI Agent nào và chỉ cần một vài dòng mã.
5,51K