Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Arsitektur Agen AI saat ini (ReAct, Plan-then-Act, dll) menghasilkan terlalu banyak respons yang salah.
Tolok ukur baru kami mengkonfirmasi hal ini, mengevaluasi 5 arsitektur Agen populer dalam Jawaban-Pertanyaan multi-hop.
Kami kemudian menambahkan penilaian kepercayaan real-time ke masing-masing, yang mengurangi respons yang salah di semua jenis Agen: dari Act sebesar 56%, dari ReAct (Zero-shot) sebesar 56%, dari ReAct (Few-shot) sebesar 16%, dari PlanAct sebesar 25%, dan dari PlanReAct sebesar 10%.
Jika Anda tidak dapat mentolerir kesalahan AI, penilaian kepercayaan berfungsi untuk Agen AI apa pun dan hanya beberapa baris kode.
Lihat benchmark lengkapnya di sini:

5,5K
Teratas
Peringkat
Favorit