Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Arhitecturile AI Agent de astăzi (ReAct, Plan-then-Act etc.) produc prea multe răspunsuri incorecte.
Noul nostru benchmark confirmă acest lucru, evaluând 5 arhitecturi populare de agenți în răspunsuri la întrebări multi-hop.
Apoi am adăugat scorul de încredere în timp real la fiecare, ceea ce a redus răspunsurile incorecte la toate tipurile de agenți: de la Act cu 56%, de la ReAct (Zero-shot) cu 56%, de la ReAct (Few-shot) cu 16%, de la PlanAct cu 25% și de la PlanReAct cu 10%.
Dacă nu puteți tolera erorile AI, scorul de încredere funcționează pentru orice agent AI și este doar câteva linii de cod.
Consultați benchmark-ul complet aici:

5,53K
Limită superioară
Clasament
Favorite