Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dnešní architektury AI Agent (ReAct, Plan-then-Act atd.) produkují příliš mnoho nesprávných odpovědí.
Potvrzuje to náš nový benchmark, který hodnotí 5 populárních architektur Agent v multi-hop odpovídání na otázky.
Ke každému z nich jsme pak přidali hodnocení důvěryhodnosti v reálném čase, což snížilo počet nesprávných odpovědí ve všech typech agentů: od Act o 56 %, od ReAct (Zero-shot) o 56 %, od ReAct (Few-shot) o 16 %, od PlanAct o 25 % a od PlanReAct o 10 %.
Pokud nemůžete tolerovat chyby AI, trust scoring funguje pro jakéhokoli AI agenta a je to jen pár řádků kódu.
Podívejte se na celý benchmark zde:

5,52K
Top
Hodnocení
Oblíbené