トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
今日の AI エージェント アーキテクチャ (ReAct、Plan-then-Act など) では、誤った応答が多すぎます。
私たちの新しいベンチマークは、マルチホップ質問応答で5つの人気のあるエージェントアーキテクチャを評価し、これを裏付けています。
次に、それぞれにリアルタイムの信頼スコアリングを追加したところ、Act から 56%、ReAct (ゼロショット) から 56%、ReAct (少数ショット) から 16%、PlanAct から 25%、PlanReAct から 10% という、すべてのエージェントタイプで誤った回答が減少しました。
AI エラーを許容できない場合、信頼スコアリングはどの AI エージェントでも機能し、わずか数行のコードで済みます。
ベンチマークの全文はこちらからご覧ください。

5.51K
トップ
ランキング
お気に入り