المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
تنتج بنى عامل الذكاء الاصطناعي اليوم (ReAct و Plan-then-Act وما إلى ذلك) الكثير من الاستجابات غير الصحيحة.
يؤكد معيارنا الجديد ذلك ، حيث يقيم 5 معماريات وكلاء شائعة في الإجابة على الأسئلة متعددة القفزات.
ثم أضفنا تسجيل الثقة في الوقت الفعلي إلى كل منها، مما قلل من الاستجابات غير الصحيحة عبر جميع أنواع الوكلاء: من Act بنسبة 56٪، ومن ReAct (Zero-shot) بنسبة 56٪، ومن ReAct (لقطة قليلة) بنسبة 16٪، ومن PlanAct بنسبة 25٪، ومن PlanReAct بنسبة 10٪.
إذا كنت لا تستطيع تحمل أخطاء الذكاء الاصطناعي ، فإن تسجيل الثقة يعمل مع أي وكيل الذكاء الاصطناعي وهو مجرد سطرين من التعليمات البرمجية.
تحقق من المعيار الكامل هنا:

5.52K
الأفضل
المُتصدِّرة
التطبيقات المفضلة