المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
تعد قيم وكيل الترميز مفيدة لجعل وكيلك أفضل ، ولكن ليس لإثبات أنه الأفضل (مهما كان معنى ذلك). لهذا السبب لا نتحدث علنا عن الضيوف.
لكن الكثير من الناس يسألون ، لذلك إليك شرح أطول لسبب عدم كونها ذات مغزى للمقارنة بين الوكيل.
الليلة الماضية ، لمجرد نزوة ، قمت بتشغيل Next.js evals [0] ضد @AmpCode وحصلت على [DECACTED ؛ لا أريد أن يكون هذا حول الأرقام ، ولكن قم بالتمرير لأسفل إذا كنت فضوليا]٪ ، أعلى بكثير من أعلى الرقم التالي (Claude Code) عند 42٪.
ثم طلبت من بعض الأشخاص الآخرين محاولة تكرار هذه النتائج. حصل أشخاص آخرون على [REDACTED]٪ ل Amp ، وبعضهم لديه AGENTS𛲔md يقرأ على النحو التالي:
> عند العمل في مشروع Next.js ، قم دائما بتشغيل "npm exec tsc -b" للتحقق من وجود أخطاء في النوع ، ثم "npm run build" و "npm run test" ، قبل الانتهاء. قم بإصلاح أي أخطاء تراها وحاول مرة أخرى حتى لا تكون هناك أخطاء.
عند استخدام كود كلود مع ذلك في CLAUDE𛲔md ، فقد ارتفع إلى 72٪ (ارتفاعا من 40-42٪ بدون).
الوجبات السريعة:
• يعزز ملف AGENTS𛲔md البسيط معدل النجاح بشكل كبير (من الناحية العملية ~ جميع المستخدمين الحقيقيين لديهم واحد ، ولكن نادرا ما توفر evals واحدا)
• تباين كبير عبر عمليات التشغيل (من الصعب بشكل خاص جعل وكلاء الترميز حتميين)
• توجد العديد من الفرص لأنواع أخرى من الانجراف غير المقصود (يجعلني أشعر بالتوتر لأن معظم نتائج Terminal Bench لا يتم التحقق من صحتها بشكل مستقل ، على سبيل المثال)
أيضا ، مع وجود العديد من مجموعات التقييم المختلفة الموجودة الآن ، ستسمع فقط الادعاءات من صانعي الوكلاء حول الأخطاء التي يفعلون فيها بشكل جيد (يلتقي p-hacking ب "لماذا معظم نتائج الأبحاث المنشورة خاطئة").
سيكون من غير النزيه الادعاء بأن هذه الأرقام تعني أن Amp هو الأفضل. إنها مجرد مصطنعة للغاية للبيئة وهناك الكثير من العشوائية. ولا أعتقد أن أي شخص قد اختار وكيل ترميز بسبب النتائج المعيارية ، ناهيك عن النتائج التي تم الإبلاغ عنها من قبل الطرف الأول.
لكن evals تساعدنا في جعل Amp أفضل. يمكنك أن ترى من أحد التقارير أن Amp فشل في حالات معينة في كل مرة ، وهو ما سننظر فيه. ونقوم بجميع أنواع الرحلات الضيقة ، مثل وكيل البحث الفرعي الخاص بنا[1].
ملاحظة: هذا لا يقصد به أن يكون حفرا ضد Next.js evals / على الإطلاق /. إنها مجموعة تقييم رائعة بشكل عام وتخدم غرضها في مساعدتنا في جعل Amp أفضل في Next.js الأشياء.
[تم الحذف]: حصلت على 50-58٪ في مضخم الصوت الأولي ، وحصل آخرون على 48-76٪.


الأفضل
المُتصدِّرة
التطبيقات المفضلة

