المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
بئسًا... ستانفورد أظهرت فقط لماذا تبدو نماذج اللغة الكبيرة ذكية لكنها تفشل في اللحظة التي تعارض فيها الواقع.
تتناول هذه الورقة نمط فشل قاس رآه كل من يبني وكلاء: إعطاء النموذج مهمة غير محددة بشكل كاف فيهلوس الأجزاء المفقودة بسعادة، وينتج خطة تبدو سلسة وتنهار عند التنفيذ.
الفهم الأساسي بسيط لكنه مدمر بالنسبة للطرق التي تعتمد فقط على الطلبات: ينكسر التفكير عندما تكون الشروط المسبقة غير معروفة. ومعظم المهام الواقعية مليئة بالمجهولات.
حل ستانفورد يسمى التخطيط التصنيفي ثنائي الاتجاه ذاتي الاستعلام (SQ-BCP)، ويجبر النماذج على التوقف عن التظاهر بأنهم يعرفون أشياء لا يعرفونها.
بدلا من افتراض وجود حقائق مفقودة، يتتبع كل فعل شروطه المسبقة صراحة كما يلي:
• راض
• انتهاك
• غير معروف
المجهول هو المفتاح. عندما يصل النموذج إلى نقطة مجهولة، لا يسمح له بالتقدم.
يجب أن يكون إما:
1. اطرح سؤالا مستهدفا لحل الحقيقة المفقودة
أو
2. اقتراح إجراء جسر يحدد الشرط أولا (قياس، فحص، تحضير، إلخ)
فقط بعد حل جميع الشروط المسبقة يمكن أن تستمر الخطة.
لكن هنا يكمن الاختراق الحقيقي: الخطط لا تقبل لأنها تبدو قريبة من الهدف.
يتم قبولهم فقط إذا اجتازوا خطوة التحقق الرسمية باستخدام فحوصات السحب النظرية للفئة. تستخدم درجات التشابه فقط للترتيب، وليس للدقة.
...

الأفضل
المُتصدِّرة
التطبيقات المفضلة
