أعتقد أن ساتون محق في كل شيء بشكل أساسي التقليد في ليس تقليدا. إنه هدف للتقليد ، ويتم تعلم * الإجراءات الحركية * بدون أي بيانات. لا يمكن للزرزور تقليد الإجراءات الحركية ، ولا يراها. إنه هدف لتقليده
من الصعب جدا جعل الناس يفهمون هذا وبالمناسبة لا تقل أن LLMs تستخدم rl إنهم لا يستخدمون RL في حياتهم إنه في طريقه إلى هناك ، والذهاب إلى أبعد من ذلك يثبت فقط أن يأخذه بشكل صحيح
بالمناسبة ، فإن LLMs سيئة ، من حيث الدرس المر ، لأنها في الأساس عكس مضاعفات الحوسبة. أحاول مساعدتكم يا رفاق على الفهم.
@bftnad مثل ، لا يزال يتعين عليه معرفة وتعلم واستكشاف كيفية إصدار الأوامر الحركية الفعلية
‏‎116.21‏K