من وجهة نظري ، فإن rl هي طريقة أكثر احتمالا لقول البيانات التركيبية التي لم يكن الجميع من المعجبين بها قبل عامين عندما بدأت في أخذ عينات الرفض لصنع Hermes 1. كانت البيانات التركيبية (بما في ذلك البيانات شبه التركيبية) موجودة منذ ظهور ChatGPT.
aurelium /ɔˈreːliəm/
aurelium /ɔˈreːliəm/‏15 أكتوبر، 14:33
الأشخاص الذين يقولون ، بشكل غامض وبدون تفسير ، أن RL ليس المستقبل دائما ما يربكونني إنه مثل شطب "التعلم غير الخاضع للإشراف" على أنه ليس المستقبل
@gregcoppola5d @kalomaze من أجل الوضوح ، احتجنا فقط إلى ~ 25 عينة قدم لتحطيم هذا الرقم القياسي الذي قام grok بالتأكيد بتحقيق rl مكثف ومكلف
@niklassheth @kalomaze الأشياء التي تعمل كلها عمليات طرح متجددة مع مدققين أو مؤهلات للبيانات. مع ذلك كل الأشياء ممكنة. جزء rl عبر الإنترنت هو مجرد تعزيز للكفاءة
‏‎10.81‏K