ورقة 📢 جديدة لا تزال مجموعات بيانات التفكير في لغة الرؤية (VL) الأقوى مملوكة 🔒 ، مما يعيق الجهود المبذولة لدراسة مبادئها وتطوير مجموعات بيانات فعالة مماثلة في العراء 🔓. وبالتالي ، نقدم HoneyBee ، وهي مجموعة بيانات مكونة من 2.5 مليون مثال تم إنشاؤها من خلال تنظيم البيانات بعناية. إنه يدرب منطقي VLM الذين يتفوقون على InternVL2.5 / 3-Instruct و Qwen2.5-VL-Instruct عبر مقاييس النموذج (على سبيل المثال ، تحسين MathVerse بنسبة 8٪ على QwenVL على مقياس 3B). 🧵👇 العمل المنجز خلال فترة تدريبي في @AIatMeta مع 🤝 @ramakanth1729 و @Devendr06654102 و @scottyih و @gargighosh و @adityagrover_ و @kaiwei_chang.