Makalah 📢 baru Kumpulan data penalaran bahasa-penglihatan (VL) yang paling kuat tetap berpemilik 🔒, menghambat upaya untuk mempelajari prinsip-prinsip mereka dan mengembangkan kumpulan data yang sama efektifnya di tempat terbuka 🔓. Oleh karena itu, kami memperkenalkan HoneyBee, kumpulan data contoh 2,5 juta yang dibuat melalui kurasi data yang cermat. Ini melatih penalaran VLM yang mengungguli InternVL2.5/3-Instruct dan Qwen2.5-VL-Instruct di seluruh skala model (misalnya, peningkatan MathVerse 8% dibandingkan QwenVL pada skala 3B). 🧵👇 Pekerjaan yang dilakukan selama magang saya di @AIatMeta dengan 🤝 @ramakanth1729, @Devendr06654102, @scottyih, @gargighosh, @adityagrover_, dan @kaiwei_chang.