Cele 📢 mai puternice seturi de date de raționament în limbajul viziunii (VL) rămân proprietare 🔒, împiedicând eforturile de a studia principiile lor și de a dezvolta seturi de date la fel de eficiente în mod deschis 🔓. Astfel, vă prezentăm HoneyBee, un set de date de 2,5 milioane de exemple creat printr-o organizare atentă a datelor. Antrenează raționamente VLM care depășesc performanța InternVL2.5/3-Instruct și Qwen2.5-VL-Instruct la scara modelului (de exemplu, o îmbunătățire de 8% MathVerse față de QwenVL la scara 3B). 🧵👇 Munca depusă în timpul stagiului meu la @AIatMeta cu 🤝 @ramakanth1729, @Devendr06654102, @scottyih, @gargighosh, @adityagrover_ și @kaiwei_chang.