Nuevo documento 📢 Los conjuntos de datos de razonamiento visión-lenguaje (VL) más poderosos siguen siendo propietarios 🔒, lo que obstaculiza los esfuerzos para estudiar sus principios y desarrollar conjuntos de datos igualmente efectivos en abierto 🔓. Por lo tanto, presentamos HoneyBee, un conjunto de datos de 2.5 millones de ejemplos creado a través de una cuidadosa curaduría de datos. Entrena razonadores VLM que superan a InternVL2.5/3-Instruct y Qwen2.5-VL-Instruct en todas las escalas de modelo (por ejemplo, una mejora del 8% en MathVerse sobre QwenVL en la escala de 3B). 🧵👇 Trabajo realizado durante mi pasantía en @AIatMeta con 🤝 @ramakanth1729, @Devendr06654102, @scottyih, @gargighosh, @adityagrover_ y @kaiwei_chang.