Новая статья 📢 Самые мощные наборы данных для рассуждений на основе языка и изображения (VL) остаются собственностью 🔒, что затрудняет изучение их принципов и разработку аналогичных эффективных наборов данных в открытом доступе 🔓. Таким образом, мы представляем HoneyBee, набор данных из 2,5 миллиона примеров, созданный с помощью тщательной кураторской работы. Он обучает VLM-рассуждателей, которые превосходят InternVL2.5/3-Instruct и Qwen2.5-VL-Instruct по всем масштабам моделей (например, улучшение на 8% по MathVerse по сравнению с QwenVL на уровне 3B). 🧵👇 Работа выполнена во время моей стажировки в @AIatMeta с 🤝 @ramakanth1729, @Devendr06654102, @scottyih, @gargighosh, @adityagrover_ и @kaiwei_chang.