Nouveau document 📢 Les ensembles de données de raisonnement vision-langage (VL) les plus puissants restent propriétaires 🔒, entravant les efforts pour étudier leurs principes et développer des ensembles de données tout aussi efficaces en open 🔓. Ainsi, nous introduisons HoneyBee, un ensemble de données de 2,5 millions d'exemples créé grâce à une curation de données soigneuse. Il forme des raisonneurs VLM qui surpassent InternVL2.5/3-Instruct et Qwen2.5-VL-Instruct à travers les échelles de modèles (par exemple, une amélioration de 8 % de MathVerse par rapport à QwenVL à l'échelle de 3B). 🧵👇 Travail effectué pendant mon stage chez @AIatMeta avec 🤝 @ramakanth1729, @Devendr06654102, @scottyih, @gargighosh, @adityagrover_, et @kaiwei_chang.