Nuovo documento 📢 I dataset di ragionamento visione-linguaggio (VL) più potenti rimangono proprietari 🔒, ostacolando gli sforzi per studiarne i principi e sviluppare dataset altrettanto efficaci in modo aperto 🔓. Pertanto, introduciamo HoneyBee, un dataset di 2,5 milioni di esempi creato attraverso una cura attenta dei dati. Addestra i ragionatori VLM che superano InternVL2.5/3-Instruct e Qwen2.5-VL-Instruct su diverse scale di modello (ad esempio, un miglioramento dell'8% su MathVerse rispetto a QwenVL alla scala di 3B). 🧵👇 Lavoro svolto durante il mio tirocinio presso @AIatMeta con 🤝 @ramakanth1729, @Devendr06654102, @scottyih, @gargighosh, @adityagrover_ e @kaiwei_chang.