新論文 📢 最強大的視覺-語言 (VL) 推理數據集仍然是專有的 🔒,這妨礙了研究其原則和在公開環境中開發類似有效數據集的努力 🔓。 因此,我們介紹了 HoneyBee,一個包含 250 萬個示例的數據集,通過仔細的數據策劃創建。它訓練的 VLM 推理器在模型規模上超越了 InternVL2.5/3-Instruct 和 Qwen2.5-VL-Instruct(例如,在 3B 規模上,MathVerse 相對於 QwenVL 提高了 8%)。 🧵👇 這項工作是在我於 @AIatMeta 實習期間完成的,與 🤝 @ramakanth1729、@Devendr06654102、@scottyih、@gargighosh、@adityagrover_ 和 @kaiwei_chang 一起進行。