Novo artigo 📢 Os conjuntos de dados de raciocínio visão-linguagem (VL) mais poderosos continuam a ser proprietários 🔒, dificultando os esforços para estudar os seus princípios e desenvolver conjuntos de dados igualmente eficazes de forma aberta 🔓.
Assim, apresentamos o HoneyBee, um conjunto de dados com 2,5 milhões de exemplos criado através de uma cuidadosa curadoria de dados. Ele treina raciocinadores VLM que superam o InternVL2.5/3-Instruct e o Qwen2.5-VL-Instruct em diferentes escalas de modelo (por exemplo, uma melhoria de 8% no MathVerse em relação ao QwenVL na escala de 3B). 🧵👇
Trabalho realizado durante o meu estágio na @AIatMeta com 🤝 @ramakanth1729, @Devendr06654102, @scottyih, @gargighosh, @adityagrover_ e @kaiwei_chang.