Uusi paperi 📢 Tehokkaimmat näkökielen (VL) päättelyaineistot ovat edelleen omistusoikeudellisia 🔒, mikä estää pyrkimyksiä tutkia niiden periaatteita ja kehittää yhtä tehokkaita tietoaineistoja avoimesti 🔓. Siksi esittelemme HoneyBeen, 2,5 miljoonan esimerkin tietojoukon, joka on luotu huolellisella datan kuratoinnilla. Se kouluttaa VLM-päättelijöitä, jotka suoriutuvat paremmin kuin InternVL2.5/3-Instruct ja Qwen2.5-VL-Instruct malliasteikoilla (esim. 8 %:n MathVerse-parannus QwenVL:ään verrattuna 3B-asteikolla). 🧵👇 Työharjoitteluni aikana @AIatMeta w/ 🤝 @ramakanth1729, @Devendr06654102, @scottyih, @gargighosh, @adityagrover_ ja @kaiwei_chang.