Nowy dokument 📢 Najpotężniejsze zbiory danych dotyczących rozumienia języka wizualnego (VL) pozostają własnością prywatną 🔒, co utrudnia badania nad ich zasadami i rozwijanie podobnie skutecznych zbiorów danych w otwartym dostępie 🔓. W związku z tym wprowadzamy HoneyBee, zbiór danych zawierający 2,5 miliona przykładów, stworzony poprzez staranną kurację danych. Uczy on rozumienia VLM, które przewyższa InternVL2.5/3-Instruct i Qwen2.5-VL-Instruct w różnych skalach modeli (np. 8% poprawy w MathVerse w porównaniu do QwenVL przy skali 3B). 🧵👇 Praca wykonana podczas mojego stażu w @AIatMeta z 🤝 @ramakanth1729, @Devendr06654102, @scottyih, @gargighosh, @adityagrover_ i @kaiwei_chang.