Nový článek 📢 Nejmocnější datové sady uvažování v jazyce vidění (VL) zůstávají proprietární 🔒 , což brání snahám o studium jejich principů a vývoj podobně účinných datových sad v otevřeném prostoru 🔓. Proto představujeme HoneyBee, 2,5 milionu příkladových datových sad vytvořených pečlivým kurátorstvím dat. Trénuje VLM uvažovatele, kteří překonávají InternVL2.5/3-Instruct a Qwen2.5-VL-Instruct napříč měřítky modelu (např. 8% zlepšení MathVerse oproti QwenVL v měřítku 3B). 🧵👇 Práce vykonaná během mé stáže ve @AIatMeta w / 🤝 @ramakanth1729, @Devendr06654102, @scottyih, @gargighosh, @adityagrover_ a @kaiwei_chang.