Bài báo mới 📢 Các tập dữ liệu lý luận ngôn ngữ-vision (VL) mạnh mẽ nhất vẫn thuộc quyền sở hữu 🔒, cản trở nỗ lực nghiên cứu các nguyên tắc của chúng và phát triển các tập dữ liệu hiệu quả tương tự trong môi trường mở 🔓.
Do đó, chúng tôi giới thiệu HoneyBee, một tập dữ liệu 2,5 triệu ví dụ được tạo ra thông qua việc chọn lọc dữ liệu cẩn thận. Nó đào tạo các lý luận VLM vượt trội hơn InternVL2.5/3-Instruct và Qwen2.5-VL-Instruct trên các quy mô mô hình (ví dụ: cải thiện 8% MathVerse so với QwenVL ở quy mô 3B). 🧵👇
Công việc được thực hiện trong thời gian thực tập của tôi tại @AIatMeta w/ 🤝 @ramakanth1729, @Devendr06654102, @scottyih, @gargighosh, @adityagrover_, và @kaiwei_chang.