Новая статья 📢 Самые мощные наборы данных для рассуждений на основе языка и изображения (VL) остаются собственностью 🔒, что затрудняет изучение их принципов и разработку аналогичных эффективных наборов данных в открытом доступе 🔓.
Таким образом, мы представляем HoneyBee, набор данных из 2,5 миллиона примеров, созданный с помощью тщательной кураторской работы. Он обучает VLM-рассуждателей, которые превосходят InternVL2.5/3-Instruct и Qwen2.5-VL-Instruct по всем масштабам моделей (например, улучшение на 8% по MathVerse по сравнению с QwenVL на уровне 3B). 🧵👇
Работа выполнена во время моей стажировки в @AIatMeta с 🤝 @ramakanth1729, @Devendr06654102, @scottyih, @gargighosh, @adityagrover_ и @kaiwei_chang.
Мое несогласие заключается в том, что строительство, обслуживание, установка, использование и оплата этой мощности - это, по меньшей мере, головная боль. Просто чтобы разобраться с питанием для некоторых из этих установок может потребоваться электрик, чтобы обеспечить вам индивидуальную подачу электроэнергии в вашем доме для безопасного выполнения, особенно если вы выбираете машины с 8 GPU - они громкие и горячие. Я думаю, что Mac Studio 512 ГБ - это лучшее предложение для инференса на данный момент.
Я уважаю @exolabs - но попробуйте тот же тест с одной видеокартой quad-3090, которая, как я предсказываю, легко обгонит дуэт Spark/Mac за половину стоимости.