🚀 介绍 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker – 推动多模态检索和跨模态理解的前沿技术! ✨ 亮点: ✅ 基于强大的 Qwen3-VL 基础模型构建 ✅ 处理文本、图像、截图、视频和混合模态输入 ✅ 支持 30 多种语言 ✅ 在多模态检索基准上实现了最先进的性能 ✅ 开源并可在 Hugging Face、GitHub 和 ModelScope 上获取 ✅ 即将推出的阿里云 API 部署! 🎯 两阶段检索架构: 📊 嵌入模型 – 在统一的嵌入空间中生成语义丰富的向量表示 🎯 重新排序模型 – 计算细粒度的相关性评分以提高检索准确性 🔍 关键应用场景: 图像-文本检索、视频搜索、多模态 RAG、视觉问答、多模态内容聚类、多语言视觉搜索等! 🌟 开发者友好的功能: • 可配置的嵌入维度 • 任务特定的指令定制 • 支持嵌入量化以实现高效且经济的下游部署 Hugging Face: ModelScope: Github: Blog: 技术报告:
Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 架构概述。
MMEB-v2 和 MMTEB 基准的评估结果
202