阿里云通义千问于2024年12月25日发布了业界首个开源多模态推理模型QVQ-72B-Preview,标志着人工智能在视觉理解和复杂问题解决能力方面取得了重大突破。该模型基于Qwen2-VL-72B构建,专为视觉推理设计,展现了卓越的性能。
QVQ-72B-Preview在多项评测中超越了此前的视觉理解模型“开源王者”Qwen2-VL,并且其整体表现与顶尖推理模型如OpenAI的o1、Claude3.5 Sonnet等相当。在MMMU(大学级别的多学科多模态评测集)中,QVQ取得了70.3的高分,显著超越了Qwen2-VL-72B-Instruct在数学相关基准测试中的表现。此外,QVQ在处理数学、物理、科学等领域的复杂推理问题上表现出色,能够基于视觉进行深度思考和推理,甚至能够质疑自身假设,审视推理过程的每一步,最终给出结论。 QVQ的主要目标是模仿人类的语言和视觉思维方式,通过细致的逐步推理,在视觉推理任务中展现出增强的能力。尽管如此,QVQ仍处于实验阶段,面临语言混合与切换、递归推理问题、安全与伦理问题以及性能与基准限制等挑战。阿里巴巴展示了QVQ在多个解题实例中实时思维过程的演示,证明了其在视觉推理任务中的强大能力。 目前,开发者可以在HuggingFace、ModelScope和Kaggle平台上试用QVQ-72B-Preview。阿里云通义千问系列的衍生模型数量已突破7.8万个,进一步推动了多模态AI技术的发展。 |