OpenBMB发布了最新版本的多模态模型MiniCPM-V 2.6,这款模型在视觉-语言理解领域取得了显著突破。MiniCPM-V 2.6拥有80亿参数,具备强大的单图像、多图像和视频理解能力,在多个权威评测基准上超越了GPT-4V等商用闭源大模型。特别是在单图像理解方面,MiniCPM-V 2.6的表现超过了GPT-4o mini、Gemini 1.5 Pro和Claude 3.5 Sonnet。
MiniCPM-V 2.6不仅在性能上有所提升,还大幅降低了内存占用并提高了推理效率,使其更适合在资源有限的设备上运行,例如iPad等端侧设备。这一特性使得MiniCPM-V 2.6成为首个支持实时视频理解的端侧模型,进一步扩展了其在智能助手、现场视频分析等应用场景中的潜力。 该模型基于SigLip-400M和阿里Qwen2-7B开发,支持图片和视频输入,并提供在线demo接口,方便用户进行实验和应用开发。此外,MiniCPM-V 2.6在OpenCompass测试中平均得分达到65.2,超越了多个知名多模态模型。 OpenBMB通过发布MiniCPM-V 2.6,再次巩固了其在多模态大模型领域的领先地位,为开发者和企业提供了高效、易用且功能强大的工具,推动了AI技术在实际应用中的普及和发展。 |