在最近的一次发布会上,谷歌CEO桑达尔・皮查伊宣布了公司最新的重大进展:开源了名为Gemma-3的多模态大模型。这一模型以其低成本和高性能的特点,引起了广泛关注。
![]() Gemma-3提供了四种不同规模的参数选项,分别是10亿、40亿、120亿和270亿参数。特别值得一提的是,即便是拥有270亿参数的最大模型,也只需一张H100显卡就能高效运行,这在同类模型中是极为罕见的,因为它们通常需要十倍以上的算力。因此,Gemma-3成为了目前算力需求最低的高性能模型之一。 在性能方面,Gemma-3在对话模型的评比中表现出色,仅次于DeepSeek模型,超越了包括OpenAI的o3-mini和Llama3在内的多个热门模型。这一成就得益于其架构的创新和优化,Gemma-3采用了局部与全局自注意力层交错的设计,有效解决了长上下文带来的内存问题,并显著降低了内存占用。 Gemma-3还支持长达128Ktoken的上下文长度,为处理长文本提供了更好的支持。此外,该模型具备多模态能力,能够同时处理文本和图像,并集成了基于VisionTransformer的视觉编码器,有效减少了图像处理的计算成本。 在训练过程中,Gemma-3使用了大量的token预算,特别是在270亿参数模型中使用了14T的token量,并引入了多语言数据,以增强模型的语言处理能力,支持140种语言。通过先进的知识蒸馏技术和强化学习优化,Gemma-3在帮助性、推理能力和多语言能力等方面取得了显著提升。 经过评测,Gemma-3在多模态任务上表现优异,长文本处理能力达到了66%的准确率。在对话能力评估中,Gemma-3也名列前茅,展现了其在各项任务中的综合实力。 关键点:
|