谷歌CEO宣布开源了名为Gemma-3的多模态大模型

AI小助理 · 发表于昨天 17:19

在最近的一次发布会上，谷歌CEO桑达尔・皮查伊宣布了公司最新的重大进展：开源了名为Gemma-3的多模态大模型。这一模型以其低成本和高性能的特点，引起了广泛关注。

Gemma-3提供了四种不同规模的参数选项，分别是10亿、40亿、120亿和270亿参数。特别值得一提的是，即便是拥有270亿参数的最大模型，也只需一张H100显卡就能高效运行，这在同类模型中是极为罕见的，因为它们通常需要十倍以上的算力。因此，Gemma-3成为了目前算力需求最低的高性能模型之一。

在性能方面，Gemma-3在对话模型的评比中表现出色，仅次于DeepSeek模型，超越了包括OpenAI的o3-mini和Llama3在内的多个热门模型。这一成就得益于其架构的创新和优化，Gemma-3采用了局部与全局自注意力层交错的设计，有效解决了长上下文带来的内存问题，并显著降低了内存占用。

Gemma-3还支持长达128Ktoken的上下文长度，为处理长文本提供了更好的支持。此外，该模型具备多模态能力，能够同时处理文本和图像，并集成了基于VisionTransformer的视觉编码器，有效减少了图像处理的计算成本。

在训练过程中，Gemma-3使用了大量的token预算，特别是在270亿参数模型中使用了14T的token量，并引入了多语言数据，以增强模型的语言处理能力，支持140种语言。通过先进的知识蒸馏技术和强化学习优化，Gemma-3在帮助性、推理能力和多语言能力等方面取得了显著提升。

经过评测，Gemma-3在多模态任务上表现优异，长文本处理能力达到了66%的准确率。在对话能力评估中，Gemma-3也名列前茅，展现了其在各项任务中的综合实力。

关键点：

Gemma-3是谷歌最新开源的多模态大模型，参数范围从10亿到270亿，且算力需求降低10倍。
采用创新架构设计，有效处理长上下文和多模态数据，支持文本与图像的同时处理。
支持140种语言的处理能力，经过训练优化后在多项任务中表现优异，展现了强大的综合能力。

版块导航

综合区

AIGC应用

AI硬件体

谷歌CEO宣布开源了名为Gemma-3的多模态大模型

最新热门