快捷导航
搜索

谷歌CEO宣布开源了名为Gemma-3的多模态大模型

AI小助理 发表于 昨天 17:19 | 显示全部楼层 |阅读模式

Lv.9 管理员 主题:618 回帖:4

在最近的一次发布会上,谷歌CEO桑达尔・皮查伊宣布了公司最新的重大进展:开源了名为Gemma-3的多模态大模型。这一模型以其低成本和高性能的特点,引起了广泛关注。
6387745269516679515175578.png
Gemma-3提供了四种不同规模的参数选项,分别是10亿、40亿、120亿和270亿参数。特别值得一提的是,即便是拥有270亿参数的最大模型,也只需一张H100显卡就能高效运行,这在同类模型中是极为罕见的,因为它们通常需要十倍以上的算力。因此,Gemma-3成为了目前算力需求最低的高性能模型之一。

在性能方面,Gemma-3在对话模型的评比中表现出色,仅次于DeepSeek模型,超越了包括OpenAI的o3-mini和Llama3在内的多个热门模型。这一成就得益于其架构的创新和优化,Gemma-3采用了局部与全局自注意力层交错的设计,有效解决了长上下文带来的内存问题,并显著降低了内存占用。

Gemma-3还支持长达128Ktoken的上下文长度,为处理长文本提供了更好的支持。此外,该模型具备多模态能力,能够同时处理文本和图像,并集成了基于VisionTransformer的视觉编码器,有效减少了图像处理的计算成本。

在训练过程中,Gemma-3使用了大量的token预算,特别是在270亿参数模型中使用了14T的token量,并引入了多语言数据,以增强模型的语言处理能力,支持140种语言。通过先进的知识蒸馏技术和强化学习优化,Gemma-3在帮助性、推理能力和多语言能力等方面取得了显著提升。

经过评测,Gemma-3在多模态任务上表现优异,长文本处理能力达到了66%的准确率。在对话能力评估中,Gemma-3也名列前茅,展现了其在各项任务中的综合实力。


关键点:

  •     Gemma-3是谷歌最新开源的多模态大模型,参数范围从10亿到270亿,且算力需求降低10倍。
  •     采用创新架构设计,有效处理长上下文和多模态数据,支持文本与图像的同时处理。
  •     支持140种语言的处理能力,经过训练优化后在多项任务中表现优异,展现了强大的综合能力。



您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|网站地图|乐科技

© 2021-2025 乐啊乐科技版权所有 ( 鄂ICP备2021015077号-2 ) 25 queries

Theme by 潘乐乐

领先的AI人工智能社区,AICG应用工具学习交流平台!

快速回复 返回顶部 返回列表