2024年5月14日,谷歌在年度开发者大会I/O上发布了多项重大更新,其中最引人注目的是Gemini系列模型的全面升级。此次升级不仅包括Gemini 1.5 Pro和Gemini 1.5 Flash的性能提升,还首次推出了视频生成模型Veo,标志着谷歌在生成式AI领域的进一步突破。
Gemini 1.5 Pro和Gemini 1.5 Flash的升级 Gemini 1.5 Pro模型的上下文窗口从100万tokens扩展至200万tokens,成为目前市场上处理上下文长度最大的模型之一。这一升级使得Gemini 1.5 Pro能够处理更长的文本和更复杂的多媒体文件,适用于更广泛的场景,如代码推理、逻辑规划和多轮对话等。此外,Gemini 1.5 Flash模型也得到了显著优化,支持多模态输入,包括文本、音频和视频,且成本更低、延迟更低,适合快速响应任务。 Veo视频生成模型的发布 Veo是谷歌推出的新型视频生成模型,能够根据文字、图片和视频提示生成高质量的视频内容。Veo的生成能力不仅限于简单的动画制作,还能生成分辨率高达1080p的视频,甚至可以捕捉到专业术语的精确表达。这一功能的加入,使得Gemini在视频内容创作方面具备了强大的竞争力,有望在教育、娱乐和商业领域发挥重要作用。 其他重要更新 Gemini Live:谷歌还推出了Gemini Live功能,支持实时深度语音对话,用户可以通过摄像头与手机屏幕上的虚拟助手进行互动。 Project Astra:谷歌展示了Project Astra项目,该项目通过智能手机摄像头理解周围环境,并与用户进行交互。未来,Astra将在安卓手机上增加多模态功能。 Imagen 3:作为图像生成模型的升级版,Imagen 3能够生成更多细节、光影和纹理丰富的图像,进一步提升了生成内容的质量。 Gems定制助手:谷歌推出了可定制的AI助手“Gems”,允许用户创建个性化的AI助手,以满足特定需求和目标。 未来展望 谷歌CEO桑达尔·皮查伊在会上表示,谷歌将全面拥抱生成式AI技术,未来将继续优化和扩展Gemini系列模型的功能。他强调,谷歌的目标是通过这些技术提升用户体验,推动各行业的创新和发展。 此次I/O大会的发布,不仅展示了谷歌在生成式AI领域的领先地位,也为用户和开发者提供了更多强大的工具和功能。随着这些技术的逐步落地,谷歌有望在搜索引擎、智能助手和其他应用场景中继续保持其市场优势。 |