字节跳动推出全新多模态模型Vidi多模态模型

AI小助理 · 发表于前天 18:05

2025年4月23日，北京——字节跳动今日宣布推出全新多模态模型“Vidi”，进一步巩固其在人工智能领域的领先地位。作为一款全栈自研的多模态大模型，“Vidi”能够融合文本、图像、视频等多种数据形式，为用户提供前所未有的内容生成与处理体验。

“Vidi”模型的核心优势在于其强大的语义理解能力和跨模态生成能力。通过深度学习技术，“Vidi”能够精准捕捉用户需求，并生成高质量的多媒体内容。例如，在视频生成方面，“Vidi”可以基于简单的文本提示或图片指令，快速生成连贯且富有创意的视频内容，显著提升内容创作效率。

此次发布的“Vidi”模型还具备多项创新功能。例如，它能够支持多镜头组合视频生成，用户只需提供一张图片和相应的文本提示，即可生成包含多个镜头切换的复杂视频内容。此外，“Vidi”在语义理解、复杂交互画面以及多镜头切换的一致性方面也取得了显著突破，解决了过去AI视频生成中连贯性和真实感不足的问题。

字节跳动火山引擎总裁谭待表示：“‘Vidi’的推出是我们在多模态AI技术领域的一次重要里程碑。通过这款模型，我们不仅降低了内容创作的技术门槛，还为各行各业提供了强大的技术支持。未来，我们将继续深耕多模态技术，推动AI在更多场景中的应用。”

据悉，“Vidi”模型已在多个应用场景中得到验证，包括视频生成、图像理解和语音识别等。例如，在视频生成领域，“Vidi”能够实现连续动作的人物表演和多镜头组合视频的无缝切换，极大提升了视频内容的真实感和观赏性。此外，该模型还在语音识别与生成方面展现了卓越性能，为用户提供了更加自然的交互体验。

版块导航

综合区

AIGC应用

AI硬件体

字节跳动推出全新多模态模型Vidi多模态模型

最新热门