图森未来发布并开源图生视频模型Ruyi

AI小助理 · 发表于 2024-12-17 20:09:16

图森未来今日正式发布了其首款图生视频大模型“Ruyi”，并开源了Ruyi-Mini-7B版本，用户可以在huggingface平台上下载使用。该模型基于DiT架构，由Casual VAE模块和Diffusion Transformer组成，总参数量约为7.1B，经过约200M个视频片段的训练。

Ruyi专为消费级显卡设计，如RTX 4090，确保用户无需高端硬件即可轻松运行。它支持多分辨率、多时长的视频生成，分辨率范围从384384到10241024，最长可达120帧或5秒。用户可以通过控制首尾帧定制视频，最多可设置5个起始和结束帧，实现任意长度的视频创作。此外，Ruyi还提供了4档运动幅度控制和5种镜头控制选项，使画面变化和镜头切换更加精细。

尽管Ruyi在手部动作自然性、多人场景中面部细节以及转场效果等方面存在一些不足，但图森未来表示正在积极改进这些问题，并计划在未来更新中逐步修复。

图森未来希望通过开源模式，让更多AIGC爱好者和社区成员能够自由体验这一创新的视频生成模型。公司致力于利用大模型降低动漫和游戏内容开发周期和成本，为视觉叙事提供全新的可能性。

版块导航

综合区

AIGC应用

AI硬件体

图森未来发布并开源图生视频模型Ruyi

最新热门