图森未来今日正式发布了其首款图生视频大模型“Ruyi”,并开源了Ruyi-Mini-7B版本,用户可以在huggingface平台上下载使用。该模型基于DiT架构,由Casual VAE模块和Diffusion Transformer组成,总参数量约为7.1B,经过约200M个视频片段的训练。
Ruyi专为消费级显卡设计,如RTX 4090,确保用户无需高端硬件即可轻松运行。它支持多分辨率、多时长的视频生成,分辨率范围从384384到10241024,最长可达120帧或5秒。用户可以通过控制首尾帧定制视频,最多可设置5个起始和结束帧,实现任意长度的视频创作。此外,Ruyi还提供了4档运动幅度控制和5种镜头控制选项,使画面变化和镜头切换更加精细。 尽管Ruyi在手部动作自然性、多人场景中面部细节以及转场效果等方面存在一些不足,但图森未来表示正在积极改进这些问题,并计划在未来更新中逐步修复。 图森未来希望通过开源模式,让更多AIGC爱好者和社区成员能够自由体验这一创新的视频生成模型。公司致力于利用大模型降低动漫和游戏内容开发周期和成本,为视觉叙事提供全新的可能性。 |