近日,Stability AI宣布与Arm合作,推出了一项创新的离线音频生成技术。这项技术基于Stability AI的Stable Audio模型,能够根据用户输入的文本提示生成高质量的音频内容,包括音乐、语音、环境声效等。Stable Audio模型采用扩散模型技术,能够在一秒内渲染出长达95秒的立体声音频,并且仅需一个NVIDIA A100 GPU即可运行。
![]() 此次合作的核心在于将Stable Audio模型的生成能力与Arm的技术优势相结合,使得音频生成过程可以在离线环境中高效运行。这意味着用户无需依赖网络连接即可生成音频内容,进一步提升了用户体验的便捷性和隐私保护。 Stable Audio模型的开源版本(Stable Audio Open)也已上线HuggingFace平台,供用户试用。该模型经过48.6万个样本训练,能够生成长达47秒的音频片段,适用于短音频和音效的创建,如鼓点、乐器旋律和环境音效。此外,Stable Audio 2.0版本进一步增强了功能,支持用户上传自己的音频样本并调整生成内容的结构和风格。 此次合作不仅标志着Stability AI在音频生成领域的技术突破,也为创作者提供了更多可能性。无论是音乐制作人还是内容创作者,都可以通过这项技术快速生成符合需求的音频内容,从而提高工作效率和创作质量。 |