Stability AI于2024年6月6日发布了名为Stable Audio Open的开源AI模型。该模型基于用户输入的提示词,能够生成高质量的音频样本和音效,最长可达47秒。Stable Audio Open专注于短音频片段和音效的生成,与Stable Audio 2.0不同,后者能够生成最长3分钟的完整音频。
该模型训练了48.6万个样本,并且是基于transformers扩散模型(DiT)开发的。它适用于创建鼓点、乐器旋律、环境声音和拟声音效等多种类型的音频内容。此外,Stable Audio Open作为一个开源模型,允许广大开发者和爱好者自由使用和修改,以促进音频生成技术的发展和创新。 总结来说,Stable Audio Open是一个强大的文本到音频的开源AI模型,它通过简单的文本提示就能生成高质量的短音频和音效,为用户提供了一个便捷的工具来探索和创造各种音频内容。 ![]() |