2024年11月26日,全球领先的AI芯片和软件供应商英伟达(NVIDIA)宣布推出一款名为Fugatto的新型人工智能音乐生成模型。Fugatto是Foundational Generative Audio Transformer Opus 1的缩写,专为音乐、电影和视频游戏制作人设计,被誉为“声音的瑞士军刀”。
Fugatto基于生成式Transformer架构,拥有25亿个参数,并在包含32个Nvidia H100 Tensor Core GPU的Nvidia DGX系统上进行了训练。该模型能够根据文本提示生成音乐和音频,甚至可以修改现有音频文件,如将钢琴旋律转换成人声演唱,或改变录音中的口音和情绪表达。 Fugatto的独特之处在于其强大的灵活性和多样性。它不仅可以生成新颖的声音效果,还能根据用户的指令进行复杂的音频编辑任务,例如从歌曲中删除或添加乐器、改变声音中的口音或情绪,甚至创造出从未听过的声音。此外,Fugatto还引入了ComposableART技术,允许用户组合训练期间只能单独看到的指令,并通过时间插值功能创建前所未有的音景。 尽管Fugatto展示了巨大的潜力,英伟达目前仍在讨论是否以及如何公开发布这项技术。英伟达表示,生成式AI技术虽然强大,但也存在滥用风险,如生成错误信息或侵犯版权等。因此,公司正在积极寻求解决方案,以确保技术的安全和合法使用。 英伟达应用深度学习研究副总裁布莱恩·卡坦扎罗表示:“Fugatto最令人兴奋的地方在于,它能够根据用户的自然语言提示生成或修改音频内容,这为音乐、视频游戏以及普通人带来了全新的创作能力。”。 Fugatto的发布标志着英伟达在音频生成领域的重大突破,有望对音乐制作、广告创意和视频游戏开发等多个行业产生深远影响。然而,随着生成式AI技术的快速发展,如何防止技术滥用成为业界关注的焦点。 |