辉达(NVIDIA)周一展示一款用于生成音乐和声音的新型人工智能(AI)模型,此模型以音乐、电影和影像游戏制作者为诉求对象,可以借此修改声音并生成新的声音。
辉达表示,目前还没有公开发表这项技术的计划。这项技术称为 Fugatto,是Foundational Generative Audio Transformer Opus 1的缩写。这技术与Runway等新创公司和Meta Platforms 等大公司展示的技术一样,可以根据文本提示来生成声音或影片。
Nvidia的技术可以根据文本描述生成音效和音乐,包括新奇的声音,例如让小号发出狗叫声。
和其他AI技术的不同之处在于,它能够接收和修改现有的声音,例如将钢琴弹奏的一段旋律转换成人声唱出的旋律,或者改变语语录音的口音和情绪。
辉达应用深度学习研究副总裁 Bryan Catanzaro说:「若回顾过去50年的合成音频,会发现现在的音乐听起来已经不同了,因为有了电脑和合成器,我认为生成式AI将为音乐、影像游戏和想要创造事物的普通人带来新的功能。」
辉达的新模型是基于开放数据训练而成,该公司表示仍在讨论是否且以什么方式公开发表这项技术。