发布信息

Meta发布开源AI工具AudioCraft,帮助用户根据文本提示创作音乐和音频

作者:软荐小编      2023-09-21 23:04:04     250

录音教程软件编辑怎么用_录音教程软件编辑视频_录音编辑软件教程

聪明的东西

编译|周艳

编辑|云鹏

智动智8月3日报道,明天,meta发布了一款名为AudioCraft的开源AI工具,可以帮助用户根据文字提示创作音乐和音频。

meta表示,这款开源AI工具综合使用了AudioGen、EnCodec和MusicGen等大型模型。 除了生成各种模拟音频效果外,它还可以减少声音伪影。 用户在输入文本内容后,可以使用这个人工智能工具生成高质量、逼真的音频和音乐。

目前,音乐在某种程度上被认为是最具挑战性的音频类型,因为生成任何类型的高保真音频都需要对不同尺度的复杂信号和模型进行建模。 meta 通过自我监督的音频表示学习和许多分层或级联模型来创作音乐。 这样,当原始音频输入系统时,可以捕获信号中的远程结构。 ),同时生成音频。

与之前的AI工具相比,AudioCraft背后的模型是在授权音乐库上进行训练的,以避免版权风险; 其次,由于它是针对公共音质进行训练的,因此它可以生成各种模拟音质,包括吠叫和脚步声; 最后,它简化了音频生成模型的整体设计,开源的方式也帮助其他人开发自己的音乐模型。 但目前来说,AudioCraft 仍然无法替代人类创作复杂而优秀的音乐作品。

1、经过20000小时的授权音乐训练,压缩后的文件大小比MP3格式小10倍。

从目前meta的介绍来看,Audiocraft背后使用的三个模型中,MusicGen经过了meta自己的、非常授权的音乐库训练,可以根据文本提示生成音乐。

去年6月初,meta推出了这款名为MusicGen的开源AI模型。 了解到这是一个深度学习语言模型。 它接受了 20,000 小时的音乐训练,包括大约 400,000 条录音、文本描述和元数据。

录音编辑软件教程_录音教程软件编辑视频_录音教程软件编辑怎么用

AI模型MusicGen背后的论文基础,来源:metaAI博客

据悉,另一个模型AudioGen已经过公共音质训练,可以根据文本提示生成音频,例如模拟猫的喵叫声或脚步声。 从meta的介绍来看,AudioGen是meta和耶路撒冷希伯来学院研究团队合作的AI模型。 它可以通过输入文本生成音频,也可以扩展现有的音频。 AudioGen 可以区分不同的声音对象并在声学上将它们分开。

录音教程软件编辑怎么用_录音编辑软件教程_录音教程软件编辑视频

meta展示了AudioGen文本转音频的有效性,来源:metaAI博客

最后要说的是EnCodec编解码器。 此前,由于需要对原始音频信号中极长的序列进行建模,因此从原始信号生成音频对于研究人员来说是一个巨大的挑战。 以几分钟的音乐为例,以 44.1Hz 的标准质量采样后,会生成数百万个时间步。

相比之下,在 Llama 和 Llama2 等大型模型的支持下,用户输入的文本可以被处理成子词(sub-word),这样每个样本只会形成几千个时间步。

为此,meta团队使用基于深度学习的音频编解码器(neuralaudiocodec)EnCodec,该解码器由AI驱动,可以从原始信号中学习离散音频标记(自回归语言模型),从而为研究人员提供了音乐样本的新固定。 “词汇”。 研究人员可以在这个离散的音频标记上训练自回归语言模型,最后在将标记转换到音频空间时,使用EnCodec的解码器生成新的标记和新的音乐。

录音编辑软件教程_录音教程软件编辑怎么用_录音教程软件编辑视频

编解码EnCodec背后的论文基础,来源:metaAI博客

此外,EnCodec 可以将音频压缩到比 MP3 格式小 10 倍的级别,而不会损失音频质量。 这主要是由于EnCodec中的残差矢量量化瓶颈,它可以生成多个具有固定词汇的并行音频标记流,因为不同的标记流可以捕获不同级别的音频波形信息(audiowaveform),因此研究人员可以从所有音频流。

2.推动模型开源。 meta表示AudioCraft在生成复杂音乐方面仍然存在困难。

在公告中,meta还展示了MusicGen和AudioGen的工作流程图,并表示将把这个模型开源,让研究人员和从业者可以使用自己的数据集来训练自己的模型,帮助推动人工智能智能生成音频和音乐领域的发展。

录音教程软件编辑视频_录音教程软件编辑怎么用_录音编辑软件教程

MusicGen和AudioGen工作流程图,来源:metaAI博客

与其他音乐模型相比,AudioCraft系列模型除了常年生成一致的高品质音乐和音频外,还简化了音频生成模型的整体设计录音编辑软件教程,使工具简单易用。 meta认为MusicGen可以制作成一种新型钢琴,就像原来的合成器一样。

事实上,meta 也强调,使用 AudioCraft 创作复杂而优秀的音乐还是比较困难的,因此选择开源 AudioCraft,以使其用于训练的数据多样化。

去年早些时候,微软还发布了名为 MusicLM 的音乐生成模型,并于 5 月份向用户提供。 明天,GoogleLabs也在其官网上介绍,著名音乐家DanDeacon正在使用这种模式来创作音乐。 此外,目前常见的音乐模型还有Riffusion、Mousai和Noise2Music。

结论:大掠食者“押注”大音乐模式,或将影响音乐创作

从目前公布的信息来看,AudioCraft不仅可以根据用户的文字提示生成音乐,还可以对音频进行无损压缩。 同时,开源的方式也帮助更多的人参与到相关音乐模型的建立,从而推动更高品质的音乐创作的产生。

随着meta和微软两大巨头“押注”大音乐模式录音编辑软件教程,音乐创作或将受到生成式AI的影响。 但正如 meta 所强调的那样,生成式人工智能距离生成复杂的音乐还有很长的路要走。

相关内容 查看全部