幸好,音乐创造了你和我的音乐生活
这篇文章是我们深入研究 AI 音乐制作的第二部分。
在第 1 部分中,我们了解了什么是 AI;讨论了将 AI 技术应用于音乐制作所面临的挑战;并调查了具体的 AI 技术,例如 MIDI 生成、音色转换和模拟建模。
在第 2 部分中,我们将更全面地了解 AI 对音乐制作的影响。我们将探索人类声音的深度伪造,并探讨 ChatGPT 音乐技术未来发展的可能性。我们还将探讨 AI 提出的关于创造力、原创性以及成为音乐家的意义的深刻问题。
进入深度伪造时代
进入深度伪造时代
人类的声音在我们的文化中占有特殊的地位。没有哪种声音比从我们喉咙里发出的声音更能表达真实、独特的自我。即使有 Autotune 这样的效果,人类的声音仍然是我们身份的一部分,也是我们自己的一部分。紧密相连 - 并且只能代表一个人。唱歌或说话,它是个性的印记。至少,过去是这样。
但如果我们不用人类就能获得人声呢?雅马哈的 Vocaloid 等工具已经提供了合成人声服务。但机器人的成果只有在人类操作时才能真正发挥作用(AI 工具在这方面要好得多)。通过深度学习,可以生成如此逼真的声音,以至于可以欺骗听众以为自己“听到”的是人的声音。
以 Dreamtonics 的 Synthesizer V 这样的插件为例。你输入 MIDI 音符和歌词,然后从人声特征库(如 Natalie,“一个英语女声数据库,高音柔和清晰,低音富有表现力”)中选择一个声音,就能产生这种模仿人声的声音。生成的结果不稳定,但在最好的情况下,一些结果可以轻松实现。事实上,这项技术已经在音乐中得到应用。去年,中国公司腾讯音乐透露,他们已经发布了 1000 多首使用 AI 人声生成技术的歌曲。
这对商业音乐行业的影响可能是深远的。(大型唱片公司当然对不惹麻烦的流行歌手更感兴趣。)但尽管合成人声具有许多功能和用途,但它可能不会在短期内成为现实。当我们听到我们最喜欢的歌手或说唱歌手时,我们会享受他们独特的音色,以及他们的声音代表了我们作为人类的什么以及我们关心什么。那些没有签约的声音根本无法与艺术家的光环相媲美。
但如果人工智能能够模仿我们喜欢的声音会怎样?今年 4 月,Drake 和 The Weeknd 的新歌《Heart On My Sleeve》在互联网上引起轰动。一切听起来都很正常——只是这根本不是他们的歌。这段视频的制作者并非自称 Ghostwriter 的艺术家,他使用了人工智能语音克隆技术。几周前,人工智能企业家 Roberto Nickson 也引起了类似的轰动,他使用人工智能工具将自己的声音变成了 Kanye West 的声音。
人工智能声音克隆与我们在第 1 部分中探讨的语音转换技术非常相似。然而,像 Neutone 这样的语音转换插件听起来像是一项尚处于起步阶段的技术改变音乐速度的软件,而声音克隆工具正变得非常流行。去年,人类声音克隆人工智能公司 ElevenLabs 将莱昂纳多·迪卡普里奥的声音变成了比尔·盖茨、乔·罗根等人的声音,引起了恐慌。他们很快就报告说,恶作剧者正在使用他们发明的工具让名人说出冒犯性和煽动性的话。
我们正在进入一个“深度伪造”的新时代。就像图像生成工具 Midjourney 可以让我们相信教皇穿着巴黎世家的衣服一样,我们也必须以怀疑的态度对待我们听到的每一段录音。但对于电子音乐制作来说,采样是电子音乐的基石,而人声采样——无论是完整的干人声、切片短语还是爆发的词汇——贯穿于不同类型的舞曲音乐中。这种做法起源于 80 年代和 90 年代初更为轻松的采样文化,但今天这样做可能会侵犯作品的版权。如果 AI 可以让制作人“采样”他们最喜欢的艺术家,而完全不侵犯作品的版权,那会发生什么?
法国俱乐部制作人杰米·希尔克(Jaymie Silk)长期以来一直在他的音乐中使用电影或演讲中的采样声音。在他 2021 年的曲目“总统只是拥有核武器的黑帮”中,他使用 iPad 的自动文本转语音功能制作了新的配乐。为了进一步实现这个想法,在 2022 年末改变音乐速度的软件,他偶然发现了一个 AI 工具——他不记得是哪一个,但可能是 FakeYou——它允许著名的说唱歌手和流行歌星说出他们的声音。他立即看到了它的潜力,并希望成为第一个在俱乐部环境中使用该工具的人。(他的执行热情是正确的;几个月后,大卫·库塔(David Guetta)以同样的方式“采样”了。”埃米纳姆。)
随后,他又推出了《Rub Music Vol. 1》,这是一张收录了 The Weeknd、Kendrick Lamar 和 Tupac 等艺人作品“样本”的 EP。歌词——当然是 Silk 自己写的——暗示了他的担忧:在《Hallucinations》中,Tupac 说:“真实的并不真实……一切都是幻觉。”虽然 Silk 的 EP 表达了深深的焦虑,但它也给人一种音乐制作人探索新工具乐趣的感觉。
自 Silk 制作那张 EP 以来,人声克隆技术已经得到改进。(他在最近发布的《Let's Be Lovers》中继续使用 AI 人声技术。)“当时它非常基础,”他回忆道。“你无法修改或应用设置。你输入一些东西,然后由你来决定是否获得好的结果。”音质也不理想。在某些情况下,比如 The Weeknd 在《Artificial Reality》中的声音,很多后期处理都无法消除人工嘶嘶声。
近来,人声克隆技术越来越好。很容易想象出一种工具,将 FakeYou 的名人人声与 Synthesizer V 等合成器的人声合成功能相结合。结果将是一个强大的“样本”工具箱,可让您选择任何喜欢的流行歌手的声音来演唱或说唱。
你的声音属于谁?
你的声音属于谁?
但这真的合法吗?或者,这样做合乎道德吗?正如我们所讨论的,歌手的声音是他们个性的标志,也是他们自我表达的主要工具。对于许多艺术家来说,这种声音重复一千次可能意味着收入和创造力的毁灭。歌手难道不应该决定如何使用他们的声音吗?
社会背景使得这个问题更加紧迫。在讨论人工智能工具的潜在问题时,Silk 提到了“数字黑脸”一词,指的是 Roberto Nickson 的 Kanye 视频。Nickson 是白人,他的批评者认为,这些工具为白人提供了一种通过玩弄黑人艺术家的身份来获利的新方式:这是一种危险的做法,就像流行音乐的历史一样。
如果我们将声音克隆视为一种新的采样形式,那么这一新兴运动提醒我们采样文化根源中的不公正。几十年来,世界闻名的采样一直推动着舞曲音乐的发展,例如“Amen”和“Think”碎拍,但这些鼓手从未因其作品的影响而获得报酬。不难想象,人工智能声音技术也面临着类似的问题。
有些人认为这是巨大的进步。继 2019 年专辑《PROTO》(在之前的文章中讨论过)中的声音转换实验之后,音乐家 Holly Herndon 于 2021 年推出了 Holly+。该项目的核心是一个模仿 Herndon 声音的高质量 AI 人声模型:她的“数字孪生”。用户可以通过网站与模型互动,上传音频,然后下载用 Herndon 独特的声音“唱”的音乐。用 PROTO 的声音唱 Jlin 的音乐——任何人都可以做到这一点,并获得出色的音效。
正如她在 Holly+ 上的声明中所解释的那样,Herndon 启动该项目是为了解决有关“声音所有权”的问题,并预测她所看到的未来:艺术家可以通过向公众提供高质量的声音模型来获得对声音的控制权。控制自己的“数字形象”。通过这种方式,艺术家可以保持对自己声音的控制权,并可能从中获利。(使用 Holly+ 是免费的,但任何商业使用该模型的利润都将归 DAO 所有,因此,DAO 将民主地决定如何处理这笔钱。)
Herndon 认为,FakeYou 等工具提供的声音克隆实际上可能违反了版权法——至少在美国是这样。为了提供“声音模型权”的背景,Herndon 引用了 1980 年代的法律案例,这些案例保护公众人物“不得被艺术家或品牌商业使用其声音形象”。这些先例“表明公众人物将保留将其声音形象用于商业目的的专有权”。事实上,UMG 已经在几天之内将 Drake 和 Weeknd 的歌曲从该应用程序中删除,因为他们认为人工智能工具制作的音乐违反了版权法。
现在,需要围绕这些快速发展的工具建立法律和道德规则。但是,就像 2000 年代的文件共享一样,立法可能无法将精灵放回瓶子里。艺术家可能会发现自己在与自己的数字图像竞争。——以吸引注意力,也许还有工作。事实上,担心被取代的不仅仅是歌手。对于不想付钱给插画师的公司来说,廉价或免费的图像生成工具已经成为一种诱人的选择。与此同时,ChatGPT 让专业文案人员感到恐惧。这个问题正在创意产业和其他白领职业中蔓延:人工智能会抢走我的工作吗?
自动作曲家
自动作曲家
这又回到了上一篇文章中提到的一个问题。ChatGPT 和 Stable Diffusion 等工具由于其复杂性和广泛可用性而与人类创作者竞争。目前,功能强大、高质量、易于使用的音乐工具尚不存在。(我们在上一篇文章中探讨了原因。)但很快就会出现吗?
专家的答案是肯定的。来自 Spawning 的 Mat Dryhurst 提到了几个正在研究这种模型的组织。其中一个是谷歌,其 MusicLM 于今年年初向全球推出,但尚未公开。(今年 5 月,谷歌开始向一小部分测试人员开放 MusicLM。)另一个是 HarmonAI,这是一个音乐组织,隶属于 Stability AI,后者是 Stable Diffusion 文本转图像模型的创造者。HarmonAI 包括 Dadabots,他们表示,我们可以期待该组织“今年”推出该工具。
要了解此类工具如何改变音乐制作的世界,我们可以首先看看现有的但不太复杂的 AI 音乐生成器。虽然“通用”音乐模型仍然难以捉摸,但 AI 已经在有限的环境中创作了音乐。与上一篇文章中探讨的工具相比,这些 AI 技术通常不是为了支持现有的音乐制作工作流程而设计的。相反,他们提出要完全消除专业音乐家使用其技能的需要——至少在某些情况下是这样。
商业音乐创作就是一个例子。我们的世界充斥着多媒体内容,人们对广告、播客和社交媒体帖子的音乐有着无尽的需求。这些内容的制作者有几个选择。他们可以花大价钱委托作曲家创作新音乐,或者从他们最喜欢的艺术家那里获得音乐许可,这可能会涉及支付高额的许可费。或者他们可以通过音乐库(相当于 Shutterstock 的音乐)找到更便宜的配乐。但如果他们可以负担得起的音乐不太适合他们的需求怎么办?或者如果他们的预算非常紧张怎么办?
这就是 AIVA 等 AI 产品的用武之地。AIVA 于 2016 年推出,是一种经过训练的 AI 模型,可以创作古典音乐和交响乐。(这是第一个获得音乐版权协会认可的“虚拟”AI 模型作曲家)。该技术于 2019 年实现商业化,现在自称是一位“创意助手”,承诺帮助您“以前所未有的速度为您的项目创作引人入胜的主题音乐”。
创建配乐的过程很简单。基本版本是免费的。单击“创建曲目”并开始进行选择。有 12 种预设风格,从“20 世纪电影”到“嘻哈”。然后从下拉菜单中选择风格。在菜单中选择参数 — 调性、节奏、乐器和持续时间。
我选择了一种快节奏的“幻想”风格,带有独奏弦乐。最终的作品是一段 3 分钟的琶音旋律,带有一些不连贯的旋律转折。对于一个严肃的音乐爱好者来说,这根本无法令人信服,但在低预算的项目中,这可以作为微妙的背景音乐。如果需要,我可以在基于 MIDI 的编辑器模式下进一步调整结果。(也可以下载 MIDI 文件以供进一步使用)。
AIVA 无需复杂的人工智能技术即可运行,因为它在严格定义的框架内工作。与自然文本提示的任意字段相比,它的预设样式和下拉菜单简直是小菜一碟。但当你需要公式化、功能性的音乐时,这种技术就非常有效。
专业作曲家应该担心吗?答案可能与我们在之前一篇文章中对自动混音的讨论不谋而合。人工智能可能很快就能处理不需要灵感的短小、公式化的曲目。但高质量的项目可能仍然需要人类的创造性视野。这可能导致两个层面,人类作曲家将成为高质量内容的代表。换句话说,人类的作品可能成为珍贵的创作。
这至少是生成式人工智能作曲家的一个可能结果。其他工具将得出不同的结论。如果人工智能让我们都成为音乐家会怎样?
每个人都是音乐创造者
人人都是音乐制作人
Boomy 是一个基于 AI 的平台,它让你“在几秒钟内创作一首原创歌曲,即使你以前从未创作过音乐”。它的工作原理与 AIVA 类似。你可以选择你喜欢的风格和风格变体,AI 会根据你的设置生成一首歌曲。然后,你可以使用一组简单的编辑工具来调整结果。
与 AIVA 一样,这款工具允许你在非常有限的框架内进行创意输出;而且与 AIVA 一样,它的结果也不能保证听起来不错。不过,这并没有影响到它的用户群。据 Boomy 称,该工具已用于生成约 1300 万首歌曲,其中许多歌曲已通过该网站上传到 Spotify,最终可以由用户获利。
像 AIVA 和 Boomy 这样的工具只是未来的缩影。到目前为止,即使在它们覆盖的有限范围内,它们取代专业音乐制作人的说法也并不稳妥。不过,近年来,人工智能的快速发展应该给我们敲响警钟:千万不要低估这项技术。
Google 在介绍 MusicLM 时分享了一些音频示例,这可能是有史以来向公众展示的最复杂的文本转音乐模型。音频之所以有趣,主要是因为音乐非常奇怪,但其中一些非常令人信服。有一段 30 秒的音乐大致是“雷鬼和 EDM 的融合”,有潜力用于俱乐部音乐。
“音乐创作者面临的核心挑战始终如一:如何突破噪音,吸引关注的观众。”
“音乐制作人面临的核心挑战始终如一:如何突破噪音,打动真正热爱音乐的人的心。”
GoogleLM 测试人员分享的示例很有希望,但奇怪的是还很初级,但我们不要忘记,仅在过去一年里,文本转图像工具就取得了多大的进步,从模糊的草图到高分辨率的深度伪造。伟大的发展。为什么音乐还没有达到这个水平?如果技术现在就达到这个水平,几年后会是什么样子?任何人都可以在几秒钟内创作出足够像样的电子音乐吗?
“我们生活在一个技术民主化的时代,”杰米·希尔克说。几十年来,技术的进步使越来越多的人能够创作音乐并与世界分享。我们经常听到人们抱怨发布的音乐“太多”。但这并不能阻止我们庆祝那些为我们的生活带来美丽和意义的艺术家。
这些艺术家能否谋生又是另外一回事。音乐制作的收入状况早在人工智能出现之前就已经很艰难了,而AI可能会让情况变得更糟。在AI驱动的时代,音乐人如何谋生的问题需要认真考虑。但让更多人参与到音乐制作中来,并不意味着音乐将不再是一件特别的事情。
“当制作一件复杂的作品对任何人来说都不再是一件大事时,它就改变了我们对什么是平庸、什么是陪衬的理解,”德赖赫斯特说。“制作电子音乐曾经非常耗时。现在任何人都可以购买一个样本包和一些软件,按照 YouTube 教程视频制作类似的东西。这不是一件坏事,也是人们学习如何表达自己的一个好开始。自动化这个过程只会进一步改变我们的基本期望,因为它不会将艺术家所做的事情与你点击按钮就能做的事情混为一谈。一些不同的东西仍然需要很高的技术技能、灵感或运气。这一直很难,而且永远都会很难。”
Jaymie Silk 对此表示赞同。“会有更多的垃圾被制作出来,或者更多的人只是为了好玩而制作音乐。”但音乐制作人面临的核心挑战依然如故:如何脱颖而出“这部分不会改变。你仍然需要制作好的音乐,你仍然需要建立一种社区文化。”
孕育未来
衍生品期货
艺术家们将以富有表现力和想象力的方式使用这些新工具,就像他们过去使用新技术一样。事实上,他们已经在这么做了。
去年年底,伦敦艺术家 Patten 偶然发现了 Riffusion。作为一名平面设计师,他已经熟悉生成式人工智能。Riffusion 立刻激发了他的音乐天赋。
Riffusion 是 2022 年底启动的一个项目,引起了很大的反响,它并没有直接解决文本转音乐的问题,而是利用了文本转图像等现有的、比较成功的生成技术。
它通过“微调”工作——即在特定类型的内容上训练 AI 模型,使其更好地生成特定内容的过程。音乐家 Seth Forsgren 和 Hayk Martiros 对频谱图(声音频谱图(随时间变化的频率的视觉表示)上的稳定扩散文本到图像模型)进行了微调。这些频谱图可以“读取”并转换为音频。重点是:这是一个可听见的文本到图像模型。
Riffusion 很有趣。你可以给它输入简短的文字提示,比如“情感迪斯科”、“潜伏空间蒸汽波”——它会为你无限循环播放。你还可以下载你喜欢的剪辑。Patten 意识到这个工具不仅仅是一个玩具。“玩了一段时间后,我意识到你可以用它做很多事情。所以我开始试着弄清楚我能从中得到什么。”
Patten 花了一天半的时间给它输入文本,不停地下载音频。后来,他重新整理了这些收藏,把有趣的部分拼凑成“一片音乐碎片”。这些音乐促成了 Mirage FM 的《诞生》,Patten 称其为“第一张完全由文本到音频的 AI 采样制作的专辑”。
这是一张美丽、梦幻的专辑,听起来与众不同——尽管它有一些熟悉的元素。专辑中的所有音乐都是用 Riffusion 生成的,但 Patten 的粉丝们仍然会认出他的音乐。他说,很多创意都来自于音频的拼接方式。“通常很小的片段会被拼接成一个短语和循环。我认为这张专辑真的是关于‘编辑’作为作曲的一种表达。”
德赖赫斯特认为,像帕滕这样的方法很快就会在音乐制作人中普及。“人们会认为,制作音乐片段用于音乐制作是可以接受的。”
Mirage FM 的创新之处之一是,尽管它具有突破界限的创新性,但它的音乐却具有怀旧的品质,这是由微小的、充满人工痕迹的音频噪音创造的。(Dadabots 认为这可能是 Riffusion 的频谱图方法导致的“相位检索”问题。)Patten 将这种品质比作磁带失真或黑胶唱片的刮擦感。它令人回味,尤其是与专辑的主题相关。我们可能会将 AI 工具视为通往未来的门户。但由于它们接受了来自不同时期的大量音乐的训练,因此它们也是我们了解文化历史的一种方式。一扇窗户。
和人声模型一样,生成式人工智能和采样之间也有相似之处。过去几代音乐家从旧音乐中挖掘出完美的样本;未来几代音乐家可能会在人工智能模型的“潜在空间”中寻找完美的样本。最好的声音。只是这一次,这些声音听起来很熟悉,但它们是每一代独有的,而且不涉及版权。
采样比较以前也曾尝试过。Dadabots 以用他们喜欢的艺术家训练 AI 模型而闻名。Bandcamp 上发布的一系列免费作品展示了用 Battles 和 Meshuggah 等乐队训练的模型。他们还在 YouTube 上直播。展示他们的工作流程——比如 RELENTLESS DOPPELGANGER,一个“24/7 无限量直播神经网络生成的死亡金属音乐”。
(他们报告了接受该模型训练的艺术家们的“一系列反应”。有些反应“很有趣”,而其他反应——比如布兰妮·斯皮尔斯和弗兰克·辛纳屈的融合——则被标记为侵犯版权。)
2021年的一场直播中,发表了一篇关于采样的文章,“采样在音乐中有着重要的目的:音乐中的历史声音、情感、传达的信息、对后世的提醒只能是‘我们现在可以合成特定时代的音乐,而无需采样任何之前出版的录音。’”
采样比较并不完美,有些人认为它们没有帮助。“是的,当然,这受到一些技术限制的影响,这些限制会规避采样,”Patten 说。“但我认为这里还有更多不受商品限制的潜力。这更少地受到交换和价值观的约束,而更多地是寻找以前不存在的声音体验形式。” Dryhurst 认为,我们必须“将 AI 视为一种新范式”,而不是退回到旧范式。他和 Herndon 为生成用于音乐制作的 AI 音频的实践创造了一个新术语:“生成”。
生成 AI 无版权样本的想法有助于我们开始提出一些道德问题。与人声模型一样,“无版权”的标签不会永远贴上去。生成式深度学习模型是在数据上进行训练的。答案基于它们从数据中学习到的模式。像 Stable Diffusion 这样的文本转图像模型是在大量图像上进行训练的,这样它就可以学习什么是准确或令人满意的图像,并根据我们的需求生成图像。但这些图像从哪里来呢?