我先说句题外话。
今年夏天,可能没有比《轮到你了》更受欢迎的悬疑剧了。
这部被誉为真人版《狼人杀》的日本悬疑电视剧,全网都在追随略显迟钝的男主角在五楼公寓寻找连环杀人犯的故事。
不过,科技极客和像我一样默默关注节目的科技极客们对这部剧的关注点却略有不同:
比如手机语音导航软件哪个好,坐在我旁边的计算机专业毕业的女孩,看到剧中理工科男二在电脑上敲下代码,屏幕上闪过的时候,默默地点了点头:
“他确实是在为男主制作合成妻子声音的AI软件(男主的妻子叫娜娜,所以这个软件就叫娜娜AI,有点类似Siri,只是变了调子)。可以看出他正在编写的是日历代码。”
“不过,你看他提到用Javascript来编译,但是人工智能必须先用Python训练,或者C++应该优化¥%&*¥%...”(这里省略一万字)
她发现的密码
作为一名科技极客,虽然我还没有达到科技极客的精神境界,但由于职业病的原因,我也对科技男“二阶堂”开发的娜娜的AI语音软件和AI囚犯预测系统表示怀疑。戏剧。人们有很大的兴趣。
(当然,我严重怀疑AI囚犯预测系统输入的数据量可能有点不足;另一个奇怪的点是,剧情并没有表现出娜娜的AI软件的创造者是如何获得娜娜的语音数据的)。
Nana AI(如上图)的界面很容易理解。它实际上是Siri(语音助手)的定制版本。
但男主之所以每次面对(娜娜被杀)都能泪流满面,是因为这个Siri完美地合成了娜娜说话的语气和语气,仿佛一直在他身边。
其实单看合成声音,从技术角度来说并没有感觉那么神奇。
您还记得2016年科大讯飞发布的“奥巴马用中文祝活动取得圆满成功”的爆红视频吗?那时,公众已经充分认识到语音合成的娱乐影响力。
当时的语音工程师从网上下载了大量的奥巴马网演讲音视频资料,用神经网络进行分析,最终合成了一段声音和嘴型非常匹配的假视频。
当然,这项技术最成功的应用场景无疑是林志玲和郭德纲在地图导航上的应用。
但这几天,百度地图等导航软件却突然争先恐后地用这套并不新鲜的技术,在国庆假期前的产品设计上进行“微创新”:
如果你似乎对导航中各种女神的声音完全无动于衷,没问题,何乐而不为呢……就时不时用妻子或父母的声音“吓唬”一下自己吧。
前天app里悄然上线的“定制个人导航语音”功能,让我严重怀疑他们的产品经理是受到了《轮到你了》中娜娜的AI语音软件的启发。
我的第一反应是对效果产生严重怀疑。
由于整个语音合成步骤极其短,基本上可以用一句话来概括:
读20个句子,再等待15分钟,系统自动合成。
由于等待时间可以接受,我最终决定尝试所有版本。当然,还有适合小孩子的版本……我也尝试过。
为了满足“在特别安静的环境下录音”、“用普通话朗读,发音清晰”等一堆附加条件,我只能偷偷溜进办公室的一个角落,埋头于录音……
读句子本身其实并不难,但是如果你要在特别安静的环境下正确读出来:
“警察叔叔,快来查一下大家的票”、“佩奇和乔治在玩他的玩具”、“熊大和熊二在喝蜂蜜”、“开心,快想办法”……
请确保周围没有人,这样你就不会感到太丢脸,或者你会更容易“入戏”(整个状态需要一直“保持”,这是吗?为什么导航里黄渤的声音不舒服?)
另外,我们发现,虽然录制的语音包有四个版本,但电影版的“台词”其实是最难读好的,可能是因为它们稍微长一些,而且看起来都像是励志电影中的名言警句。在阅读之前,我觉得我必须先阅读它们。积聚“一身正气”。
事实上,如果你一开始并不认为15分钟的语音合成训练能够产生逼真的声音效果,那么这个结果肯定会超出你的预期;
但是,如果你认为这15分钟的模型训练时间可以完全复制你自己的声音,那你就想多了。
这是我用推荐阅读版、卡通版、电影版、幼儿男声版录制的语音导航。其中推荐版和卡通版效果最好。与自己的真实声音相比,相似度可以达到70%~80%。
不过可以明显听出,卡通版的声音稍微尖利清脆一些,语速也更快。
第一个为推荐版,2分02秒为卡通版,3分02秒为电影台词版,4分02秒为幼儿男声版。
然而,一旦改变性别和年龄,效果就不太理想。例如,针对幼儿的男性版本只是说话速度稍快一些,声音稍低一些。
另外,我们还可以听到合成声音中有明显的颗粒感,这就是所谓的机械声。男童版机械声最强。
因此,我在对效果比较满意的同时,也有一些疑问:
为什么只用20句话就可以在短时间内快速合成一个人的声音?
为什么各个版本的效果会有一定的差异呢?为什么与年龄和性别不匹配的语音合成会受到很大影响?
声音合成的技术秘密
在咨询了语音技术公司Spichi的技术专家后,我了解到,短时间内快速生成个性化语音其实有一个专有的技术术语,叫做“小数据快速生成”。
也就是说,它可以让说话者用极少量的数据快速训练自己的语音模型,最快5到10分钟就可以得到目标结果。
之所以能够满足“速度”的苛刻条件,是因为这类个性化算法的生成需要基于现有的大型通用基础模型。
这相当于做蛋糕。至于你想装饰成什么样的花朵图案,就看你自己了,但一定要有蛋糕底。不过,虽然蛋糕可以通用,但也要看材料的多少。
“要构建小数据生成算法的基础,您需要首先制作一个基本模型。
例如,需要采用主流的神经网络架构,利用数百甚至数千个不同风格的说话人的数据来训练通用模型。然后,在此基础上,可以利用小数据进行个性化学习。事实上,几年前每个人都在这样做。 ”Spichi专家告诉虎嗅。
这就是为什么你需要先在页面上选择男声、女声或者男声和女声。
因为这四个选项的背后,都对应着四种基本的通用模型。
女性声音通常音调较高、声音尖锐;而男声则是中等气息,“后坐力”较强,声音低沉。两者的范围相差很大。
就像很多歌唱比赛都分男女歌唱比赛一样,一般的声型也必须区分。
“这就相当于你认定自己是女声,然后把自己的声线拉到这个通用女声模型上。
你个人的声音和这个模型之间的差异会比不同性别模型之间的差异更小,合成会更容易,相似度会更高。 ”
就像女人冒充男人,或者男人冒充女人一样,或多或少都会有一种违和感。因此,男同性恋者也可以选择女声来录音,听听是否听起来像“捂着鼻子说话”。
“目前,女声普遍比男声好,说话‘强硬’的女孩比柔弱的小女孩好,这和音调的高低有很大关系。这也是为什么林志玲的声音比男声好。”郭德纲的导航声音看起来更自然。”
不过,Spichi技术专家强调,“小数据快速合成”虽然可以满足结果输出速度的要求,但也意味着“质量上的牺牲”。
“一方面,数据量较小,对算法性能和模型适配要求较高;另一方面,录制音频的质量会严重影响效果。这种公开采集的数据质量很难保证。 ”。
他还提醒我,由于所有通过微信接口的音频都会被进一步压缩,如果想用微信转发语音包,音质可能会更加“粗糙”。
小数据产生,由于手机麦克风本身无法改变,只能通过对环境和用户的特殊要求来提高语音质量。
至于为什么会有不同版本的阅读语料,各方暂时无法给出更明确的解释,百度也没有透露阅读文本的选择标准。它只是说“每组手动选择的句子涵盖了大部分音节”。 。
然而,只有亲自尝试,你才能发现,阅读推荐版本时,你可能处于最正常的状态;
至于卡通版,当你大声朗读《佩奇》或《熊二熊三》时,你可能会觉得可爱,语气自然会变得“可爱”;
读电影版……感觉随时都在《西游记》《阿甘正传》《流浪地球》里……
所以,版本不同的原因大概就是想用哪种说话风格就用哪种说话方式……所以最终定制的语音会有语调、语速的差异也就不足为奇了。
商业价值不大,但可能有特殊意义
和2016年火爆的人脸比对软件“脸萌”,以及2019年整个夏天火爆的视频“嫁接”软件Zao一样,这种定制的语音包或许能让你消遣一时,但可能不会长久长的。
由于商用场景不多,被不少语音技术公司视为“可以起到营销作用,但暂时没有商业价值”的技术。
“它可以为产品锦上添花,但技术本身几乎不可能货币化。”一家语音科技公司告诉虎嗅,和很多娱乐软件一样,你很难简单地为这个功能付费(如果你付费,你的期望值就会无限高)。
“所以无论是Siri这样的语音助手,还是地图这样的导航应用,其实都有适合这样做的场景,因为它们的目的就是让产品体验更加丰富,提高用户打开和使用的频率。”
但我们可以想象一下,当“导航语音”这种开车时极其实用的功能也“沉入”到普通人的声音中时,我们还能完全将其视为纯粹的娱乐功能吗?
从某种程度上来说,这项技术的效果实际上已经超越了娱乐的界限。这是我强烈要求父亲录制定制版导航语音后发现的。
比如,当你把导航音调换成家人的口音时,可能对于巩固“家”的概念、维系亲情和爱情有着特殊的意义。
哈哈手机语音导航软件哪个好,我已经“逼”爸爸把导航声音改成我的声音了。
如果长时间出门在外的孩子在开车时改用父母的声音进行地图导航,或者在家的父母把导航声音换成孩子的声音,彼此的心里可能会发生一些微妙的变化。
事实上,在《轮到你了》这部剧中,打造“娜娜版AI软件”的初衷就是为了让已故的妻子永远留在丈夫身边。
而且,这部电视剧中的剧情其实早在2017年就有了现实版。
当时,知名记者 James Vlahos 因为父亲去世,决定以 AI 的形式让父亲留在自己身边,但他又不愿意让父亲离开。
他用录音机记录了所有与父亲有关的记忆,并整理成数百页的文字记录。他甚至将 91,970 个单词全部输入电脑。
最后,他打造了一个名为“dadbot”的聊天机器人,通过问答和聊天,他可以听到父亲用自己的声音回复他。
两年前,当我报道这个事件时,我就在想,也许这种形式将来可以成为主流,保留我们与亲人一起度过的美好时光。
当然,虽然这个定制的语音包距离我们想象的实际效果还相差甚远,应用场景也还比较狭窄,但与交互无关……
但也许当你开车的时候,听到父母说的不是很标准、不流利的普通话,你会默默抱怨或者会心一笑;当然,当你在路上被别的车骂的时候,听到家人的话语导航声也可能会让你的心突然紧张起来。
录了五六个自己的语音包后,我终于默默地将导航声音改成了父亲录制的版本。
结尾