发布信息

小雷体验百度文心一言新功能,几秒创建专属 AI 嘴替,音色音准高度相似

作者:软荐小编      2024-10-19 15:01:49     111

小雷浏览哔哩哔哩时,经常看到UP主发布AI模仿明星唱歌的视频。音色和音调至少有60-70%的相似度,甚至一些训练有素的人工智能模型也能重现与名人几乎一模一样的声音。 。除了唱歌之外,这个功能还广泛应用于不同角色的配音。一个大型的AI模型,如果有足够数量和持续时间的优质素材,绝对可以达到真实的程度。

五音不全的小雷对这项技术很向往,但苦于本地训练模型的复杂性,始终没有下定决心训练自己的AI语音。恰巧百度文心一言最近推出了定制座席专属语音的新功能。官方声称用户只需几秒钟即可完成设置。

能用这样省时省力的方式训练自己的AI语音吗?带着疑惑,小雷尝试打造自己的“AI替嘴”。

打造“AI替嘴”效率很高,但功能太有限

打开文心一言App,点击下方的“+”号,我们将进入智能代理创建界面。在声音选项栏中,我们可以为代理选择声音特征。官方声音按照方言、性别、音色、角色进行分类,提供32种不同的声音。但我们的目标很明确,让我们体验一下创建自己的声音的功能。

歌曲变伴奏软件_音乐变伴奏的手机软件_把音乐伴奏转成文件形式的软件

图片来源:雷科技出品,文心一言页面

通过点击“创建我的声音”,用户需要以自然的语调朗读系统给出的文本,并让系统识别音色和音高。据实际测试,识别过程仅需2-3秒,小雷的“AI替嘴”正式打造成功。值得注意的是,系统在录制前会对环境声音进行简单识别,确认噪音符合录制要求后才会正式进入录制流程。

不仅如此,我们还可以个性化定制代理人的性格特征、口头禅、个人经历、亲友关系、兴趣爱好、开场白等。这些因素都会影响座席后续的沟通表现。

把音乐伴奏转成文件形式的软件_歌曲变伴奏软件_音乐变伴奏的手机软件

图片来源:雷科技出品,文心一言页面

话不多说,我们来看看闻心一言在短时间内打造的AI语音是否令人满意。打开声音播报功能后,小雷试图让代理商向我介绍雷科技的相关信息。我们暂时不谈声音。至少对雷科技的介绍还是比较全面的,除了公众号的粉丝168万(超过170万)之外,其他的描述都大体一致。

说到声音,我觉得音色至少有80%相似歌曲变伴奏软件,尤其是情绪和语气的表达,差点让肖雷以为他在说话。或许是为了让用户更好的听清楚座席的表情,整体语速稍慢一些。用户可能很难耐心地听完所有的答案。

与传统的文字表达相比,座席的语音答案更加拟人化,答案中加入了更多的情态助词,更贴近人们在日常交流中的表达习惯。检查完音质后歌曲变伴奏软件,小雷决定回到自己对AI换嘴的本质要求——唱歌。遗憾的是,目前文心一言打造的智能代理暂时不支持该功能。随后小雷换了角度,让机器人念歌词。这次成功了。虽然是根据自己的声音朗读,但呈现效果却远不如音乐那么有趣。

把音乐伴奏转成文件形式的软件_音乐变伴奏的手机软件_歌曲变伴奏软件

图片来源:雷科技出品,文心一言页面

随后,小雷根据自己的声音进行了背诵、朗诵诗歌等测试,结果相似。你可以把它理解为始终稳定的声音,让它为你完成很多基本的语言任务,但呈现效果与你录音的情感、风格和自然程度高度相关。由于小雷并不从事播音工作,所以AI声音的效果并不是特别好。如果用户能够提供更高质量的语音素材,或许闻心一言能够给出更好的反馈。

总的来说,温馨一言的新功能确实给小雷带来了惊喜。在传统离线本地训练的基础上,通过文信大模型和语音合成大模型的大量语音训练,让AI语音无论在什么情况下都可以使用。无论是生成效率还是呈现效果都令人满意,但其个人助理的定位使其功能受到了一定的限制。 Agent无法提供唱歌等其他功能,用户也无法进一步训练AI语音来提高AI语音的性能。效果跟我比较接近。

高品质的AI声音需要高强度的AI训练

事实上,这是所有“快速创建AI声音”的应用程序面临的问题。这也是一种个性化的语音定制服务。统一实验室提供的服务要求用户录制20句话来定制属于自己的AI语音。整体效果与闻心一言相差不大,但效果上还是存在瓶颈。关键原因只是投入和培训材料不够。

把音乐伴奏转成文件形式的软件_音乐变伴奏的手机软件_歌曲变伴奏软件

图片来源:墨涛ModelScope

大家每天听到最个性化声音的场景应该是在语音导航、文字广播或者小说阅读中。一般来说,文本转声音技术要让AI声音达到合格标准,源人需要在专业录音室录制数百或数千个句子。高标准的定制流程将消除绝大多数普通人对AI声音的期待。探索被拒之门外。

随着个性化语音合成(Personal TTS)技术的成熟,平台通过手机、电脑等常用录音设备获取目标的少量声音片段后,可以快速为目标构建语音合成系统。与传统的定制语音技术相比,个性化语音合成的最大优势是只需要少量的数据。

无论是文心一言还是统一实验室,他们只需要极少量的数据就可以为用户提供个性化的语音定制服务,大大降低了语音合成的定制门槛,将AI语音普及到普通用户。 。但有得也有失。 TTS技术在降低声音定制门槛的同时,也给这一功能的上限带来了束缚。

根据ModelScope提供的产品逻辑图,我们可以看到TTS模型需要经过录音检测、数据处理、模型训练、打包合成四个阶段,最终形成我们的AI语音。有限的数据输入量使得AI语音的语言逻辑和语调更多地依赖于已经训练好的模型数据,而用户录制的素材可能只在声音表面更有效,而声音的灵魂依然是其背后庞大的模型数据。

把音乐伴奏转成文件形式的软件_歌曲变伴奏软件_音乐变伴奏的手机软件

图片来源:墨涛ModelScope

作为参考,小雷研究了本地训练声音模型的步骤。与文心艺言和同艺实验室的便捷服务相比,本地训练声音模型的音效上限要高很多,但所需的成本也成倍增加。

首先,用户要准备一批高质量的干音频数据、一台具有一定性能的电脑、一个AI声音开源项目。经过一系列的数据处理、特征提取和N轮训练,我们就可以得到所需的AI语音。

您可能认为这只是阅读文字描述的问题。事实上,光是音频数据的采集就是一个很大的工程。这决定了AI语音的音色和声音特征。特别需要注意的是,这里的音频数据指的是目标的干声,这意味着必须去除伴奏、噪音等所有背景声音。没有专业设备的用户可以通过软件来实现这一点。

当然,如果你觉得麻烦,你可以去模型工场网站下载一个预先训练好的语音模型,但肯定不会像恢复自己的声音那么有成就感。

歌曲变伴奏软件_把音乐伴奏转成文件形式的软件_音乐变伴奏的手机软件

图片来源:mxgf.cc

经过无限制的高强度训练,终于可以达到前段时间网络上流行的AI孙燕姿的效果,用户可以在读书或唱歌等各种场景下自由决定AI声音来表达,不再局限于单一的表达形式。 。

大模型联动,AI语音是下一个机会吗?

AI对声音的影响已经渗透到从文本到语音到音乐的各个领域,我们见证了许多有趣的AI声音应用。前段时间,小雷体验了文森特音响的新星Suno。其高效、高品质的音乐生成方式让很多音乐人产生了危机感。尽管现阶段绝大多数AI声音模型还存在一些缺陷,但AIGC重构内容产业几乎是不可避免的。

AI声音就像AI音乐一样,是普通人的自我表达。 AI的作用更多的是降低人们的创作门槛,让普通人实现他们幻想的场景。目前,很多大型AI模型仍处于“孤岛”状态。雷科技表示,当单个AI大模型达到瓶颈阶段时,下一步可能是不同类型大模型之间的有效联动。

举个简单的例子,用户通过ChatGPT生成想要的歌词,Suno将歌词编译成音乐并赋予音乐风格,最后添加自己的AI声音。当连接多个大型模型时,用户所要做的可能只是发出命令来创建自己的歌曲。

当然,目前的AI大模型还处于不断发展的阶段。文心艺言、同艺前文等国内大型车型也在不断迭代。小雷这次体验到的个性化声音定制功能虽然在效率和质量上表现不错,但在多样性方面功能性并不强。仍有巨大的改进空间。

或许未来,温心一言的经纪人可以突破助理定位,展现出不逊色于本土培养的大模特的表演效果。届时,AI声音技术也将能够找到更多的适用场景,为用户体验和音频相关行业带来翻天覆地的变化。

北京国际车展(北京车展​​)将于4月25日至5月4日盛大举行,本届车展以“新时代新车”为主题,是“汽车从电动化走向智能化”的标杆。

届时,包括比亚迪、小米、AITO文杰、小鹏汽车、蔚来、理想、极氪、极悦、长安深蓝等领先品牌悉数亮相。除了新车型的“大比拼”,自动驾驶技术的进步、智能座舱的演进以及大型AI模型与汽车的融合都将是重要看点。雷科技账号“关注电动汽车,了解智能”将派出报道团队前往北京进行一线专业报道,敬请关注。

音乐变伴奏的手机软件_把音乐伴奏转成文件形式的软件_歌曲变伴奏软件

相关内容 查看全部