周杰伦的演唱会人山人海,五月天的演唱会门票秒售罄,但要问最近最火的歌手是谁,非孙燕姿莫属。在哔哩哔哩上,有成千上万个视频使用类似孙燕姿声音的AI语音生成歌曲片段。如果你滚动得足够多,你甚至可以看到这样的视频(见下图),目前该视频已被发布者删除。
除了用于娱乐,AI语音是否还有更广泛的应用场景?答案显然是肯定的。在今年4月结束的高尔夫大师赛上,AI语音就被用于对比赛片段自动生成语音解说。
据CNN报道,从2019年开始,美国大师赛承诺将在赛事APP和网站上为观众提供“每一杆、每一个洞”的比赛视频。这意味着每年将有海量的比赛视频呈现给观众解说视频录制软件哪个好,仅今年的比赛视频就超过2万个。人工解说这些视频片段是不可能的,因此AI解说就派上用场了。
本次赛事的AI解说功能由大师赛数字团队和IBM的技术团队共同完成,根据IBM官网的一篇文章介绍,这款名为“亨利”的AI解说其实是一个生成式AI,它由一个庞大的语言模型通过进行大量的高尔夫语言习惯和风格训练而构建而成。该模型的具体运作如下:
利用大师赛官方数据服务商提供的击球信息、得分、数据统计和视频资料,AI将每一次击球的元数据转换成描述性文本元素→文本经过两个神经网络处理并进行数字化分析,经过数十亿次计算生成数千个可能的句子→模型再选出最佳句子,并传递给Watson Text-to-Speech服务转换成声音→系统再自动将音频与视频中的动作对齐,为对应的比赛片段添加语音评论。
当然,球迷们不需要了解这个过程,只需要在大师赛官方APP上进入“我的小组”功能解说视频录制软件哪个好,就可以看到自己想看的带有AI解说的比赛场景。
▲泰格·伍兹因伤退出了今年的大师赛。
在北美职业比赛中,解说员分为实况播音员和色彩解说员两种类型。播音员主要负责描述比赛场景,色彩解说员则侧重于比赛分析和延伸分析。NBA 2K、PES 或 NBA 2K 游戏的粉丝可能对智能语音解说并不陌生,这些游戏会邀请一些知名解说员预先录制解说,让比赛更贴近真实比赛,提升玩家的沉浸感。使用重复词语的旁白,接近传统的现场解说。不过,IBM 联合高尔夫大师赛推出的 AI 解说更加智能,经过大量训练的 AI 模型可以自行生成各种句子和表达,避免重复。
其实早在2019年,IBM就已经开始在AI解说方面进行尝试,开发团队打造了一套人工智能系统,并在当年12月8日于加拿大温哥华举办的神经信息处理系统(NeurIPS)AI会议上进行了展示。该系统首次公开演示,它实时追踪球员,识别传球、传中和射门,然后进行现场解说,还能在比赛的关键时刻结合从数据库中提取的信息进行更复杂的解说分析。换言之,它不仅是一个AI解说员,还是一个AI评论员。不过当时这些关键时刻需要人工预先选定,据财经杂志《财富》报道,该系统可以自动制作比赛的精彩视频,高尔夫就是其中之一,用于测试合作项目。
今年大师赛期间,IBM 在 AI 开发方面取得了长足进步。利用 AI 模型分析比赛视频,并在赛后自动为每位选手制作比赛片段的功能已经正式应用。IBM 还推出了“逐洞预测”功能,可以根据往年的比赛数据和实时比赛进度,预测每次挥杆可能获得的成绩。这项 AI 解说由 IBM 体育和娱乐团队副总裁 Noah Syken 在 IBM 官网发表文章,被称为与大师赛 25 年合作历史上“最重要的作品”。
从体育转播的角度看,引入AI解说本质上是为了给球迷提供更好的观赛服务。Vizrt集团营销战略副总裁Andre Torsvik在一篇分析人工智能如何推动体育转播发展的文章中提到,转播过程中提供给球迷的附加信息越有针对性、越丰富,对观众的吸引力就越大。而AI是最能起到这一作用的工具。
AI可以提供更快、更相关、更有洞察力的数据,比如足球比赛中的跑动距离和冲刺数据;可以与高端分析软件相结合,提供比赛的自动化分析,比如篮球转播中的热门投篮区域;现在还有语音解说的能力。如果这些分析和解说呈现在转播视频上,可以大大丰富观众在第一屏甚至第二屏的观看体验。
另一方面,IBM AI Research 的 AI 技术总监 John R. Smith 曾对《财富》提到,AI 解说的实施可以为很多缺乏转播机会的半职业、业余球队提供现场解说,这也是目前 AI 解说最重要的应用。从实际应用场景来看,毕竟真正的重量级比赛不会缺少优秀的人类解说员,至少目前来说,AI 还无法取代他们。
从生成式AI发展来看,AI解说的出现也具有一定的价值。Noah Syken认为,AI解说的影响并不局限于体育解说,它是大规模语言模型和生成式AI对企业的一个应用。IBM推出的AI解说功能至少在两个方面为业界提供了借鉴。第一,大型语言模型是基于大量无标签数据进行训练的,但IBM在此基础上加入了“专业领域知识”。 “一是实践AI解说,使其能适应独特的赛事场景;二是让人工智能真正适用于企业环境,这需要充分利用企业全面、准确、相关的源数据。”
届时,AI开发者只需添加自己所在行业、公司或部门的专业信息,就能快速构建自己的AI模型。Noah Syken指出,尽管AI取代人类工作的可能性已被广泛讨论,但只有当我们看到AI解决问题时,我们才能意识到现实。只有了解了具体问题,人们才能真正理解其对业务的影响。
但在推出这一伟大创意之前,AI解说仍要面对一些实际问题,比如其缺乏情感。体育解说员在恰当的时机所表达出的情感,往往是球迷最关注的部分。对此,Syken回应道,“随着我们的推进,我想你会看到我们为声音的质感带来一些改变。”
这至少说明开发团队意识到了名为“Henry”的AI解说员目前素质有所欠缺。毕竟在推特上,有一位粉丝在看完这位AI解说员的视频后评论道:
这个功能确实很令人震惊;
我会将其静音。