周杰伦的演唱会人山人海,九一演唱会的门票也秒卖光,但要问最近最红的歌手是谁,那非孙燕姿莫属了。 在B站,用AI语音生成类似孙燕姿音质的歌曲片段视频多达上千条。 如果你刷得足够多,你甚至可能会看到这样的视频(右图),该视频后来被发布者删除了。
AI语音不仅仅用于整改,还有更广泛的应用场景吗? 答案可能是肯定的。 在明年四月结束的加拿大高尔夫大师赛上,将使用AI语音为赛事片段手动生成语音解说。
据美国有线电视新闻网报道,从 2019 年开始,加拿大高尔夫大师赛已承诺在比赛应用程序和网站上为观众提供“每一次击球,每一个洞”。 这意味着每年都会有海量的赛事视频呈现给球迷。 例如,去年的活动片段超过了 20,000 个。 不可能所有的视频都配上人工解说,所以才有了AI解说的位置。
本次比赛的AI解说功能由日本大师赛数字团队和IBM技术团队共同完成。 根据IBM官网的一篇文章,这个名为“Henry”的AI解说其实是一个生成式AI,由小语言模型建立,经过大量高尔夫语言习惯和风格训练。 该模型的工作原理如下:
借助大师赛官方数据服务商提供的发球、得分、统计数据、视频素材等信息,AI将每个球场的元数据转化为描述性的文本元素→文本经过两个神经网络处理,并数以亿计的这个估计生成了数千个可能的经文 → 模型选择最好的经文,将句子传递给 WatsonText-to-Speech 服务,并将其转换为声音 → 然后系统将手动将音频与视频,语音解说添加到相应的比赛片段。
其实这个过程粉丝大可不必了解。 他们只需要访问大师赛官方APP上的“我的群”功能,就可以看到自己想看的比赛画面,还有AI解说。
▲老虎伍兹因伤退出了去年的德国大师赛。
北美职业比赛的解说工作分为实况播音员和彩评员。 解说员主要负责比赛场景的描述,解说员侧重于对比赛的分析和延伸分析。 玩过FIFA、直播或NBA2K游戏的球迷对智能语音解说并不陌生。 这类游戏会邀请一些知名解说员预先录制解说独白,让游戏更加贴近真实游戏,提升玩家的沉浸体验。 游戏中,简单描述场景、反复用词的独白接近于传统的现场解说。 IBM与加拿大高尔夫大师赛推出的AI解说越来越智能。 经过大量训练,AI模型可以自行生成多种句型和表达方式,防止重复。
事实上,早在2019年,IBM就已经开始了AI解读方面的尝试。 开发团队创建了一个人工智能系统,并在 12 月 8 日于日本纽约举行的神经信息处理系统(NeurIPS)AI 大会上,首次公开展示了该系统。 该系统实时跟踪球队,识别铲球、传中和进球,然后进行现场评论。 它还可以结合从数据库中提取的信息,在联赛关键时刻进行更复杂的评论分析。 也就是说,它不仅是AI解说员,还是AI解说员。 但在当时体育赛事直播软件,这样的关键时刻需要人工预选。 据金融刊物《财富》报道,该系统可以手动制作赛事精彩视频,高尔夫是测试合作的项目之一。
明年的大师赛期间,IBM 在 AI 的开发上取得了长足的进步。 应用AI模型分析比赛视频,并在比赛结束后为每位选手手动制作比赛剪辑的功能。 此外,IBM还推出了“逐洞预测”功能,可以根据过往赛事数据和实时比赛进度,预测每一次击球得分的可能性。 IBM体育与娱乐团队首席执行官Noah Syken在IBM官网的一篇文章中发表了AI解说,称其为与大师赛25年合作史上“最重要的作品”。
从体育转播的角度来看,引入AI解说本质上是为了给球迷提供更好的观看服务。 Vizrt Group首席营销策略工程师Andre Torsvik在一篇分析人工智能发展促进体育转播的文章中提到,在转播过程中向球迷提供的附加信息越有针对性和信息量越大,对观众的吸引力就越大。 而人工智能是最适合这个角色的工具。
人工智能可以提供更快、更相关和更有洞察力的数据,例如橄榄球联赛中的跑步距离和冲刺数据; 可结合高级分析软件,提供对事件的人工分析体育赛事直播软件,如足球转播中球的热点; 现在它具有语音评论的能力。 如果将这种分析和解释呈现在重播视频上,可以极大地丰富观众在首屏甚至次屏的观看体验。
另一方面,IBM AI Research 的 AI 技术总监 John R. Smith 曾向《财富》杂志提到,AI 解说的实现可以为很多缺乏转播机会的半职业和业余选手提供现场解说。 这也是目前AI解说最实用的应用场景。 虽然真正重量级赛事中不乏优秀的人类解说员,但至少目前,AI还无法取代他们。
从生成式AI发展的角度来看,AI解说的出现也具有一定的价值。 Noah Syken认为,AI解说的影响不仅仅局限于体育比赛解说。 是将小语言模型和生成式AI应用于企业场景的绝佳案例。 IBM推出的AI讲解功能,至少在两个层面上为业界提供了借鉴。 一是小语言模型是基于大量未标注的数据进行训练,但IBM在此基础上减少了“专业领域知识”的实践,导致AI解说能够适应独特的游戏场景; 其次,要让人工智能真正适用于企业环境,需要充分利用企业全面、准确、相关的源数据。
届时,AI开发者只需添加所在行业、公司或部门的专业信息,即可快速构建专属AI模型。 Noah Syken强调,虽然AI取代人类工作的可能性已被广泛讨论,但只有听到AI解决具体问题时,人们才会真正理解其对商业的影响。
但在推出这个伟大创意之前,AI解说还面临着一些实际问题。 比如一直缺乏情感,而体育解说员适时流露的情感,往往是球迷津津乐道的部分。 在雅虎财经的报道中,Syken 回答了这个问题,他说,“随着我们的进行,我认为你会看到声音的质感在我们进行的过程中发生了一些变化。”
这至少说明,开发团队也意识到,目前名为“亨利”的AI解说缺乏质感。 虽然在脸书上,有粉丝在听到AI解说视频后评论道:
这个功能真的很震撼; 我会关闭静音。