IT之家12月9日报道,中国移动12月8日宣布将与南京大学团队合作开发高保真二维数字真人语音驱动系统。
作为全球用户数量最多的通信运营商,中国移动每年的客户服务运营成本巨大。已经广泛应用的智能语音客服虽然可以完成一定的自动业务接听任务,但仍然不如人工客服面对面、一对一的星级服务体验。
针对实际业务中的痛点,中国移动九天视觉团队联合南京大学太影团队研发了高保真二维数字真人语音驱动系统,旨在为用户提供表情自然、唇形同步、和谐的头部姿势。 ,可应用于智能客服、教育培训、广告营销等场景。
▲ 高保真2D数字真人说话驾驶方式进行情绪控制
据中国移动官方介绍,二维数字真人说话驱动系统可以根据目标人的照片或视频以及任意一段音频,生成与音频同步的目标人说话的视频流。生成视频中的人物要求保真度高、表情和姿势自然、实时性高。它们必须能够与大型语言模型和音频合成功能有机集成,以构建角色的数字化身。
中国移动九天视觉团队与南京大学合作研发的高保真二维数字真人语音驱动系统,在以下三个方面开展了技术研究和方案创新:
▲ 快乐和悲伤情绪下的数字真人语音生成效果
IT之家从中国移动官方获悉,数字人生成技术实现了端到端两级30 FPS实时生成性能,支持512*512人脸区域生成。它还具有控制快乐、悲伤等7种主流情绪的能力。 。
就评估集中的VoxCeleb指标而言,该技术的唇形精度LMD(LandMark Distance)达到4.3,生成的自然度FID达到11.1。
中国移动相关负责人表示,研发成果具有广阔的应用前景,有效降低创作门槛,提升生成文字的视觉质量,为5G新通话、消息秘书品牌业务的拓展赋能和升级。