在2021年国际口语机器翻译评测大赛(简称IWSLT)中,科大讯飞与中国科学技术大学语音与语言信息处理国家工程实验室(USTC-NELSLIP)联合团队荣获三项冠军同声传译任务中的曲目!
这有多棒?
让我向您简单介绍一下背景:
作为全球最具影响力的口语机器翻译评测竞赛,IWSLT已经举办了18年,每年都有不同的语音翻译竞赛任务。
今年,IWSLT共设置了4类任务,其中包括同声传译任务。 为了考察不同语言对词序的影响以及语音同声传译的整体表现,本次同声传译任务设置了三个赛道:
并通过“翻译质量”和“翻译延迟”两个维度进行评价。 以下是英德文本同声传译比赛的结果:
▲英德文本同声传译结果截图
UEDIN:英国爱丁堡大学
USTC-NESLIP:科大讯飞-中国科大联合团队
APPTEK:AppTek(德国)
VOLCTRANS:字节跳动火山翻译团队
科大讯飞在低、中、高三个延迟区间(注意图中红星的位置)明显优于其他系统,并获得所有赛道的冠军! 尤其是低时延环境下的进展,将进一步推动机器同声传译的商业落地。
三个赛道的详细比赛成绩如下:
▲左右滑动查看结果截图
以下顺序为:英德文本同声传译效果排名、英日文本同声传译效果排名、英德语音同声传译效果排名
我们是怎么做的?
一个关键原因是我们创新性地提出了交叉注意力增强传感器(CAAT)同声传译架构。 基于这个框架,我们可以更好地实现翻译效果和延迟之间的平衡。 模型结构如下:
围绕同声传译任务中翻译质量和延迟两个评价目标,借鉴语音识别中的多路径优化方法,共同优化动态决策和翻译效果,从而在延迟和翻译质量之间找到更好的平衡点。 平衡。
这句话怎么理解呢?
举个栗子:
“你好,他想问一下火车站在哪里?”
当机器听这句话的时候,这些就被逐字输入到机器的“脑袋”中。 在输入过程中,机器需要根据自己的模型和策略做出翻译决策。
目前经典的机器翻译技术中,翻译策略通常是在N个单词出现后才开始翻译。
例如固定单词数为2,当机器读到第二个单词“he”时,输出第一个单词“Hello”的翻译结果,即输出“Hello”; 那么每次读到一个单词,就输出一个单词“ask”被读入,然后输出“he”,以此类推。 当机器读取源信息时,会一次性输出所有结果。 该策略同声传译的两个指标是选择固定延迟和优化翻译效果。 它比较机械,很容易造成直译或预测错误,尤其是在延迟较低的情况下。
我们的CAAT模型将根据输入和语义进行全面分析。 当“Hello”出现时,它可以独立分析出“Hello”是一个相对完整的语义。 不管后面是什么词,它的翻译通常是固定的,它会立即决定先翻译“Hello”。 同时,它还会根据语义自主调整顺序,使翻译后的语言更加地道。
▲具体翻译策略大概如图
与当前主流机器翻译技术相比,CAAT避免了延迟过大或固定延迟带来的翻译质量下降的问题,实现了相同延迟下翻译质量的显着提升。
除了这种模型结构的创新之外,我们还优化了模型融合、数据增强等策略,以解决任务中语音翻译数据有限的问题。
总之,通过我们的创新和努力,我们成为第一个在延迟和翻译质量之间找到更好平衡点的人!
我们的技术用在哪里?
科大讯飞双屏翻译机
在前后屏的支持下,可以呈现同声传译级别的实时翻译效果,让人们在保持社交距离的同时顺畅沟通。 特别是创新开发了对话翻译、录音翻译、语音翻译、同声字幕等功能,可与移动电脑、大屏幕(电视、投影、会场LED等)联动,帮助用户跨界沟通。语言报告工作和提案演讲。 ,在远程会议期间提供实时语音翻译或同声传译字幕。
科大讯飞同声传译
目前支持中文、英文、日文、韩文、法文、西班牙文、俄文、阿拉伯文八种语言的实时音译,以及中英、日文、韩文、法文、西班牙文、俄文、德文、阿拉伯文的音译。阿拉伯。 翻译。 通过客户端,可以在会议现场或在线会议上实现实时语音识别、翻译和内容录制,并将识别和翻译的内容形成字幕并实时显示在屏幕上。 是一款可广泛应用于大型高端会议、会议、展览等场景的软件产品。
▲科大讯飞为WAIC2021提供同声传译服务
截至目前,科大讯飞已为超过10000场会议提供同声传译服务。 科大讯飞网站和APP已为近1500万用户提供智能转录和翻译服务,转录总时长超过3866万小时。
尽管如此,与人工同声传译相比科大讯飞语音软件,机器同声传译也存在着我们无法避免的问题:
机器翻译很容易出现“直译”问题。 同时科大讯飞语音软件,机器翻译在语义理解和核心内容的传达上更容易出现识别和翻译错误等问题。
站在斩获IWSLT 2021语音同传任务三项赛道冠军的基础上,我们将以此次技术突破为新起点,进一步提升科大讯飞在语音翻译和机器同声传译领域的核心竞争力!
为科大讯飞点赞!