百度CTO王海峰博士发表演讲
雷帝网乐天11月28日报道
百度大脑今天宣布,其语音能力引擎日均调用量突破100亿次,应用规模位居行业第一。 为开发者提供覆盖云、端、核的全栈、全场景语音开放能力,推动智能语音技术在各行业的落地。 应用。
论坛上,百度大脑语音引擎全新发布升级了基于百度鸿鹄语音芯片的4大硬件模块、开发板和3大场景解决方案等14大产品内容,并升级了语音自训练平台和呼叫中心语音解决方案。 计划等
百度首席技术官王海峰博士在现场表示:“AI技术的演进与产业赋能处于正循环、相互促进的状态,AI在应用场景中不断演进。”
“百度语音技术基于深度学习,加速突破行业应用,已应用于百度App、百度地图、小度音箱、百度输入法等百度产品,也通过AI赋能众多行业合作伙伴开放平台。百度大脑的语音能力每天调用次数已突破100亿次。”
百度语音首席架构师贾雷正式提出了一种基于复杂CNN网络的语音增强和语音识别的集成端到端建模技术,并表示该方法抛弃了数字信号处理学科的各种先验假设和语音识别学科,消除学科接口障碍,直接端到端集成建模。 与传统基于数字信号处理的麦克风阵列算法相比,错误率降低了30%以上。 该方法现已集成到百度最新的百度鸿鹄芯片中。
贾雷 百度语音首席架构师
百度自2012年起就开始将深度学习用于中文语音搜索,成为全球最早将深度学习技术应用于产业化产品的公司之一。 百度大脑现已开放跨云、端、核的全栈语音引擎能力,包括语音识别、语音合成讯飞朗读软件,广泛应用于金融、政务、娱乐等各个行业和场景。
百度AI技术生态部总经理余友平表示,百度大脑语音能力引擎应用规模已达到行业第一,并一直在积极拓展语音能力引擎生态链建设。
于友平 百度AI技术生态部总经理
针对智能硬件设备,百度大脑发布了基于百度鸿鹄语音芯片的四款硬件模块和开发板,以及智能家居、智能汽车、智能家居等三大端到端软硬件一体化远场语音交互场景解决方案。和智能物联网设备。 ,具有交互效果优秀、软硬件集成应用快速、兼容性广、集成门槛低等优点。
同时,在语音识别领域,全面升级短语音识别和实时语音识别能力,发布音频文件转录能力,升级语音自训练平台,可零代码提高业务术语识别率、呼叫中心语音解决方案;
语音合成方面,发布了6个高品质在线语音合成音库和5个高品质离线语音合成音库。 语音能力助力智能硬件、互联网、呼叫中心等领域智能化升级。
创维AIoT研究院产品经理李凯表示:“大屏物联网的行业痛点在于信息检索困难、设备控制操作复杂。通过加入语音交互能力讯飞朗读软件,整个AIoT设备的交互体验生态系统已经重构,双方在电视领域的合作成果已在10款电视芯片型号、2500万台电视上落地,助力中高端产品线提升产品溢价能力。
据百度介绍,在下一代远场语音解决方案中,百度鸿鹄语音芯片为创维产品带来了高性价比的硬件、集成优化的软件算法等价值。 双方将就基于百度鸿鹄芯片的多款产品进行合作。
今年年初,百度还提出了截断注意力模型SMLTA,显着提升了整句识别率、方言识别、中英文混合识别率。 它也是世界上第一家在语音识别领域实施注意力模型的大公司。 大型工业在线产品上线。
首次Tacotron+wavRNN联合训练,成为全球首个推出waveRNN技术的语音平台,大幅提升云合成速度,语音合成的自然度几乎与真人一样自然。
百度地图20句语音导航录制技术基于百度原创风格迁移技术Meitron模型。 其特点主要体现在音色转换、多情感朗读和节奏传递三个方面,从而大大降低了语音合成的门槛。
百度大脑开放平台是国内最大的人工智能开放平台。 已开放228项AI能力,拥有超过150万开发者用户。
这是百度首次在语音市场以这种方式公布业绩。 百度CTO王海在峰会上亲自宣布,语音技术日调用量已突破100亿次,位居行业第一。 这表明了百度在语音领域全力发力的决心。
在这一领域,垂直从事语音的科大讯飞已经非常有发言权。 今年4月的数据显示,科大讯飞宣布日均服务量为47亿次,几个月内不太可能翻倍。
过去的一年,科大讯飞也过得很艰难。 科大讯飞市值从巅峰时期的1000亿元缩水至726亿元; 随后又陷入“同声传译诈骗”、“可疑卖地”。 随着百度宣布其语音技术日调用量突破100亿次,位居全国第一,科大讯飞也将面临更大的压力。
——————————————
雷迪触动网由资深媒体人雷建平创办,今日头条签约作者。 若转载请注明出处。