5月23日语音唤醒软件哪个好,联想研究院编制的《联想智能语音技术白皮书》发布,公布了复杂场景语音识别、声纹唤醒等关键技术。 与此同时,语音AIGC(即语音合成)已广泛应用于联想设备和智能解决方案中。
白皮书指出,未来多模式语音交互将达到“类人”水平。 即语音、文字和图像的综合运用,让机器更好地理解“我在哪里”、“谁在跟我说话”、“我想和谁说话”以及“我应该说什么”。 同时,通过个性化语音技术,合成情感语音或特定人的声音,可以让用户有一种与真人交谈的亲切、自然的感觉,实现“千人千面”的产品特性。的面孔”。
研发布局
联想智能语音技术研发布局包括核心技术引擎层、平台层和应用层。 结合自身硬件和设备优势,打造了从底层硬件到核心技术算法,到上层产品和应用,从技术到用户的全链条覆盖。 企业生态。
联想的语音技术研发涵盖近场语音识别、远场语音识别等多个方向。 此外,为了满足更多垂直应用,联想在持续长语音识别、电话语音识别等方向上持续投入。
目前,联想自主研发的语音技术已全面赋能联想智能设备,包括PC、平板、手机和IoT设备。 联想打造的“联想音乐语音”助手已预装在联想在中国出货的所有品牌手机和平板电脑上。 此外,联想语音技术已融入联想行业智能解决方案,正在助力多个行业的智能化转型。
如今,大模型技术带来了人工智能的新浪潮。 在语音识别方向,除了基于大规模语音数据的“X-former”建模之外,联想还在多任务学习、自监督和半监督学习等方面进行探索。 Voice的AIGC(即语音合成)已广泛应用于联想设备和智能解决方案中,为公司内外的客户提供支持。 同时,联想还启动了基于文本的语音驱动的数字人表情和嘴型的研究,助力智能语音交互的多模态升级。
联想智能语音技术研发布局
语音关键技术
联想全栈语音核心技术涵盖声学前端、语音唤醒、语音识别、语音合成、副语言语音属性识别、说话人日志、发音评估等各大方向,积累了多项业界领先的技术成果。
联想智能语音核心技术模块组成
例如,在复杂场景语音识别技术方面,联想联合优化语音增强、端点检测以及基于深度神经网络的声学模型、语言模型等模块,提升复杂场景下的语音识别性能。 在2019 Interspeech VOiCES International 远场语音识别挑战赛固定系统任务中获得第二名; 自主研发的复杂场景车载语音识别系统在“ISCSLP2022国际智能座舱语音识别挑战赛”中荣获第三名。 为了提高复杂场景下的识别性能,模型需要具有一定的复杂度。 然而,在人机交互应用中,语音识别往往需要“流式”,即一边说话一边快速输出文本。 联想自主研发的端到端语音识别系统采用Transformer、Conformer、Squeezeformer、Zipformer等先进网络结构,实现基于共享编码器和附加编码器的双向解码策略。 在保证识别准确率的同时,在首词延迟、尾词延迟、解码效率等方面为用户提供最佳的用户体验。
此外,声纹唤醒技术是实现个性化人机交互体验的关键技术之一。 通常需要运行在设备侧,但设备侧的计算能力和存储容量往往无法支持复杂的算法或模型,降低了唤醒准确率。 为了实现PC关机、待机状态下的声纹唤醒功能,联想首次提出了面向轻量级应用的非对称“注册-确认”声纹识别技术,与联想智能硬件联合优化LA2智能嵌入式控制器。 它在性能、延迟和功耗方面实现了最佳的用户体验。 非对称“注册-确认”技术是指说话人确认系统包含大尺度和小尺度两个模型。 在注册阶段,采用精度较高但计算资源消耗较大的大规模模型在CPU上运行。 在确认过程中,采用小规模模型进行身份验证,而大小模型在训练阶段通过联合优化的训练策略保证特征的空间一致性。
基于这些自主研发的核心技术,联想研究院开发了智能语音服务平台。 该平台界面简洁,可移植性好,以SaaS方式为用户提供个性化语音识别、语音合成、声纹识别、语义理解等能力。 不仅支持联想各类产品和设备上的语音应用,还赋能不同垂直领域的智能解决方案,如智能客服、智能会议、智能教育等。
联想智能语音服务平台应用实例
智能语音产品及解决方案
联想凭借在设备和行业解决方案方面的优势,通过多种技术的结合打造自主研发的语音技术解决方案。 联想智能语音产品及解决方案主要聚焦消费业务、服务业务、商业业务等各大领域,包括手机、平板电脑、PC、物联网产品等设备上的智能语音应用; 语音助手和声纹唤醒AI芯片; 联想电话语音客服系统; 智能会议系统; 智能教育领域的英语听说平台等解决方案。
联想语音技术应用全景
在消费业务方面,联想于2021年9月发布了LA2智能嵌入式控制器,这是一款专为PC打造的专用硬件,旨在运行智能算法、实现智能功能。 该控制器通过软硬件联合优化,实现了在关机和待机状态下使用声纹识别并唤醒个人电脑的功能。 这是世界上同类产品中的首创。 唤醒率超过95%,功耗降低50%以上。
在服务业务方面,联想魔方智能客服系统连接了语音识别、语音合成、声纹识别、性别识别、情感识别等基础引擎。 拥有智能机器人、在线客服、呼叫中心、工单系统、智能运营、智能质量系统。 六大功能版块可覆盖售前、售中、售后全场景客户服务需求,满足复杂的业务场景,为客户提供完整的行业智能客服解决方案。
联想智能客服系统逻辑架构图
商业业务方面,针对企业用户混合办公场景的应用需求,联想thinkplus打造了以会议平板为核心,集技术、设备、服务于一体的混合办公场景智能解决方案。 与业界主流智能语音识别产品相比,联想智能会议语音识别系统具有支持普通话、中英文混合场景、支持根据用户需求定制专业术语库、TB级语言等多重技术优势。模型建模,语音识别准确率高达97%,并支持扩展声纹识别等。
联想thinkplus混合办公场景
在智慧教育方面,联想基于自主研发的英语口语发音测评技术推出了英语听说平台,赋能联想智慧教育解决方案,助力K12教育进行英语口语考试和培训。 该项目已在北京二十中、山东邹城六中等学校落地,帮助学生进行英语模拟考试、教师实施人工智能教学。
联想英语听说教学模拟考试训练系统
未来展望
2013年语音唤醒软件哪个好,联想发布了第一代自适应语音平台,支持免费引擎插件和插件,支持各种设备上的语音应用。 2017年,联想推出第二代语音平台,可基于联想自研核心技术输出语音识别、语音合成等SaaS服务,实现语音识别全场景覆盖。 除了设备端,联想还为多个垂直领域提供语音能力和服务,涉及智能客服、智慧教育、智能车载应用等行业。
联想语音技术研发历程
语音作为最自然的交互方式,承载着重要的信息。 随着人工智能技术和硬件基础设施的进步,语音技术的基础性能将不断增强,加速其在更多领域的商业应用。
其次,语音设备生态将走向开放互联。 在智能家居、办公、车载等场景中,语音交互将基于多设备协作,语音命令可以跨设备自由流动。
此外,离线语音技术将进一步提高语音产品的渗透率。 考虑到用户隐私、网络稳定性、响应速度等因素,设备侧和边缘侧的离线语音处理能力已成为人机交互过程中不可或缺的一部分。 尤其是智能家居、车载等高安全场景将对设备侧和边缘侧的离线语音处理能力提出更高的要求。
展望未来,随着AI芯片和语音算法能力的不断提升,语音交互必将覆盖全场景应用,助力联想服务化智能化转型和行业发展。