发布信息

RTE 2024 第十届实时互联网大会 IoT 分论坛:智能硬件的新生命

作者:软荐小编      2024-11-03 15:01:27     93

在生成式AI浪潮的影响下,智能硬件开始出现新的人机交互体验。

AI智能助手可以更有针对性、实时回答你的“十万个为什么”; AI卡片录音机可以帮助您实时转录会议内容,还将会议总结、要点分析和待办事项列出在您的指尖;佩戴AR眼镜登录后,可以看到文字、图片、视频中的实时多语言字幕;智能门锁会根据来访者定制主人的声音,模仿你的声音去取快递、取外卖,或者改变你的语气来恐吓不相关的来访者;毛绒熊真正成为了孩子的亲密朋友,可以和它一起聊心事、疑虑、担忧……

可以预见,更加智能的多模联运大车型将赋予智能硬件新的生命。

戴在脸上的影院!雷鸟Air 3再破AR眼镜价格下限,1699元开售

就在上周六,第十届RTE 2024实时互联网大会物联网分论坛圆满结束。众多AI智能硬件赛道的资深人士齐聚一堂,共同探讨如何让“智能硬件产品”赶上AI的好时代。声网物联网行业负责人吴长儒、旷视科技增值业务部负责人史泽宏、海马巴比联合创始人谭国豪、左真科技技术经理徐维恩、开源负责人杜超小米Vela、莲花科技软件部总裁王阳分享了打通AI与智能硬件壁垒的实践经验。

1. AI驱动多模态交互,让人机交互更自然

在传统的硬件设备中,人机交互大多通过按钮、触摸屏等图形用户界面(GUI)来完成。然而,随着人工智能技术的引入,特别是会话式用户界面(CUI)的兴起,用户可以通过语音、视觉、手势等方式与设备进行交互,带来更加自然、直观的交互体验。

“AI驱动的智能硬件不再仅仅依赖于固定的功能按钮或菜单,而是通过理解用户的意图,围绕用户想要完成的任务进行设计。”声网物联网行业负责人吴昌儒举例说,在智能家居中,用户只需一句话,就可以触发多个设备的联动,说“我想看电影”,AI系统会自动调节灯光、打开电视、调节空调温度等操作。这种面向任务的设计让用户体验更加流畅、更加智能,大大减少了繁琐的手动操作。

承载AI Agent的智能硬件不再需要孤立工作,而是可以与其他智能硬件互联协作。也就是说,每个设备中的AI Agent可以独立执行特定的任务,也可以根据需要与其他AI Agent进行协作。整个系统是一个复杂、灵活的智能系统。

现场,其他嘉宾也就自己的产品或业务在人工智能方面的落地发表了自己的看法。

AI和AR的结合长期以来一直是智能眼镜的理想答案。市面上很多AR眼镜基本可以满足听音乐、拍摄视频、翻译等需求。组真科技为AR眼镜找到了更多个性化的应用场景。

其最新的AR眼镜不仅适用于跌倒检测、呼吸监测等护理场景,还可以满足AI或XR多人混合实时交互计算场景的需求。或许在不久的将来,人们只需一副AR眼镜,就可以远程观看展览、跨境云旅行、多语言同声传译、实时视频共享、远程协作查看云文件和3D模型。

戴在脸上的影院!雷鸟Air 3再破AR眼镜价格下限,1699元开售

根据徐维恩的设想,未来搭载AI引擎的AR眼镜将提供更加个性化的实时反馈。例如,你戴着AI眼镜,恰好路过一辆停在路边的汽车。如果你多看几眼汽车的标志,AI眼镜就会猜测你可能对这个汽车品牌感兴趣,然后提供相关信息。值得一提的是,这种呈现信息的方式是个人化的,可以减少人们对共享信息的顾虑。

在徐维恩看来,Agora的语音交互技术是AI智能硬件实时人机交互的关键神经元。 AI智能硬件只有真正能够随时随地调用数据、与人和环境交互,才能与现实生活相连接。

在底层语音技术还比较不成熟的时候,人们很难想象手上的一枚小戒指就能将AIoT带入海外直播领域。

TOALL L-Ring 2是联欧科技最新推出的太空戒指,通过大的多模态模型实现录音转录、人工智能对话、同声传译等功能,帮助人们直播、讲课、播放PPT、看电视和驾驶。在此过程中尽可能保持双手自由。未来,外贸主播在直播时佩戴它“挥手”即可完成口同步视频合成、情绪模拟、声纹模拟、语音合成等,从而同步同步生成多语言直播间。

戴在脸上的影院!雷鸟Air 3再破AR眼镜价格下限,1699元开售

高水平、稳定可靠的实时AI语音交互技术可以说是AIoT的助推器。如果AI智能硬件能够对危险情况进行及时的语音反馈,或许能够在关键时刻“救命”。

基于高精度数据训练,海马大比婴儿护理机可以实时监测宝宝的睡眠、哭闹情况,判断宝宝是否“捂脸”,并对可能发生窒息的情况进行提醒。海马大比联合创始人谭国豪告诉智洞智,在AIoT智能硬件技术的加持下,新一代育婴师对婴儿哭声和状态的识别更加灵敏,能够及时发现吐奶等情况否则可能会导致窒息。现在,AI智能硬件或许能够比新父母更好地理解婴儿的言语。

戴在脸上的影院!雷鸟Air 3再破AR眼镜价格下限,1699元开售

海马大比的下一步计划是将这些AI智能硬件融入个性化育儿教育、优化睡眠的托儿环境、互动故事、协作育儿支持等场景中,为每个有孩子的家庭安排“无限”的工作体验。 ,具有专业知识的“智能保姆”。

谭国豪表示,声网AI x IoT智能硬件解决方案能够有效解决“自动化场景但被动输出”的AI技术应用困境,推动智能硬件从工具向服务的转变。在他看来,AIoT中的AI智能硬件不应该被动地监控和响应,而应该生成有意义的内容并与用户有效交互。

戴在脸上的影院!雷鸟Air 3再破AR眼镜价格下限,1699元开售

小米选择使用轻量级AI智能硬件系统“小米Vela”来连接不同生活场景的智能硬件。未来,借助该系统,小米的智能手表、智能手机、智能平板、智能电视等硬件都可以链接到其AIoT网络中。

旷视科技的AI生产力平台Brain++已实现AI视觉算法的快速量产,并与智能门锁、宠物智能产品、养老机器人、运动训练等场景相融合。

其中,在宠物智能产品方面,Brain++可以提供宠物检测、猫脸识别、猫砂检测、宠物Vlog等功能。智能门锁方面,可实现生物识别、人员分析、快递外卖提醒、儿童宠物离家、邻居隐私保护、AOV、时间集中等功能。

戴在脸上的影院!雷鸟Air 3再破AR眼镜价格下限,1699元开售

2、二级人机对话,生成式AI振兴物联网生态

与触摸、空间手势等人机交互方式相比,语音交互的技术和形式更加成熟,上手难度也较小。在AI时代依然具有独特的发展前景。吴昌儒提出多模态交互、会话交互和大模型共同构成AI Agent。

同时,语音交互技术是AI智能硬件的底层技术之一。其即时性和准确性极大地影响用户的人机交互体验。从“嘿,Siri”到红极一时的智能音箱、故事机,再到目前快速迭代的多模态大模型,人机语音交互的体验正在不断优化。

吴昌儒认为,实时、准确、跨平台是AI Agent真正引入智能硬件的关键,声网AI x IoT智能硬件解决方案应运而生。该方案可以快速实现大模型在低功耗、低算力芯片上的接入。具有低时延实时交互、低成本灵活适配的特点。它可以通过丰富的功能在智能硬件场景中构建真实、自然的模型。 AI语音交互体验。

例如,优化交互延迟,语音交互延迟低至1秒;支持多模态AI语义识别和理解;支持AI降噪,确保语音交互清晰;支持小封装尺寸、低内存、低功耗;适用于搭载70余种主流、高性价比芯片等,帮助开发者和企业快速构建适应自身硬件的AI实时语音对话服务。

戴在脸上的影院!雷鸟Air 3再破AR眼镜价格下限,1699元开售

声网的AI环境,音频通话依然可以流畅。

为了使整个集成更加容易,SoundNet还提供了模块化组件。企业无需集成STT、TTS等额外的模块化组件即可实现端到端的音频对话。

此外,为了让AI更有效地理解和收集信息,AI降噪算法和VAD控制非常重要。为此,SoundNet自主研发了AI降噪算法,可有效抑制键盘、脚步声、杂音、啸叫等100多种常见噪音。同时,为了提高驾驶、商场等场景的声音采集效果,还专门优化了算法。

在流畅、清晰的基础上,声网还追求语音对话时自然的沟通感。其AI x IoT智能硬件解决方案支持AI-VAD技术,具有较高的语义理解能力,并且可以随时中断语音,模拟人类对话的真实反应。

除了推出嵌入多模态大模型的AI原生设备外,AI智能硬件厂商还可以通过一套AIoT智能硬件解决方案和系统,复用现有的物联网资源,提供更先进的人机交互体验。对此,声网最新的AI x IoT智能硬件解决方案也能在兼容性和商业化方面提供支持。

该方案兼容70多种主流高性价比芯片或模组,包括展锐Cat.1系列芯片、乐鑫ESP32-S2/S3、BK7256、BK7258、杰瑞AC7916、博流BL808等RTOS芯片以及高通、联发科、君正、Sigmastar、全志、海思、Mstar等Linux芯片。

相关内容 查看全部