讯飞星火多模态交互大模型正式上线，实现语音、视觉、数字人交互三合一

 作者：软荐小编  2024-11-15 14:16:12  204

IT之家11月14日报道，“讯飞开放平台”公众号今日晚间宣布，讯飞Spark多模态交互大模型正式上线，从语音交互扩展到音视频流实时多模态交互。 “多模态、超拟人化、个性化”能力实现语音、视觉、数字人机三合一交互，支持一键呼叫。

语音交互的优点_什么是交互式语音应答_

据介绍，科大讯飞Spark多模态互动大模型首次亮相超拟人化数字人技术。数字人体躯干和肢体动作可以精准匹配语音内容，快速生成表情和动作，让AI“栩栩如生”。通过统一文本、语音和表达，可以实现跨模态语义一致性，使得大规模模型情感表达真实、连贯。

它支持超拟人极速交互，利用统一的神经网络直接实现语音到语音的端到端建模。响应更快更流畅。它能敏锐地感知情绪变化，并能根据指令自由改变声音的节奏、大小和个性。

支持多模态视觉交互，能够“了解世界”“识别万物”，更全面地感知特定背景场景、物流状态等信息，更准确地理解任务，通过语音、手势、行为、情感、等做出综合判断并做出适当应对。

据IT之家此前报道，用户可以与数字人进行语音和视频通话。数字人可以与用户进行自然的语音对话，人物表情也可以匹配口语句子。 Spark超级拟人数字人还支持多模态交互，让数字人能够识别摄像头中的内容，比如孙悟空和奥特曼站在一起、面霜的品牌和功能、鲜花的类别等。

地平线苏菁称自动