IT之家11月14日报道,“讯飞开放平台”公众号今日晚间宣布,讯飞Spark多模态交互大模型正式上线,从语音交互扩展到音视频流实时多模态交互。 “多模态、超拟人化、个性化”能力实现语音、视觉、数字人机三合一交互,支持一键呼叫。
据介绍,科大讯飞Spark多模态互动大模型首次亮相超拟人化数字人技术。数字人体躯干和肢体动作可以精准匹配语音内容,快速生成表情和动作,让AI“栩栩如生”。通过统一文本、语音和表达,可以实现跨模态语义一致性,使得大规模模型情感表达真实、连贯。
它支持超拟人极速交互,利用统一的神经网络直接实现语音到语音的端到端建模。响应更快更流畅。它能敏锐地感知情绪变化,并能根据指令自由改变声音的节奏、大小和个性。
支持多模态视觉交互,能够“了解世界”“识别万物”,更全面地感知特定背景场景、物流状态等信息,更准确地理解任务,通过语音、手势、行为、情感、等做出综合判断并做出适当应对。
据IT之家此前报道,用户可以与数字人进行语音和视频通话。数字人可以与用户进行自然的语音对话,人物表情也可以匹配口语句子。 Spark超级拟人数字人还支持多模态交互,让数字人能够识别摄像头中的内容,比如孙悟空和奥特曼站在一起、面霜的品牌和功能、鲜花的类别等。