已同步
同步编辑部
视听语音分离 (AVSS) 技术旨在利用面部信息从混合信号中分离出目标说话人的声音。该技术可应用于智能助手、远程会议和增强现实等应用,以提高嘈杂环境中语音信号的质量。
传统的视音频语音分离方法依赖于复杂的模型和大量的计算资源,特别是在嘈杂的背景或多说话人的场景中,其性能往往受到限制。为了突破这些限制,基于深度学习的方法开始被研究和应用。然而,现有的深度学习方法面临着计算复杂度高和难以推广到未知环境的挑战。
具体来说声音处理软件分离频率,目前的视听语音分离方法存在以下问题:
1.缺乏时间和频率维度的独立建模。
2. 没有充分利用来自多个感受野的视觉线索来提高模型性能。
3.复杂特征处理不当,导致关键幅度和相位信息的丢失。
为了攻克这些难题,清华大学胡晓林副教授团队的研究人员提出了一种全新的视听语音分离模型——RTFS-Net。RTFS-Net通过压缩-重构的方式,大幅降低了模型的计算复杂度和参数数量,同时提升了分离性能。RTFS-Net是首个参数少于100万的视听语音分离方法,也是首个超越所有时域模型的时频域多模态分离模型。
方法介绍
RTFS-Net整体网络架构如下图1所示:
图1. RTFS-Net网络框架
RTFS 模块(如图 2 所示)对声学维度(时间和频率)进行压缩和独立建模,从而创建低复杂度子空间,同时最大限度地减少信息丢失。具体来说,RTFS 模块采用双路径架构,在时间和频率维度上有效处理音频信号。通过这种方式,RTFS 模块能够降低计算复杂度,同时保持对音频信号的高灵敏度和准确性。以下是 RTFS 模块的具体工作流程:
1. 时频压缩:RTFS 模块首先在时间和频率维度上压缩输入的音频特征。
2. 独立维度建模:压缩后,RTFS 块独立对时间和频率维度进行建模。
3. 维度融合:在独立处理时间和频率维度之后,RTFS 块通过融合模块合并两个维度的信息。
4.重建与输出:最后,融合的特征通过一系列反卷积层重建回原始的时频空间。
图 2. RTFS 块网络结构
跨维度注意力融合(CAF)模块(如图3所示)可以有效融合音频和视觉信息以增强语音分离,计算复杂度仅为先前SOTA方法的1.3%。具体而言,CAF模块首先使用深度和分组卷积操作生成注意力权重。这些权重会根据输入特征的重要性动态调整,使模型能够关注最相关的信息。然后,通过将生成的注意力权重应用于视觉和听觉特征,CAF模块能够关注多个维度的关键信息。此步骤涉及对来自不同维度的特征进行加权和融合,以产生全面的特征表示。除了注意力机制之外,CAF模块还可以使用门控机制来进一步控制不同源特征的融合程度。这种方法可以增强模型的灵活性并允许更精细的信息流控制。
图3 CAF融合模块结构示意图
频谱源分离(S^3)块的设计理念是利用复数表示的频谱信息从混合音频中有效提取目标说话人的语音特征。该方法充分利用音频信号的相位和幅度信息来提高源分离的准确性和效率。复杂网络的使用使S^3块在分离目标说话人的语音时能够更准确地处理信号,特别是在保留细节和减少伪像方面,如下所示。同样,S^3块的设计易于集成到不同的音频处理框架中,适用于各种源分离任务,并具有良好的泛化能力。
实验结果
独立效应
在三个基准多模态语音分离数据集(LRS2、LRS3 和 VoxCeleb2)上,如下图所示,RTFS-Net 接近或超过了当前最先进的性能,同时显著降低了模型参数和计算复杂度。通过具有不同数量 RTFS 块(4、6、12 个块)的变体展示了效率和性能之间的权衡,其中 RTFS-Net-6 在性能和效率之间提供了良好的平衡。RTFS-Net-12 在所有测试数据集上表现最佳,展示了时频域方法在处理复杂的音频和视频同步分离任务方面的优势。
实际效果
混合视频:
视频链接:
女声音频:
视频链接:
男声音频:
视频链接:
总结
随着大模型技术的不断发展,音视频语音分离领域也在追求大模型来提高分离质量。然而,这对于终端设备来说并不可行。RTFS-Net 在保持计算复杂度和参数数量显著降低的同时,实现了显著的性能提升。这表明,提高 AVSS 性能并不一定需要更大的模型声音处理软件分离频率,而是需要创新高效的架构,以更好地捕捉音频和视觉模态之间复杂的交互。