用于空格输入的数据集 emg2qwerty
表面肌电图 (sEMG) 测量皮肤表面肌肉产生的电位,并且能够以非侵入性方式检测单个运动神经元引起的活动。
具体来说,对于单个脊髓运动神经元来说,其细胞体位于脊髓中,并向肌纤维投射一条长轴突。每根肌纤维仅由一个运动神经元支配。
当脊髓运动神经元放电时,它会触发它所支配的所有肌纤维的收缩,从而放大来自神经元的电脉冲。皮肤上的表面肌电传感器可以检测到这些来自肌肉纤维的电信号。
用于数据收集及其圆周电极放置的表面肌电图研究装置(sEMG-RD)示意图
基于腕带的打字系统旨在解决可穿戴设备的文本输入问题,无需物理键盘即可实现盲打。
仅使用手腕上检测到的肌肉电信号,系统就会自动解码并将它们映射到虚拟现实中投影的计算机键盘按键。
这意味着用户无需物理键盘就可以在桌子上、膝盖上或厨房桌子上打字,就像在实际键盘上打字一样。
提示“the Quickbrown Fox”的表面肌电(sEMG)记录示例,显示左右腕带上的32通道表面肌电信号和按键时间;竖线表示按键开始,各电极通道的信号经过高通滤波器
emg2qwerty 数据集由从两只手腕获取的高分辨率 sEMG 信号组成,与 QWERTY 键盘的真实按键同步。该数据集包含总共 346 小时的录音,涵盖 108 名参与者完成的各种单词和句子输入提示,总计超过 520 万次击键。
emg2qwerty 数据集分割的可视化。每列代表一个用户,每个框代表一个会话,框的高度代表其持续时间。
如何仅从表面肌电数据检测用户按下了哪个键?为了解决这个核心问题,meta 开发了受自动语音识别 (ASR) 领域启发的方法。
该方法还模拟了在给定连续多通道时间序列的情况下预测离散字符输出序列的任务。为了为 emg2qwerty 建立强大的基线,meta 尝试了新颖的网络架构、不同的训练损失以及语言模型的使用,始终关注表面肌电数据的独特领域特征需求。
研究发现,在 100 个用户的规模下,尽管生理学、解剖学、行为、带宽大小和传感器放置存在差异,但用户之间的泛化仍然可以发生。
当使用大约半小时的个人用户输入数据对模型进行个性化时,性能进一步提高。通过集成语言模型来优化结果可以将字符错误率降低到 10% 以下——该值被认为是使文本模型可用的关键阈值。
随着数据集的增加,类似于语言模型中的Scaling Law将会生效,使得对用户输入的预测更加准确。
emg2pose 姿势估计:完全预测用户的手部配置
另一个名为 emg2pose 的数据集旨在解决肌电信号与手部动作之间的映射问题,这对于人机交互、康复工程和虚拟现实等领域具有重要意义。
该数据集包含 193 名参与者 370 小时的表面肌电图和手部姿势数据,这些数据来自 29 个不同的行为组,包括握拳、从一数到五以及许多其他动作。
该数据集包含25253个HDF5文件,总计431GB。每个文件包含时间对齐的 2kHz 表面肌电图数据和单个手在单相中的关节角度。
手部姿势标签是通过高分辨率运动捕捉阵列生成的。完整的数据集包含超过 8000 万个姿势标签,其等效大小已经可以与最大的计算机视觉数据集相媲美。
emg2pose 数据集包括:a) sEMG-RD 腕带和运动捕捉标记(白点)设置 b) 数据集细分; i) 提示用户执行一系列动作类型(手势),例如向上和向下计数,同时记录表面肌电图和手势 ii) 特定手势类型的组合构成一个阶段
emg2pose 数据集的主要特点是其高频表面肌电记录 (2kHz) 与精确的动作捕捉数据相结合,可以深入了解手部的微妙运动。
此外,数据集还包含详细的元数据,例如用户ID、会话、阶段、手侧方向、是否在移动等,以方便多样化的分析和实验。该数据集还提供训练、测试和验证的分区,支持多种泛化类型的研究,包括跨用户、跨阶段以及跨用户和阶段泛化。
在基准测试中,emg2pose 还提供有竞争力的基线和具有挑战性的任务,用于评估不包括用户、传感器放置和手势姿势的物理世界泛化场景。
该研究还引入了一种新的最先进模型,即通过表面肌电图进行姿势估计的 vemg2pose 模型,通过整合姿势速度的预测来重建姿势姿势。
研究人员使用 emg2pose 以及其他两个当代基线通过 sEMG 进行姿势估计,并分析了它们在泛化条件下的表现。结果表明,emg2pose 模型在对不同用户数据集进行预测时仅显示 1cm 的误差,从而实现了大范围运动的高保真跟踪。
基于vemg2pose预测在不同采集阶段和不同用户之间的泛化能力
emg2pose不仅提高了动作识别的准确性,而且在手势控制、康复治疗等方面也有潜在的应用。
参考: