每一个新的运算平台都带来了我们与装置互动方式的范式转变。 鼠标的发明为今天主导PC世界的图形使用者界面(GUIs)铺平了道路,而智能手机直到触控式屏幕的出现才开始真正获得影响力。 同样的规则也适用于可穿戴装置和AR,想像一下,在晨跑时只需轻轻一触指尖就能拍照,或者用几乎察觉不到的手部动作来导航选单。 AR时代革新人机互动 在先前Connect 2024大会上,Meta展示了EMG腕带与Orion增强现实眼镜的产品原型。这两大神器叠加在一起,科幻电影中才会出现的「隔空打字」场景或许即将实现。 Orion AR眼镜 meta推出的肌电图腕带 戴上这样一个腕带,你让双手舒适地放在身侧,同时进行鼠标的滑动、点选和滚动等操作,无缝控制数字内容。 未来还将有许多其他应用场景,包括在增强现实中操纵物体,或者像在键盘上打字一样——甚至更快,快速输入完整资讯,几乎无需费力。 其实两年前Meta就初步公开过这款原型产品,现在可以看出来产品更成熟了。 在近日的NeurIPS 2024 的「资料集和基」子会场中,Meta发布了两个资料集——emg2qwerty 和 emg2pose,展示在硬件层面仅仅依靠腕带的情况下,如何产生比细微手势更丰富的输入资料集。 用于隔空打字的资料集emg2qwerty 表面肌电图(sEMG)是在皮肤表面测量由肌肉产生的电势,它能够检测到由单个运动神经元引起的活动,同时是非侵入性的。 具体来说,对于单个的脊髓运动神经元,其细胞体位于脊髓中,向肌纤维中投射一条长轴突,每条肌纤维只被一个运动神经元支配。 脊髓运动神经元放电时,就会触发它支配的所有肌纤维收缩,同时放大了来自神经元的电脉冲。正是这些来自肌纤维的电讯号,可被皮肤上的sEMG感测器检测到。 Meta AR眼镜的超神配件:让你免键盘戴上EMG腕带即可隔空打字、操作空气鼠标 用于资料收集的表面肌电图研究装置(sEMG-RD)及其腕围电极放置的示意图 基于腕带的打字系统旨在解决可穿戴装置的文字输入问题,实现无需物理键盘的触摸打字。 仅使用手腕上检测到的肌肉电讯号,系统将可自动解码并对应至虚拟现实中投影的电脑键盘按键。 这意味着,使用者未来可以在没有物理键盘的情况下,无论在桌子上、腿上还是厨房桌子上打字,都能如同在实际键盘上一样输入。 Meta AR眼镜的超神配件:让你免键盘戴上EMG腕带即可隔空打字、操作空气鼠标 一个针对提示「the quick brown fox」的表面肌电图(sEMG)记录示例,显示左右腕带上32通道的表面肌电图讯号和按键时间;垂直线表示按键开始,每个电极通道的讯号经过高通滤波 emg2qwerty资料集包括从两只手腕获取的高分辨率sEMG 讯号,与QWERTY 键盘的真实按键同步。该资料集总计包含108名参与者完成的、涵盖广泛单字和句子打字提示的346小时记录,共计超过520万次按键。 emg2qwerty资料集分割的可视化。每一列代表一个使用者,每一个方块代表一个会话,方块的高度表示其持续时间 如何仅通过表面肌电图资料中检测到使用者按了哪个键呢?为了解决这个核心问题,Meta开发了受自动语音识别(ASR)领域启发的方法。 该方法同样模拟了给定连续多通道时间序列下,预测离散字元输出序列的任务。为了给emg2qwerty建构强大的基线,Meta尝试了新颖的网络架构、不同的训练损失以及语言模型的使用,始终关注表面肌电图资料的独特领域特征要求。 研究发现,在100个使用者的规模上,尽管生理、解剖、行为、带宽大小和感测器放置存在差异,使用者间的泛化仍然可出现。 当使用大约半小时的个体使用者打字资料来个性化模型时,性能的进一步提升随之而来。通过整合语言模型来最佳化结果,可将字元错误率降至 10%以下——这个值被认为是一个使文字模型可用的关键阈值。 随着资料集的增加,类似语言模型中的Scaling Law将会生效,从而使得对使用者输入的预测更加精准。 emg2pose姿态估计:可完全预测使用者的手部组态 另一个名为emg2pose的资料集,旨在解决肌电讯号与手部运动之间的对应问题,这对于人机互动、康复工程和虚拟现实等领域具有重要意义。 该资料集包含来自193名参与者的370小时sEMG和手部姿态资料,从29个不同的行为组中采集,包括拳头、从一数到五等众多动作。 资料集包含25253个HDF5档案,合计达到431GB。每个档案包含时间对齐的2kHz表面肌电图资料和单手在单一阶段的关节角度。 手部姿态标签是通过高分辨率动作捕捉阵列生成的。完整资料集包含超过8000万个姿态标签,其等效规模已经可以与最大的电脑视觉资料集比肩。 Meta AR眼镜的超神配件:让你免键盘戴上EMG腕带即可隔空打字、操作空气鼠标 emg2pose资料集组成:a)sEMG-RD腕带和动作捕捉标记(白色圆点)设定 b) 资料集分解;i)使用者被提示执行一系列动作类型(手势),如上下计数,同时记录 sEMG 和姿态 ii) 特定手势类型的组合构成一个阶段 emg2pose资料集的主要特点在于其高频率的表面肌电图记录(2kHz)与精确的动作捕捉资料相结合,提供了对手部细微运动的深入洞察。 此外,资料集包含详细的中继资料,如使用者ID、会话、阶段、手部侧向、是否移动等,便于进行多样化的分析和实验。资料集还提供了训练、测试和验证的划分,支援多种泛化类型的研究,包括跨使用者、跨阶段以及跨使用者和阶段的泛化。 在基准测试中,emg2pose还提供了具有竞争力的基线和具有挑战性的任务,这些任务评估了在排除使用者、感测器放置和手势姿态方面的物理世界泛化场景。 该研究还介绍了一种新的最先进模型,用于从表面肌电图进行姿态估计的 vemg2pose模型,通过整合对姿态速度的预测来重建手势姿态。 研究人员将emg2pose以及另外两种当代基线用于sEMG的姿态估计,并分析了它们在泛化条件下的性能。结果显示:emg2pose模型在对不同使用者的资料集进行预测时,仅显示1釐米误差,从而在广泛的运动范围内实现了高精确度的跟踪。 emg2pose不仅提升了动作识别的精准性,还为手势控制、康复治疗等有潜在的应用可能。 在医疗康复领域,通过分析患者的sEMG讯号,可以即时监测和评估手部功能的恢复情况,为个性化康复方案的制定提供科学依据; 在人机互动领域,该资料集支援开发更加自然和精准的手势控制系统,提升使用者体验; 此外,emg2pose还可应用于虚拟现实和增强现实技术中,实现更加逼真的手部动作捕捉和互动。 |