当前位置：首页 > 资讯 > 正文

无需键盘的自然输入！Facebook分享Quest手部交互最新研究成果

woniu
资讯
2020-10-22
29699

构建能够帮助大家保持联结的产品是Facebook Reality Labs（FRL）的一个重要宗旨。在过去数年间，团队分享了在机器感知，逼真虚拟化身，甚至是脑机接口方面的进展。在上个月，FRL Research的首席科学家迈克尔·亚伯拉什在Facebook Connect大会谈到了AR眼镜的发展之路。

在下面这篇博文中，这家公司将介绍研究人员是如何为Quest“解锁”同类产品中的首款手部追踪解决方案，并分享关于文本输入的研究进展。下面是中国AI网的具体整理：

手部追踪是FRL Research众多旨在提升技术交互亲民都的研究课题之一。从VR头显到AR眼镜，我们正在构建下一个能够让更多人受益的计算平台。手部追踪技术提供了最为熟悉自然的人机交互方式，从而为更多的人打开了沉浸式计算的大门。

当Oculus Touch控制器于2016年底面世时，它通过手部临在开创了一个消费虚拟现实的新时代：在虚拟环境中，你的双手与你同在。

无需键盘的自然输入！Facebook分享Quest手部交互最新研究成果第1张

手部追踪是FRL Research众多旨在提升技术交互亲民度的研究课题之一。

为了构建更为自然的交互设备，FRL将Touch控制器作为基础。这款设备操作舒适，并且配备了先进的传感器，可提供逼真的双手临场感，能够使虚拟现实中最基本的交互（如抓住门把手）感觉更为真实。然而，尽管Touch控制器存在大量的优点，但它无法复刻V字手势或键盘操作的效率。对于自然地做事，目前没有任何其他方式能够比拟人手。与生俱来的本能，强大的适应性，以及被亿万人理解，双手一直都在帮助我们完成日常任务、创造性工作、以及介于两者之间的所有事情。可以说，双手是大多数活动的理想输入。但当FRL Research于五年多前开始为VR探索手部追踪的时候，业内尚未出现消费者质量的裸手追踪。团队面临的挑战是从零开发这项技术，并通过创建一个基于人手的新界面来让虚拟现实变得更加亲民。令人感到欣慰的是，我们取得了成功。

我们将通过两篇论文来介绍具体的实现过程，以及手部追踪的进一步潜力。在本周举行的UIST 2020大会中（一个关于用户界面软件和技术的研讨会），FRL Research首次提出了一种不使用物理键盘进行接触式文本键入的新方法。我们演示了可以作用于任何表面的手部追踪提供了媲美传统键盘打字的效率和熟悉度。在SIGGRAPH 2020（一个关于计算机图形学的年度大会），FRL的研究人员分享了他们是如何通过移动计算的众多突破为Quest实现手部追踪。今天，每一台Quest头显都搭载了现成的手部追踪功能。

使用基于标记的手部追踪系统，FRL Research演示了如何在平面实现接触式文本键入。这向我们展示了将手部追踪用于文本输入的潜力。

1. 无需键盘的自然文本键入

作为正在进行的手部追踪研究的其中一环，FRL Research不断探索新的实验性文本输入形式，因为这对交流和生产力而言都是一项关键任务。在本周举行的UIST 2020大会中，团队提出了一种不使用物理键盘进行接触式文本键入的新方法。这种解决方案使用了基于标记的手部追踪系统，把相关的手部追踪数据作为输入，并将其直接解码为用户希望输入的文本。尽管项目尚处于研究阶段的早期，但这次演示说明了手部追踪在生产力场景中的潜力。

相关论文：Decoding Surface Touch Typing from Hand-Tracking
相关论文：Online Optical Marker-based Hand Tracking with Deep Labels

为了支持无需物理键盘的接触式文本键入，并考虑无法从单个物理按键获得触觉反馈的缺点，研究小组必须合理化于随机平面发生的非明确文本键入模式。团队采用了来自自动语音识别的统计解码技术。语音识别主要使用声学模型来预测音频帧中的音素，而团队则使用运动模型来预测手部运动中的键入行为。

无需键盘的自然输入！Facebook分享Quest手部交互最新研究成果第2张

当在纯平面使用双手进行接触式本文键入操作时，被试平均每分钟能够输入73个字词，未纠错误率为2.4%。这实现了同一被试操作物理键盘的类似速度和精度。

结合语言模型，系统能够判断理解用户的非明确文本键入，并预测用户希望输入的内容。利用这种新方法，当在纯平面使用双手进行接触式本文键入操作时，被试平均每分钟能够输入73个字词，未纠错误率为2.4%。这实现了同一被试操作物理键盘类似的速度和精度。

这一令人惊讶的结果促使研究人员探究为什么手部追踪比其他物理方法更为有效，比如说没有物理键盘的平板电脑或智能手机的文本键入。研究小组发现，手部追踪技术在分离手指和手指移动轨迹方面有着独特的优势，而这正是当今平板电脑和智能手机的电容式感应系统所缺失的信息。

尽管在平面进行接触式文本键入的行为动作并不明确，但研究人员使用一个运动模型来预测人们希望键入的内容。手部追踪可以分离手指和手指移向虚拟按键的轨迹。对于这种信息，今天的智能手机和平板电脑无法追踪捕获。

2. Oculus Quest的手部追踪

尽管手部追踪的潜力巨大，但要虚拟空间中实现如同现实世界一样的双手操作令人望而生畏。在SIGGRAPH 2020的的分享中，研究人员描述了在Oculus Quest中实现双手临在的众多问题。

相关论文：MEgATrack: Monochrome Egocentric Articulated Hand-Tracking for Virtual Reality
延伸阅读：Facebook论文详细分享Oculus Quest手部追踪技术细节

第一个问题是“有效量积”，亦即能够追踪双手的容积范围。如果没有足够的有效量积，你的双手会在视场中消失，并中断用户交互。第二个问题是追踪卡顿，它会产生不自然的手部运动。卡顿是目前一个未被充分研究的手部追踪领域。目前大多数基准数据集都基于静止帧，而不是流体运动。第三个问题是硬件资源需求。过去的研究主要集中在具有强大GPU的高端PC。但初代Quest的性能要比常见的高端PC低两个数量级。

无需键盘的自然输入！Facebook分享Quest手部交互最新研究成果第3张

早期的实验只使用两个前置摄像头的重叠覆盖区间，但Quest会丢失用户双手。四个摄像头通过增加区间（或有效量积）来实现双手的流畅追踪。在四个摄像头视觉覆盖的范围内，Quest可以“看到”并处理视觉信息。

FRL的手部追踪解决方案利用了Oculus Quest的四个摄像头来提供最大的有效量积。最初的计划只是使用两个摄像头，但研究人员注意到，即便在显示屏的视场内，双手都有可能会消失。使用四个摄像头能够大大增加追踪容积，但这同时带来了一个新的计算机视觉挑战：从四个不同的来源获取视觉数据并实时拼接在一起。在任何给定的时间，你的双手都可能位于一个或多个摄像头的视场内。当你的手移动时，它可以离开一个摄像头的视场并进入另一个摄像头的视场。FRL的研究人员不得不建立一个当双手游离于摄像头视场之间时依然能够实现追踪的框架，并建立一个新的框架将它们拼合在一起。

无需键盘的自然输入！Facebook分享Quest手部交互最新研究成果第4张

流畅的和无卡顿的手部追踪取决于所有四个Quest前置摄像头的视觉数据。研究人员开发了一个框架来整合所有数据，而它甚至能应对手从一个摄像头视场切换到另一个摄像头视场的情况。

最后一个技术障碍是Quest的移动处理器，而它需要将有限的性能资源分给游戏和应用的运行。问题的答案来自于建立高效的神经网络架构。多年来，研究团队在根据特定移动处理器（如骁龙835和Hexagon DSP）定制神经网络设计方面取得了重大进展。研究小组同时利用手部运动的规律性来预测手部接下来的移动位置，从而减少了神经网络的评估。总的来说，这一系列的优化意味着初代Quest的手部追踪在日常使用中只消耗7%的电池电量。

为了保持手部运动的流畅性和真实性，研究人员另外开发了一个手部关键点估计网络。传统的系统是从一系列静止图像中预测关键点，比如指尖。但根据单一静态图像预测手部会导致摄像头之间的卡顿和非一致结果。所以，研究人员提出不如允许网络访问先前预测的关键点。对于这种设计方面的改变，研究人员证明了他们的网络能够成功地追踪在图像边界部分可见的手部。通过使用这些新的、暂时的信息来调节网络，研究小组在不牺牲准确性的前提下显著减少了卡顿（这两者都是构建逼真手部追踪的基本要素）。

3. 今天的手部追踪

我们仍处于构建更自然的设备交互方式的早期阶段。但在今年，我们已经看到开发者利用Quest的裸手追踪，并为社区带来了一系列不可思议的体验。《Waltz of the Wizard》允许玩家用手指快速释放魔法和酿造魔药。对于荣获艾美奖的交互式体验《The Line》，用户可以通过使用双手操纵旋钮、开关等物件来增强故事感。

我们一直致力于帮助人们进一步利用技术的力量，而手部追踪只是我们正在探索的其中一种方法。尽管我们已经取得了进展，但我们仍处于漫长道路的开始。寻找更好的做事方式需要进一步的研究和创造性的灵感。所以，我们对FRL Research已经取得的里程碑感到兴奋，但我们对未来的发展更为兴奋。