前沿信息：读取肢体语言的计算机

发布时间：2021-04-24 07:46:50 编辑：来源：

最近小编发现有诸多的小伙伴们对于读取肢体语言的计算机这个问题都颇为感兴趣的，大家也都想要及时了解到读取肢体语言的计算机相关信息，那么小编今天就来为大家梳理下具体的关于这个问题的一些消息吧。

卡内基梅隆大学机器人研究所的研究人员使计算机能够实时了解视频中多人的身体姿势和动作 - 首次包括每个人手指的姿势。

这种新方法是在Panoptic Studio的帮助下开辟的，Panoptic Studio是一个嵌有500个摄像机的两层圆顶。从该设施的实验中获得的见解现在可以使用单个相机和笔记本电脑检测一组人的姿势。

机器人学副教授Yaser Sheikh表示，这些跟踪二维人体形态和运动的方法为人们和机器之间的相互作用开发了新的方式，人们使用机器更好地了解周围的世界。例如，识别手部姿势的能力将使人们能够以新的和更自然的方式与计算机交互，例如仅通过指向事物与计算机通信。

检测个体之间非语言交流的细微差别将同意机器人在社交空间中服务，同意机器人感知周围的人正在做什么，他们处于什么样的情绪以及他们是否可以被打断。一辆自动驾驶的汽车可以通过监控肢体语言来预警行人马上步入街道。使机器能够理解人类行为也可以为自闭症，阅读障碍和抑郁症等疾病的行为诊断和康复提供新的方法。

“与我们的声音一样，我们与身体运动的沟通几乎同样如此，”谢赫说。“但计算机或多或少地对它视而不见。”

在体育分析中，实时姿势检测将使计算机不仅可以跟踪每个玩家在游戏领域的位置，就像现在的情况一样，而且还可以知道玩家正在做什么，他们的手臂，腿和在每个时间点。这些方法可用于直播活动或应用于现有视频。

为了鼓舞更多的研究和应用，研究人员已经公布了用于多人和手势估量的计算机代码。Sheikh说，它已被研究小组广泛使用，包括汽车公司在内的20多个商业团体已表示有兴趣对该技术进行许可。

Sheikh及其同事将于7月21日至26日在檀香山举行的CVPR 2017计算机视觉和模式识别会议上报告他们的多人和手势检测方法。

实时跟踪多个人，特殊是在他们可能彼此接触的社交场合中，提出了许多挑战。简单地使用跟踪个人姿势的程序在应用于组中的每个个体时效果不佳，特殊是当该组变大时。谢赫和他的同事采纳了自下而上的方法，首先将所有身体部位定位在一个场景中 - 手臂，腿，面等 - 然后将这些部分与特定的个体联系起来。

手检测的挑战更大。当人们用手握住物体并做出手势时，相机不可能同时看到手的所有部分。与面部和身体不同，大型数据集不存在手部图像，这些图像使用部件和位置标签进行了费力的注释。

但对于每只只显示部分手部的图像，经常会浮现另一个角度的图像，并且可以看到手的全部或互补视图，Hanbyul Joo博士说。机器人学的学生。这就是研究人员利用CMU的多摄像机Panoptic Studio的地方。

“一次拍摄可以让你看到一个人手的500个视图，另外还可以自动注释手的位置，”Joo解释道。“然而，手太小，无法通过大多数相机进行注释，因此在本次研究中，我们只使用了31台高清摄像机，但仍能够构建大量数据集。”

Joo和Tomas Simon，另一位博士。学生，用他们的手来产生数以千计的观点。

“Panoptic Studio增强了我们的研究成果，”Sheikh说。它现在用于通过联合训练来改善身体，面部和手部探测器。此外，随着工作从人类的二维模型转变为三维模型，设施自动生成带注释图像的能力将至关重要。

谢赫说，当全国科学基金会在国家科学基金会的支持下于十年前建立Panoptic工作室时，尚不清晰它会产生什么样的影响。

“现在，我们能够突破许多技术障碍，主要是因为10年前NSF的资助，”他补充说。“我们正在共享代码，但我们也在共享Panoptic Studio中捕获的所有数据。”