实时多手势识别系统的人机交互外文翻译资料

 2022-12-04 14:46:49

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


窗体顶端

窗体顶端

实时多手势识别系统的人机交互

Siddharth S. Rautaray

Indian Institute of Information Technology, Allahabad, India

Email: sr.rgpv@gmail.com

Anupam Agrawal

Indian Institute of Information Technology, Allahabad, India

Email : rs54@iiita.ac.in

摘要:随着日常的生活中越来越多地使用计算设备,友好的用户界面的需求已经使不同类型的人机交互界面得到发展。基于视觉的实时手势识别为用户提供了更自然,直观的计算机进行交互的方式。直接利用手作为输入设备是一种新颖的方式,相比鼠标,操纵杆等设备,这种方式可以通过其本身传递更多的信息,使该识别系统能使用在多种人机交互应用中。手势识别系统包括手部分段,手部追踪和手势形态识别三个主要模块。本设计的系统将整合人机交互可能出现的不同的应用,比如图像浏览,虚拟游戏等。基于计算机视觉系统必须能够提供更自然,非接触式的解决方案。目前的研究工作主要集中设计并开发切实可行的实时手势的框架。

关键词:实时、手势识别、人机交互、跟踪

1 简介

窗体顶端

电脑一经出现就成为我们生活的一个关键要素。网上冲浪,键入一个字母,玩视频游戏或存储和检索数据只是少数涉及使用电脑的例子。并且由于个人计算机价格的不断减少,它们将更加影响我们在不久将来的日常生活。
为了有效地使用它们,大多数计算机应用程序需要越来越多的相互作用。出于这个原因,人机交互(HCI)一直是这几年活跃的研究领域。最先是基于过去保留专家姓名的打孔卡片,现在这些相互作用已经发展到图形界面的范例。如利用指示设备图标和窗口就是直接操纵的。即使键盘和鼠标的发明是一个巨大的进步,但仍有在这些设备中可以被看作是人机交互的不足的情况,特别是在用于与3D对象的交互的情况下。鼠标2自由度(DOFs)移动不能正确地模拟空间3的尺寸。此外,这样的接口通常不是直接的使用。实现自然和身临其境的人机交互,人的手可以用作接口设备[1]。手势是一个强大的人与人类的沟通渠道,是我们的日常生活中信息传递的重要组成部分。手势是一个易于使用和交互的自然方式。用手中的设备可以帮助人们使用电脑更直观和自然的方式沟通。当我们与其他人互动,我们的手部动作中发挥重要作用,他们在许多方面传达的信息非常丰富。我们用我们的双手指向一个人或物体,可以传递空间,形状和时间等特征的信息。我们不断地用我们的双手与对象交互:移动它们,修改它们,并将其转换。以同样无意识的方式,我们一边讲一边比画沟通思想(停,走近,不,等等)。手的动作是这样的非语言沟通的意思,从简单的动作(在例如对象指向),到更复杂的(如表达感情或与他人沟通)。在这个意义上,手势是不仅口头语言的装饰品,也是语言生成过程本身的基本组成部分。

2 相关工作

窗体顶端

为了提高在动态环境中,期望的相互作用的装置应是作为普通的和天然尽可能定性的相互作用。手势,尤其是手表示已成为人机界面的流行手段。人的手势可以被定义为通过手和臂的动作生成一组排列,更为复杂的是这些运动可能包括用于人与人之间沟通的简单动作手指指向。从而通过手,特别是手掌和手指作为输入装置的装置充分地降低在人机交互[2]的过程中无利害关系的用户和计算机之间的交互的技术障碍。这给我们通过自己手中的输入设备消除技术壁垒提供一个非常自然的方式,这需要我们能够理解人类形态无接触传感器的要求。问题是,这些应用需要依靠其能够捕获的手势,并转换成输入外部设备。视频摄像机的使用可以做到这一点,它可以抓住用户的姿态,与我们要求捕捉实用的功能和分割行为形成适当的类处理系统。
在各种专为手势识别的应用受到限制的背景下,我们需要利用手势命令和捕捉图像的相机。已经被设计用于呈现,指向,虚拟工作台,VR等手势识别的众多应用,可根据各种特性被分类成不同的类别[5]。其中一个类别是指示语手势,是指达到的东西或指向一个对象。接受或拒绝某个事件的动作称为模拟手势。手势语言表示方式非常有用,一个标志性的手势是一个定义对象或其功能的方式。Chai等人提出在画廊浏览3D深度的数据分析方法的手势应用,它将手势框架的局部纹理的变化和全球结构的信息整合。 [4]帕夫洛维奇等人在他们的论文中得出结论,由用户执行的手势必须设计一个良好的人机接口逻辑。当前手势识别技术不再是提供上述的问题的可接受解决方案的状态。其中一个主要的挑战是在与分析评价为手势识别相关联的复杂性和坚固性的时间的适当变化。不同的研究者提出并实施不同的语用技术作为手势输入的人机界面。Dias等人提出了基于发现连接到用户的手指的受托色标记物的飞行自由手势的用户界面。

窗体顶端

被用于视频显示的模型,以帧或胶片的序列解体。 Liu和Lovell等人通过网络照相机和基于英特尔奔腾个人计算机提出的一个有趣的手捕获手势实时跟踪技术。所提出的技术是,没有任何使用复杂的图像处理算法和硬件实现。 ATIA等人设计了在普适环境中的应用控制方向的远程,快速的交互倾斜接口。它使用硬币sized3D加速计传感器用于处理应用程序,使用基于视觉技术用手势识别控制VLC媒体播放器在实时环境中运行。 Xu等人设计将加速度计和EMG传感器用于控制虚拟游戏中接触基础的设备。 Conci等设计采用视频处理和手势识别引擎的投影视觉界面给人的命令,写和操作对象的互动虚拟黑板。 Lee等人开发了一种虚拟办公室环境系统(VOES),其中化身被用于导航和与其他参与者进行交互。用于控制系统中的一个连续手势系统设计,它使用状态自动机段连续手势并除去无意义运动化身运动。 Xu等人提出了由肌电图和3D加速器控制,以提供人与计算机之间的用户友好的交互虚拟魔方游戏控制手势识别系统,在这个信号段从EMG信号输入流中有意义的手势。
有一些研究手部动作特别是手势,是通过塑造人体动作实现的。通过对知识的机构的基础建模,我们可以从数学观点来面对这一问题。这种技术的主要缺点是它们是非常复杂的,高度复杂的开发一个可操作的程序,作为任何典型应用场景必要的工具。这个问题可以通过具有较低的硬件和计算开销模式识别方法来克服。随后的章节会在这方面论述,通过使动态用户界面的这些概念的验证,其中用户执行在智能系统产生可执行命令以自然的方式,用户要求的操作来实现。

3 拟定框架

窗体顶端

该框架的工作被认为是一个用作研究和实施工作的方针理论和实践概念的蓝图或原型。一些框架描述了概念的建筑理论方面,而其他描述了实施的理论概念的实际问题。框架的重要作用之一就是它能够使框架的各个元件形成一定的联系。该框架的每个参数设定将对其他的效果,而且基于这些设置所形成的关系支持更明智的方法。本研究工作旨在提供设计和实时的手势识别系统的发展在人机交互的领域不同应用的实用框架。该方法是提出一个方法论的方法来设计的手势交互。
该图显示了可以从应用框架来为特定应用各个系统可以得出的基本关系的结构。有关系的建筑,该框架支持两级;一个特定水平,即外圈,其中,各个系统和参数设定之间的关系可以通知设计,以及一个一般水平,即内圆,其中现有的HCl的理论和方法可以被并入到用于更一般的应用程序设计手势系统的框架。

窗体底端

3.1双手交互

窗体顶端

在我们的日常生活中,我们的活动主要涉及使用双手。当我们处理一些事项,演奏乐器,甚至做笔记的时候,都是使用双手。在人机交互的情况下,大多数接口只用单手手势。其中,用户通过改变它的手的形状来处理在一个虚拟现实环境.Wah和Ranganath计算机产生对象提出的原型,它允许用户移动并且通过使用简单的手势调整窗口大小和对象,打开/关闭窗口执行命令。即使使用普通设备,例如鼠标或图形板,只用一只手是用来与计算机交互。键盘似乎是,允许在同时使用两只手的唯一设备。但是,使用电脑接口两手输入是潜在益处。许多实验已经进行测试对于盐酸两手相互作用的有效性。所获得的结果是非常令人鼓舞的。其中,作者进行实验和调查两手输入。第一个实验涉及化合物的选择/定位任务的性能。用户被要求以定位一个图形对象用一只手和用另一只手缩放其大小。为了这个目的,一个图形输入板和滑块盒被使用。这第一个实验表明,执行并行任务是用户对于特定任务的自然行为。此外,它们表明效率正相关中所涉及的任务的并行度。第二个实验中涉及的化合物导航/选择任务的性能。用户被要求选择一个文档中的特定词。作者比较单与双手剑技术。得出的结论是再有利两手交互两手方法显著优于常用的单手方法。
此外,使用两手方法可以减少专家和初学用户之间的差距。该巴克斯顿和Myers来自这两个实验得出的总体结论是,性能可以通过两手之间分裂的任务得到改善。他们的实验任务是区域扫描,其中包括在周边绘制的一组对象的边框。他们的结论支持的事实,两手技术优于传统的单手技术。双手工技术更快和高要求的任务,两手输入过单手输入的优势更为明显。

窗体底端

4 结构设计

窗体顶端

一个有效的基于视觉的手势识别的人机交互系统必须完成两个主要任务。首先在三维空间中的手的位置和方向,必须在每帧中被确定。二,手和姿态必须得到确认和分类,以提供与即一方面要求必须在工作体积内跟踪给定位信息的界面操作信息的接口,和手势必须认识到目前背后的含义运动到该接口。由于手和它的许多自由度的性质,这些都不是微不足道的任务。此外,这些任务必须尽可能快地以获得运行在靠近帧速率(30赫兹)的系统执行。该系统还应当是健壮以便跟踪可以自动如果丢失或如果手暂时移出工作区的重新建立。为了完成这些任务,我们的手势识别系统遵循以下结构所示:系统架构如图1使用用于手势识别系统的综合方法。它可以识别静态和动态手势。在提出了两个手势识别与使用两个摄像机,每个手。

窗体底端

图1 系统架构

窗体顶端

本设计所实施的系统架构开始与左凸轮后跟右凸轮的背景减除。对于图像相减后左手检测由左凸轮系统采用基于称为agest.xml一个XML文件的现有的数据集。而对于右手检测由右凸轮减去图像的系统使用初始位置值,所捕获的图像的减法和检测左和右手分割,跟踪和识别之后两个手分别进行。合并左手和右手分割的结果,跟踪和识别,系统处理的结果的解释。解释的结果是在姿势词汇中提及的各种手势。因此认识到这些手势与在词汇集的手势匹配并用于与手势映射相应的命令执行。从而执行这些命令可被用于各种实际应用中实现。

窗体底端

5 仿真设置

窗体顶端

该系统安装如图1所示。它由一个系统的Core 2 Quad PC与安装在显示屏的上方有两个摄像头。安装在屏幕的顶部的双相机系统被用于向用户提供的立体图像,并且更具体地,用户的手(多个)。坐标系被指定为一个右手坐标系上的x轴的照相机,y轴垂直和z轴从相机到场景指出。视频帧由火线发送至图像处理是在软件中执行的芯2四计算机系统。姿态和位置信息通过基于套接字数据链路的认可和图形显示系统之间传递。这个PC机连接到SGI和允许的位置,方向和事件信息将被发送到的应用程序。

窗体底端

5.1窗体顶端

5.1相机校准

窗体顶端

为了能够准确地计算从视频图像点的三维位置,需要每个摄像机的内在和外在的参数的信息。照相机校正进行,以确定在一个基本矩阵F,它提供了相机的像素之间的线性投影映射坐标和真实世界坐标方面这些参数:

窗体底端

窗体顶端

其中,x和y是三维物理点(x,Y,Z)的像素坐标。

窗体底端

5.2图像预处理

窗体顶端

设计当中存在基础系统中用于手部动作的特定姿势的辅助特征提取任务。前一帧中的特征的位置的知识可以被用来定义一个窄的搜索窗口在当前帧发现的特性。这减少了查找功能所需的搜索区域和由此计算。在必须为33ms内完成对一帧中的所有处理(为了保持30Hz的帧速率)的系统中,最小化计算是必需的。该方法也增强了如果有些功能不跟踪好(由于项目模糊手例如的一部分)系统的鲁棒性,该模式允许从剩余的特征的位置估计自己的位置。这防止了功能错误地徘徊关闭跟踪图像的其他部分。

窗体顶端

窗体底端

图2 窗体顶端

图2 结构设计检测

窗体顶端

在当前的系统中,图像采集阶段系统中提取静态背景和直到用户把他的手在对应的镜头前,如图2,一旦手被放置在照相机它利用检测到的手的前闲置哈尔相似的特征[16]。哈尔级联XML是检测手工创建的。类Haar特征是比较稳健的噪声和照明变化的特征将计算黑色和白色的矩形之间的灰度差。噪声和灯光的变化也撞击在整个特征区域的像素的措施,这可能被抵消。

窗体底端

图3 窗体顶端

图3 一组Haar特征[16]

图4 窗体顶端

图4 整体形象的概念[17]

窗体顶端

在位置的“积分图像”(图3)像素(x,y)的具有完全相同以上的像素值的总和并留下了非常像素包容:

窗体顶端

通过计算像素值的总和:

窗体底端

窗体顶端

窗体顶端

按照积分图像的定义。为了检测感兴趣的对象,给定的图像是由含有特定类Haar特征的子窗口进行扫描。与每个类Haar charateristic FJ,通信分类HJ(x)的已经由下列等式限定:

窗体顶端

其中x代表子窗口和阈值由theta;不平等的标志.The方向由Pj显示所示。

窗体底端

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[28970],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。