Hand Gesture Recognition Approach for ASL Language Using Hand Extraction Algorithm
Abstract
In a general overview, signed language is a technique used for communicational purposes by deaf people. It is a three-dimensional language that relies on visual gestures and moving hand signs that classify letters and words. Gesture recognition has been always a relatively fearful subject that is adherent to the individual on both academic and demonstrative levels. The core objective of this system is to produce a method which can identify detailed humanoid nods and use them to either deliver ones thoughts and feelings, or for device control. This system will stand as an effective replacement for speech, enhancing the individualrsquo;s ability to express and intermingle in society. In this paper, we will discuss the different steps used to input, recognize and analyze the hand gestures, transforming them to both written words and audible speech. Each step is an independent algorithm that has its unique variables and conditions.
Keywords
Hand Gesture, American Sign Language, Gesture Analysis, Edge Detection, Correlation, Background Modeling
1. Introduction
Gestures are meaningful body movements which are capable of expressing something in a communication, although gesture finds a place to catalogue itself into non-verbal communication, it prominently reaches well to the other end of communication. Gesture is motion of body that contains information . The straightforward purpose of a gesture is to express gen or interrelate with the surroundings. Motionless gestures are those that undertake a precise posted stance. Activity contains a gesture movement that is distinct. Based on the locality of initiation of sign in the body, it can be considered a hand, an arm, a head or a face gesticulation. This paper is exerted on the first type i.e. hand gestures. The probable sub-divisions on the hand gestures are static gesture, dynamic gesture, and static and dynamic gesture. Gesture research is termed as a complex research area, as there exists many-to-one mappings from concepts to gestures and gestures to concepts. The major drawback in pursuing research with gestures is that they are ambiguous and incompletely specified.
Natural HGR is one of the very active research areas in the Computer Vision field. It provides the easiness to interact with machines without using any extra device and if the users donrsquo;t have much technical knowledge about the system, they still will be able to use the system with their normal hands. Gestures communicate the meaning of statement said by the human being. They come naturally with the words to help the receiver to understand the communication. It allows individuals to communicate feelings and thoughts with different emotions with words or without words.
In our due time, software for sign language recognition is very imperative and is receiving great attention. Such software not only enhances communication between talking people and silent people, but also provides deaf people the ability to interact quickly and professionally with computers and machines using nothing but their hands. American Sign Language (ASL) is a complete system that is considered both simple and complex. It uses 26 different hand signs each indicating a letter. ASL is more than 200 years old. It was the preferable language of 500,000 deaf throughout the United States which rated it as the fourth most-used language.
This language is gaining attractiveness since it supports and enhances communication with an automated system or human located at a distance. Once the user finishes the gesture, the system needs to be capable of identifying it instantly. This is known as “Gesture Recognition”. The target of this effort is to construct a system which can classify particular hand gestures and extract the corresponding literatures. This dynamic system is based on the American Sign Language alphabets (Figure 1).
Figure 1. The 26 hand signs of the ASL Language.
2. Overview on the Process
Computers are invariably used by everyone extensively in todayrsquo;s world; one of the major areas of prominence is the human computer interface. Attempts in making a computer understand facial expressions, speech, and human gestures are paving to create a better human computer interaction. Most of the researchers classified gesture recognition system into mainly three steps after acquiring the input image from camera(s) (Figure 2), videos or even data glove instrumented device. These steps are: Extraction Method, features estimation and extraction, and classification or recognition as illustrated in figure below.
Figure 2. Gesture recognition system steps.
2.1. Similar Systems
The representation captures the hand shape, position of the hand, orientation and movement (if any). The region of interest i.e. hand was identified, from where feature vector was to be framed. The feature vector composed for the American Sign Language standard database samples stored consists of. jpg files of existing database along with a few real-time or home-made images. The keypoints derived from the image are placed in an array. All image pixel values that are greater than zero are considered as keypoints and the keypoints array gets generated (Figure 3). The match performance based on similarity measures is not made for every point; instead a dimensionality reduction is done. It is taken as the final feature vector. Only retain the keypoints in which the ratio of the vector angles from the nearest to the second nearest neighbor is more.
The SIFT detector extracts from an image a collection of frames or keypoints. These are oriented disks attached to blob-alike structures of the image. As the image translates, rotates and scales, the frames track these blobs and thus the deformation. By canonization, i.e. by mapping the frames to a reference (a can
剩余内容已隐藏,支付完成后下载完整资料
基于ASL语言的手部提取算法的手势识别方法
摘要
众所周知,手语是聋人用于交流目的的一种技术。它是一种3D语言,依靠视觉手势和移动的手势对字母和单词进行分类。手势识别一直以来都是一个比较可怕的课题,无论是在学术层面还是在示范层面。该系统的核心目标是创造一种能够识别出具体的人形节点的方法,并利用这些节点来传递思想和情感,或者用于设备控制。这一系统将成为语言的有效替代,提高个人在社会中的表达能力和交融能力。在本文中,我们将讨论用于输入、识别和分析手势的不同步骤,并将其转换为文字和语音。每一步都是一个独立的算法,有其独特的变量和条件。
关键词
手势,美国手语,手势分析,边缘检测,相关性,背景建模
1. 介绍
手势是一种有意义的身体动作,它能够在交际中表达某种东西,虽然手势可以把自己归类为非言语交际,但它在交际的另一端却很突出。手势是包含信息的身体运动。手势的直接目的是表达与周围环境的关系。不动的手势是指那些有着精确姿势的手势。活动包含一个不同的手势动作。根据符号在身体中的起始位置,可以认为是手、手臂、头部或面部的手势。本文研究的是第一种手势。手势可能分为静态手势、动态手势、静态动态手势。手势研究是一个复杂的研究领域,存在着从概念到手势、手势到概念的多对一映射。用手势进行研究的主要缺点是它们模棱两可性和不完全明确性。
自然HGR是计算机视觉领域非常活跃的研究领域之一。它提供了在不使用任何额外设备的情况下与机器交互的便利性,如果用户对系统没有太多的技术知识,他们仍然可以用正常的手使用系统。手势传达了人类所说的话的意思。他们自然而然地用这些词来帮助接受者理解交流。它允许个体用语言或不用语言表达不同情感的情感和思想。
在我们的时代,手语识别软件是非常必要的,正在受到极大的关注。这样的软件不仅增强了会说话的人和沉默的人之间的交流,而且还为聋人提供了快速和专业地与只能使用手势的计算机和机器进行交互的能力。美国手语是一个既简单又复杂的完整系统。它使用26种不同的手势,每种都表示一个字母。ASL已经有200多年的历史了。它是全美50万聋人的首选语言,被评为第四常用语言。
这种语言正变得越来越有吸引力,因为它支持并增强了与远处的自动化系统或人类的通信。一旦用户完成手势,系统需要能够立即识别它。这就是所谓的“手势识别”。本文的目标是构建一个能够对特定手势进行分类并提取相应文献的系统。这个动态系统基于美国手语字母表(图1)。
图1、ASL语言的26个手势。
2. 流程概述
在当今世界,计算机总是被每个人广泛使用;其中一个主要的突出领域是人机界面。试图让计算机理解面部表情、语音和人类手势,正为创造更好的人机交互铺平道路。大多数研究者将手势识别系统分为三个步骤,即从摄像机(图2)、视频甚至数据手套设备获取输入图像。这些步骤包括:提取方法、特征估计和提取、分类或识别,如下图所示。
图2、手势识别系统步骤。
2.1. 类似的系统
这系统代表着捕捉手的形状、手的位置、方向和移动(如果有的话)。识别出感兴趣的区域,即手,并从中构造特征向量。所存储的美国手语标准数据库样本的特征向量包括。现有数据库的jpg文件以及一些实时或自制的图像。从图像导出的关键点放置在数组中。所有大于零的图像像素值都被视为关键点,并生成关键点数组(图3)。基于相似性度量的匹配性能并不是针对每一个点进行,而是进行降维。作为最终特征向量。只保留最近邻与第二最近邻向量角之比较大的关键点。
SIFT检测器可以从图像中提取帧或关键点的集合。这些定向磁盘连接到图像的类似块的结构上。当图像平移、旋转和缩放时,帧会跟踪这些块,从而跟踪变形。通过规范化,即通过将帧映射到参考(规范盘),这样的变形对特征外观的影响被消除。SIFT描述符是对帧中找到的边的粗略描述。由于规范化,描述符对平移、旋转和缩放保持不变,并且被设计为对残余的小失真具有健壮性。
考虑到上述系统的实验结果,80%的测试样本用于训练,20%用于测试。该实现只为图4所示的样本图像提供了100%的准确度来识别这个数据集的测试样本。对于形状几乎相同的字母,如“M”“N”和“S”,识别率开始逐渐下降,达到0%(图4)。
然而,我们所研究的系统证明采用了不同的方法来实现更精确的结果。尽管我们的方法在代码方面更加发散和复杂,但在使用方面却非常简单。有两种方法用于建立我们的输入数据(图像),样本(训练)和现场摄像机(测试),我们的数据库是广泛的和变化的,它几乎涵盖了所有可能的手的位置和肤色(图5)。
下面的流程图在图6中展示了算法的整体布局。
图3、矢量合成的基本流程。
图4、成功的样本
图5、图像分类过程
图6.、流程图
2.2.建立数据库
图像数据库给研究界带来了新的和具有挑战性的问题。40多年来,随着关系数据库、对象关系数据库和面向对象数据库的发展,数据库技术日趋成熟。然而,经典数据库的核心功能是针对简单的数据类型定制的,而不是扩展到非结构化信息。数字图像在多媒体数据类型中占有主导地位。与视频和音频不同,视频和音频主要用于娱乐和新闻行业。
我们的数据库包含约1200幅美国手语标准样本的图像,所有图像均为.bmp格式,尺寸为100times;100。值得一提的是,拥有一个大数据库意味着更高的准确性,这可能会提高识别率。然而,在软件方面,我们必须考虑图像的质量以及程序的整体大小。因为我们在输入图像中关心的是手,它大小不会超过100times;100,所以我们调整了数据库的大小以适应描述,从而显著地减小了整个代码的大小。请注意,在代码的后面,所有的图像都将从“(R.B.G.)”更改为“二进制”,因此将图像放在中。bmp格式减少了图像的大小,同时保留了手势所需的所有信息。
2.3. 拍摄
我们指的是数码相机拍摄的图像。值得一提的是,我们正在研发的硬件,尤其是相机,既不专业,也没有任何盈利目标。因此,面对某些障碍和错误是不可避免的。这些错误不是代码的结果,而是技术上的不足。从相机拍摄图像后,以下步骤是:
特征捕获与提取:通过提取相关信息来减少数据量,找出哪个是手部。在这一步中,必须只检测手部,并删除相机中捕获图像的所有其他特征。稳定结构对于距离测量是必要的,即手部和摄像机之间的距离。
分类:在试图找到匹配项之前,输入图像必须通过更改某些属性(例如颜色类型)的特定函数。
预处理:在这个步骤中,对输入图像进行某些修改,直到它达到所需的适当形式。此步骤包括修剪、裁剪、衬线和调整图像大小。给定图像的分割(孤立)部分,二维图像中应考虑的识别特征有:总质量(二值化图像中的像素数)、质心、椭圆参数、偏心率(长轴与短轴之比)、方向(长轴角度)、倾斜度、峰度,高阶矩、Hough和链码变换、Fourier变换和级数。
模板匹配(数据库比较):将提取的特征图像与数据库中包含的各种模型进行比较,找到最接近的匹配项(图7)。
图7、输入图像示例。
3. 通过摄像机输入图像
第一步是在输入手势之前捕获背景的普通图像。这一步对于即将到来的算法是必要的。第二步是选择想要的手势。正对镜头前的手,确保你的手是直的,离镜头不超过几厘米。
人类的步骤已经完成,现在是算法工作的时候了。在捕获两幅所需图像后,执行不同的算法和功能。第一步是裁剪和调整图像大小。
去除背景
背景提取是运动目标检测算法的一个重要组成部分,在监控系统中具有重要的应用价值。当有清晰的背景图像时,通过背景减法,运动目标检测算法将变得简单。在训练序列中提取背景并在输入帧序列中进行更新的方法称为背景建模。运动目标检测的主要挑战是提取干净的背景并进行更新。
因此,在捕获图像后移除背景只会保留手部(图8)。其机制取决于层数(R.B.G.)欧几里德阈值和观察到的背景色累积分数。
上述功能去除了背景,但导致了部分手的丢失。这个错误主要是由于照相机引起的。有必要恢复手本身之后的小区域。为此,算法将图像类型从(R.B.G.)更改为“二进制”,并在不同级别应用过滤。将图像转换为二进制类型的方法是,如果像素等于或大于级别,则根据指定亮度将所有像素替换为白色(逻辑1),否则为黑色(逻辑0)。指定的级别应属于范围[0,1]。此级别因图像而异。尽管可以手动分配,但使用“灰度阈值”函数计算会得到更好的结果。“灰度阈值”函数使用Otsu系统来确定图像的阈值,并最小化黑白像素的类间修改。
下一步是从二进制图像中删除连接的小组件和对象。这些对象的像素数少于指定的阈值。由于我们正在处理来自合法质量的网络摄像头的二维图像,因此不需要指定任何连接级别。我们使用的默认连接是8。去除图像中的噪声是预处理技术中最重要也是最困难的技术之一。这种噪声被指定为通过图像背景的亮度或颜色的非系统差异。2D中值滤波是克服许多滤波误差最有效的函数之一。它对两个方向的像素矩阵进行平均滤波。输出像素包括3times;3相邻区域的所有像素的平均值。下表总结了二维中值滤波的步骤(图10)。
图8、背景移除前后的手部图片
图9.、(1)灰度值(~0.7)和(2)灰度值=0.3的二进制图像之间的差异。
图10、中值滤波。
4. 蒙太奇(拼贴剪辑手法)
也许我们的系统最大的优点是它不仅能识别字母,还能识别完整的单词。使用ASL语言创建一个单词意味着我们需要在一个框架中有序地连接多个图像。我们通常使用蒙太奇功能,在特定的实体中显示多帧图像的所有结构,定位这些帧,使它们粗略地形成一个正方形。它所做的是演示指定输入图像的时序分类,换句话说,它将图像数组更改为单独的图像实体。此函数还组合边界,以便它们近似地构造一个正方形。图像可以是一系列二进制、灰度或真彩色图像。这种技术的优点是一方面它能够指定单词的长度,减少拼写错误,另一方面保留所有手势,从而在整个过程中检查手的形状和样式(图11)。
图11、创造单词 “Love”
5. 图像匹配
我们的任务是根据手势数据的输入序列识别一个符号,所以这是一个多类分类问题(95类)。我们需要识别手势语的基本特征,才能选择一种好的分类方法。每个标志在时间和空间上都不同。此外,签约速度可能会有显著差异。即使一个人做同样的手势,速度和位置也可能不同。
在创建数据库并获得最终过滤后的输入图像后,需要将输入图像与数据库中的所有图像进行比较,以便找到最接近的匹配。为了保证最佳匹配结果,并在运行匹配算法后得到最接近的图像,通过3种不同的独立方法进行匹配:2D相关系数法、边缘检测法和数据直方图法。
存储输入图像与数据库中每个图像的匹配百分比,最终选择匹配结果最高的图像。
5.1. 通过我们的方法1(2-D相关系数)进行匹配
相关系数是一个整数,表示两幅图像在像素强度方面的相似性。计算该系数的公式为:
(1)
(2)
A和B是用于匹配的图像,而m和n是指图像方程(1)和(2)中的像素位置。由于这个公式,两幅图像的大小必须相同,否则结果将不会接近准确度。算法所做的是计算两幅图像中每个像素位置的强度值,并将其与整个图像的平均强度进行比较。这是一种以像素强度为研究变量的稳定方法。最终,这个系数越接近1,两幅图像就越接近。如果图像相对较大,在计算相关系数之前将图像分解为块可以减少代码的延迟时间。然而,如果两个图像块的相关系数相等,这并不一定表示图像是相同的。即使调整图片大小可能导致信息丢失,在数据库中使用小尺寸图像也不太可能导致任何错误。这是一种结果最精确的方法。它提供了高达80%的识别率,在非常接近的迹象中有一些错误。为了提高准确性,我们采用了第二级匹配。
5.2. 通过我们的方法2进行匹配边缘检测
边缘检测是一种在图像中寻找实体边界的图像处理过程。它使用的机制是检测图像照明的中断。边缘检测用于图像处理、计算机可视化和仪器视觉中的图像分割和数据提取。该方法使匹配精度从60%提高到80%。
正如该方法的名称所指示的,匹配是基于找到图像的边界。它将图像像素按像素划分,找到白点的数目(即1个逻辑点),最后根据找到的数目的平均值来确定匹配。边缘函数的关键是求出图像的边缘强度。尽管听起来很简单,但这种方法非常准确。虽然两幅图像可能具有相同数量的白色像素,但它们的边缘是不同的,因此在一定程度上是不同的。用这种方法比较一幅图像和一个庞大的图像数据库是非常有用和精确的。
常用的边缘识别算法有Sobel、Canny、Prewitt、Roberts和模糊逻辑方法。为您的函数选择合适的算法与指定图像的阈值一样重要,阈值标识了图像的灵敏度(图12)。
上述系统在SIFT函数中使用了Sobel方法。这是我们在系统中提供的一个重要改进。识别率提高2%-4%。
Canny边缘检测:Canny过程的解释是基于Thomas Moeslund教授在印度理工学院的数字图像处理研究。总共有五个步骤:
高斯滤波:由于所有的边缘检测结果肯定会受到图像噪声的影响,所以过滤掉噪声以避免错误识别是至关重要的(图13)。此步骤将模糊地调平图像,以减少过程中噪声的影响。高斯滤波器去除图像中的任何噪声和粗糙部分。
强度梯度:此步骤类似于使用Sobel方法进行边缘处理。边缘可能指向一系列的指导,因此Canny算法使用四个过滤器来识别高斯滤波产生的模糊图像中的水平、垂直和对角线边缘。对于每个像素,在x和y方向方程(3)中创建二维卷积矩阵。
(3)
然后,应用以下方程来确定矩阵的强度和斜率:
(4)
(5)
(theta;) 表示指示可能颜色更改的边的方向和方向。每个颜色区域中的沉降计算值将固定为特定的角速率,例如黄色区域中的theta;(0°到22.5°和157.5°到180°)将设置为0°
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[409864],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。