2018 4th International Conference on Frontiers of Signal Processing
Hand Gesture Feature Extraction Using Deep Convolutional Neural Network for Recognizing American Sign Language
Md Rashedul Islam
School of Computer Science and Engineering University of Aizu
Fukushima, Japan
e-mail: rashed.cse@gmail.com
Rasel Ahmed Bhuiyan
Department of Computer Science and Engineering University of Asia Pacific
Dhaka, Bangladesh
e-mail: raselcse34@gmail.com
Ummey Kulsum Mitu
Department of Computer Science and Engineering University of Asia Pacific
Dhaka, Bangladesh
Jungpil Shin
School of Computer Science and Engineering University of Aizu
Fukushima, Japan
e-mail: jpshin@u-aizu.ac.jp
Abstract—In this era, Human-Computer Interaction (HCI) is a fascinating field about the interaction between humans and computers. Interacting with computers, human Hand Gesture Recognition (HGR) is the most significant way and the major part of HCI. Extracting features and detecting hand gesture from inputted color videos is more challenging because of the huge variation in the hands. For resolving this issue, this paper introduces an effective HGR system for low-cost color video using webcam. In this proposed model, Deep Convolutional Neural Network (DCNN) is used for extracting efficient hand features to recognize the American Sign Language (ASL) using hand gestures. Finally, the Multi-class Support Vector Machine (MCSVM) is used for identifying the hand sign, where CNN extracted features are used to train up the machine. Distinct person hand gesture is used for validation in this paper. The proposed model shows satisfactory performance in terms of classification accuracy, i.e., 94.57%
Keywords-human-computer-interaction (HCI); convolutional neural network (CNN); Hand Gesture Recognition; sign language; multi-class support vector machine (MCSVM)
-
-
- INTRODUCTION
-
Human-computer-interaction referred to as HCI is an interacting interface between humans (users) and machines (computers). Through HCI, humans and computers interact with each other in a novel way. Nowadays, its a fascinating research field, which is focused on the designs and uses of computer technology and most particularly, the interacting interfaces between humans and machines. The HCI technology has been remarkably expanded and raised up with the changes in technology [1].
Conventionally in HCI, the command line interface (CLI) uses the keyboard and the graphical user interface (GUI) uses a keyboard and a mouse along with graphics to provide an interface for humans to interact with computers. On the basis of effective usability, new technologies introduce new user interfaces like Direct Neural Interfaces (DNI) in HCI [2].
Non-touch, gesture, and voice interface are becoming popular no a day. Hence, DNI is a new technology of HCI to communicate with a machine by recognizing the brain signal without any physical participation.
DNIS is often directed at assisting, augmenting, or repairing human cognitive functions. But, in every kind of applications, this technology is difficult and expensive to embed. So, those newly added technologies are introduced as adaptive to the real applications based on the requirements and cost-effectiveness. Whatever, those newly introduced technologies cant reach the satisfaction level of users significantly yet. To overcome the challenges, many researchers working on improving those interfaces at the level of effectiveness, usability, and robustness [3].
An ideal interface should have some common features criteria like usability, accuracy, affordability, and scalability. Nowadays, the Human gesture has become a popular HCI interface, and the usage of human gesture is increasing rapidly, which meets all these criteria.
HGR has lots of applications in different fields such as computer game, virtual reality and sign language recognition (SLR). Among them, SLR is the most used technique where vocal transmission is impossible. Disable people should have the capability to recognize sign generated by others. Therefore, many researchers have taken a challenge to present an assembler prototype for the American Sign Language (ASL).
Several types of research have been done on human sign recognition with a few numbers of symbols. However, sign recognition for alphabet is more challenging. Many researchers invented approaches related to human body and hand gesture to enhance the usage of technology. Kilioz et al. introduced an effective approach for recognizing dynamic hang gesture on the basis of real-time HCI [4]. Modanwal et al. solved the gap between machine and blind people by introducing gesture recognition [5].
978-1-5386-7853-4/18/$31.00 copy;2018 IEEE
115
Rempel et al. worked for understanding sign language using a human hand gesture [6]. Denkowski et al. proposed a model to control residential and commercial building components using human gesture in a natural way [7]. Liang et al. used a hidden Markov Model (HMM) for recognizing the sign language [8]. Because of a large number of gesture of alphabets, those models show sub-optimal results for alphabet sign recognition.
From this point of view, this paper proposes an efficient feature extraction process using Convolutional Neural Network (CNN). The CNN consists of one or more fully connected convolutional layers as standard multilayer neural network [9]. CNN architecture is designed for handling 2D images efficiently [10]. Also, CNN has several dynamic p
剩余内容已隐藏,支付完成后下载完整资料
2018年第四届信号处理前沿国际会议
基于深卷积神经网络的美国手语识别手势特征提取
Rashedul Islam博士
爱祖大学计算机科学与工程学院
日本福岛
邮箱:rashed.cse@gmail.com
拉塞尔·艾哈迈德·布宜安
亚太大学计算机科学与工程系
孟加拉国达卡
邮箱:raselcse34@gmail.com
乌梅·库尔苏·米图
亚太大学计算机科学与工程系
孟加拉国达卡
邮箱:ummey.kulsum@gmail.com
钱吉尔新
爱祖大学计算机科学与工程学院
日本福岛
电子邮箱:jpshin@u-aizu.ac.jp
摘要:在这个时代,人机交互(HCI)是人类与计算机交互的一个令人着迷的领域。人机交互是人机交互中最重要的方式,也是人机交互的重要组成部分。从输入的彩色视频中提取特征和检测手势由于手部的巨大变化而更具挑战性。为了解决这个问题,本文介绍了一种有效的基于网络摄像机的低成本彩色视频HGR系统。在该模型中,采用深度卷积神经网络(DCNN)提取有效的手势特征,通过手势识别美国手语(ASL)。最后,利用多类支持向量机(MCSVM)对手势进行识别,利用CNN提取的特征对手势进行训练。本文采用独特的人手势进行验证。所提出的模型在分类精度方面表现出令人满意的性能,即94.57%。
关键字:人机交互(HCI);卷积神经网络(CNN);手势识别;手语;多类支持向量机(MCSVM)
一、引言
人机交互被称为HCI,是人(用户)和机器(计算机)之间的交互界面。通过HCI,人类和计算机以一种新颖的方式相互作用。当今,计算机技术的设计和应用,尤其是人机交互界面的设计和应用,是一个令人着迷的研究领域。随着技术的变化,HCI技术得到了显著的扩展和提高[1]。
在HCI中,命令行界面(cli)通常使用键盘,图形用户界面(gui)使用键盘和鼠标以及图形来为人类与计算机交互提供界面。在有效可用性的基础上,新技术在HCI中引入了直接神经接口(DNI)等新的用户界面[2]。非触摸、手势和语音界面正变得越来越流行。因此,dni是HCI的一项新技术,通过识别脑信号而不需要任何身体参与与机器进行通信。
dnis通常用于帮助、增强或修复人类认知功能。但是,在各种应用中,这种技术很难嵌入,而且成本也很高。因此,这些新增加的技术是根据需求和成本效益来适应实际应用的。不管怎样,这些新引进的技术还不能达到用户的满意水平。为了克服这些挑战,许多研究人员致力于在有效性、可用性和健壮性方面改进这些接口[3]。
理想的界面应该有一些共同的特性标准,比如可用性、准确性、可承受性和可伸缩性。目前,人类手势已成为一种流行的人机交互界面,其使用量也在迅速增加,满足了所有这些标准。
HGR在计算机游戏、虚拟现实和手语识别等领域有着广泛的应用。其中,单反是最常用的声带传输技术。残疾人应具有识别他人生成的标志的能力。因此,许多研究人员对提出美国手语(ASL)的汇编原型提出了挑战。
对人类符号识别中的几个符号进行了研究。然而,字母的符号识别更具挑战性。许多研究人员发明了与人体和手势有关的方法,以增强技术的使用。基里奥兹等。介绍了一种基于实时HCI的动态手势识别方法[4]。Modanwal等人通过引入手势识别,解决了机器与盲人之间的差距[5]。
Rempel等人使用人类手势来理解手语[6]。Denkowski等人提出了一种利用人体自然姿态控制住宅和商业建筑构件的模型[7]。Liang等人使用隐马尔可夫模型(HMM)识别手语[8]。由于大量的字母手势,这些模型显示了字母符号识别的次优结果。
从这个角度出发,本文提出了一种利用卷积神经网络(CNN)进行特征提取的有效方法。CNN由一个或多个完全连接的卷积层组成,作为标准的多层神经网络[9]。CNN架构设计用于有效处理二维图像[10]。此外,CNN有几个动态参数可以轻松地训练机器[11]。最后,利用多类支持向量机(SVM)对手势语言进行识别。
其余的论文整理如下。第二节描述了拟议模型的不同部分。第三节对实验结果进行了讨论,最后,第四节对本文进行了总结。
二、推荐模型
根据人体手势识别ASL字母是我们提出的模型的基本思想。该模型的工作流程如图1所示。
Evaluation Process
MCSVM
Classification
Feature
Extraction using CNN
Background
subtraction and preprocessing
Hand Gesture
Unknown
Training Process
Trained SVMs
Training
MCSVM
Feature
Extraction
using CNN
preprocessing
Background
subtraction and
Image
Hand
Gesture
图1建议模型的工作程序
A.手势图像的实验设置和预处理
为了从网络摄像机中捕获视频帧,从一开始就建立了实验装置。为了丢弃视频帧中不需要的区域,将特定区域固定为感兴趣的区域(ROI)。图2显示了感兴趣的区域。
在背景消减过程中,首先在不需要人工手势的情况下拍摄背景图像。所捕获的帧减去手部结构的视频帧得到手部标志图像。由于背景处理和光效应的影响,手势图像中存在一些噪声。为了减少图像中的噪声,使用了中值滤波器。然后将图像转换为灰度图像。最后,对三个不同的人进行了ASL 26个字母符号的手势图像采集。
每个标志有120个图像,每个人有3120个(26x120)图像。图3显示了手势图像的预处理。
图2感兴趣的区域(ROI)
Store hand sign image
into a grayscale image.
Filtering for noise reduction and converted
subtraction for getting hand sign image
Capture frames of hand gesture, background
Capture background image frame
Set environment and ROI position
Video frames from a webcam
图3手势图像的预处理
B.使用CNN提取手势特征
在所提出的特征提取模型中,利用深度卷积神经网络(DCNN)从视频帧中提取特征向量。所有提取的图像特征值都存储在一个文件中提取。
有许多有效的机器学习算法提取自然温度。卷积神经网络是深度学习领域中的一种最佳技术。CNN可以用于大量不同的图像。对于广泛的图像,CNN可以提取分类模型。
图4提出了一种基于CNN的特征提取方法
CNN有几个网络。“Alexnet”以其有效性成为最受欢迎的网络之一。在Alexnet网络中,网络中有五个卷积层和三个完全连接的层[9]。输入尺寸在第一层中定义。本文采用的输入图像尺寸为227times;217times;3。通过中间层组成CNN的主体。图4显示了该模型中使用的卷积神经网络的结构。
CNN产生一种激活方法,作为每一层的输入图像。卷积过程是逐层运行的。然而,对于图像特征提取,CNN中只有几个适合的层。在该模型中,特征提取考虑了“fc7”层。使用该层,基本图像特征由网络开始时的层捕获。对这些原始特征进行更深层次的网络处理,结合早期特征形成更高层次的图像特征。所有这些高级特性都非常适合于分类任务。因为更深的网络层将所有这些原始特征组合成更丰富的图像表示[10]。
C.使用SVM的手势分类
最后,我们使用非线性MCSVM对模型最后一节中的每个字母符号进行分类。支持向量机是一种常用的用于特征提取分类和回归的学习方法。因为SVM是基于监督学习方法的二元分类器,通过绘制超平面将数据分类为两个类[12]。
支持向量机的核心工作过程是利用超平面将输入的样本数据集划分为两个不同的类。在这种情况下,许多数据集不是线性的;超平面无法将这些数据集分为两类。内核函数成功地结束了非线性数据集分类问题[13]。高斯径向基函数、多项式函数和双曲正切函数是一些常见的非线性核函数。其中,高斯径向基核函数是最常用的非线性核函数。本文采用高斯径向基核函数,用式(1)表示。
其中k是两个独立输入的处理函数参数svi和svj。需要另一个自变量处理输入的参数或特征向量以查找有效基核函数的宽度表示为delta;
通常,SVM是一个二进制分类器。然而,有一些类似SVM的基本形式-一对一(OAO)、一对所有(OAA)、一个非循环图(OAG)等[14]。从这些方法来看,OAA在该模型中的应用是由于它具有最小的复杂度。OAA-MCSVM包含26个作为并行方式工作的SVM,如图5所示。在每个SVM中,一个类与其他类是不同的,通过选择输出值最大的SVM,从这个过程中得出结论。
图5用于标识字母的OAA-MCSVM结构
三、实验结果及评价
该模型由一个包含三个不同人的26个符号的已构建数据集进行评估。每个标志包含每人120幅图像。因此,总共有9360(3x26x120)张图像。整个数据集分为两组。第一个分支集包含30%用于训练的图像,另一个包含70%用于测试的其余图像。图6显示了ASL的字母符号。
图6字母表的ASL表示法
采用卷积神经网络进行特征提取。在使用CNN对图像进行特征提取之后,我们发现4096x2808个用于培训的特征和6552x4096个用于测试的特征。所有这些功能都是信息性的,这有助于对每个人的签名分类。
利用这些信息更丰富的培训和测试特性,对MCSVM执行的每个人的每个符号进行分类,分类准确度令人满意,达到94.57%。每个符号的准确度如表一所示。每个人的准确度如表1所示。我们提出的模型结果如表二所示。
四、结论
在实际应用中,一个重要的挑战是手部结构识别的准确性和鲁棒性。本文提出了ASL的非接触式手势识别方法,并利用网络摄像机采集输入手势。一开始,从一个正在运行的视频帧中捕获的静止手图像帧,并执行DCNN,以便找到更多的信息特性。最后,使用mcsvm识别字母符号。为了验证这个提议的模型,我们构建的数据集
根据ASL惯例使用。分类准确率达94.57%,这对于引入ASL的SLR作为HCI的输出具有重要意义。
表1.符号分类精度
Sign |
Recognition Accuracy |
Average Accuracy |
A |
88.49% |
94.57% |
B |
100% |
|
C |
91.67% |
|
D |
99.60% |
|
E |
81.35% |
|
F |
98.02% |
|
G |
99.21% |
|
H |
98.81% |
|
I |
99.60% |
|
J |
95.63% |
|
K |
92.46% |
|
L |
100% |
|
M |
87.70% |
|
N |
86.90% |
|
O |
82.94% |
|
P |
92.46% |
|
Q |
99.60% |
|
R |
96.03% |
|
S |
98.81% |
|
T |
94.44% |
|
U |
94.05% |
|
V 剩余内容已隐藏,支付完成后下载完整资料 资料编号:[19891],资料为PDF文档或Word文档,PDF文档可免费转换为Word |
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。