英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
基于加速度传感器的手势识别系统
摘要——本文中,我们用随机投影理论把整体识别问题规划为一个最小化问题来解决手势识别问题。手势识别系统主要由一个独立的三轴加速度传感器提供数据,主要包括两个阶段:训练阶段和测试阶段。训练阶段,系统采用动态时间规整以及吸引子传播算法创建每个手势的示例,而测试阶段系统将所有候选的痕迹以及未知的微量展示到相同的低维子空间去识别。系统的测试和评估是基于18个手势定义的代码字典的和七个领域超过3700个痕迹组成的数据库。据我们所知,在已发表的研究基于加速度传感器的手势识别项目中,我们的代码字典是最大的。该系统具有几乎完美的依赖用户、混合用户和独立用户的识别精度,在基于统计方法的系统和文献中其他基于加速度传感器的手势识别系统中都具有高度竞争力。
索引词汇——吸引子传播算法、压力感知、动态时间规整、手势识别、随机投影(反向)
1.引言
手势识别是利用一个人的手、手臂、面部、有时候是头部进行的有意义的运动过程进行分析。它已成为最热门的研究领域之一,因为在设计从医疗康复到虚拟现实的人工智能人机界面的各种应用程序的符号语言中,它具有重要的意义。在技术扩散方面,特别是在微电子技术方面,已经有了基于加速度传感器的手势识别系统的研究。三轴加速度传感器正越来越多地嵌入到许多个人电子设备中,如苹果的iPhone,iPod Touch,iPad,Wiimote,和联想的笔记本电脑等等。
在多数可用的手势或动作识别文献中,将从另一个传感装置像双轴陀螺仪或肌电传感器数据的三轴加速度传感器所得数据来提高系统的性能和识别的准确性。运用连续隐马尔可夫模型的基于加速度传感器的手势识别系统(HMM)已开发完成。然而,统计或生成的模型如隐马尔可夫模型的计算复杂度是与数字大小以及特征向量的维数成正比的。因此,主要的挑战之一是估计HMM规定的最佳数值,从而确定最优的概率函数,除此之外,变化的手势不一定是高斯函数,也许其他公式可能会是更好的选择。
最新的单独基于加速度传感器的手势识别系统是u波。u波是一个支持个性化的手势识别的依赖用户系统。u波利用存储在模板中每个动作的单训练样本起作用。u波的核心是动态时间规整算法(DTW)和系统数据库进行两种适应:积极的和消极的适应。然而,u波数据库的适应类似于持续不断的训练阶段。在某些情况下,如果忽视了模板的全面检查,每隔一天消除旧模板会导致取代一个很好的手势序列,这最好是要避免的。虽然u波显示计算以及识别效率,但是u波的应用依然被依赖用户限制。此外,从像任天堂的Wii,苹果的iPhone系统和其他设备来看,基于传感器的手势识别研究人员构想出一个通用的系统,在这个系统里给出一个手势字典,便可以以有竞争力的准确性和对用户的最小依赖性来识别不同的手势轨迹。
在本文中,我们提出了一种基于加速度传感器且只使用一个单一的三轴加速度传感器来识别的手势识别系统,这里的手势是指手的动作。本文的工作是建立一个我们的手势识别系统的初步版本。18个手势的代码字典是由3780个痕迹的数据库建立的,7个参与者进行的数据收集。代码字典中所定义的一部分手势是由诺基亚的手势识别系统所确定的。该识别器训练阶段的核心是动态时间规整(DTW)和近邻传播(AP)的融合。如本文所示,一个近邻DTW并不总是足够用于识别,因此,识别问题转化为在所有候选手势轨迹投影到相同的低维子空间之后的最小化问题。相对于8手势代码字典的u波对依赖用户有98.6%的识别准确性,18手势代码字典的本系统实现了对混合用户的识别准确率98.71%。至于独立用户的识别,该系统分别实现了8手势的96.84%和18手势的94.6%的精确度,这和其他统计模型或其他可用的技术相比是非常有竞争力的。
文章的其余部分如下安排:第二部分提出问题,并介绍所提出的手势识别系统的一般概述。第三节介绍了采用聚类算法的训练系统。第四节描述了识别过程,以及随机投影(反相)是如何被用来分类未知的手势轨迹。第五部分描述了手势识别系统的实现,并通过仿真对系统的性能进行评估。最后,第六部分总结了本文的研究结论。
2.提出问题
假设一个系统由手势和存储在数据库中的每个手势的痕迹组成。手势复杂度范围从非常简单的,像手向右或向左或向上或向下移动,到更复杂的,如手势表示的字母或数字都有。手的加速度的数据来表示手势,而不是手的位置。手的加速度在不同的时间使用一个单一的三轴加速度传感器测量。因此,手势轨迹基本上是表示在X,Y,和Z方向上加速度的三个列矩阵。然而,手的手势受时间变化影响。换句话说,这些数据每个人都不同,甚至同一个人也不能完全复制相同的动作。这意味着,手势的痕迹可以被压缩或拉伸,这取决于用户手部运动的速度。因此,相同手势的痕迹也有不同长度,这在开发手势识别系统过程中构成了第一个主要的挑战。
在数学上,手势的识别问题可以表述如下:该系统由手势及每个的痕迹组成,列表如下:
每一个矩阵的每一列代表在X,Y,和Z向的加速度。注意,即使对于同一个手势的痕迹数据也不一样,因为相同的手势轨迹可以有不同的持续时间,从而在不同的行数表示。
图1显示了在顺时针方向移动的加速度波形。加速度通过具有内置三轴线性加速度传感器的Wii遥控器获得(Wiimote的简称)[ 7 ]、[ 8 ]。
手势数据库(1)是在脱机过程中产生的,它构成训练阶段并储存下来供后续使用。在测试阶段,用户移动他/她安装过加速度传感器的设备,如智能手机或Wiimote,向上述数据库发送一个特定的手势信号(1)。加速度传感器的读数组成一个lytimes;3的矩阵Y。再次说明,ly不等于任何li,j。手势识别系统的目的是要找出哪些手势是由用户的意图。
图1.手势移动在顺时针方向上定义的加速波形
图2.手势识别系统的总体概述
图2描述了所提出的手势识别系统的总体概况。注意,方框图表示出一个两阶段的系统:第一阶段是训练阶段表示在方框图的上部,而第二阶段是测试阶段表示在方框图的底部。
培训阶段包括2个部分。一个作为移动平均滤波器的滑动窗口,被用到所获取的数据上,以消除任何噪声,这些噪声的产生可能是内部采样的积累,加速度传感器的校准或灵敏度,或手在手势采集时的抖动。平滑步骤之后的聚类过程可分成两块。第一个聚类分块处理手势轨迹的不同持续时间。该子块采用DTW计算来衡量长度不等的向量之间的相似度。相似度是用在AP分块里,将训练数据分解成多个聚类。聚类本质上代表了训练阶段的核心。同一个聚类的成员应该共享相同的特性,来自同一个手势的聚类是最理想的。每个聚类由一名成员代表,称之为“典范”。所以,在聚类阶段以及训练阶段的输出,是一系列典范,每个代表一个聚类的手势痕迹。每个子块的细节会在下一节中讨论。
图3.二次序列相似但异相的P和Q
3.聚类算法
前面讲过,手势痕迹受到潜在的时空变化,因此传统的欧氏距离不适用于手势轨迹之间的相似性度量。因此,在我们的手势识别系统中,我们采取动态时间规整算法计算不同的手势痕迹之间的相似性。在下文中,我们用粗体小写字母代表向量,用粗体的大写的字母表示矩阵,用书法的大写字母表示集合。
一、动态时间规整
动态时间规整算法(DTW)通过计算 使信号对齐的时间转换来匹配两时间信号或者不同时段。对齐方式是最优的,因而对齐的样本之间累积的距离度量被最小化[ 9 ]。
假设2个时间序列,p和q是相似的,但是异相,长度分别为m和n,p=[p1,hellip;,pn],q=[q1,hellip;,qm],如图3所示。目标是计算匹配成本:DTW(p,q)。基于动态规划的匹配成本计算使用以下公式:
其中距离函数d(.,.)因应用而异。
在我们的手势识别系统中,d(pi ,qj)被定义为:
因此,
在所提出的3轴加速度传感器的手势识别系统中,由于每个手势踪迹被三个加速度波形定义,因此,手势踪迹Gi和Gj间的相似成本计算公式如下:
其中Dn,m(x), Dn,m(y), Dn,m(z)是在X,Y和Z轴轨迹之间分别计算的DTW成本。
动态规划有可能使训练阶段成为一个缓慢的过程,因为要在数据库中的所有手势踪迹之中计算相似成本。就我们的系统而言,训练是离线完成的,因此,速度是不是一个值得关注的问题。然而,对于其他设计成在线训练,特别是带有大数据库的系统,速度是关键问题。因此,提出了许多通用的数据编辑算法来加快计算DTW [ 10 ]、[ 11 ]以及缓解速度困境。
二、 AFfi社区传播
AFfi性传播(AP)[ 12 ]是一个算法,同时将所有的数据点视为潜在的样例并且递归数据点间的实值信息,直到一套好的样例和集群出现。聚类是基于两类信息的交换: “职责”的信息决定哪些踪迹是样例,而“有效性”的信息决定踪迹属于哪一个集群。这个职责信息由下面公式给出:
其中ine;j,s(i ,j)是相似性,来表示踪迹Gj作为踪迹Gi样例匹配程度。被定义为:
其中L是手势踪迹的总数,有效性信息由下面公式给出:
除了相似性的度量,AP将一个称为自相似或优先权(p)的实数集当作每一个手势跟踪的输入。所以,拥有更大P值的踪迹更有可能被选择为样例。所提出的姿态识别系统,自相似性p与输入相似性的中值是成比例的,即:
其中beta;是一个常数,以反比的方式表示产生的控制簇数目。换句话说, 随着beta;值的降低,将产生更多的集群。
聚类算法选用AP,因为它在一个数据点间的相似性矩阵上操作,而不是特征向量或原始数据。在手势的踪迹之间计算相似成本,这意味着集群算法是基于踪迹的时间特性。AP利用手势痕迹的稀疏性,不需要强制所有的痕迹等长或像在例子[ 1 ],[ 2 ],[ 6 ]中那样产生相等长度的特征向量。比起其他集群算法,像K均值集群,AP,因为它的初始化独立属性,可以产生更好的集群[ 12 ]。
AP的输出是系统中N种姿势的一组样例ε:
其中Hge;N。注意,获取的样例数量H大于或等于手势的数量N。原因是手势的痕迹收集来自不同受试者,从而一个手势的数据有一个大的方差。因此,每个手势不能提取一个独特的样本。相反,每个手势的样本数量Hi,满足:
其中P是指系统训练中包含的受试者数量。
4.反相识别
为了识别一个未知的手势踪迹Y,很直观地把它和ε中的一组样例比较,并且把Y归类于样例成本最低的手势。不过,由于我们的聚类算法不为每个手势产生一个独特的样本,这种方法完全不足以产生高识别精度。我们对上述聚类技术的做以下观测。
首先,我们注意到,虽然在我们的模拟中没有观察到,但AFfi社区传播技术并不能保证一个集群里的所有成员及其样例是相同手势的踪迹。当不同受试者的手势合并在同一个数据库中时,这个问题变得更加显著。
其次,虽然一个样例是其集群的代表,但它不能用来检测踪迹测试中相应的手势,因为不能提取每一个手势的独特的样本。然而,样例在除离群值、减少搜索空间的大小、降低计算复杂度方面是有用的。
该系统包括两个步骤。第一步,选中最接近观测到的数据集的一组样例,
然后,第二步,选中第一步选择的集群成员中的最佳匹配。
要进行第二步,我们仍然需要解决不同的手势踪迹的时间问题。一个非常有效的解决方案是将所有的踪迹投射到同一个低维子空间中,从而解决了不同持续时间的问题同时也减少了计算成本。这个方案的前提是,如图1,被定义的手势似乎是稀疏的,因为手执行一个手势时遵循一个平稳轨迹。因此,按照压缩感知理论,手势的痕迹可以用较少的样本来表示。
压缩感知(CS)可以从比传统的采样方法少得多的测量中恢复信号。假定所接收的信号可以表示为Mtimes;1,矢量x=Psi;s,其中Psi;是一个Mtimes;M基础矩阵,s是一个Mtimes;1的稀疏向量,仅包含Ls<<M个非零元素。信号x被Ktimes;M的传感矩阵Phi;压缩,得到K维测量向量y如下:
已被证明s可以完全恢复如果K满足以下公式:
其中c是一个常数,Ls是稀疏度[ 13 ]。信号可以通过解决以下模最小化问题来重建:
CS已成功地用于图像恢复。事实表明,CS在人脸识别领域是一门有力的技术,在处理噪声和遮挡[ 14 ]方面功能强大。
虽然在[ 14 ]中讨论的方法很可能扩展应用到人脸识别之外的问题,讨论的方法,但它不完全适合手势识别,由于该方法没有解决不同的手势轨迹长度的问题。
因此,一个解决方案是增加CS的投影特征。换句话说,克服不同的手势踪迹大小的解决方案之一,是将所有的痕迹投影到同一个低维子空间。一个理想的降维技术能有效减少投影到低维子空间的数据同时保留原始数据的性能。反相是使该解决方案可行的唯一的技术。其他的降维方法,如主成分分析(PCA)和奇异值分解(SVD),手势跟踪的特征向量和特征值分解的时间相同 [ 15 ]。另一方面,不需要在下面的章节演示的相同时间的痕迹。此外,事实表明,该反相性能优于上述降维技术。
一、反相
反相RP是最近出现的一个强大的降维技术 [ 16 ],[ 17 ]。在反相中,使用一个ktimes;d的随机矩阵A, A的列单位有长度,将原始维数的数据投影到一个K维(K《d)子空间。运用矩阵标志法,使Xdtimes;n表示n集合d维的原始观察值,然后投影问题,可用如下公式表示:
其中投影到低维K维子空间的数据,RP的概念来自于约翰逊Johnson-Lindenstrauss定理[ 18 ]。
<p
剩余内容已隐藏,支付完成后下载完整资料</p
资料编号:[152528],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。
您可能感兴趣的文章
- 2.3港口吞吐量预测外文翻译资料
- 使用多标准移动通信分层遗传算法的阻抗 匹配网络的宽带优化外文翻译资料
- 移动RFID标签阅读与非重叠串联阅读器在输送带的应用外文翻译资料
- 利用数字图像进行的全场应变测量方法外文翻译资料
- 自然灾害中并发事件的多种应急资源的分配外文翻译资料
- 基于主机的卡仿真:开发,安全和生态系统影响分析外文翻译资料
- 实现基于Android智能手机的主机卡仿真模式作为替代ISO 14443A标准的Arduino NFC模块外文翻译资料
- 探索出行方式选择和出行链模式复杂性之间的关系外文翻译资料
- 信息系统研究、教育和实践的基本立场及其影响外文翻译资料
- 仓储和MH系统决策模型的设计优化与管理外文翻译资料