使用Leap运动传感器研究文本分割和识别外文翻译资料
2022-07-30 14:39:14
英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
使用Leap运动传感器研究文本分割和识别
摘要-对现有的文本识别框架来说使用Leap运动传感器识别有手指绘制的3-D 文本是极具挑战性的,Leap运动装置感应到的文本与传统的离线和在线写作系统不同 ,这是因为使用Leap运动界面编写时频繁的抖动和不均匀的字符大小,此外,由于空气写作,人物,单词和线条通常通过连续中风连接,这使得它难以识别,在本文中,我们提出了使用Leap运动传感器记录的文本的分割和识别的研究,使用两个连续词之间的笔画长度的启发式分析来执行连续文本到单词中的分割任务,接下来,使用顺序分类器来执行每个分割字的识别 ,在本文中,我们使用隐马尔可夫模型(HMM)和双向长时间记忆神经网络(BLSTM-NN)进行了三维文本识别。我们创建了一个由10个参与者使用Leap运动传感器绘制的560个拉丁语句子组成数据集用于实验 ,分词原本精度为78.2%,而使用BLSTM-NN和HMM分类器的字识别分别记录了86.88%和81.25%的精度。 1简介
传感器技术的最新发展开辟了各个领域的新研究方向,由于极高的精度和鲁棒性,这些传感器在人机交互领域(HCI)领域日益普及,这些传感器能够提供可用于开发各种现实应用的数据,包括人机交互,互动游戏和智能室环境,人机界面等等,一些市售传感器是非常受欢迎的,通常用于开发这样的应用。比如一个例子,Microsoft Kinect1提供了一种便宜和简便的方式与电子产品进行交互,当传感器出现在其视场中时,传感器提供移动物体的原始3D坐标,该传感器广泛用于解释人体运动的应用。Leap Inc.最近发布的另一种装置,即Leap运动传感器,它可以以0.01毫米的精度在3D中提供手指跟踪信息,具有内置应用编程接口(API)的传感器可以在笛卡尔空间中提供手指和关节的高精度位置,运动传感器正在被各种研究人员成功应用,开发3D游戏安全上肢康复,手掌康复,人机界面,字分割,手写识别等。
计算机的输入通常使用键盘,鼠标,语音或手势提供。由于键盘的大尺寸和低便携性,移动设备中的文本输入通过屏幕键盘和语音到文本界面完成,然而,这些方法需要将文本输入法集成到产品中。 除此之外,这种系统的性能差,有可访问性问题以及较低的用户满意度。因此,研究正在开发替代文本输入解决方案,这将允许用户在不使用常规输入法的情况下编写文本。Leap运动传感器将写入方式从固有笔纸扩展到无笔纸技术,通过3D手势进行写入。传感器的API具有可接受的跟踪速度,可以跟踪手指和手掌,可以使用指尖在传感器的视野中写入文本我们可以方便用户书写笔记,而无需使用传统的基于笔式纸笔的机构使用此设置。 屏幕上出现文字的相应2D轨迹,通过3D手势的文本输入对于非拉丁文本(例如,印度语,中文脚本等)将非常有用,用户可以轻松地输入复杂的非拉丁字符和单词。此外,所提出的方法可以方便用户执行在线搜索,社交媒体上的实时聊天或博客。
本文的主要目的是识别使用Leap运动传感器在空中编写的3D文本。虽然设置有各种优点,但也存在一些问题。在传统的基于笔纸的识别系统中,文本中的单词分割通常在预定义阈值[22]的基础上完成,或者笔者在提升期间向右移动的水平延伸。但是,这种暂停不会出现在3D空气手势中。文本行通常用连续的笔画绘制,导致连接的单词和文本行,没有间隙。此外,当用户开始在传感器的视野上写入时,用户可以随意地将文本写入任何方向。因此,在使用这种设置的写入期间,不会出现参考线或支持线。文字的起点可能有所不同。因此,通常可以观察到大量的书写。因此,分词和识别的过程比传统的2D系统变得更加困难。本文已经解决了其中的一些问题。首先,我们提出一个在空中编写文本的框架,并将它们记录在3D中。 使用基于窗口的分析已经将文本行分割成单词。其次,我们使用隐马尔可夫模型(HMM)和双向长时间记忆神经网络(BLSTM-NN)来识别3D文本。
最后,我们使用在实验室设置中获取的大型数据集,对这些分类器进行了比较分析。本文的其余部分组织如下。在第二部分,我们讨论与我们提出的3D文本分割和识别系统类似的相关工作。第三部分描述了提出的分词方法。第四节描述了预处理,特征提取和识别阶段。结果在第五节中解释。最后,我们通过讨论未来的工作可能性,在第六部分中得出结论。
2相关工作
单词分割的过程在手写文本识别系统中是重要的,因为它减少了将文本行识别到单词的难度。 本节提供3D文本分割和识别领域近期工作的细节
A.现有的词分割方法
基于分割的方法通常将给定的文本分为单个单词。然而,适用于在线识别系统的这些方法中的大多数都是基于距离阈值。这样的分段通常是实现的 在离线系统中,通过识别字间和字内间隙来完成,Kim等人提出了一种聚类适用于分词的连通分量之间的差距的方法。离线字分割的度量来估计两个连接组件之间的阈值,可用于在线文本中的分词。作者已经表明,使用简单的基于阈值的启发式可以提高字分割精度。但是,大部分这样的工作只适用于2D数据。其中提出的方法通过引入给定文本行的树结构来扩展现有的单词分割技术。关于差距的决定不仅取决于门槛,而且取决于差距的背景。Liwicki等提出了一种适用于在线手写文本的单词分割方法,它们假设连续词之间的空格大于单词中两个字符之间的空格。Oudot等人提出了一种在线文本识别系统。他们使用神经网络进行词分割,以使用水平距离信息对中间间隔进行分类。然而,现有的技术主要解决2D文本的问题,因此在分析无参考3D签名时失败。
B.现有的词识别技术
手势引导2D / 3D文字识别是一个受欢迎的研究领域。用户可以使用手持式和触摸屏设备与计算机进行交互更加舒适。手势识别系统通常采用图像处理技术。然而,这种系统对于3D在线文本识别是不常见的。他们可以开辟新的HCI方式。徐等提出了使用Leap Motion传感器的3D汉字识别系统。使用结合运动轨迹的方向特征进行识别。Asano和本田在LED笔和电视摄像机的帮助下,提出了一种用于日语字符识别的视觉界面系统,用于捕获3D中的LED光轨迹。在其中,Kinect传感器已被用于通过指尖检测开发使用深度信息的字符识别系统。在他们的工作中,作者已经采用聚类方案来检测指尖,并且已经分析了指尖轨迹的字符识别。在线人物识别的另一项研究可以在资料中找到,作者使用基于人工神经网络的深度皮肤背景混合模型(DSB-MM)。他们使用Kinect传感器进行手部分割和指尖检测,以便在书写过程中捕获走廊。Vikram等人提出了一种在线3D字符和字识别系统,其中通过Leap运动传感器捕获这些单词。将输入视为3D位置矢量的时间序列数据,并将其馈送到动态时间扭曲(DTW)框架进行识别,在前文中已经提出了3D字符识别,其中作者已经使用基于几何模型的分割技术来删除手势之间可能发生的段链接。这有助于提高整体识别率。然而,当字符串的大小增加时,已经记录到识别率的降低。
通过使用生物识别智能笔(BiSP)捕获的空中笔迹的个人认证系统已经在中提出。 使用DTW算法对输入轨迹进行匹配,以判断作者的生物识别。 在外文中已经提出了使用连接到用户手背的加速度计和陀螺仪传感器的3D文本识别和识别系统的两相方法。 作者使用支持向量机(SVM)来识别包含手写单词和HMM的段来识别单词。 基于网络的基于网络的3D手写字符识别用于罗马和韩文字符,该方法能够识别单个字符,不适用于连续写入的文本。
BLSTM-NN也用于手写文本和语音识别系统。格雷夫斯等人已经使用BLSTM-NN来标记序列,当数据难以分段并且具有多方向的相互依赖性。这种网络通常优于HMM来识别不合格的手写文本,使用BLSTM-NN支持的模式检测方法来区分在线手写文档中的各种内容。它优于SVM或基于HMM的分类器。尽管在2D中处理分割,字符分类,变换和参数估计方面的研究工作很少,但是这种工作可能不适用于3D数据。在线2D文本识别中,研究人员提出了各种类型的特征。例如,连接角度,行程长度,切线,曲率,弯度,纵横比,方向或连续点之间的距离等几何特征,可用于2D曲线分析。除此之外,笔上/下,角速度或谷也被用作词识别的特征。作者提出了一种实时手写中文文本识别,通过整合多个上下文,使用修正二次判别函数(MQDF)分类器动态维护字符的分割和分类。上述特征尚未用于3D序列分析。
3单词分割
在这里,我们将介绍3D文本/单词分隔的细节。 由用户在传感器的视野上写入的句子序列用(1)表示,其中si = lt;xi,yi,zigt;表示时间ti处的指尖位置。 然后使用序列S来提取用于理解文本/字边界的特征。我们已经应用了Agarwal等人提出的启发式 [1]以给定的顺序搜索单词边界。这被称为词分割。为此,已经针对三个坐标轴应用具有尺寸k的窗口的序列(S)的部分区分。接下来,使用(2)计算部分微分的和,其中Px,Py和Pz分别表示沿着每个方向的偏微分大小。为了找到句子中的单词边界,句子中第一个单词的初始位置用p1标记。 接下来,进行搜索以找到当前单词的结束位置。 只要满足边界条件就执行这个操作。 更多细节可以在[1]中找到。
4文本识别
由于存在噪声,分段字不能直接用于识别。 因此,我们应用预处理和特征提取来准备识别阶段的数据。
A.预处理
本节介绍预处理的步骤。它包括字对齐(回归和旋转),归一化和重新采样
1)分割词的对齐:作者可以在任何平面上的任何方向自由地写入3D。因此,3D文本可能不与任何坐标轴对齐。因此,这些单词在使用之前必须对齐。在此步骤中,我们将沿着其中一个坐标轴对齐所有分割的字。这使数据的表示统一。为了对准3D轨迹,假设了一条回归线并将其拟合在3D轨迹点上。接下来,我们使用回归线旋转关于z轴的每个轨迹,并且最终使它们沿x z平面上的z轴对齐。该步骤补偿了倾斜校正阶段。然后将回归线与轨迹点一起翻译成原点。回归线可以通过求解(3) - (5)得出,其中(p0,q0,r0)表示一个点,lt;sx,sy,szgt;表示向量,n表示样本数。在图2,我们提出了三个不同的用户写出的样本单词和相应的输出,在x y平面上移动回归线并与z轴对齐。
2)归一化和重采样:使用归一化步骤来制作尺寸均匀的单词,这有助于从文本中删除一些固有的作者特定字符。 Bharath和Madhvanath和Jaeger等人已经表明,即使在归一化之后,不同用户写的文本也是类似的。 通过计算沿特定轴的文本序列的最大值来进行归一化。作家在使用Leap动作书写文字时具有不同的写作风格和速度。 因此,捕获的数据可能不会被单一采样(空间上)导致不同长度的轨迹。为了规范长度,我们重新采样原始轨迹。我们估计所有轨迹的平均长度,并将其表示为l。 接下来,我们已经插入了所有轨迹,使其长度为l。在归一化和重新采样之后,我们将由三个不同的用户和相应的输出提供字样本。请注意,最后的文字笔画的大小和大小似乎相似。
B.特征提取
特征提取技术用于提取最能代表输入轨道的特征或参数,以便在线识别系统获得更好的识别率。 我们从3D轨迹中提取了许多功能。 我们提出的特征提取技术是由Jaegar等人开发的2D在线功能的动机。此功能已在3D中扩展。 我们提出的方法将3D标准化轨迹作为输入,并提取十六维高级特征的序列。 该序列包括重新采样点p = {x,y,z},表示书写方向的三个角度特征,五个曲率特征,轨迹的三个斜率特征,三个距离特征以及沿回归线的数据点的分布。
1)写作方向:书写方向被认为是在线手写识别系统的重要特征,借助于B的两个相邻点,即A(a1,a2,a3)和C(c1,c2,c3)来估计轨迹上的点B(b1,b2,b3)的写入方向。它形成与坐标轴三角不同的矢量AC,即alpha;,beta;和gamma;。这些角度的计算使用(6)和(7)进行。
2)点的曲率:轨迹上的3D点Q(a1,a2,a3)的曲率已被用于与文本分析相关的各种工作,我们在点Q的任一侧使用了两个相邻点,即P(b1,b2,b3),R(c1,c2,c3)。 如果三点没有→→→→平分线C A和C B,如图3所示。 在该图中,粗虚线表示字符轨迹。 接下来,我们使用(8)估计圆心坐标。 我们提取五个特征,即圆的中心(O),半径(r)
3)一点倾斜:我们需要三个斜坡表征通过两个3D点的线。 通过在x y,yz和x z平面中分别取方向余弦来估计三个斜率(phi;x,phi;y,phi;z)。 然后对轨迹上的两个连续对点之间存在的每个轨迹点计算斜率
4)沿回归线的点密度:在此步骤中,我们估计3D点沿回归线的密度(d)。 这个工作是通过在回归线上实现一个向前移动的滑动窗口,并计算窗口范围内的3D点数。显示了沿着回归线的“访问”一词的3D点的分布。轨迹点的分布可以沿回归线变化,并且可以用作辨别特征
5)轴距离:在预处理步骤中,3D轨迹已经沿z轴对齐。 然而,已经观察到,与其他两个轴的变化相比,z的变化相对较小。 因此,我们通过测量轨迹上每个3D点的距离x-y,x-z和y-z,提取了三个附加特征。
C.字母识别HMM
对于分割的3D单词的转录,从预处理的3D文本的每个点提取特征。该
特征向量F已被用于训练和转录。
- → - →
fi = {pi,alpha;i,beta;i,gamma;i,Oi,ri,theta;i,O Mi,O Ni,phi;xi,phi;yi,phi;zi,| xi-yi |,| yi-zi |,| xi-zi |,di} 的第i个样本特征向量F.使用从左到右的连续密度HMM来完成特征向量序列的处理[30]。HMM模型被定义为有限状态集合(N),其中每个状态与有限概率分布相关联。 该模型可以由lambda;=(pi;,A,B)表示,其中pi;,A,B分别是初始状态概率,转移矩阵和发射概率矩阵。 在训练阶段
全文共6820字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[143252],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。