英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料
DeepWriterID:一个端到端的在线文本独立作家识别系统
杨伟新,金连文 * ,刘满飞
华南理工大学电子与信息工程学院,
广州 wxy1290@163.com,*lianwen.jin@gmail.com
摘要:由于触摸屏移动终端和笔式界面的快速发展,基于手写的笔迹识别系统越来越受到个人认证和数字取证的重视。然而,由于数据的不足以及难以为笔迹样本的各种条件设计良好的特征,大多数关于作者识别的研究并不令人满意。 因此,我们引入了一个称为 DeepWriterID 的端到端系统,该系统采用深度卷积神经网络(CNN)来解决这些问题。 DeepWriterID 的一个关键特性是我们提出的一种名为 DropSegment 的新方法。它旨在实现数据增强并提高 CNN 的广义适用性。 为了充分表示特征,我们进一步引入路径签名特征映射来提高性能。在 NLPR手写数据库上进行实验。尽管我们在给定的笔迹样本中仅使用笔位置信息,但我们实现了中文文本的 95.72 %和英文文本的98.51 %的最新识别率 。
关键词:在线文本独立作者识别;卷积神经网络;深度学习;DropSegment;路径签名功能地图
一、介绍
作家身份识别是根据书写者与未知作者的样本之间的相似程度来确定候选作者列表的一项任务[1]。 目前,由于诸如智能手机和平板电脑的触摸屏或笔式电子设备的开发和商业化,其受到欢迎。 其广泛的下游用途包括区分法证追踪证据,执行移动银行交易以及验证网络访问。由于这些应用大部分与确保个人和财产安全的目的密切相关,因此手写识别更受学术界和工业界的关注。识别作者的笔迹是人工智能和模式识别领域中非常具有挑战性的问题之一。通常,手写识别系统遵循一系列的数据采集,数据预处理,特征提取和分类[2]。关于手写识别的研究主要集中在两类:离线和在线。离线手写材料被认为更通用但更难识别,因为它们仅包含扫描图像信息。相比之下,系统处理在线手写是受欢迎的,并且预期会获得更好的性能,因为设备的发展使得可以获取手写丰富的信息(例如位
置,速度,压力和高度)。另一种对手写识别系统进行分类的方式是通过文本依赖性还是文本独立性进行分类。依赖于文本的方法提供了很高的准确性,但在文本内容不存在的情况下不适用,而与文本无关的方法对内容具有鲁棒性,但需要大量数据以确保它们的广义适用性。在评估阶段,不同长度的原材料(例如字符,文本行,页面和文档)会导致获取足够的识别信息时出现不同程度的难度。此外,材料的多种语言可以单独或整体评估,导致对系统的广泛适用性有不同的要求。
尽管众多研究人员一直致力于解决手写识别问题并取得了巨大的进步[3],但面对数据不足,资料来源不同,手写材料多种语言等情况,这一问题仍未解决。 在本文中,我们提出了一种名为DropSegment的新方法,该方法从原始笔迹样本的字符中随机删除若干段,同时保留其中包含的身份信息。 DropSegment是一种性能良好的数据增强技术,也是提高广义适用性的有效途径,并防止模型过度拟合。另外,我们将路径签名特征引入到手写识别领域,因为它能够提取唯一表示轨迹的判别信息。 此外,我们采用深度卷积神经网络(CNN),它可以作为特征表示方法与非线性分类器一起使用,实现一个新颖的作家识别系统。我们的系 统称为DeepWriterID,如图1所示。
图1. DeepWriterID用于在线手写作者识别的插图。
二、DROPSEGMENT方法
2.1动 机
建立一个成功的手写识别系统,我们经常会遇到以下一些问题:
训练数据很少。足够的手写数据不仅对于独立于文本的书写器识别系统以确保无内容的性能是必要的,而且对于基于深度神经网络的特征表示模型来说也需要足够的手写数据以实现最佳性能。 但是,收集它们对于真实世界中的用户来说是突兀而乏味的,特别是在需要段落或页面的材料时。
泛化能力不足。广义适用性的不足导致系统性能差,并且经常谴责使用笔画结构。虽然笔画结构有时可以有助于区分文本依赖系统中作者的身份,但其使用限制了在面对具有不同结构(例如,以自然或多语言手写)的笔迹时的普遍性。
分割问题令人烦恼。识别材料的长度和字符的大小在不同的实际应用中有所不同。过度分割或欠分割会导致字符的大小不同,并对识别性能产生不利影响。 另外,当面对多种语言时,基本单位的大小不同(例如,汉语中的字符和英语中的单词),在适当的分段中引入进一步的困难。
集成模型是昂贵的。集成方法提供了出色的结果,但是存储容量太大而无法在实际使用中使用,特别是对于移动设备应用。有必要找到一种灵活的方法来实现同样成功的结果,同时保持恒定的存储大小。
受到Dropout的 启 发[5],我们提出了一种名为DropSegment的新方法,用于手写识别以缓解上述问题。
2.2分析
DropSegment是一种高效的数据增强技术。 每个原始字符至少有一个笔画,每个笔画包含一定数量的片段,采用一些分割方法进行定义; 例如,我们预定义笔画的角点作为其分割点。假设一个原始字符有m个笔画并且它的第i个笔画包含si段(si属于正整数),如果di个部分从这个笔划中删除,然后其余段的可能组合的数量将是
(1),
根据组合学中的加法原理,从第i个笔画得出的所有可能组合的数量是(1)对所有di的总和,得到
(2),
然后,根据乘法原理,由原型字符生成的新字符的数量是(2)在所有笔画上的乘积,表达为:
N(m,S)=2s-1 (3),
该序列S={s1,s2,hellip;hellip;sm}包含原始字符的每个笔划中的段数,段计数的总和是,因为我们不会移除所有的字符段,所以我们排除了(3)中的s,使用DropSegment给出了两个例子:一个三笔字符,其中使用序列S={2,3,4}可以产生511个新字符,一个八笔字符,通过使用所有si=3(i=1,2,hellip;hellip;8),可以得到超过1.67x107个新字符,基于(3)式通过(23)8-1来计算,因此,将从字符中随机丢弃一些段,其余段重新组合以形成大量出现多样化的新字符,从而实现数据增强。图1显示了新字符的连同其原型字符的例子。
在实际手写识别中,各种源材料的笔画结构(例如,从整齐手写到书写笔划的多种语言)不再是不变的,并且甚至可能对识别有害。通过分离笔画,DropSegment可以防止考虑结构信息,并且保持作者判别信息,从而提高其泛化适用性。另外,DropSegment对于过度分段和欠范围问题是强大的。当采用DropSegment时,所有字符的概率都会被忽略,因此分割方法可能比较粗糙。 而且,在测试阶段,我们的方法会弹性生成一定数量的新测试样本,以提供多重预测。平均这些预测预计会提高性能,而不会额外消耗存储空间。
与DropStroke [7]相比,DropStroke可以从字符中删除笔画,DropSegment更强壮有三个原因。首先,在快速文本行手写或草书手写个人签名中,正式分开的笔划可以连接在一起,因此擦除整个笔画可能导致信息丢失过多。其次,某些语言的基本单位缺乏笔触,如英文字母,这说明了在面对多语言手写时,DropStroke方法[7]的有限普遍性。 第三,由于段是比笔划更详细的结构,因此DropSegment可以生成比DropStroke更多的可能样本。请注意,在(3)中,无论何时di=si,DropSegment的效果等同于DropStroke [7]的效果,说明了DropSegment的广义适用性。
3.生成路径签名功能地图
Chen [8]以迭代积分的形式开创了路径签名,最近几年里昂开发的路径签名在粗糙理论中发挥了重要作用[9,10,11],能够提取足够的数量 隐藏在有限长度的路径中的信息(例如,语音轨迹或在线手写)来求解任何线性微分方程。 对于手写分析,路径签名功能首先由Graham [4]介绍,以解决手写字符识别问题。 在DeepWriterID中,我们设法使用路径签名特征地图为手写识别问题提取更多有价值的信息。
给定一个有限长度的笔段P在飞机上书写R2,我们可以表示一个连续的映射P:[0,T] R2,令k为整数,则路径P的第k层迭代积分可表示为
P0,Tk的维度为2k,出于代数原因,当k = 0时,签名恒定为1,表示原始输入,而k = 1和k = 2分别表示路径位移和路径曲率。 当P是直线时,迭代积分P0,Tk可以通过以下方式迭代计算:
其中, 0,T表示路径位移。通过增加积分的迭代次数,可以揭示更高级别的路径信息,但是特征的维度(对于签名的第k级别计算为2k)也以指数方式增加。 因此,为了在保持特征的计算时间最小的同时丰富路径表示,签名的集合(意味着不同级别的积分迭代的组合)是我们的解决方案。它表示为:
其中n是签名被截断的等级。在这个阶段,沿线段的每个采样点都可以生成一组带有截断级别n的签名值。(6)的维数(即特征映射的数量)可以计算为
2n 1-1。
为了直观地展示特征映射,我们为每个特征映射分配笔轨迹的像素以及相应的签名图像直方图均衡化,可视化如图2所示。行表示不同的编写者,并且列呈现不同级别的映射的路径签名功能。 我们观察到前三个迭代积分的地图在作者中的幅度看起来相似,而第二层(kgt;2)以外的地图之间的差异是可观的(例如第三层)。这支持了我们的假设,即更高级别的路径签名可能包含对手写识别有积极贡献的信息。
图2.路径签名功能的可视化。参数k表示路径签名的第k级迭代积分。
4.深度 CNN架构和配置
为了实现整体流水线的集成优化,我们采用深度卷积神经网络(DCNN)模型,该模型利用手写体的空间稀疏性,如[4]中所述。 空间稀疏性的思想源于包含稀缺前景像素的在线轨迹与众多背景像素的比较,其值为零,因此可以避免背景计算以节省时间。 如图1所示,我们的DCNN的体系结构包括5个卷积层,每个层都伴随着最大池(MP)层。 我们将卷积滤波器的大小固定在第一层的3times;3(用C3表示),其他用2 times; 2(C2)固定,步长为1像素。最大池的窗口大小为2 times; 2(MP2),步幅为2个像素。小的滤波器大小和池大小使网络能够保留有价值的信息。在我们网络的顶部,设计中包含两个分别具有480和512个单位的完全连接(FC)层,以便更好地表征复杂的生物信息并为网络提供额外的非线性。 卷积滤波器内核的数量在第一层为80,在每个最大池之后增加80。 对于激活函数,整数线性单位(ReLU)用于卷积层和FC层的神经元,softmax用于输出层。
我们的DCNN将输入数据呈现为54 times; 54位图并将其放置在96 times; 96网格的中心,其中超出位图的额外像素是卷积图层中所有边界的填充像素的预算。 我们网络的体系结构可以统一表示为:
Mtimes;96times;96Input-80C3-MP2-160C2-MP2-240C2-MP2-320C2-
MP2-400C2-MP2-480FC-512FC输出,
其中M表示输入通道的数量,其等于签名特征图的数量。
5.实验结果
5.1数据库
我们使用了国家模式识别实验室(NLPR)手写数据库[12]。 它包含每个作者的四页中文文本和每个作者的四页英文文本。 为评估DeepWriterID的性能,我们对两个子集进行了实验:由187名作者贡献的数据集I(DB I)包括两个免费内容的中文页面供培训,一个固定内容的中文页面用于测试; 和由134名作者贡献的数据集II(DB II)包括两个免费内容的英文培训页面和一个固定内容的英文页面进行测试。
NLPR数据库中的样本由Wacom Intuos2平板电脑收集,包含丰富的连续信息,包括笔位置,笔下和笔状态,方位角,高度和压力。通常,大多数触摸屏移动设备上唯一一贯可用的信息是手写笔在笔下状态下的笔位置; 因此,我们故意忽略其他笔迹信息,并在笔下状态下使用笔位进行实验。
5.2数据预处理
NLPR数据库中的样本[12]显示在页面上,并且手写可以是规则的或草写的,因此分割被用作DeepWriterID中的数据预处理步骤以统一各种输入数据。 该分段是双重的:分段生成和伪字符分段。
段生成。对于页面上的每个笔划,我们采用了快速高效的角点检测算法[6]来生成段。为了检测拐角,该算法采用非角点的向前和向后矢量的方向将相互抵消的概念。弯曲值定义为:
(xi,yi)是插值后的轨迹点,(x<su
全文共9058字,剩余内容已隐藏,支付完成后下载完整资料</su
资料编号:[14240],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。