英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料
1.摘要
本文概述了字符和文档识别领域最近40年的技术进步。描述了每个十年的代表性发展。然后,重点介绍日本汉字识别特定领域的关键技术发展。本文的主要部分讨论了鲁棒性设计原则,这些原则已经被证明有效解决邮政地址之别中的复杂问题。包括假设驱动原则,延迟决策/多重假设原则,信息集成原则,替代解决原则和微扰原理。最后,讨论未来的前景,“长尾”现象以及有希望的新应用。
- 介绍
根据ICDAR提供的一些材料,提供了有关字符和文档识别技术的工业视图。商用光学字符阅读器(OCR)出现于20世纪50年代,从那时起,字符和文档识别技术已经显著提供了产品和系统,以满足整个开发过程中的工业和商业需求。同时,基于这项技术的企业的利润也投入到更先进技术的研究和开发中。我们可以在这里观察一个良性循环。新技术已经启用了新的应用程序,新的应用程序已经支持开发更好的技术。字符和文档识别一直是模式识别非常成功的领域。
在过去的四十年中,人物和文件识别的主要业务和工业应用是形式阅读,银行支票阅读和邮政地址阅读。通过支持这些应用程序,识别能力在多个方面得到扩展:写作模式,脚本,文档类型等等。可识别的书写模式是及其打印,手印和脚本手写。可识别的脚本以阿拉伯数开始,并扩展到拉丁字母日本片假名音节字符,汉字(日文版中文)字符,中文字符和韩文字符。目前成在开展工作,使印度和阿拉伯文脚本可读。今天的OCR可以阅读许多不同类型的纸质表格,包括银行支票,明信片,信封,书籍页面和名片。字体标准,如OCR-A和OCR-B字体,有助于使OCR在早起阶段足够可靠。在相同的北京下,特别设计的OCR形式简化了分割问题,并且即使通过不成熟的识别技术,也可以使手写字符OCR可读。按的OCR成功用于读取任何类型的字体和自由手写的字符。
字符和文件识别领域并不是和平的。它受到了新的数字即使浪潮的两次打击,这些新技术有可能会削弱OCR技术的作用。第一个这样的浪潮是20世纪80年代初的办公自动化。从那时开始,大部分信息似乎都是“天生的数字化”,可能会减少OCR的需求,一些研究人员对未来感到悲观。然而,事实证明,例如,日本的OCR销售额在20世纪80年代达到顶峰。讽刺的是,由于办公电脑的推广。众所周知,纸张的使用量不断增加。
我们现在正面临第二波。IT和Web技术可能会产生不同的影响。现在可以在Web上完成多种应用程序。信息可以瞬间流向全世界。但是,对字符和文档识别的需求是否会下降,或者是否需要创建需要更高级技术的新应用程序,目前尚不清楚。搜索引擎已经无处不在,并且正在扩展到图像文档,照片和视频领域。人们正在重新评估手写的重要性,并试图将其融入数字世界。看来纸张仍然不会消失。具有微型摄像头的移动设备现在具有能够实时识别的CPU。这里讨论这些发展的未来前景。
- 见到的历史观点
3.1概观
第一个实用的OCR在20世纪50年代出现在美国,与第一台商用计算机UNIVAC在同一个十年。从那以后,每十年在OCR技术方面取得了进展。在20世纪60年代早期,IBM生产了他们的第一款光学阅读器,即IBM 1418(1960)和IBM 1428(1962),它们分别能够读取印刷数字和手写数字。那些日子的其中一种模型可以读取200钟印刷文档字体,并用作IBM 1401计算机的输入设备,同样在20世纪60年代,邮政业务使用带OCR的机械信函分拣机机动化,邮政业务首次自动读取邮政编码以确定目的地。没过邮政部门首先推出了阅读地址的OCR,1965年开始阅读印有信封的城市/州/邮编。在日本,东芝和NEC开发了用于邮政编码系统识别的手写数字OCR,并于1968年投入使用。在德国,邮政编码系统于1961年首次在世界上引入。然而,欧洲第一台爱邮政编码阅读信件分拣机于1973年在意大利推出,并于1978年在德国推出了带自动阅读器的第一台信件分拣机。
日本在20世纪60年代后期开始引入商业OCR。日立在1968年制作了第一个用于打印字母数字的OCR,并在1972年制作了第一个用于商业用途的手写数字OCR。NEC于1976年开发了第一款可以读取手写纸片假名的OCR。日本国籍贸易和工业部(已改名为Ministry经济产业研究所)从1971年起开展了为期10年的200亿日元的图案信息处理项目。在其他研究课题中,东芝从事印刷汉字识别工作,富士通从事手写字符识别工作。包括汉字字符的ETL字符数据库是作为该项目的一部分而创建的,该项目有助于汉字OCR的研究和开发。作为副产品,该项目吸引了许多学生和研究人员进入模式识别领域。在美国,IBM于1977年推出了存款处理系统(IBM 3895),该系统能够识别无约束的手写支票金额。作者有机会在1981年在匹兹堡的梅隆银行观察它的运行情况,据报道它可以读取大约50%的手写支票,其余的一半是手写的。文献【7,8】详细记载了20世纪60年代和70年代的字符识别技术。
20世纪80年代,在CCD图像传感器,微处理器,动态随机存取存储器(DRAM)和定制LSI等半导体器件方面取得了显著的技术进步。例如,OCR在桌面上变得比以前小。然后,更便宜的兆字节大小的存储器和CCD图像传感器可以将整页图像扫描到内存中进行进一步处理,匆匆而实现更高级的识别和更广泛的应用。例如,1983年首次引入了可以识别触摸字符的手写数字OCR,从而可以放松物理形式约束和书写约束。在20世纪80年代后期,OCR的日本厂商在其产品系列中引入了新的OCR,可以识别大学2400个印刷和手写汉字字符。这些曾经是用于读取数据输入的名称和地址。更详细的技术评论可在文【9,10】中找到。
20世纪80年代在日本颇具影响力的办公自动化热潮有两个特显。其中之一是电脑和日文文字处理机的日语处理。汉字OCR的出现是这种发展的自然结果。另一个特点是用作计算机存储系统的光盘,这些系统在20世纪80年代早期开发并投入使用。典型的应用是美国和日本的专利自动化系统,其存储专利说明文件的图像。然后日本专利局系统在12英寸的光盘上存储了大约5000多万个文件或2亿个数字化页面。每个磁盘可以存储7GB的数据,相当于200 000个数字化页面。该系统使用了80个Hitachi光盘单元和80个光学库单元。这些系统可以被认为是第一批数字图书馆之一。这种新的计算机应用程序直接或间接地鼓励了对日本文件理解和文件布局分子的研究。更重要的是,在这十年中,文件首次成为计算机处理的重点。
20世纪90年代的变化是由于UNIX工作站和个人电脑的升级性能所致。虽然扫描和图像预处理仍然由硬件完成,但是通用计算机上的软件实现了大部分识别。这意味着像c和c 这样的编程语言可以用于编码识别算法,云溪更多的工程师开发更复杂的算法,并将研究团体扩展到包括学术界。在这十年中,市场上出现了运行在个人电脑上的商业软件OCR包。手写字符自由识别技术已被广泛研究,并成功应用于银行支票阅读器和邮政地址阅读器。先进的布局分析技术能够识别更广泛的商业形式。由斯里哈里教授和Govindara ju教授领导的由Sune教授和CEDAR领导的CENPARMI等专门研究机构为这些进展做出了贡献,新的高科技供应商出现了,其中包括由法国西蒙先生开创的A2iA,以及在俄罗斯开始在美国开展业务的Parascript。在日本,日本邮政部在1994年至1996年期间开展了第三代邮政自动化项目,东芝,NEC和日立加入了邮政地址识别系统,可以对序列进行分类。这个项目使日语阅读地址显著提高。
国际模式识别协会于20世纪90年代初就是古好远UCDAR,IWFHR和DAS等会议。这些会议已经报道了许多深入研究的方法。例子是人工神经网络,隐马尔可夫模型(HMM),多项式函数分类器,修正的二次判别函数(MQDF)分类器,支持向量机(SVMs),分类器组合,信息集成和词典定向字符串识别,其中一些基于20世纪60年代的原始思想。其中大多数在当今的系统中发挥关键作用。与之前的几十年相比,工业大多数使用专有的内部技术,20世纪90年代见证了学术界和工业界之间的重要互动。学者们研究了真正的技术问题,并开发了复杂的基于理论的方法,使行业从他们的研究中收益。读者可能会发现字符识别系统的最新技术水平,包括图像预处理,特征提取,图案分类和文字识别,在文献中有详细描述【22】。
在下面的小节中,描述了汉字字符分类器,字符分割算法和语言处理领域的90年代以前的主要技术成就。
2.2汉字字符分类器
在20世纪70年代,有两种相互竞争的方法在进行字符识别,结构分析和模板匹配(或同级方法)。当代杀昂也OCR使用结构方法阅读手印字母数字和片假名,以及模板匹配方法读取印刷的字母数字。到20世纪70年代后期,模板匹配方法已经被实验证明适用于印刷汉字识别,但是它们对手写汉字的适用性存在疑问。识别手写汉字的问题看起来像一座陡峭的,未开发的山峰。很显然,结构模板匹配方法和简单模板匹配方法都不能单独客服。由于复杂的中风结构,前者难以处理大量的拓扑变化,而后者难以处理非线性形状变化。然而,鉴于以前使用模板匹配方法进行手写数字识别的工作,后一种方法似乎具有更大的成功机会。
关键是模糊感念作为特征提取,应用于定向特征,并发现对识别手写汉字有效。连续空间特征提取的引入使得模糊的最佳量出人意料的大。用于阅读手写汉字的第一个日立OCR使用基于模糊方向特征的简单模板匹配,其中特征模板是四组16 16个灰度值阵列。1979年在日本获得专利的定向特征是使用二维梯度来确定笔画方向,甚至适用于灰度图像。虽然它只是间接相关的,Hubel和Wiesel的工作鼓励了我们的观点,即定向特征是游戏王的。非线性形状归一化和统计分类器方法提高了识别的准确性。我们了解到,模糊应该被视为获取潜在维度(子空间)的手段,而不是降低计算成本的手段,尽管效果可能看起来相似。例如,统计方法中使用的网格大小8 8根据Shannon采样定理由最佳模糊参数确定,具有相同模糊参数的较大网格大小不会给予更好的识别性能。
由木村教授领导的研究小组的深入研究有助于推进统计二次分类器,成功应用于手写汉字识别。其实,基本理论是已知的,但20世纪70年代的计算机没有足够的计算能力来应用于这种统计方法的研究。今天,汉字模式的四项特征向量由8个8个元素组成,统计协变分析得到的子空间的维数为100到140个。然而,考虑到许多复杂的汉字字符,8*8阵列的大小令人惊讶地(反直觉地)小。然而,对于个人自由手写的汉字的识别准确度还不够高。因此,语言韩静(如姓名和地址)用于提高总体识别准确度。为了降低计算成本,使用基于群集的两阶段分类来减少必须匹配的模板数量。汉字识别的最新进展之一是撰文为手机应用程序设计的识别引擎的缩小尺寸。一个紧凑的识别引擎报告在参考文献。只需要613 KB的存储器来存储蚕食,以识别4344类打印的中文字符。
2.3字符分割算法
在20世纪60年代和70年代,带有旋转镜的飞点扫描仪或激光扫描仪与光电倍增器一起使用,以将光信号转换为电信号。字符分割通常是在这些扫描机制的帮助下进行的。例如,用于手印读取的表单在边缘上使用标记,表示要扫描的字符行的存在。此外,表格上书写箱的位置被预先登记,盒子的颜色对扫描仪传感器是透明的。因此,OCR可以轻松提取仅包含一个手写字符的图像。
然后,在20世纪80年代,出现了半导体传感器和存储器,使得OCR能够扫描并存储整个页面的图像。这是一个对用户来说很重要的时代,因为它放宽了OCR形式规范的严格条件,例如,让他们可以使用更小的不分隔书写框。但是,它需要解决触摸数字的问题并改变图像在内存中的表现方式。在这种变化之前,扫描图像是二进制像素的数组,并且分割是基于像素的,但是从现在开始,存储器中的二进制图像由游程长度代码表示。游程长度表示适用于进行连接组件分子和轮廓跟踪。连接的组件被处理为黑色对象而不是像素。在1983年,日立制作了第一个可以分割和识别基于多假设分割识别方法的手写数字的OCR之一。轮廓形状分子能够识别接触点的候选者,并且将多对强制分离的图案馈送到分类器中。通过查询分类器的置信度值,识别器能够选择正确的假设。这种变化方向导致我们进行表格处理,其最终目标是阅读未知的表格,或者至少是那些不是专门为OCR设计的表格。然而,这意味着用户在写作时可能会变得小心谨慎,所以OCR必须更加准确,才能自由手写字符。分段问题在邮政地址识别中要困难的多。图4显示水平手写的地址。一个字符的宽度变化多达两个因子,并且一些字根和组件也是有效的字符。如图所示 图4,很难将正确的组件分组以形成正确的字符模式,其中一些字符相当宽而另一些字符教窄。为了解决分组问题,除了几何和相似性信息之外,还需要语言信息(或地址只是)。这个问题将在第三节中详细讨论。
2.4整合语言信息
手写汉字OCR的主要商业用途是阅读申请表中的姓名和地址。在这样的应用中,为了避免分割问题,表单具有单独的预打印固定框,但是如何实现高度准确的词/词识别仍然是个问题。
我们可以利用先验语言学只是从候选格中选择正确的选项,以准确识别单词和短语。在这里,格子是一个表格,其中每列载有候选类别,并且每行对应于表格上的字符。如果一个字符串由N个汉字字符组成并且每个字符都有K个候选字符,则有K个可能的解释(或字识别结果)。语言处理包括选择许多可能的解释之一,为此,我们开发了一种基于有限状态自动机的方法作为关键技术。其基本思想是将L个词汇项放在自动机上,兵查看自动机接收哪些项,自动机的模型是从网格动态生成的。L通常是数以万计的书胡子,但只有一个字符出现在格的第一列的术语才被接收。为了提高准确性,我们可以考虑第二个字符出现在格子第二列的术语。这些项被诸葛输入到自动机中,状态转换决定了一个路径(一系列边)。然后相应的处罚总结并与输入项相关联。传递第一个边的惩罚为零,传递最后一个的惩罚在K时候得到。这样惩罚最小的一个词被确定为之别的单词。每个觉得的候选人数被自适应地控制为等于或小于K,以排除极不可能的单词候选。该算法已成功用于地址短语,前提是字符可靠地分段。Marukawa等人的实验表明,对于具有10828个术语的词典,字符识别准确度从9
全文共5900字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[13882],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。