文字识别的爆发性发展外文翻译资料
2022-09-16 10:19:02
英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料
文字识别的爆发性发展
光学字符识别技术的研究进展是应用于文档处理的基础,主要被微处理器和光学传感器阵列的技术进步所驱动。基于算法创新发展的软件开发似乎达到高峰。研究成果,分散在十几个方面,往往落后于商业方法。一些早期的主要应用,如阅读文件,专利和法律书籍,已经过时。支票、邮政地址,综合处理是在他们的出路。开源软件可以有利于基应用,但这并没有为商业开发商带来足够的收入,包括资金不足的历史文献(尤其是家谱)。智能手机摄像头和可穿戴技术正在进行中,创造新的基于图像的应用程序,使技术的广泛采用。作为文件内容集成到一个基于Web的连续数据,它可能会失去不少。持续性需要创建、保存和传达信息,引起完全新的类型的数字文件,同时需要新的方法文字识别。
- 简介
许多世纪以来,信件、书籍、地图、图画和乐谱为保存和传播思想和事实提供了服务。文件,包括书面或印刷的符号是在时间和空间上的主要手段。基本符号系统进行间接沟通是人类期待的最高成就。字母、音节表和标志图表示语言。专门的符号产生于音乐,国际象棋,电路,建筑和工程设计中,文字激增催生了最成功的模式识别和机器学习的应用。但面向网络的信息迁移,引发了令人不安的问题——关于电子时代文件的作用。OCR是专业的工程图纸、音乐、地图文档图像处理应用程序和数学公式。一个典型的虚拟电话公司画有约3000
单词和数字(包括修订通知)。乐谱也包含数字和强弱音指示。一张没有地名和海拔的地图
用途非常有限。公式和方程有数字,字母,字母的字符串,和数学符号。商业OCR系统,多为调整文本段落长度的片段,片段上的字母数字这类的典型应用。当开源定制出现,它提供了定制专门的应用,给予了重量级开发商一个机会。同时,含有文本和艺术线条多样的混合文档的转换产生了不同的子学科与自己的会议和研讨会,目标图形技术和复杂的符号和矢量化。
商业OCR的许多关键部件都埋下伏笔几十年前的学术研究。因为我们都知道要阅读,样品中的独立字符已经常被研究人员测试和演示新算法。特征提取和分类成为模式识别和机器学习的一部分,但自适应半监督理论尚未被集成到商业OCR。然而,大多数的OCR应用程序需要许多任务除了性格分类。远远超过其部分的总和,一个完整的OCR系统必须具备语言和文字识别,彩色打印处理,纵列段落和线路布局的分析,准确的字词和标点符号,数字,表格分析,充分识别语言模型,文档的一致性、可定制性和适应性,图形子系统有效地嵌入互动,误差校正,和多种输出格式。此外,专门的邮政地址读,检查,诉讼,和官僚形式的系统,也需要高吞吐量和不同的错误的拒绝取舍。
手写体字符识别是自由的无约束性的字符框,或“梳理”文字(对扫描仪的隐形),避免了单独从字符笔画到打印盒。准确度取决于处理器的数据库的取像,流畅性,并在上下文校正的程度。人类和机器可读性取决于打印机的显著性:纳税申报要求退款可能要比失业更清晰的报告。立即反馈在线识别上有主要优势,是一种激励,人类比机器更容易适应。如今,很少有人传达重要的信息通过手写,除了可能对自己(如笔记或日记)。像中国这样的国家是一个例外,那里的人以书写书法为骄傲。
剩下的主要应用于手写文字识别,在1900年打印机发明之前的文字摘录。到目前为止,只有实验系统已经浮出水面,为此,必要的扫描和交互式修正需要多天(历史文件,通常由无偿的志愿者提供)。
1.1文章的范围
本文重点是打破当前存在局限,如何将纸上的文字信息转换成电脑可以识别的信息,电子产品的剧增,在某种意义上,文字识别急需实体化。文档处理的图像处理方面包括硬拷贝文档扫描成数字图像,并将图像转化为符号来表示,它反映了信息的内容和外观(术语数字化可能包含OCR,除了扫描)。这两个步骤共享许多方面和其他图像处理应用程序,但读者必须从别处寻找对应的特殊性识别如印章,印章和签名识别,文本和图像压缩,网络安全(加密水印,隐写术,验证码),场景OCR,车牌读者,和许多其他相关的和有价值的话题。在线字符识别中,越来越重要的技术和其他文本数据库出现在某些应用程序中,这已超出了我们的目标。
其余的引入提供了一个简短文档图像处理和行业的培育的历史。我们后面部分的分类应用程序审查是如此成功,以至于他们为提高自己的工作而工作,这些仍然是现今主流,但其中一部分依旧等待在拐角处。
第二部分描述了专用型应用如邮政地址阅读,这些通常由大型组织所运用。分散的应用程序,如工程图、地图、数学符号和乐谱转换,具有较小适用性范围,和某些不集中管理的组织的邮政服务,票据交换所,第三节中讨论到专利局,对优美书法的识别。第四节概述了相关的信息检索和文档管理应用程序。它搜索转录书,技术期刊,杂志和报纸。它还提供建议寻找更进一步的信息和会议论文集,技术期刊和专著,使得结果更进一步。
1.2历史
上半年的20世纪许多发明家的研究方向偏向于为盲人设计的阅读机器和自动电报的输入。一些错误的开始后,OCR在1950年的成为商业企业竞争。大卫·谢泼德智能机器有限公司成立。雅各Rabinow第一个邮政的读者设计的。随后在功能设计、分类、特点、布局分析和建模语言快速进展。十年后,有超过50个OCR制造商仅在美国。他们的产品包括扫描设备和电路的逻辑认识,mono-spaced OCR字体识别速度每秒几千字。这些系统取代几十个密钥输入操作符。
随着微处理器和廉价的光学扫描仪,传真机器的发明,OCR的价格从数万,数十万美元降到一瓶葡萄酒的价格。软件取代了架构的电子产品。光学字符识别用户协会(OCRUA)举行了欢迎会议和发表了信息通讯。到1985年,任何人都可以计划在个人电脑和测试他们的想法,然后写一篇论文(甚至专利)。低端OCR成为了打印机的赠品。
拥有足够的内存来存储整个页面图像,使文字识别阅读hard-to-segment排版文本成为可能的。语言模型的价值逐渐变得清晰。当编码方法(如拉丁文字的ASCII)成为可用于其他语言,OCR多语种。这引发了一场对所有过去的文物的运动。古代到现代有大部分的材料仍在等待转换,可以用于延伸人类阅读的限制,因为纸张和油墨的退化,同时使得古老的语法,词汇和字形也在退化。像人类一样,OCR必须充分利用语法,风格,背景,和语义来解决类似的字符图像像l和1。OCR出错率逐渐下降,但它有助于打印页面。也许更重要的当代发展是输出的详细标记。字母和图形文档组件都是组合的,他将句法特征写入了里面(应用程序)。
然而,向公众提供关于当前商业内部方法和实验结果都属于小信息。竞争性行业稀缺使得他们动机发布专利可能只是为了法律。赫伯特对OCR的注意力的是历史一个例外: REI (orig-inally识别设备公司),这是一个主要的OCR 1960年代和1970年代的成功故事。他还告诉前面的五十年的浪漫故事是可以实现机械化阅读。其他制造商,IBM可能独自站在发布详细的(虽然经常延迟)许多OCR产品信息。
1.3产品
今天几工业级OCR引擎主导美国市场:FineReader Abbyy,来自莫斯科,OmniPage(源自于:Palantir clara CAERE,现在的细微差别),Readiris(Iris)和开源超正方体和OCR opus(origi-nally惠普ReadRight,谷歌现在赞助和推广)。上面只是许多商业和开源软件提供商将的引擎之一,尽管一些老产品仍然是可用的。早期的供应商,如丽、IBM、控制数据,巴勒斯,NCR,库兹韦尔,施乐,ScanSoft,Recognita,不再在这个行业。然而,多数大型汉语、日语、韩语和阿拉伯语OCR提供者包括英文子系统都在他们的产品之中。
印刷体和手写识别软件往往是独立的应用程序也容易出错。产生可接受的输出,上下文信息和操作员界面调整嵌入识别是软件的目的。Parascript和A2ia为邮政、行政文档提供手印和手写识别脚本。它拥有有数百万中国人和日本人的手写字符全集,所以有非常低错误率。
领先技术所提供软件文档格式转换、压缩、表单处理,内部邮件处理和其他文档管理应用程序相互有着细微差别。Adobe软件允许覆盖一层搜索(OCR会),但无形的纠正页面图像。许多供应商提供包转换non-searchable(图片)PDF文件搜索PDF或文字处理formats-essentially OCR的任务。大多数计算机打印机制造商也市场光学扫描仪。尽管任何桌面扫描仪或多功能打印机可以数字化印刷页面,一些专门的文档扫描仪在2.1节描述。
行业的另一个部分由服务部门配备高速、大尺寸,缩微胶片和书扫描仪,来自多个供应商的文档处理软件,keyentry运营商,校对和编辑副本。我们现在的工作是面临激烈竞争的低工资海外运营商在互联网上提供的服务。
1.4消失和新兴应用程序
一些早期的大型应用程序,比如美国专利的转换(700万,2006),数千卷的法令的联邦、州和地方立法机构和法院,已经消失在搜索版本(主要是由关键条目)。需要识别类型和打字机的消失,但OCR字体和条形码识别仍然使用。减少应用包括从税收中提取相关信息返回所有公司和大多数人现在电子文件
技术的进步使得基于成像光学字符识别。当前智能手机相机有足够的分辨率整页的文字。国内应用包括捕捉财务记录(银行支票、发票),即时语言翻译,text-to-voice,购物决策支持系统,现场OCR(如商店和高速公路标志)。
历史文档处理是解决老和退化的文档,其中一些是由非专业人员不可读的。仍然处于实验研究阶段的自动转换是老手写的普查,军队和法律记录、个人日记和信件。国家档案馆与记录管理局已编译的广泛的军事记录和维护联邦注册。极大的国会记录数字化(1983)和网上发布。家谱的兴趣培养投入大量资源的捕获和分析人口普查记录和出生,结婚和死亡证书。家庭搜索项目耶稣基督末世圣徒教会的部署团队在整个世界数字化等材料(以及家庭和地区历史书),成千上万的志愿者记录搜索表单,赞助商讲习班和研究自动化底层任务。美国以外的一些最古老的记录感兴趣的主要是为一些社区附近的文化遗产和书法。
2 大型专用应用程序
这里大部分的描述文档处理任务是一些重要的正在进行的活动应用,他们回答之前OCR-font打字手动执行通过机,用打孔机打孔或专门的数据输入终端。
2.1邮政地址
最大最古老(自1966年) 的应用是邮政地址阅读。这里的布局分析问题是发送方地址和目的地址与背景分开(通常是广告)邮资,等通知保密。阅读我们的目的地地址是得益于频繁更新目录的所有有效的邮件地址,逐步延长邮政编码为每个州,城市,甚至——大型建筑物。一些国家,比如日本,拥有先进的邮政读者,尽管他们地址系统十分深奥。一些国家需要制定邮政编码盒子。
邮件传入和传出分别处理:第一个是按送货路线,第二个是根据下一个配送中心。印刷和手写的地址读取出错率分别约为0.5%,和2%的误差。难辨认的电子传输到远程图像编码中心的缺失或不正确的部分用很少的按键编码。条形码完成地址添加到信封加快业务连续排序。美国邮政量高点下跌逾25%。此外,越来越多的邮件编码从源头上减少邮资和交货速度,从而消除OCR的必要性。推荐的人数从几十个减少到一个。
2.2银行支票
另一个大的和专门的应用程序是恢复数据检查。发卡银行路由号码和帐号与磁性墨水字符识别读取(显微镜),引入以来,几乎没有改变的斯坦福研究院在1950年代。数字由数量比手写的法律数量和分歧是手动更正。手写的检查与花哨的背景和印数量字段自动安全尤其难以阅读。
使用高速扫描仪检查银行立刻集中操作。自2003年通过检查21法案开启了检查截断(图片演示),低速设备已经成为可供检查出纳窗口和零售商的捕捉。一些银行提供免费检查读者小企业为远程条目。银行支票,在2001年在美国,正在迅速取代了电子支付。一些国家已经完全淘汰纸张支票。
2.3学术期刊、报纸、档案记录,和文化遗产
档案文件的许多技术期刊,杂志,和更大的报纸已经转换为电子格式。最喜欢数字化图书,是可搜索的尽管未修正的OCR错误。一些,尤其是最初只保留在缩微胶片,太OCR的退化。这些文档图像文件转换历史文档处理的范畴。IEEE出版物的数字化最早的问题(包括成千上万的研讨会和会议论文集)仍在进步。更大的事业的转换是持有国家图书馆医学世界最大的医学图书馆。当前的努力是旨在门面富勒表示技术论文和报告通过添加自动提取目录元数据,连接与叙事的插图,逆向工程图和表,解析和链接引用和引用。标记文档的元素是重要的对于一个特定的应用程序有时被称为文档的理解。例如,一个适当的标记线路图可以直接进入到一个电路模拟器。
找到所需的元数据文档在指定的都柏林核心元数据倡议(DCMI)是属于国际标准组织(ISO)。文本编码倡议(TEI)财团的1664页TEI-P5指南电子文本编码和交换通过可扩展标记语言(XML)促进一致性和详细的内部元素的标记文档的一致性。尽管TEIalso分发开源软件协助和验证XML标签,完全自动化的标准是许多年了。
编码技术的一篇文章需要的位置和识别标题、副标题,运行,页码,日期、作者、从属关系,引用,引用,图/表标题和字幕,脚注和脚注引用,和其他许多物品。然而,我们注意到,一篇文章或报告似乎为当代OCR软件提供了便利,因为原始网页布局、字体大小和类型的捕获近似相同呈现。这是完全适合人类阅读和关键词搜索的流行,复杂的查询数据使得数字图书馆需要更详细的编码。
文化数字化项目的例子包括国家档案馆与记录管理局的记录。奈良已经有超过二百万年的数字化副本记录。一些处理和发布的档案合作伙伴FamilySearch(开放),祖先和Fold3(通过订阅)。其他文档解释包括550万数字化文档测试床抓住了1980年代库尔德人起义,19世纪法国军事记录,和集合的数字化古代手稿在国家图书馆和博物馆(一些石、纸莎草、羊皮纸、丝绸、或棕榈叶)。法国国立图书馆的Gallica数字图书馆(BnF)提供免费下载数以百万计的罕见和绝版的文档。
2.4 书
很少有
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[148698],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。