基于深度学习的自动销售收据的理解外文翻译资料

 2022-08-09 16:17:02

英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料


HAL

Archives-ouvertes.fr

基于深度学习的自动销售收据的理解

Rizlegrave;ne Raoui-Outach, Ceacute;cile Million-Rousseau, Alexandre Benoit, Patrick

Lamb

引言:

Rizlegrave;ne Raoui-Outach, Ceacute;cile Million-Rousseau, Alexandre Benoit, Patrick Lambert.基于深度学习的自动销售收据的理解。国际图像处理理论会议,工具和应用软件,2017年11月,加拿大的蒙特利尔。hal-01654191

HAL Id: hal-01654191

https://hal.archives-ouvertes.fr/hal-01654191

递交于2017年12月3日

HAL是一个多学科的用于存放和传播科学研究文件的开放存取档案,无论它们是否出版。这些文件可能来自法国或国外的教学和研究机构,也可能来自公共或私人研究中心。这些文件可能来自在法国或者国外的教学或者研究机构,或者来自公共或私人的研究中心。

基于深度学习的自动销售收据的理解

Rizlene Raoui-Outach1 , Cecile Million-Rousseau1 ,Alexandre Benoit2 and Patrick Lambert2

1 AboutGoods Company Annecy France

电子邮件: {rizlene.raoui, cmr}@aboutgoods.net

2 Univ. Savoie Mont Blanc, LISTIC, F-74000 Annecy, France

电子邮件: {alexandre.benoit, patrick.lambert}@univ-smb.fr

摘要——一般来说,数据分析对于公司来说是强制性的。扫描文件分析带来了纸张损坏和扫描质量带来的额外挑战。在工业方面,这项工作的重点是自动了解销售收入,使人们能够获得基本和准确的消费统计数字。基于智能手机获取的图像,本文的工作主要集中于整个工具链的第一步,旨在提供商店品牌、购买的产品和相关价格等关键信息。为了得到这样高的置信度,即使扫描没有得到很好的控制,我们也提出了一个双重检查处理工具链,一方面使用深度卷积神经网络(DCNNs),另一方面使用更经典的图像和文本处理。本作品的独创性就体现在这一双重检验过程中并在联合使用DCNNs进行不同的应用和文本分析。

关键词——接收图像理解,深入卷积神经网络,目标检测,语义分析

  1. 介绍

在大规模分销领域,消费者行为的知识是许多公司寻找的关键数据。事实上,这些信息提供了准确的消费统计,因此具有很高的附加值。这些统计数据是不同研究的重要输入,目的是制定有效的销售策略。目前,这些数据是通过招募消费者作为小组成员来手动获取的,他们被要求扫描购买的产品并填写表格。这种解决办法是昂贵的,因此不能适用于人口众多的国家,从而限制了其统计价值和重要性。阅读销售收据对于特定的情况也很有意义,比如折扣券授予验证。因此,自动理解销售收入是非常具有挑战性的。首先,从这样的文件中检索信息并不容易,因为收据在被扫描之前经常被损坏,而且文本内容包含一个非标准化的术语。这项工作是由一个大学研究实验室(LISTIC)和AboutGoods启动合作开发的。该公司专门研究消费者和分销商之间的关系,研究移动和互联网解决方案,以改善所有利益相关者之间的沟通。AboutGoods开发了一款免费的移动应用程序,可以让任何消费者拍摄并发送收据的照片,这既是为了降低成本,也是为了扩大小组成员社区。然后,一个在线框架对接收图像进行解码并执行数据分析。其目的是帮助消费者管理他们的预算。这样的图像分析问题并不简单,不能通过单一的OCR(光学字符识别)步骤来解决。事实上,消费者收据的使用寿命在使用智能手机之前,会受到诸如揉皱、撕裂等物理损伤的严重影响。此外,与每个提取信息的可靠性相关的强行业约束被施加。然后,每条信息必须通过相互竞争的算法进行提取,这些算法的结果被合并,以最大限度地提高可靠性,并有利于进行假检测,而不是不进行检测,因为我们的行业约束不允许遗漏任何收据。其结果是一个多步骤的处理链,如图1所示。

论文的其余部分组成如下。在第二节,我们介绍相关工作。第三节提供了我们的分析方法。

性能分析载于第四部分,我们结束于第五部分。

  1. 相关工作

只有很少的作品处理销售收据分析从图片获得的智能手机。典型的方法依赖于可靠的图像获取,如[1],它有助于字符识别。因此,以下的技术状态将依赖于三个主要步骤,不是专门的,但必要的收据分析,我。e对象检测、字符识别和语义分析,特别强调了对象检测这一核心工作。

  1. 目标检测

在我们的应用程序中,对象可以是票据、文本块或徽标。在文献中,有很多关于这类物体检测的著作。

第一组传统的工作依赖于局部特征检测、描述和使用工程特征(如SIFT或HOG)的匹配方法。Augereau amp; al[2]提出了一种将身份证或票据等半结构化文档本地化的解决方案。但在以文本为主的文档图像中,重复的字符模式干扰了兴趣点匹配。因此,他们通过引入一个相关的关键点选择方法和一个针对字符冗余的RANSAC算法的具体实现来改进这个方法。但该方法不能满足噪声图像高可信信息提取的约束条件。一组作品也使用经典方法,通过应用区域检测和分类[3]来定位图像中的文本区域。这些方法主要用于复杂的自然场景分析,对于我们的问题来说太复杂了。工程特征也广泛用于标识检测,如在[4]中,并被证明是有效的。然而,商店标识中频繁出现的字符再次导致这些方法在许多情况下失败。

国家技术最近强调了基于深度学习(DL)的第二类方法,它在图像[5]、[6]中的许多对象检测任务上都优于前面的所有方法。然而,启用的因素是大型带注释数据集的可用性,以便优化大量的参数。然后,一个经典的解决方案是对预先训练好的网络进行微调,如[7]中所解释的那样。我们的工作依赖于这种解决方案,因为它可以实现更高的置信水平。

在文本块检测方面,基于DL的方法显示了很有前途的结果,比如[8],它依赖于一个多任务网络,允许在非控制的场景中发现和识别单词。在[9]中,作者提出了一种基于卷积神经网络和多维长短时记忆单元的文本行定位方法。相反,我们在特定区域或文本块中处理文本,因为它们呈现不同的语义内容(标题、产品列表、价格hellip;hellip;)。

在logo检测方面,最近的一些工作已经使用DL来处理logo的本地化和分类。例如,在[10]中,该方法首先使用无监督分割算法选择候选子窗口,然后使用经过预处理的卷积神经网络(AlexNet[5])计算出的特征,对这些候选区域进行基于svm的分类。[11]还使用了预先训练的深层网络来检测徽标。得到的结果很有趣,我们也考虑了这种方法,但是,由于标识有时只是字符,所以检测必须联合使用字符识别。

  1. OCR

光学字符识别(OCR)是一个非常活跃的领域很多年了。更具体地说,许多处理打印字符识别的应用程序已经达到了良好的性能水平。Tesseract [12], ABBYY FineReader1被广泛使用。在我们的具体应用中,它们并没有达到完美的文本识别。最近,谷歌Vision API2被证明是最有效的OCR之一,但它仍然是一个黑盒,不能确保所有的文本都被识别。然而,我们把这作为最好的妥协。此外,由于本文的重点涉及处理链的第一步,所以我们不需要进一步深入OCR主题的细节并将其作为黑盒工具使用。

  1. 语义分析

高水平互补分析可以改善OCR结果。利用字符识别的可信度,使用字典等是这种方法的经典解决方案。在处理特定领域时,更高级的步骤是构建和使用特定的本体[13]。本体论方法对于理解领域概念,特别是产品概念是至关重要的。对于OCR,这个话题超出了本文的范围,我们将其作为一个工具来确定处理链。

  1. 提出的方法
  2. 全局描述

全局工具链如图1所示。第一个重要的阶段是预处理,它由以下几个步骤组成:收据检测(图像中是否有收据?),收据定位和裁剪,商店品牌标识的检测和分类,最后是文本块的检测。这些步骤是本文的核心,对于后续的高级处理是必需的。收据检测是必要的,因为用户并不总是遵守规则,上传模糊的图像到服务器,自拍等,必须检测,不要欺骗我们的系统。然后,一个收据必须本地化和裁剪,以消除背景,可视为嘈杂的信息。下一步是店铺品牌logo的定位和分类。事实上,了解商店的品牌可以让你事先了解到销售收据的结构和组织结构,从而促进进一步的处理。最后一个预处理步骤是文本块分割,以分离标题、产品列表、价格等。这一步可以精确地修正内容解释和OCR错误。例如,价格表中的I00可能是100。

完成预处理阶段后,每个文本块提交给OCR。最后,语义文本分析允许我们提取基本信息。基于本体论[13]的语义文本分析能够自动地将简短的产品标签解释为完整而独特的产品标签,这是一个困难的任务,因为没有标准的名称。这些最后的步骤将不会更详细,因为这篇论文的重点是预处理。

  1. 使用的DCNNs概述

在接收预处理中,深度卷积神经网络(Deep Convolutionnal Neural Networks, DCNNs)被用于不同的步骤,分为两类:第一类用于分类,第二类用于语义分割。然而,这两个网络的第一层依赖于相同的架构和学习的权重。只有最后一层专门用于它们的特定任务(转移学习)。

分类网络(C DCNN)

分类是DCNNs执行的一项常见任务。然而,这个任务通常需要一个使用大量带注释数据的培训阶段。这种先决条件在我们的环境中是无法实现的。因此,我们采用了在类似情况下具有良好性能水平的预先训练过的网络。我们测试了两个著名的深度学习网络,AlexNet[5]和GoogLeNet[6],它们预先针对ImageNet 2012数据集[14]的1000类问题进行了训练。将这两个网络进行传输后,在数据集和相关任务上的实验表明,AlexNet和GoogLeNet具有很好的性能。但GoogLeNet涉及的参数要少得多。在这里,转移包括在我们的数据集上只训练最后一层,之前用随机的权值和与我们的应用程序的类数相对应的神经元数量替换了1000个神经元的最后一层。

语义分割网络(SS DCNN *)

在我们的上下文中,这允许将收据及其存储符号本地化。该分割网络是将上述分类网络转化为全卷积网络后得到的。这样,在整个图像上应用一个固定大小的滑动窗口,其步长与网络视场相对应。结果是一组亚采样图像(每个目标类一个),每个图像是属于一个目标类的概率热点图。亚采样的图像分辨率与我们的最终目标保持一致。为此,考虑到GoogLeNet体系结构,将最后一个全连接层(输入大小为N*1024*1*1, N是输出的数量)转换为一个具有N个大小为1024*1*1的内核的卷积层。

  1. 收据还是没有收据?

第一个预处理步骤是自动判断图像中是否有销售收据。从图1可以看出,在第一步,为了避免误报,保证自动处理的可靠性,我们考虑了两种不同的方法。

接收检测的文本分析

在这个层次上,由于背景提供的噪声信息,OCR不能很好地工作。然而,即使是一个粗略的结果也足以验证图像中是否存在收据。从技术上讲,如果OCR提供的文本包含至少一条产品线,则会检测到收据。产品线是一个字符序列对应于一个特定的字符串格式:一组典型的字母、数字、空格和标点符号在第一部分,紧随其后的是字符串结尾的空间和尊重价格格式(数字可能用逗号或一个点和可能的货币符号)(例如:砖LP 0.79)。此检测是通过使用正则表达式形式来执行的。

用于接收检测的深度学习分析

一旦网络处理了一幅图像,生成的热图就包含在灰度图像中,其中像素强度越高,该像素对应于接收的概率就越大。通过对500张带注释的图像进行测试,该灰度图像的阈值(全比例尺的70%)已被实验定义。这个值满足没有错过的收据约束。因此,如果阈值图像具有至少25%的正(白色)像素,则将输入图像视为包含收据。这个实验阈值是自愿降低的,以确保我们的探测器考虑到占用图像一个小表面的非常长的收据。实验表明,无接收图像的正象元率不超过10%。再一次,这满足了我们的没有错过的收据约束。

文本和图像结果的融合

为了在提高检测置信度的同时进一步减小漏检率,将基于文本和图像分析的两种相互竞争和互补的方法用逻辑OR算子进行融合。

  1. 接受定位和裁剪

一旦所有的“没有收据的图像”被过滤掉,剩下的收据边界框区域必须被裁剪
(见图1,步骤2),然后继续下一步。

首先,由“SS DCNN A”提供的热图在前面的步骤中使用,可以得到一个粗略的和广泛的本地化的收据,并使第一次广泛的作物。更详细地说,上一节中描述的70%热图阈值在这里被重新使用,以确定要进行裁剪的接收区域。最终收获的作物总是比收获的作物更宽,因此采用如图2 (c)所示的改良种植。

改进的裁剪方法包括使用在[15]中提出的专门设计的轮廓检测

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[238930],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。