英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
通过连接文字段来检测自然图片中多方向的文本
石葆光 白翔 Serge Belongie
华中科技大学 计算机科学系
摘要
大多数最先进的文本检测方法都是针对水平拉丁文本的,对于实时应用来说速度不够快。我们介绍段链接(SegLink),一种面向的文本检测方法。其主要思想是将文本分解成两个局部可检测的元素,即片段和链接。段是一个有方向的方框,它覆盖单词或文本行的一部分;链接连接两个相邻的段,表示它们属于同一单词或文本行。通过端到端训练的全卷积神经网络,可以在多个尺度上密集地检测这两个元素。最终的检测是通过连接的线段组合来实现的。与以前的方法相比,SegLink在准确性、速度和易用性方面都有了提高。在标准ICDAR 2015偶然(挑战4)基准上,它达到了75.0%的f测度,远远超过了之前最好的。它运行在20帧以上的512times;512图像。此外,无需修改,SegLink可以检测非拉丁文本的长行,比如中文。
介绍
在自然图像中读取文本是一个具有挑战性的课题。它由许多实际的应用程序驱动,如Photo OCR[2]、geo-location和图像检索[9]。在文本读取系统中,文本检测通常是非常重要的第一步,即用文本框或文本行对文本进行定位。从某种意义上说,文本检测可以看作是应用于文本的对象检测,其中以单词/字符/文本行作为检测目标。因此,最近出现了一种新的趋势,即最先进的文本检测方法[9,6,22,30]在很大程度上是基于先进的通用对象检测或分割技术,如[4,5,15]。
尽管以前的工作取得了巨大的成功,我们认为一般的检测方法并不适合对于文本检测,主要有两个原因。首先,单词/文本行包围框的长宽比比一般对象的长宽比大得多。(fast/faster) R-CNN[5,4,19]或SSD[14]型探测器可能由于其方案或锚盒设计而难以生产此类盒。此外,一些非拉丁文本在单词之间没有空格,因此边界框的长宽比更大,这使问题变得更糟。其次,与一般对象不同,文本通常有一个明确的方向定义[25]。对于文本检测器来说,产生有方向的方框是很重要的。然而,大多数通用的对象检测方法并不是为产生面向对象的盒子而设计的。
为了克服上述挑战,我们从一个新的角度来处理文本检测问题。我们建议将长文本分解成两个较小的、在本地可检测的元素,即片段和链接。如图1所示,段是一个有方向的盒子,它覆盖了单词的一部分(为了清晰起见,我们在这里和后面使用“单词”,但是片段也可以无缝地在包含多个单词的文本行上工作);一个链接连接一对相邻的片段,表明它们属于同一个单词。在上面的定义中,一个单词是由若干段和它们之间的链接来定位的。在检测过程中,使用卷积神经网络在输入图像上密集地检测片段和链路。然后,根据链接将片段组合成完整的单词。
这种方法的主要优点是现在可以在局部检测长文本,因为两个基本元素都是局部检测的:检测一个片段不需要观察整个单词。由于两个段之间的连接可以从本地上下文中推断出来,所以链接也是如此。在此基础上,我们可以灵活、高效地检测任意长度和方向的文本。
具体地,我们提出了一个卷积神经网络(CNN)模型,该模型以全卷积的方式同时检测片段和链接。该网络使用VGG-16[21]作为主干。添加了一些额外的功能层。6个特征层中增加了卷积预测器来检测不同尺度的片段和链接。为了处理冗余检测,我们引入了两类链路,即层内链路和层间链路。层内链接将一个段与它在同一层上的邻居连接起来。另一方面,跨层链接将一个段与它的下层邻居连接起来。通过这种方式,我们将相邻位置的线段以及比例尺连接起来。最后,我们利用深度优先搜索(DFS)算法找到连接段,并将它们合并成完整的单词。
我们的主要贡献是提出了新颖的片段连接检测方法。通过实验,我们发现该方法与其他先进的方法相比具有几个独特的优点:1)鲁棒性:SegLink以简单优雅的方式对面向文本的结构进行建模,具有对复杂背景的鲁棒性。我们的方法在标准数据集上获得了极具竞争力的结果。特别是在ICDAR 2015偶然(挑战4)基准[12]的f测度 (75.0%相对于64.8%)上,大大超过了之前的最佳水平;2)效率:SegLink采用单路全卷积设计,效率极高。每秒处理超过20张大小为512x512的图像;3)通用性:无需修改,SegLink可以检测非拉丁文本的长行,例如中文。我们在一个多语言数据集上演示了这种功能。
- (b) (c) (d) (e) (f)
图1. SegLink概述。上面一行显示了一个图像,其中有两个不同大小和方向的单词。(a)图像上检测到线段(黄色方框)。(b)连接(绿线)是在相邻节段对之间检测到的。(c)由链接连接的片段组合成完整的单词。(d-f) SegLink可以检测拉丁文本和非拉丁文本(如中文)的长行。
图2.网络体系结构。该网络由卷积特征层(以灰色块表示)和卷积预测器(细灰色箭头)组成。卷积滤波器的格式是“(#滤波器),k(内核大小)s(跨步)”。一个多行过滤器规范意味着一个隐藏层之间。段(黄色框)和链接(未显示)由多个特征层上的卷积预测器检测(按 = 1...6索引)并通过组合算法组合成完整的单词。
2.相关工作
文本检测在过去的几年里,人们对文本检测问题进行了大量的研究[24、23、17、17、25、7、8、30、29、2、9、6、22、26]。基于基本的检测目标,将以往的检测方法大致分为三类:基于字符的检测方法、基于单词的检测方法和基于行的检测方法。基于字符的方法[17,23,24,10,7,8]检测单个字符并将它们分组成单词。这些方法通过对区域提取算法或滑动窗口提取的候选区域进行分类来寻找特征。这种方法通常涉及到将字符分组成单词的后处理步骤。基于单词的方法[9,6]直接检测单词边界框。它们通常与最近基于CNN的通用对象检测网络有类似的管道。这些方法虽然具有很高的检测精度,但也存在一定的性能下降,当应用到一些非拉丁文本,如中文,如我们前面提到的。基于行的方法[29,30,26]使用一些图像分割算法寻找文本区域。它们还需要复杂的字分区和/或假阳性删除的后处理步骤。与以前的方法相比,我们的方法在单正向网络中联合预测段和链路。管道更加简单和干净。此外,该网络是端到端可训练的。
我们的方法在本质上类似于最近的工作[22],它检测文本行,通过一个CNN和递归神经层发现并分组一个细尺度的文本建议序列。相比之下,我们只使用卷积层来检测有方向的线段,从而获得更好的灵活性和更快的速度。同时,我们使用同样强大的CNN特征来检测片段中的链接,提高了鲁棒性。
对象检测 文本检测可以看作是一般对象检测的一个特殊实例,是计算机视觉中的一个基本问题。大多数最先进的探测系统要么使用CNN对一些类无关的对象建议进行分类[5,4,19],要么直接从一组预置的对象框(如锚框)中返回对象边界框[18,14]。
我们的网络架构继承了最新的对象检测模型SSD[14]的架构。SSD提出了利用卷积预测器在多特征层上检测目标的思想。我们的模型也以非常相似的方式检测片段和链接。尽管模型相似,我们的检测策略却截然不同:SSD直接输出对象边界框。另一方面,我们采用自底向上的方法,检测一个单词或文本行的两个组成元素,并将它们组合在一起。
3.段连接
我们的方法检测文本与前馈CNN模型。给定大小为times;的输入图像I,模型输出固定数量的片段和链接,然后根据这些片段和链接的置信度分数进行过滤,并将其合并到整个词边界框中。 一个边界框是一个旋转的矩形用b = ( ,, , ,)表示, ,表示中心的坐标, ,表示宽度和高度 ,表示旋转角度。
3.1. CNN模型
网络结构如图2所示。我们的网络使用一个预先训练好的VGG-16网络[21]作为骨干(conv1通过pool5)。在[14]之后,将VGG-16的全连通层转换为卷积层(fc6转换为conv6;fc7 转换为conv7)。接下来是几个额外的卷积层(conv8_1到conv11),它们甚至可以提取较深的特征层和较大的接受域。它们的配置如图2所示。
在6个特征层上检测到了段和链接,分别是conv4_3, conv7, conv8_2, conv9_2, conv10_2,和conv11。这些特性层提供不同粒度的高质量深层特性(conv4_3最细,conv11最粗)。6层中每层加入3times;3个核的卷积预测器来检测段和链路。我们对特征层和预测器建立索引
段检测 片段也面向盒子,用s = ( ,, , ,)表示。我们通过估计输入图像上一组默认框[14]的置信度分数和几何偏移量来检测片段。每个默认框都与一个特征图位置相关联,它的得分和偏移量由该位置的功能来预测。为简单起见,我们只将一个默认框与一个特征图位置关联。
以特征图大小为times;的第个特征层为例,该图上的一个位置(x, y)对应图像上以( ,)为中心的默认框,其中
; (1)
默认框的宽度和高度都设置为常数
卷积预测器产生7个通道进行段检测。其中2个通道进一步进行函数归一化,得到(0,1)中的段分数,其余5个通道为几何偏移量。考虑位置(x, y)在地图上,我们表示的向量在这个位置沿深度(∆,∆,∆,∆,∆)。然后,计算该位置的线段为:
∆ ∆ (2)
∆ ∆ (3)
exp(∆) (4)
exp(∆) (5)
∆ (6)
在这里,常量控制输出段的规模。应根据l-th层的感受域大小来选择。我们使用一个实验上的方程选择这个尺寸:=gamma;,gamma;= 1.5。
层内链接检测 一个链接连接一对相邻的段,表示它们属于同一词。在这里,相邻段是在相邻的特征图位置上检测到的。链接不仅对于将片段组合成完整的单词是必要的,而且对于分隔两个相邻的单词也是有帮助的——在两个相邻的单词之间,链接应该被预测为负的。
我们显式检测环节之间的链接使用相同的功能检测环节。由于我们在一个特征图位置上只检测到一个段,所以段可以根据其图中坐标 (x,y)建立索引,层索引l用s(x,y,)表示。如图3所示。a,我们将一个段的层内邻居定义为它在同一特征层上的8个连通邻居:
={} (7)
在局部段检测时,输入图像上的一对相邻段也是相邻的。链接也会被卷积预测器检测到。一个预测器为连接到8个相邻段的链接输出16个通道。每2个频道进行软最大值标准化,以获得一个链接的得分。
跨层链路检测 在我们的网络中,跨层链路检测在不同的特征层上以不同的尺度检测线段。每一层处理一个范围的规模。我们使这些范围重叠,以不遗漏其边缘的刻度。但结果是,同一单词的片段可以同时在多个层上检测到,从而产生冗余。
为了解决这个问题,我们进一步提出了另一种类型的链接,称为跨层链接。跨层链接将两个特征层上的片段与相邻的索引连接起来。例如,在conv4 3和conv7之间检测跨层链接,因为它们的索引分别是 = 1和 = 2。
这样一对的一个重要性质是,第一层总是有两倍于第二层的大小,因为它们之间的下采样层(最大池或stride-2 卷积)。请注意,此属性仅在所有功能层的大小为偶数时才有效。在实践中,我们通过让输入图像的宽度和高度都可被128整除来确保这个属性。例如,将1000times;800的图像调整为1024times;768,这是最接近的有效大小。
如图3.b所示,我们将一个段的跨层邻居定义为
={} (8)
它们是上一层的片段。每个段有4个跨层邻居。两层之间的双尺寸关系保证了对应关系。
此外,跨层链接由卷积预测器检测。预测器输出8个跨层链路通道。每2个通道被软最大值标准化以产生一个跨层链接的分数。在特征层 = 2...6上检测跨层链接。但= 1 (conv4_3)上没有,因为它没有优先的特征层。
通过跨层链接,可以连接不同规模的片段并在以后进行组合。与传统的非最大抑制相比,跨层连接提供了一种可训练的冗余连接方式。此外,它与我们的链接策略无
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[236494],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。