A Convolutional Neural Network-Based Chinese Text
Detection Algorithm via Text Structure Modeling
Xiaohang Ren, Yi Zhou, Jianhua He, Senior Member, IEEE, Kai Chen, Member, IEEE,Xiaokang Yang, Senior Member, IEEE, and Jun Sun, Member, IEEE
Ren X , Zhou Y , He J , et al. A Convolutional Neural Network Based Chinese Text Detection Algorithm Via Text Structure Modeling[J]. IEEE Transactions on Multimedia, 2016, PP(99):1-1.
I. INTRODUCTION
with increasing penetration of portable multimedia recording devices (such as smart phones and tablets),multimedia contents proliferate in image and video sharing websites, e.g. Youtube and Flickr. Extracting text information from those natural images and videos are conducive to a wide range of applications such as image classification, scene recognition and video retrieval. Although traditional optical character recognition (OCR) systems have achieved good performance in extracting text information from scanned documents, their performance on natural images and videos could drop significantly. The biggest challenge of using OCR systems in natural environment is detecting text regions, as the background in natural images and videos is much larger in size and much more complex in texture. To quantify and track the progress of text location in natural images, several competitions, including four ICDAR Text Location Competitions in 2003, 2005, 2011 and 2013 [1]–[4] have been held in recent years. However, even the best performing algorithm reported in ICDAR 2013 can localize only 66% of words in the dataset [4], which clearly shows that there is still a large room for performance improvement.
The challenges in detecting texts from natural images come from the variations of texts in font, size and style, complex backgrounds, noise, unconfirmed lighting conditions (like using flash lamps), and geometric distortions [5]–[10]. As video contains additional time sequence information, effective utilization of text motion estimate technique is vital in video text detection and tracking [11]–[15]. Moreover, due to the widespread usage of smart phones, the limited computational ability also becomes a main challenge of text detection [16], [17]. The existing text detection algorithms can be roughly classified into two major categories: region-based methods and texture-based.
Region-based approaches detect texts by analyzing local features in extracted image regions. Those local features are unique in representing scene texts and ensure most text regions can be detected. However, as some complex background regions also have similar texture as text regions, it is very challenging to design filtering rules or classifiers. Texture-based approaches analyze global texture features in the entire image to localize texts. Global texture features of text and background regions are clearly distinguishable, thus the background regions are rarely mistaken for text regions. Among text regions, the global text features also vary significantly due to the various scene conditions of texts and hence cause a large number of missed detected texts.
Most of the above text detection algorithms use one or several manually designed features such as HOG or SIFT to extract text regions using a discriminative classifier or some heuristic rules. Those features are designed for universal image description instead of specific usage, which leads to difficult optimization problem and weak adaptability. In contrast to those traditional algorithms, recently some deep learning model based text detection algorithms [18], [19] report significant performance improvement. Deep learning algorithms employ original image pixels to detect candidate text regions by extracting strongly adaptable features. Convolutional neural network (CNN) is one of the most widely used deep networks in text detection. A large labeled dataset is needed to train a responsible CNN but labeled scene text datasets have only limited sizes. And as the size of feature maps becomes larger, which is essential in extracting text features, the similarity of features also becomes higher.
It is noted that the above reported works are mainly focused on extracting English text from natural images, while few research works on Chinese text extraction have been reported in the literature. Chinese characters are more complex than English characters. Most Chinese characters contain more than 5 strokes, while the most complex English character “W” has only 4 strokes (we split a line into strokes by the turn point). In addition, there are more than 30 different types of Chinese strokes, while only 10 different types of strokes exist in English. Therefore, for English text detection algorithms, analyzing the relationship between the English characters such as words is more important than character-level detection. On the contrary, the complexity of Chinese characters requires the detection algorithms to focus more on the inner relationship of strokes.
Our main contribution is a novel Chinese text structure feature extractor, which is a special layer in CNN called text structure component detector (TSCD) layer. In the TSCD layer, Chinese text characters are modeled in different ways as multiple text structure components by the TSCD. By analyzing the structures of Chinese characters, the Chinese text structure component types can be effectively classified to several easily distinguishable groups based on their aspect ratios. For each text structure component group, a specific TSCD is designed to extract its feature, which has its unique feature map shape. The multistage feature maps in the TSCD layer also limit the similarity of features when the feature map size expands thus the requirement of training set is reduced. Extensive simulations demonstrate the TSCD is effective in improving Chinese text detection performance.
Our second contribution is a nove
基于卷积神经网络的中文文本基于文本结构建模的检测算法
第一章 导言
随着便携式多媒体记录设备(例如智能手机和平板电脑)的普及,多媒体内容在图像和视频共享网站中激增,例如, Youtube和Flickr。从那些自然图像和视频中提取文本信息有助于广泛的应用,例如图像分类,场景识别和视频检索。尽管传统的光学字符识别(OCR)系统在从扫描文档中提取文本信息方面取得了良好的性能,但它们在自然图像和视频上的性能可能会显着下降。在自然环境中使用OCR系统的最大挑战是检测文本区域,因为自然图像和视频中的背景尺寸更大,纹理更复杂。为了量化和跟踪自然图像中文本位置的进展,近年来已经举办了几次比赛,包括2003年,2005年,2011年和2013年的4次ICDAR文本位置比赛[1] - [4]。然而,即使是ICDAR 2013中报告的最佳性能算法,也只能对数据集中的66%的单词进行本地化[4],这清楚地表明仍有很大的性能提升空间。
从自然图像中检测文本的挑战来自于文本在字体,大小和样式,复杂背景,噪声,未经证实的照明条件(如使用闪光灯)和几何失真[5] - [10]中的变化。由于视频包含额外的时间序列信息,文本运动估计技术的有效利用在视频文本检测和跟踪中至关重要[11] - [15]。此外,由于智能手机的广泛使用,有限的计算能力也成为文本检测的主要挑战[16],[17]。现有的文本检测算法大致可分为两大类:基于区域的方法和基于纹理的方法。
基于区域的方法通过分析提取的图像区域中的局部特征来检测文本。这些局部特征在表示场景文本时是唯一的,并确保可以检测大多数文本区域。但是,由于一些复杂的背景区域也具有与文本区域相似的纹理,因此设计过滤规则或分类器非常具有挑战性。基于纹理的方法分析整个图像中的全局纹理特征以定位文本。文本和背景区域的全局纹理特征可清楚地区分,因此背景区域很少被误认为是文本区域。在文本区域中,由于文本的各种场景条件,全局文本特征也显着变化,因此导致大量遗漏的检测文本。
大多数上述文本检测算法使用一个或多个手动设计的特征(例如HOG或SIFT)来使用判别分类器或一些启发式规则来提取文本区域。这些特征是为通用图像描述而不是特定用途而设计的,这导致难以优化的问题和弱适应性。与传统算法相比,最近一些基于深度学习模型的文本检测算法[18],[19]报告了显着的性能提升。深度学习算法使用原始图像像素通过提取强适应特征来检测候选文本区域。卷积神经网络(CNN)是文本检测中使用最广泛的深层网络之一。需要大的标记数据集来训练负责任的CNN,但标记的场景文本数据集仅具有有限的大小。随着特征图的大小变大,这对于提取文本特征是必不可少的,特征的相似性也变得更高。
值得注意的是,上述报道的作品主要集中在从自然图像中提取英文文本,而文献中很少有关于中文文本提取的研究工作。汉字比英文字符更复杂。大多数汉字包含5个以上的笔画,而最复杂的英文字符“W”只有4个笔画(我们在转折点将一条线分成笔画)。此外,有超过30种不同类型的中文笔画,而英语中只有10种不同类型的笔画。因此,对于英文文本检测算法,分析单词等英文字符之间的关系比字符级检测更重要。相反,汉字的复杂性要求检测算法更多地关注笔画的内在关系。
我们的主要贡献是一个新颖的中文文本结构特征提取器,它是CNN中一个称为文本结构组件检测器(TSCD)层的特殊层。在TSCD层中,中文文本字符由TSCD以不同方式建模为多个文本结构组件。通过分析汉字的结构,中文文本结构组件类型可以根据其宽高比有效地分类为几个易于区分的组。对于每个文本结构组件组,特定的TSCD用于提取其特征,该特征具有其独特的特征映射形状。 TSCD层中的多级特征图还在特征图大小扩展时限制特征的相似性,因此减少了训练集的要求。大量仿真表明TSCD可有效提高中文文本检测性能。
我们的第二个贡献是一种新颖的无监督学习方法,称为卷积稀疏自动编码器(CSAE),用于复杂和抽象的中文文本。由于公共场景中文文本数据集的可用性非常有限,因此应用无监督学习方法预训练CNN模型对于避免过度拟合非常重要。通过组合CNN中的卷积层和稀疏编码方法来设计CSAE。除了稀疏编码的优化功能外,我们还增加了另一个优化函数,以增强我们的无监督学习方法中复杂特征表示的能力。
我们的第三个贡献是应用空间金字塔层(SPL)和设计多输入层深度置信网络(DBN)作为完全连接层
第二章 相关作品
传统上,文本检测算法可大致分为两大类:基于区域和基于纹理。
基于区域的方法,例如传统的基于滑动窗口的方法,将检测和特征提取路线限制为图像矩形的子集。例如,Wang等人。 [5]使用随机蕨类通过一些选定的特征对图像中的滑动窗口进行分类,然后使用非最大抑制来检测文本区域。 Shivakumara等人。 [11]将图像分割为多个块,并通过在不同的块对比中应用多个边缘描述符来检测文本块。李等人。 [6]应用笔画滤镜从图像中提取特征图,然后以滑动窗口方式对特征图进行分类以检测文本区域。另一方面,基于连通分量(CC)的方法是另一种基于区域的方法,其从图像中提取区域并使用一组规则来过滤掉非文本区域。在这一系列研究之后,Jung等人。 [7]对图像的canny边缘图应用笔划滤波器,并生成CC区域以检测具有若干附加特征的文本区域。 Epshtein等人。 [8]提出了一种名为笔划宽度变换的CC提取器,它是通过在梯度方向上从精确边缘拍摄光线生成的,并通过几何约束过滤掉非文本区域。 Shivakumara等人。 [13]用傅立叶 - 拉普拉斯算子过滤输入图像,并计算文本串直线度和边缘密度以排除非文本区域。
基于纹理的方法通过其特殊的纹理结构来检测文本,并且通常使用机器学习方法通过提取某些特征来区分文本与背景。作为一个典型的例子,陈等人。 [9]通过使用特征响应的联合概率设计几个弱分类器,并使用机器学习算法构建用于检测文本的强分类器。 Ye等人。 [10]使用多尺度小波变换来提取特征,并且应用SVM分类器来识别来自场景图像的文本行。
最近报道了基于深度学习的文本检测算法。基于深度学习的方法训练深度网络以提取替换手动设计的特征提取器的特征,这些特征提取器难以针对文本检测进行优化。卷积神经网络(CNN)是最流行的文本检测深度学习模型之一。 [18]中的工作训练了一个五层CNN模型,通过使用监督学习方法来检测自然图像中的文本区域。黄等人。 [19]还训练了具有两个卷积层的CNN模型,以检测自然图像中的文本区域。使用SVM分类器预训练第一卷积层。最大稳定外部区域(MSER)用作候选文本区域提取器,以减少CNN模型之前的背景区域的数量。
第三章 建议的文本检测算法
A.拟议算法概述
提出的中文场景文本检测算法由三部分组成:图像块提取,基于CNN的分类器和文本行形成方法。基于CNN的分类器是所提出的算法的核心。
图像块提取模型的功能是从场景图像中提取块,其中使用多尺度滑动窗口方法来保证图像中的所有文本都可以用全范围的文本尺度来检测。
基于CNN的分类器的功能是使用5层CNN模型和线性分类器对从图像块提取模型获得的候选文本块进行分类。 CNN的第一个卷积层是由卷积稀疏自动编码器(CSAE)预训练的,CSAE是一种为CNN设计的无监督学习方法,可以有效地提取中文文本特征。 CSAE将在第III-B节中详细介绍。第二卷积层由文本结构组件检测器层代替,以增强特征描述的准确性和唯一性,可以以不同方式提取不同的文本结构组件。文本结构组件检测器层在第III-C节中给出了更多细节。将文本结构分量检测器层的提取特征输入到空间金字塔层以生成尺度属性,这增强了CNN模型的尺度不变性,并且具有检测各种尺寸的文本的优点。多输入层深度置信网络(DBN)被设计用于分析具有属性的特征,其被用作CNN模型中的完全连接层。空间金字塔和多输入层DBN的设计在第III-D节中描述。
文本行形成方法的功能是基于缩放信息和若干其他几何和启发式规则将候选文本块补充到文本行。
B.卷积稀疏自动编码器(CSAE)
CNN于1980年首次推出[21],并成为最受欢迎的深度学习模型之一。 20世纪90年代,随着人类视觉机制的发现,本地视野被设计为使CNN模型更加深刻和健壮。在标准CNN结构中,卷积层和合并层逐个连接,并通过带有标记数据的监督学习方法进行训练。 CNN通常用作强大的特征提取器,并且在图像处理领域取得了巨大成功。 CNN的特征提取能力与训练数据的数量高度相关。然而,由于关于中文文本检测的研究报道很少,标记中文文本数据的数量不足以用于监督学习方法。最近,一些作品[22] - [24]引入了几种无监督学习方法,用无标签数据训练CNN。无监督学习CNN提取的特征在应用中具有更好的性能。然而,那些无监督的学习方法无法有效地提取汉字特征,因为汉字比其他自然物更抽象。因此,我们需要专门为中文文本设计无监督的学习方法,这将在下面介绍。
卷积层确定CNN模型从图像数据中提取有用特征的能力,其适合于由于其卷积操作而处理图像数据。它是CNN模型中最重要的部分。
C.文本结构组件检测器(TSCD)
1)文本结构特征提取分析:汉字是一种象形文字,包含大量的部首和结构。为了检测中文文本,一种有效的方法是分析汉字结构,这是汉字最显着的特征。汉字结构是从自然物体中抽象出来的。经过长时间使用汉字,它们的结构逐渐演变为越来越抽象。现代汉字结构与自然物体结构有很大不同。在[26]中,汉字结构分为四种基本类型:左右结构,上下结构,内外结构和单字。基于基本结构有许多复杂的汉字结构,如顶中中底结构。汉字结构成分是汉字最基本的构成要素。每个汉字由一个或多个结构组件构成。因此,汉字结构成分被认为是中文文本检测和识别的重要特征之一。
汉字结构组件的大量有效形成可以使结构组件特征产生很大的差异。然而,CNN模型难以学习在一个卷积层中具有较大差异的许多特征。同一层中卷积特征的学习方法是相同的。卷积特征的最终差异由初始参数值确定。在许多情况下,由于CNN的强大学习能力,即使具有相似的初始参数值,学习的卷积特征也具有很大差异。但是,在一个卷积层中,结构组件特征太有效,无法用初始参数值学习。在图4中,可视化单个卷积层中的一组特征。它表明每个卷积特征对应于一种类型的图像特征。可以观察到一些卷积特征非常相似。随着卷积特征的数量增加,类似的情况更频繁地发生。因此,卷积层需要非常大才能提取大多数中文文本结构组件特征,因为特征量大且有效。有效的CNN模型需要更多的初始差异而不是单独的初始参数值来提取中文文本结构组件特征。
2)文本结构组件检测器层的设计:为了正确初始化卷积层中文文本结构组件的特征,我们分析了一些常用汉字的结构组成。 [27]中的工作研究了汉字的效用。
我们分析了最常用的1290个汉字的结构成分,因为当n大于1290时,效用降至10-4以下。在最常用的字符中,46%的字符是由左右结构形成的, 26%为上下结构,11%为内外结构,17%为单一特征。基于特征统计分析,每个基本结构类型可以进一步划分为若干子结构。超过95%的上下结构字符可以分为10个子结构,如图5所示。应注意,尽管字符结构具有多种形式和多种类型的组件,但结构组件的纵横比是高度集群。结构组件有三种主要宽高比类型,具有上下结构字符:3:1,3:2和2:1。顶部 - 底部结构字符中还有三种次要宽高比类型:1:2,1:1和2:3。因此,纵横比类型是字符结构组件的重要特性,这使得结构组件更容易区分并分类成若干组。因此,纵横比类型用作初始差异,以使CNN模型能够以可接受的复杂度提取更多中文文本结构特征。
TSCD是具有特定宽高比类型的字符结构组件的卷积特征提取器。在TSCD中,通过固定较长边的长度,将纵横比为1:1的正常卷积窗的纵横比调整为目标字符结构分量的相同纵横比类型。例如,TSCD将卷积窗口的宽高比调整为2:1,以检测宽高比也为2:1的字符结构组件。卷积窗口确定将对要执行卷积操作的特征映射的哪个部分。具有2:1宽高比的卷积窗口使用具有2:1宽高比的结构组件的所有信息和更少的结构组件信息i
D.空间金字塔层(SPL)和多输入层深度信念网络(DBN)
自然图像中的文本有许多表现形式,包括各种大小,字体和颜色。 CNN模型在从具有不同字体和颜色的自然文本区域中提取特征时具有很强的不变性。然而,当从具有不同大小的自然文本区域提取特征时,CNN模型的不变性非常弱。通常,如果输入图像中的文本区域较小,或者输入图像切断一个文本区域的一小部分,则CNN不能准确地提取文本特征。为了生成具有适当大小的每个文本区域的图像块,最流行的方法是通过多尺度滑动窗口算法提取图像块。然而,多尺度滑动窗算法存在两个主要问题。首先,由于自然图像中可识别的文本大小范围广,因此需要大量的滑动窗口比例来生成图像块。因此存在大量图像块,这将显着增加计算复杂性。其次,需要放大源图像以生成小规模文本的图像块,这也会增加图像噪声并降低提取的文本特征的准确性。
具有缩放属性的若干特征是基于提取的特征生成的,而SPL没有缩放属性。空间金字塔以特征映射金字塔命名,其中每个层表示具有一种缩放类型的特征映射的大小。通过添加SPL以生成提取的特征的比例属性,增强了CNN模型的尺度不变性。利用SPL的优点,可以从更大规模的图像块中精确地提取小文本的特征。由于小尺度图像块的数量远大于大尺度图像块,因此CNN的计算复杂度显着降低,因为小尺寸图像块不是必需的。随着放大图像噪声的干扰减小,小文本特征的准确性显着增加。同时,具有缩放属性的文本结构组件特征用于分析文本结构组件的关系,因为单个字符中的文本结构组件的比例并不总是相同的。
具有缩放属性的文本结构组件特征具有两个特征尺寸:结构组件尺寸和缩放尺寸。它们由具有TSCD层和SPL的文本检测CNN提取。普通完全连接层(通常是深度神经网络)的学习能力在学习复杂的二维特征方面受到限制。深度信念网络(DBN)是一种生
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。