英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料
序 |
2017 |
年 |
2 |
月 |
27 |
日 |
用于视频文本检测的拉普拉斯方法
Trung Quy Phan, Palaiahnakote Shivakumara and Chew Lim Tan
新加坡国立大学计算机学院
{phanquyt, shiva}, tancl}@comp.nus.edu.sg
摘要
在这篇文章中,我们提出了一种基于拉普拉斯算法的高效的文本检测的方法。对拉普拉斯滤波图像中的每个像素计算它的最大梯度差值。把它命名为K,K平均值把所有像素分类为两个区域:文本和非文本。对于每个候选文本区域,每个经过Sobel检测的输入图像的对应区域进行投影轮廓分析以确定文本块的边界。最后,我们采用经验规则来消除基于几何属性的错误。实验结果表明,该方法能够检测不同字体,对比度和背景的文本。此外,它在识别和错误率方面优于三种现有方法。
- 绪论
互联网上的视频数据库越来越多,信息搜索和检索的可靠来源是出现在视频中的文字。视频文本包括两种类型:图形文本和场景文本。在编辑过程中,图形文本会被人为添加到视频中。场景文本一般出现在相机捕获的场景中。虽然在过去几年中已经提出了许多方法,但是文本检测仍然是一个具有挑战性的问题。因为视频通常具有低分辨率和复杂背景和文本可以是不同的大小,样式和对齐。 此外,场景文本通常受照明条件和透视影响失真[1 - 3]。
文本检测方法可以分为三种方法:基于连接组件[4],基于边缘[5-9]和基于纹理[10-14]。第一种方法不能很好地用于所有视频图像,因为它假定相同区域中的文本像素具有相似的颜色或灰度强度。第二种方法要求文本与背景有相当高的对比度以便检测边缘。因此,这些方法经常遇到复杂的问题,并产生许多错误。最后,第三种方法将文本视为特殊纹理,因此,可以使用快速傅里叶变换,离散余弦变换,小波分解和Gabor滤波器进行特征提取。但是,这些方法需要大量培学习,并且对于大型数据库来说计算成本高。
在这篇文章中,我们考虑三种现有的方法[7,8,15]用于比较研究。 Liu等人[7]通过使用Sobel算子提取边缘特征。该方法能够确定每个文本块的准确边界。然而,它对边缘检测的阈值敏感。Wong等人[8]计算最大梯度差值以识别候选文本区域。该方法具有低的错误率,但使用许多阈值和启发式规则。因此,它可能只适用于特定数据集。最后,马里亚诺等人[15]在L * a * b *颜色空间中分类以定位统一颜色的文本。虽然它很好地检测低对比度文本和场景文本,但是这种方法非常慢,并产生许多错误。
我们提出一种文本检测方法的包含三个步骤:文本检测,边缘细化和减少误差。在第一步中,我们通过使用拉普拉斯算子来识别候选文本区域。第二步使用投影轮廓分析来确定每个文本块的准确边界。最后,基于几何属性消除误差。实验结果表明,在检测率和正确率方面提出的方法优于上述三个方法。
- 提出方法
2.1文本检测
文本区通常具有大量的不连续性,例如,文本和背景之间的过渡区域。因此,输入图像被转换为灰度级,并通过3times;3拉普拉斯掩模进行滤波,以检测水平,垂直,左上和右上四个方向的不连续性(图1)。
因为掩码对于每个边缘产生两个值,所以拉普拉斯滤波的图像包含正值和负值。这些值(过零点)之间的转换对应于文本和背景之间的转换。为了捕获正值和负值之间的关系,我们使用最大梯度差(MGD),定义为局部1times;N窗口[8]中的最大值和最小值之间的差值。像素(i,j)处的MGD值从拉普拉斯滤波图像f如下计算。
通过在图像上移动窗口来获得MGD图。 在图2c中,较亮的颜色代表较大的MGD值。
文本区域通常具有比非文本区域更大的MGD值,因为它们具有许多正和负峰(图3)。因此,我们将MGD图规范化到范围[0,1],并使用K均值基于MGD值之间的欧几里德距离将所有像素分类为两个类,文本和非文本。令K均值返回的两个簇为C 1(簇平均M 1)和C 2(簇平均M 2)。由于不同运行的集群顺序不同,我们有以下规则来识别文本集群。如果M 1gt; M 2,则C 1是文本集群; 否则,C 2是文本集群。这是因为预期文本区域具有比非文本区域更大的MGD值。在此步骤结束时,文本集群中的每个连接的组件都是候选文本区域(图2d)。
2.2边界细化
由于错误连接的文本行,难以直接从文本集群中确定每个文本块的边界(图4b)。因此,我们计算输入图像的二进制Sobel边缘图SM(仅用于文本区域)(图4c)。水平投影轮廓定义如下。
如果HP(i)大于某个阈值,则行i是文本行的部分; 否则,它是不同文本行之间的间隙的一部分。从该规则,我们可以确定每个文本行的顶行和底行。 然后如下定义垂直投影轮廓。
类似地,如果VP(j)大于某一阈值,则列j是文本行的一部分; 否则,它是不同词之间的差距的一部分。最后,如果相同文本行上的不同单词彼此接近,则将其合并。
通过递归地应用该步骤,即使当文本块没有良好对齐或者当一个候选文本区域包含多个文本行时,我们也可以确定每个文本块的准确边界。在该步骤结束时,每个检测到的块是候选文本块(图4d)。
2.3误差消除
我们消除基于几何的错误属性。设W,H,AR,A和EA是文本块B的宽度,高度,宽高比,面积和边缘区域。
如果AR lt;T 1或EA / A lt;T 2,则候选文本块被认为是假阳性; 否则,它被接受为一个文本块。第一个规则检查长宽比是否低于某个阈值。第二个规则假设由于文本和背景之间的过渡,文本块具有高边缘密度。
- 实验结果
由于没有标准数据集,我们为我们自己的数据集选择了101个视频图像,从新闻节目,体育视频和电影剪辑中提取。有不同语言的图形文本和场景文本,例如:英语,中文和韩语。图像大小范围从320times;240到816times;448。参数值根据经验确定:N = 5,T 1 = 0.5和T 2 = 0.1。
为了比较,我们实现了三种现有的方法[7,8,15]。方法[7],表示为基于边缘的方法,通过使用Sobel算子提取边缘特征。方法[8],表示为基于梯度的方法,计算MGD值以识别候选文本区域。最后,方法[15],表示为均匀着色方法,在中执行聚类L * a * b *颜色空间来定位文本行。
3.1样品结果
图5显示了三种现有方法和所提出的方法的一些样品结果。图像(a)具有两个低对比度文本块。由于边缘检测的固定阈值的问题,所以基于边缘的方法不能检测任何文本块。基于梯度的方法检测具有缺失字符和不准确边界的文本块。此方法使用许多阈值和启发式规则,因此,可能只适用于特定数据集。均匀色方法检测缺少字符的文本块,由于渗色问题产生许多误报。所提出的方法正确地检测所有块,甚至拾取电视频道的低对比度标志。
图像(f)具有图形文本(在左下角和右下角)和场景文本(在顶部)。基于边缘的方法检测图形文本,但缺少场景文本。基于梯度的方法还缺少一些图形文本(第一图形文本行)和场景文本(两个场景文本块在左上角和右上角)。均匀色的方法会产生许多误报。所提出的方法正确地检测所有文本块,除了在右上角的一个。并且还检测到道路上的广告牌之一。
图6示出了所提出的方法未能检测到一些文本块的图像。未检测到蓝色背景上的红色文本,因为在灰度域中这两种颜色之间的对比度非常低。基于边缘的方法和基于梯度的方法具有相同的问题,因为它们也使用灰度图像。通过使用颜色信息时,均匀色的方法能够测两个红色文本行(“生命警报”)中的一个。
图7显示了用于两种不同窗口尺寸的所提出的方法的结果。 一个小窗口尺寸给出了一个较低的误报,但可能会错过一些低对比度的字符(第三行)(图像(B))。另一方面,大窗口尺寸有助于恢复丢失的字符,但也包括更多的误报(图像(c))。在我们的实验中,N设置为5。
3.2数据集上的结果
我们通过文本检测方法为每个检测到的块定义以下类别。
bull;真正检测到的块(TDB):包含部分或全部文本行的检测到的块。
bull;检测到的块(FDB):检测到的块不包含文本。
bull;带缺失数据的文本块(MDB):缺少文本行的某些字符(MDB是TDB的子集)的检测到的块。
对于数据集中的每个图像,我们手动计算实际文本块(ATB),即地面实况数据。
性能测量定义如下。
bull;检测率(DR)= TDB / ADB
bull;假阳性率(FPR)= FDB /(TDB FDB)
bull;误检率(MDR)= MDB / TDB
表1和表2显示了三种现有方法和所提出的方法对数据集的性能。所提出的方法具有最高的DR和最低的FPR。它在所有性能测量中优于基于边缘的方法和均匀着色方法。
与基于梯度的方法相比,所提出的方法具有更好的DR和FPR,但MDR更差。然而,略高的MDR可以通过两种方法之间的DR的显着差异来补偿。如果我们考虑完全检测到的文本块的数目,即文本块没有任何缺少的字符,建议的方法检测458 - 55 = 403块,而基于梯度的方法只检测349 - 35 = 314块。
因此,所提出的方法比数据集上的三种现有方法具有更好的检测结果。
- 结论和未来工作
我们提出了一种基于拉普拉斯算子的文本检测的有效方法。梯度信息有助于识别候选文本区域,并且边缘信息用于确定每个文本块的准确边界。实验结果表明,所提出的方法在检测和错误率方面优于三种现有方法。
在将来,我们计划将这个方法扩展到任意方向的文本。目前,文本检测步骤可以显示白色补丁,即使是非水平的文本(图8)。然而,因为使用水平和垂直投影轮廓,细化步骤仅能够检测水平文本的边界。
- 感谢
这项研究部分由IDM R&D拨款并得到了R252-000-325-279的支持。
- 参考文献
[1] J. Zang and R. Kasturi, “Extraction of Text Objects in Video Documents: Recent Progress”, The Eighth IAPR Workshop on Document Analysis Systems (DAS2008), Nara,
Japan, September 2008, pp 5-17.
[2] J. Zhang, D. Goldgof and R. Kasturi, “A New Edge-Based Text Verification Approach for Video”, ICPR,December 2008, pp 1-4.
[3] K. Jung, K.I. Kim and A.K. Jain, “Text information extraction in images and video: a survey”, Pattern Recognition, 37, 2004, pp. 977-997.
[4] A.K. Jain and B. Yu, “Automatic Text Location in Images and Video Frames”, Pattern Recognition, Vol.31(12), 1998, pp. 2055-2076.
[5] M. Anthimopoulos, B. Gatos and I. Pratikakis, “A Hybrid System for Text Detection in Video Frames”, The Eighth IAPR Workshop on Document Analysis Systems (DAS2008),
Nara, Japan, September 2008, pp 286-293.
[6] M. R. Lyu, J. Song and M. Cai, “A Comprehensive Method for Multilingual Video Text Detection, Localization,and Extraction”, IEEE Transactions on Circuits and Systems for Video Technology, Vol. 15, No. 2, February 2005, pp243-255.
[7]
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[137991],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。