英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
在任意获取的图像中实现快速QR码检测
Luiz FF Belussi和Nina ST Hirata
巴西萨罗保罗大学数学与统计学院计算机科学系
电子邮件:belussi@ime.usp.br , nina@ime.usp.br
摘要 -文献中描述的QR码(一种二维条形码)的检测仅仅是检测特定意图获取的图像中的符号并且把符号区域的边界显示出来。但是,许多重要的应用程序(例如与可访问性技术或机器人相关的应用程序)依赖于首先检测环境中是否存在条形码。我们采用Viola-Jones快速目标检测框架来解决在任意获取的图像中发现QR码的问题。该框架提供了一种有效的方法,将检测过程集中在有前途的图像区域,并为模式分类提供了一种非常快速的特征计算方法。对每个QR码的三个角落中检测图像的框架参数变化进行了广泛的研究。检测精度高于90%,并且有可控数量的误报。我们还提出了一种后处理算法,它汇总第一步的结果并决定检测到的红色模式是否是QR码符号的一部分。这两部处理是实时完成的。
关键词 - QR码; 二维条码; 哈尔式的特征; 级联分类器;模式识别;
I.介绍
QR码(ISO / IEC 18004)是二维条码的类型,在过去几年中利用率最高。 图1显示了一些QR码符号的例子。 最常见的QR码的使用是将地点和对象连接到网站的“物理超链接”。QR码的设计很容易找到,并且在恶劣的成像条件下确定其尺寸和方向。 此外,ISO / IEC 18004种类的纠错方案最多可以恢复30%的被遮挡或损坏的符号区域。 这些功能使QR码在2D条形码领域成为非常成功的技术。
图1. QR码符号的例子
许多应用程序与帮助视障人士,例如文献[1]、[2]、[3]或视频和移动设备中的QR码处理有关,例如文献[4]、[5]、[6]。 文献[1]提出了一种检测PDF417标准中2D条形码的方法,以帮助视障人士将这些条形码作为标签识别对象。另外,设想机器人导航中的应用程序并不困难。 现有的QR码解码器要求符号被正确地“框住”,即该符号必须对应于至少30%的图像区域以适合解码。通常,即使是捕获QR码的具体目的而获取的图像也会受到噪声,模糊,旋转,透视失真,照明不均匀或部分代码区域遮挡的影响。由于这种噪声和失真,解码器可能会失败。因此,大多数涉及条形码检测或识别的相关文献都会设计增强或处理这种类型的图像以便于解决解码问题[7]。
大多数作品提议使用这些代码来帮助视力受损的人,而盲人则不会解决这种残疾人难以正确指向相机条形码符号的问题[1],[2]。 然而,他们确实承认处理任意获取的图像以检测二维条形码和开发计算有效的算法以在低光照和低分辨率情况下识别条形码符号是具有挑战性的问题[8]。据我们所知,只有极少数作品涉及在任意获取的图像中检测QR码的问题。 此外,在这种情况下,将会借助视觉提示(参见图2中的示例)或借助RFID标签[9]进行检测。
这项工作的目的是开发一种在任意获取的图像中检测QR码的方法。一旦检测到QR码的存在,相机支架或机器人可以通过语音或通过一些适当的命令来引导,以正确地构造QR码。我们不仅对检测代码的存在感兴趣,还想要确定QR码符号在图像中的大小和位置,这对于正确构图它们非常重要。 另外,检测应该很快以允许实时应用程序。
图2.辅助QR码检测的视觉提示示例(经许可转载自[9])。
解决这个问题的一个有希望的方法是由Viola和Jones提出的快速对象检测框架,最初应用于人脸检测[10]。 在他们的框架中,检测是基于由Haar小波启发的简单特征的级联弱分类器。 它们在多尺度人脸检测中实现了令人印象深刻的速度,将特征计算的简单性与仅在图像有前途的区域进行对焦处理的有效方法相结合。
具体来说,在这项工作中,我们调查了Viola-Jones框架在检测nder模式(FIP)方面的用途,这是一种位于任何QR码的三个角落的固定模式。 由于训练框架有许多参数可以调整以满足特定应用的需要,因此我们在几个实验场景中调查参数变化的影响。 结果是根据命中(真正的肯定)和错误警报(误报)来评估的,他们表明训练集中相对少量的FIP样本足以达到非常好的检测率。 此外,由于检测步骤通常呈现错误警报,因此提出基于几何约束的后处理步骤以确定检测到的FIP是否是QR码符号的拐角。
本文的其余部分安排如下。 在第二节中,描述了二维码的一般结构,并审查了Viola-Jones快速目标检测框架。 在第三节中,描述了所提出的QR码检测方法。 我们首先证明检测FIP而不是整个QR码区域的决定是正确的,然后我们描述训练和分类评估程序,然后描述和讨论选择参数值的方法。 在第四节中,我们描述和讨论参数选择的主要实验结果。 我们还展示了实际图像中QR码符号检测的例子。 最后,在第五节,我们提供了主要结果的总结和未来工作的一些步骤。
II. 背景
QR码结构
ISO / IEC标准18004将QR码符号定义为具有除了数据,版本信息和纠错码字之外还包括以下区域的一般结构:
符号周围的安静区域
三角形图案(FIP)在角落里
2个定时模式(TP)之间的模式
如图3所示的数据区域内的N个对齐图案(AP)。
红色图案是专门设计的,可以在任何搜索方向找到黑色(b)和白色的序列(W)如图4所示,沿任何通过其中心的扫描线上的像素都保留了特殊的序列和大小比例w:b:w:bbb:w:b:w。
图3. QR码结构(FIP:Finder Pattern / TP:定时码型/ AP:定位码型)
图4.对角线(d),垂直(v)和水平(h)扫描线的黑色和白色像素比例
取决于编码的数据量,QR码的不同实例可以具有关于其结构组件的不同内部比例。 这个数量决定了必须选择的QR码的适当“版本”,也就是说,可以使用具有不同信息存储容量的各种预定尺寸的符号(相对于符号区域中的模块的数量,称为版本)在二维码生成。 定时和对齐模式用于控制内部结构(见图5)。
(a) 10个字母数字字符 (b)100个字母数字字符 (c)500个字母数字字符(d)1000个字母数字字符
图5.不同版本的QR码符号
Viola和Jones [10]提出了一种简单的分类器级联,用于图像中的快速对象检测。 更高级的效率是使用简单的类Haar特征的结果,可以使用所谓的积分图像在恒定时间内进行计算。 级联和提升提供了弱分类器的有效聚集,并且在一定程度上允许在所得分类器的每个阶段控制命中和虚警率。
1)类似Haar的特征:[10]中提出的分类器使用的特征基于特征原型,灵感来源于[11],如图6所示。它们被称为Haar-like特征,因为它们与重新缩放的“方形“功能,这些功能构成了Haar小波系列的基础。一个这个基本集合的扩展,包括45度旋转原型,在[12]中被提出(见图7)。
|
|
图6.基本功能原型集
图7.扩展集中额外的旋转特征原型
针对在滑动评估窗口下对应于图像的子区域的样本来计算特征值。 一个特征被定义为某个原型的一个实例,当它的宽度,高度和评估窗口中的相对位置被定义时,如图8所示。通过定义,特征的值是白色矩形中像素值的总和面积从黑色矩形区域中的相应总和中减去。
(a)基于原型“a” (b)基于圆形“a“ (c)基于原型”fr“ (d)基于原型”d“
图8. Haar-like特征的例子
2)积分图像:积分图像[10]是一个与输入图像尺寸相同的矩阵,其中每个(x,y)位置存储矩形中(0,0)和(x,y)之间的所有像素值之和)。 给定尺寸为hw的图像i,可基于以下重现在大约2(wh)次存储器访问中执行对应积分图像ii的计算:
s(x,y)= s(x,y-1) i(x,y) (1)
- lowast;
times;
ii(x,y)= ii(x-1,y) s(x,y) (2)
其中s(x,y)是累积行总和,其中s(x,1)= 0,并且ii(1,y)= 0。
minus;
minus;
一旦积分图像被计算出来,图像内任何矩形中的像素值的总和就可以在4次存储器访问中确定,如图9所示。因此,上述类型的特征值可以在恒定时间内计算。 对于扩展特征原型集合,类似的快速计算
图9.阴影区域中的像素总和可以计算为ii(z)- ii(y) - ii(w) ii(x)
3)Classier Cascade and Boosting:级联由一系列连续阶段组成,这些阶段经过训练可拒绝与搜索模式不匹配的样本,同时保留大部分阳性样本并将它们传递到下一阶段。 一个样品据说当它通过最后的级联阶段时被检测到而没有被拒绝。
通过在图像上滑动窗口并将其大小从给定的最小值改变为图像中的最大可能窗口而获得。 分类器应用于完整样本集的每个元素。
每个阶段都是由一组强弱分类器组成的,这些弱分类器通过增强算法汇总在一个委员会中,可以看作是一个独立的分类器,用于获得非常高的命中率(通常为99%或更高),并具有可接受的虚警率(通常介于40%和60%)。 每个弱分类器通常是计算Haar-like特征后跟二进制阈值的结果,虽然他们可以有更复杂的形式,如第IV节中将要考虑的简单树。Boosting循环工作,迭代地训练一组弱类,同时对训练样本进行重新加权,以使“硬”样本在该集合中增加相对重要性。 在每一轮中,选择最好的弱分类器来组成最终的分类器。 因此,增强可以达到指定的命中率和虚警率,因为它增加了组合中的弱分类器(只要所使用的特征具有足够的表示能力)。
QR码的检测可以被表述为二元分类问题。 给定一个将图像的像素或区域标记为QR码的分类器,其性能可以通过一些众所周知的度量来评估。
由于Viola-Jones框架检测区域为正面或负面情况的性质,适当的措施应该考虑实际检测到多少阳性样本(真阳性或TP)以及多少阴性样本被错误检测为积极的(误报或FP)。 在这项工作中,第一个是以召回的形式表示的,即总阳性样本(真阳性加假阴性)的百分比被认为是积极的。 第二个是通过虚警的数量(被分类为正数的负样本的数量)来表示。
III. 建议的检测方法
所提出的方法包括两个主要步骤:
1) 使用Viola-Jones框架检测FIP候选者:在这一步中,高召回率是可取的。
2) 后处理由FIP候选人的分析和聚合组成,以确定条形码的大小和位置:想法是组合FIP候选人并检查它们是否形成与QR码结构兼容的三角形。
将所有图像转换为灰度后进行处理。
A.为什么选择FIP?
根据ISO / IEC 18004的代码尺寸和位置确定对应于符号的三个角落中的红色图案的规范。 估计符号大小和位置,建议使用扫描线。 实际上,当条形码被适当地框住时,可以假设FIP对应于图像内的相对大的区域,并且因此可以考虑扫描线之间的适当间隙以加速计算。 然而,对于任意获取的图像,FIP大小也是任意的,并且必须考虑连续的扫描线,几乎没有间隙,以便不错过FIP。 此外,任何变形或噪声都可能破坏表征FIP的白色和黑色像素w:b:w:bbb:w:b:w的顺序。 这种中断的影响在低分辨率图像中非常重要。 因此,基于扫描线的方法对于检测任意图像中的QR码是不切实际的。
在Viola-Jones框架中,假定要检测的图案应该具有刚性结构,但是没有关于图案尺寸的强烈限制。 正如第II-A部分所述,当考虑QR码时,QR码没有严格的结构。 另一方面,所有QR码中都存在FIP,结构严格,因此它们是通过Viola-Jones方法进行检测的极好目标。
B.训练参数
分级器级联设计中可以调整几个参数。 在我们的调查中已经考虑了以下参数:
特征集(MODE):两种可能性是基本集合(图6)和扩展集合(图7)。
对称性(SYM):当目标图形是对称的时,训练算法可以被限制为只考虑一半的正样本以减少处理时间。
Classier拓扑结构(MTS):可以在级联中进行拆分,将其转化为简单的CART树[13]。 在[14]中报道了允许分裂时级联性能的经验性积极影响。
弱分类器的分裂数(NS):最简单形式的弱分类器只是一个类Haar特征和一个二进制阈值,它将与其他弱分类器通过增强算法组合形成一个阶段。 有可能允许弱分类者通过让他们不仅仅是一个单一的特征而是一个具有有限少量分裂的简单CART树来学习训练模式中更复杂的关系。
最大误报率/最小命中率(FA / HR):每个级联阶段必须遵守最大误报率,并且对于提供给它的样本以最低命中率才能被视为已完成。 如果误报率太低,可能会导致舞台变得过于复杂,从而减少级联方法的效用。 非常高的最低命中率限制可能具有相同的效果。
训练样本数量(SAMPLES):为训练算法提供的训练样本数量。
训练样本的大小(SIZE):训练样本的大小。 对于人脸检测,已经观察到20times;20是合适的尺寸[14]。
C.更高级的培训和评估lt;
全文共11700字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[13256],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。