英语原文共 19 页,剩余内容已隐藏,支付完成后下载完整资料
使用多任务卷积神经网络进行交通标志识别
摘要:交通标志识别已经研究了很多年,大多数现有的工作都集中在基于符号的交通标志上。我们的项目将提出一个新的数据驱动系统,由安装在汽车上的摄像头拍摄的视频序列来识别所有类别的交通标志,包括基于符号和基于文本的标志。该系统包括三个阶段,交通标志感兴趣区域(ROI)提取,ROI细化和分类,以及后处理。首先使用灰度和标准化RGB信道上的最大稳定极值区域来提取来自每个帧的交通标志ROI。然后,通过任何机器学习算法对它们进行细化并分配到它们的详细类别,该算法使用大量数据进行训练,包括合成交通标志和从街景标记的图像。后处理最终将所有帧中的结果组合起来以做出识别决定,并且输出将在屏幕上显示给驾驶员。
关键词-----交通标志检测,交通标志分类,卷积神经网络,多任务学习,交通标志识别; 驾驶员支持系统; 智能车辆;
介绍
自动交通标志检测和识别是高级驾驶员辅助系统的重要组成部分。交通符号具有可用于其检测和识别的若干区别特征。它们采用特定的颜色和形状设计,文字或符号与背景形成鲜明对比。由于交通标志通常朝右并面向摄像机,因此旋转和几何失真的量是有限的。有关交通标志的信息,例如形状和颜色,可用于将交通标志放入特定的组; 但是,有几个因素会妨碍交通标志的有效检测和识别。 这些因素包括透视的变化,照明的变化(包括由变化的光线水平,黄昏,雾和阴影引起的变化),标志的遮挡,运动模糊以及标志的风化恶化。道路场景通常也非常混乱,并且包含许多强烈的几何形状,很容易被错误地分类为道路标志。准确性是一个关键考虑因素,因为即使是一个错误分类或未检测到的标志也可能对驾驶员产生不利影响。
为了识别图像中的交通标志,最流行的方法包括两个步骤:检测和分类。 有许多研究人员使用已经流行或专门设计的视觉算法来完成这项具有挑战性的任务。然而,比较这些方法并不容易,因为在2011年德国交通标志识别基准(GTSRB)[1]和德国交通标志检测基准(GTSDB)[2]发布之前,不存在公共可用数据集。2013年,从那时起,研究人员可以在相同的基准测试中评估和比较他们的算法。
然而,GTSDB和GTSRB仍然存在一些缺陷:1)它们仅包括三类具有规则形状和颜色的基于符号的交通标志,这些标志相对容易检测和分类,而基于文本的交通标志更具挑战性;2)GTSDB仅包括静态图像,但在实际场景中,车载摄像头拍摄的连续视频对于检测和分类很有用[3];3)交通标志识别的最后任务是知道场景中的现有标志,但这两个基准将它分成两个独立的任务,使用不同的数据集。
为了缓解这些问题,我们提出了一种新系统,用于识别来自视频输入的现有交通标志,并在具有以下特征的新挑战数据集上评估其性能:1)它包含基于符号和基于文本的交通标志,向上七个类别,与前三个基于符号的类别形成对比; 2)代替静态图像,数据集中的每个样本是从车载摄像机捕获的5~20个低质量帧的短视频。数据集中的一些示例如图1所示。可以看出,基于符号的交通标志具有相同的外观,在视点,照明,模糊,背景等方面存在差异,而基于文本的标志可能有很大差异。甚至在同一个班级中出现。
我们的交通标志识别系统包括三个阶段:交通标志感兴趣区域(ROI)提取,ROI细化和分类以及后处理。首先,对于视频中的每个帧,在多通道图像上利用最大稳定极值区域(MSER)[4]检测交通标志ROI。然后,为了对ROI进行细化和分类,提出了一种多任务卷积神经网络(CNN)。具体地,首先将ROI馈送到二进制分类层,并且仅使用深度多类分类网络对正序ROI进行进一步分类。网络端到端地训练有大量数据,包括训练数据,合成标志和街景标记的图像。最后,融合每帧的识别结果以获得视频的最终结果。这种系统管道如图2所示。
本文的主要贡献如下:1)虽然许多现有的工作都集中在基于符号的交通标志上,但我们处理所有类别,包括基于符号和基于文本的类别; 2)提出了一种新的多任务CNN,它共同处理ROI的细化和分类任务和识别系统; 3)解决了标注交通标志数量相对较少的问题,两种数据采集方法,街景图像和合成图像,以低成本获得大量标记样本; 4)我们的系统在新发布的具有挑战性的数据集中实现了最佳结果。
背景
- 交通标志检测
由于复杂的环境条件,由相机获得的图像通常质量差。低级图像预处理可用于增强捕获图像的交通标志区域,这使后续任务更容易。最常见的方法是将图像转换为新的颜色空间,其中符号更加清晰。已经使用了许多颜色空间,例如HSI [5],改进的HLS [6]和标准化颜色空间[7],[8]
另一种预处理方法是使用机器学习来从数据中学习颜色空间映射。参考文献[9]提出了一种颜色概率模型,它可以在抑制背景区域的同时增强符号的主色。在[8]和[10]中,训练SVM分类器以将彩色图像中的每个像素映射到在符号区域中具有高响应的灰度值。
在物体检测的早期阶段,使用基于阈值的方法很受欢迎[5],[6]在[7]中,比较了不同的基于阈值的分割方法。这些方法在光照条件不可预测的复杂环境中并不稳健。
近年来,基于机器学习的物体检测正在研究界占据主导地位。在交通标志检测上,存在基于滑动窗口的方法和基于感兴趣区域(ROI)的方法。
另一种方法是首先提取感兴趣区域(ROI),然后用分类器过滤掉非对象ROI。与基于滑动窗口的方法相比,它减少了计算时间,并且不需要调整滑动窗口的参数。该方法的一个重要考虑因素是提取的ROI中目标对象的召回率。预计尽可能高的召回率同时保持ROI的数量尽可能低。鉴于交通标志设计有大部分均匀区域,MSER已被证明在提取此类ROI方面非常有效[8],[9]。在粗滑动窗口中,使用方法来提取ROI。模板匹配也用于[10]中的ROI提取。从ROI中过滤出非签名对象可以视为分类任务。具有HOG功能的SVM分类器由于其出色的性能而成为最流行的框架[8],[9]。还使用了一些其他方法,如卷积神经网络(CNN)[10],极限学习机。
- 交通标志分类
传统的分类方法包括特征提取和分类器训练。 文献中报道的一些组合包括具有HOG特征的级联SVM分类器[8],具有距离变换和HOG特征的Kd树和随机森林,具有径向直方图特征的MLP(多层感知器),ANN(人工神经网络) 基于RIBP(旋转不变二进制模式)的特征,带有LIPID的SVM(局部图像置换区间描述符)等。在密集的SIFT特征中,首先提取HOG特征和LBP特征,然后通过局部约束线性编码(LLC)对它们进行编码。 并且通过空间金字塔池(SPM)汇集所得到的代码。
将三种不同的特征表示连接为交通标志的最终特征,并且使用线性SVM作为分类器。一般来说,设计一个好的功能是非常费力和困难的。
现在流行的卷积神经网络(CNN)可以在不需要手工设计功能的情况下进行训练。在多列CNN中,提出了对具有不同权重初始化或数据预处理的多个CNN进行训练,以对交通标志进行分类。它在2011年的GTSRB比赛中获得了第一名。在CNN的两个阶段,即本地和全球特征融合,以识别交通标志。该方法在同一竞争中获得了第二好的准确度。在交叉熵损失的修改版本中用于训练CNN,获得了比更好的结果。尽管CNN已经在图像分类中表现出其优异的性能,但如何设计良好的网络架构并训练可行的模型仍然是具有挑战性的任务。
为了处理交通标志的几何变化,使用数据增加来扩大训练数据集。
另一种方法是消除几何变化。在交通标志中,首先将其分为几个超级类别,每个类别都采用特殊设计的方法进行视角调整。然后,调整后的标志被分类为详细的类别。 最近,提出了空间变换器网络(SPN),其中可以明确地学习变换的几何参数,并且对输入图像的几何变化是鲁棒的。在[9]和[10]中显示,SPN可以在GTSRB上获得最先进的结果,而无需在之前的工作中使用复杂的技巧。
交通标志检测和识别系统
A.系统概述
拟议的系统包括以下两个主要阶段:检测和识别。在我们的训练数据中使用并由系统识别的整套道路标志如图2所示。交通标志的候选者被检测为MSER,如Matas等人所述[1]。MSER是在图像处于几个级别的阈值时保持其形状的区域。选择这种检测方法是因为它对对比度和光照条件的变化具有鲁棒性。与通过边界颜色检测道路标志的候选者相比,该算法基于标志的背景颜色检测候选者,因为这些背景在MSER过程中持续存在。我们提出的方法,如在以下部分中详细描述的,在图3中广泛地示出。
检测道路标志为MSER为了检测具有白色背景的交通标志,找到灰度图像的MSER。每个帧是多个不同阈值级别的二进制文件,并且找到每个级别的连接组件。通过几个阈值级别保持其形状的连接组件被选择为MSER。图4示出了具有着色的连接组件的示例图像的不同阈值。示出了表示圆形道路符号的连通分量通过若干阈值水平保持其形状。这有助于确保照明和对比度变化的稳健性。检测到的连通分量区域的若干特征用于进一步减少候选者的数量。这些功能包括宽度,高度,纵横比,区域周长和面积,以及边界框周长和面积。删除与要求不匹配的已连接组件有助于加快过程并提高准确性。
我们以略微不同的方式检测具有红色或蓝色背景的交通符号。不是检测灰度图像的MSER,而是首先将帧从红-绿-蓝(RGB)变换为“标准化的红/蓝”图像Omega;RB,使得对于原始图像的每个像素,找到该比率的值。蓝色通道的总和,所有通道的总和以及红色通道与所有通道之和的比率。这两个值中较大的一个用作归一化红/蓝图像的像素值。
虽然MSER为复杂场景中的交通标志提供了强大的检测形式,但它的计算成本可能很高。因此,为了提高速度,我们仅在适当的值范围而不是在每个可能的值处进行阈值,这是原始MSER [1]中的标准 图7示出了针对处理时间和检测精度绘制的使用阈值的数量。 阈值在值70和190之间均匀间隔,因为表示道路标志的MSER通常出现在该范围内。 所选阈值的数量为24,在该示例中,其对应于94.3%的准确度和50.1ms的处理时间。
B.投资回报率细化和分类的多任务CNN
交通标志ROI提取后,获得交通标志和大量背景。此阶段的任务是过滤掉背景并确定剩余ROI的详细类别,即ROI细化和分类。传统上,大多数相关工作分别处理这两个任务。对于ROI细化,广泛使用的方法是使用具有HOG特征的SVM分类器。对于分类任务,CNN是主流方法,已被证明是计算机视觉中的优秀模型。它可以从图像数据端到端地进行训练,不再需要手动设计的功能。在本文中,我们提出了一个新的CNN架构,它统一了这两个任务。我们称这种架构为多任务CNN。基于CNN的方法存在两个重要问题,网络结构和大量训练数据。在本小节中,我们将描述所提出的CNN的结构,并且将在下一节中介绍获取足够的训练数据的方法。
在所提出的多任务CNN中有两个决策层。一种称为二进制分类层,用于区分背景和交通标志,另一种称为多级交通标志分类层。它们分别对应于传统方法中ROI细化和分类的任务。这里,二进制分类层旨在快速消除大多数背景ROI并允许一些硬背景通过,这将由基于更深特征的多类分类层去除。在训练和测试阶段,所有ROI首先被馈送到二进制分类层,并且只有正ROI被馈送到网络的下一部分以获得详细的类。在训练阶段,两个决策层的损失用于联合优化网络。多任务CNN的基本结构如图2所示。conv(k,m)表示卷内核,其内核大小为ktimes;k,输出通道号为m。在所有卷积操作之前进行适当的填充,以保持输入通道的宽度和高度,并且在所有操作中步幅为1。重新表示整流线性单元(ReLU)层。 maxpooling(k)表示内核大小为ktimes;k和步幅为k的最大池化层。
要设计一个好的网络,重要的是要考虑网络的深度。在本文中,我们定义和比较了具有不同深度和卷积核大小的四种网络结构。它们具有与图4所示相似的基本结构。具体地说,网络的输入是大小为48times;48的彩色图像。两个决策层的节点数是2和73,它们代表第一个中的背景和交通标志。案例和标志类的数量以及第二种情况下的附加背景类。除最终决策层之外,在每个完整连接层之后添加ReLU层。在从池化层连接的两个完整连接层之后添加概率为0.5的辍学层。表1中列出了四种模型的详细结构。在浅模型中,所有卷积层都使用大滤波器,而深模型将大滤波器分成几个固定大小为3times;3的小滤波器。每个深或浅模型包括2或3个最大池池,因此总共有四个模型。
C.后处理
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[443276],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。