英语原文共 12 页
基于多任务卷积神经网络的交通标志识别
Hengliang Luo, Yi Yang, Bei Tong, Fuchao Wu, and Bin Fan
简介:虽然交通标志识别的研究已经进行了多年,但是大多数现有的工作都集中在基于符号的交通标志上。本文提出了一种新的数据驱动系统,用于识别汽车上安装的摄像机所拍摄的视频序列中的所有类别的交通标志,包括基于符号和基于文本的标志。该系统分为三个阶段,交通标志感兴趣区域(ROIs)提取,ROIs改进和分类,以及后期处理。来自每一帧的交通标志首先使用灰度和标准化RGB通道上的最大值提取。然后,使用大量数据来训练多任务卷积神经网络,包括合成交通标志和街景,通过完成的多任务卷积神经网络对提取出的感兴趣区域进行改善并进行详细的分类。后期处理最终将所有帧中的结果组合起来以做出识别决定。实验结果证明了该系统的有效性。
关键词:交通标志检测,交通标志分类,交通标志
正文:
- 引言
交通标志识别在驾驶辅助系统和自动驾驶系统中起着重要的作用。但是,由于部分遮挡、不同视点、照明和天气条件等原因,交通标志图像的表现变化较大,导致这项任务对计算机来说并不容易。最流行的识别图像中交通标志的方法包括两个步骤:检测和分类。有许多研究人员使用已经流行或专门设计的视觉算法来完成这项具有挑战性的任务。然而,比较这些方法的性能并不容易,因为在2011年德国交通标志识别基准(GTSRB)和2013年德国交通标志检测基准(GTSDB)发布之前,不存在公共可用数据集。在那之后,研究人员可以在相同的基准测试中评估和比较他们的算法。
然而,GTSRB和GTSDB中仍然存在一些缺陷:1)它们仅包括三类基于符号的具有规则形状和颜色的交通标志,这些标志相对容易检测和分类,而基于文本的交通标志更具有挑战性;2)GTSDB仅包含静态图像,但在实际场景中,对于检测和分类有用的是由车载摄像头捕捉的连续视频;3)交通标志识别的最终任务是了解场景中的现有标志,但是这两个基准把这个任务分解为两个具有不同数据集的独立任务。
为了缓解这些问题,我们提出了一种新的系统来识别视频输入中的现有交通标志,并评估其在具有以下特征的新的具有挑战性的数据集上的表现:1)它包含基于符号和基于文本的交通标志,有7个类别,不同于之前的三个基于符号的类别。2)不使用静态图像,数据集中的每个样本是从车载摄像机捕获的5~20个低质量帧的短视频。数据集中的一些示例如图1所示。可以看出,基于符号的交通标志具有相同的外观,在视点、照明、模糊、背景等方面存在差异,而基于文本的标志即使在同一类别中也可能具有不同的外观。
我们的交通标志识别系统包括三个阶段:交通标志感兴趣区域(ROIs)提取,ROI改进和分类,以及后期处理。首先,对视频中的每个帧,在多通道图像上使用最大稳定极值区域(MSER)来检测交通标志感兴趣区域。然后,为了对感兴趣区域进行改善与分类,提出了一个多任务卷积神经网络。具体而言,感兴趣区域首先被馈送到二元分类层,而只有正向的感兴趣区域通过深层多类分类网络继续分类。网络端到端的训练大量数据,包括训练数据,合成标志和街景标记的图像。最后,融合每帧的识别结果以获得视频的最终结果,这种系统结构图如图2所示。
本文的主要贡献如下:1)许多现有的工作都集中在基于符号的交通设施上,但我们处理所有的类别,包括基于符号和基于文本的类别;2)提出了一种新的多任务CNN,它共同处理感兴趣区域的改进和分类任务;3)解决了相对少量的标记交通标志问题,两种数据采集方法:街景图像和合成图像,结合起来以低成本获得大量标记样品;4)我们的系统在新发布的具有挑战性的数据集中达到了最佳结果。
本文的其余部分安排如下。第二节回顾了交通标志识别中的相关工作。在第三节中,我们描述了交通标志ROI提取,改进,分类和后期处理的方法。然后,在第四节中,我们详细说明了我们的数据采集方法。在第五节中,进行实验以评估系统。最后,第六节得出结论。
- 相关工作
通常,交通标志识别包含两部分:检测和分类。检测的目的是找出图像中现有交通标志的位置和大小,分类的任务是为每个检测到的交通标志分配一个类别标签。本节分别对这两部分的相关工作进行了综述。
- 交通标志检测
由于复杂的环境条件,由相机获得的图像通常质量差。低级图像预处理可用于增强捕获图像的交通标志区域,这使后期任务更容易进行。最常见的方法是将图像转换到新的颜色空间,使其中符号更加清晰。许多颜色空间已经被使用,例如HSI,改进的HLS和标准化颜色空间。另一种预处理方法是使用机器学习来从数据中学习颜色空间映射。参考文献[9]提出了一种颜色概率模型,它可以在抑制背景区域的同时增强符号的主色。在[10]和[11]中,训练SVM分类器将彩色图像中的每个像素映射到在符号区域中具有高响应的灰度值中。
在物体检测的早期阶段,使用基于阈值的方法很受欢迎,在[13]中,比较了不用的基于阈值的分割方法。在具有不可预测的照明条件的复杂环境中,这种方法不稳健。
最近,基于机器学习的对象检测在研究界变得占主导地位。在交通标志检测中,有基于滑动窗口的方法和基于感兴趣区域的方法。
在[15]和[16]中使用基于滑动窗口的方法,例如积分通道特征(ICF),聚合通道特征(ACF)[14]来检测交通标志。其他方法如Adaboost具有增强的通道特征,Adaboost具有Haar-like特征,SVM与颜色HOG也被提到。这些方法需要消耗时间,因为它们需要构建一个多尺度的金字塔。更糟糕的是,确定滑动窗口大小及其纵横比是很困难的。
另一种方法是首先提取感兴趣区域,然后使用分类器过滤掉非对象感兴趣区域。与基于滑动窗口的方法相比,它减少了计算时间,并且不需要调整滑动窗口的参数。该方法的一个重要考虑因素是提取的ROI中目标对象的召回率。预计尽可能高的召回率同时保持ROI的数量尽可能低。鉴于交通标志设计有大部分均匀区域,MSER已被证明在提取此类ROI方面非常有效。在[22]和[23]中,使用粗滑动窗口方法来提取ROI。模板匹配也用于[10]和[11]中的ROI提取。从ROI中过滤出非签名对象可以视为分类任务。具有HOG特征的SVM分类器由于其出色的性能而成为最流行的框架。还使用了一些其他方法,如卷积神经网络(CNN)[10],极限学习机[22]。
- 交通标志分类
传统的分类方法包括特征提取和分类训练。文献中报道的一些组合包括具有HOG特征的级联SVM分类器,Kd树和具有距离变换的随机森林和HOG特征,具有径向直方图特征的MLP(多层感知器),ANN(具有RIBP(旋转不变二进制模式)特征的人工神经网络,具有LIPID的SVM(局部图像置换区间描述符)等。在[29]中,首先提取密集的SIFT特征,HOG特征和LBP特征,然后通过局部约束线性编码(LLC)对它们进行编码,并通过空间金字塔池(SPM)汇总得到的编码。将三种不同的特征表示连接为交通标志的最终特征,并使用线性SVM作为分类器。一般来说,设计一个好的特征是非常费力和困难的。
现在流行的是可以在不需要手工设计的特征的情况下进行训练的卷积神经网络(CNN)。在[30]中,提出了对具有不同权重初始化或数据预处理的多个CNN进行训练的多列CNN,以对交通标志进行分类。它在2011年的GTSRB竞赛中获得了第一名。在[31]中,融合了CNN的两个阶段特征,即局部和全局特征,以识别交通标志。该方法在同一竞争中获得了第二好的准确度。在[32]中,交叉熵损失的修改版本被用于训练CNN,获得了比[30]更好的结果。尽管CNN在图像分类方面表现出色,但如何设计出良好的网络架构并培养可行的模型仍然是一项挑战性的任务。
为了处理交通标志的几何变化,一种方法是用数据增加来扩大训练数据集。另一种方法是消除几何变化。在[33]中,交通标志首先被划分为几个超级类别,每个超级类别都采用特殊设计的方法进行透视调整。然后,调整后的标志被分类到他们的详细课程中。最近,在[34]中提出了空间变换器网络(SPN),它可以明确地学习变换的几何参数,并且对输入图像的几何变化具有鲁棒性。在[35]和[36]中显示,SPN可以在GTSRB上获得最先进的结果,而无需在之前的工作中使用复杂的技巧。
- 交通标志识别
在本节中,我们将介绍从视频中识别交通标志的方法。首先,使用MSER提取来自视频的每个帧的交通标志ROI。然后,通过多任务CNN改进和识别ROI。最后,融合所有帧的输出以在后处理阶段获得最终识别结果。
- 交通标志ROI提取
由于真实交通场景中的交通标志在颜色,形状和大小方面存在很大差异,因此使用基于滑动窗口的方法检测它们需要很多技巧。幸运的是,在交通标志内有大部分均匀区域,MSER可以很容易地检测到这些区域。出于这个原因,我们使用MSER从视频的每个帧中提取交通标志ROI。由于交通标志的主要颜色在不同类型的标志中是不同的,因此使用多通道图像来提取MSER以提高所提取的ROI的召回率。本文中使用的四个通道包括灰度和标准化RGB通道通过以下公式计算
(1)
在提取MSER时,我们使用关于交通标志的大小和形状的先验知识来消除少数不适用的ROI。具体而言,交通标志ROI(由边界框表示)的大小应位于一个范围内。ROI的形状可以由边界框的长宽比表示,该值也应该有限制。所有参数都可以从训练数据的统计结果中轻松确定。提取的ROI的示例如图2所示。除了交通标志周围的ROI之外,在诸如建筑物和树木之类的区域中存在许多ROI,这些ROI经常出现在交通场景中。
- 通过多任务卷积神经网络改进和识别ROI
在交通标志ROI提取后,获得交通标志和大量背景。此阶段的任务是筛选出背景并确定剩余ROI的详细类别,即ROI分别改进和分类。传统上,大多数相关的工作分别处理这两项任务。对于ROI改进,广泛使用的方法是使用具有HOG特征的SVM分类器。对于分类任务,CNN是主流方法,已被证明是计算机视觉中的优秀模型。它可以从图像数据端到端地进行训练,不再需要手动设计的功能。在本文中,我们提出了一种新的CNN架构,它将这两项任务统一起来。我们将此架构称为多任务CNN。基于CNN的方法存在两个重要问题,网络结构和大量训练数据。在本小节中,我们将描述所提出的CNN的结构,并且将在下一节中介绍获取足够的训练数据的方法。
在提出的多任务CNN中有两个决策层。一种称为二元分类层,用于区分背景和交通标志,另一种称为多类交通标志分类层。它们分别对应于传统方法中ROI改进和分类的任务。在这里,二元分类层旨在快速消除大多数背景ROI并允许一些硬背景通过,这将基于更深层的特征由多类分类层消除。在训练和测试阶段,所有ROI首先被馈送到二进制分类层,并且只有正ROI被馈送到网络的下一部分以获得详细的分类。在训练阶段,来自两个决策层的损失用于联合优化网络。
多任务CNN的基本结构如图4所示。conv(k,m)表示内核大小为ktimes;k的卷积层,输出信道数为m。在所有卷积操作之前进行适当的填充,以保持输入通道的宽度和高度,并且在所有操作中步幅为1。relu表示整流线性单元(ReLU)层。maxpooling(k)表示内核大小为ktimes;k和步幅为k的最大池化层。
要设计一个好的网络,重要的是要考虑网络的深度。在本文中,我们定义和比较具有不
同深度和卷积内核大小的四个网络结构。它们具有与图4所示相似的基本结构。具体来说,网络的输入是大小为48times;48的彩色图像。两个决策层的节点数是2和73,它们代表第一个背景和交通标志。案例和标志类的数量以及第二种情况下的附加背景类。除了最终决策层之外,在每个完整连接层之后添加ReLU层。在从池化层连接的两个完整连接层之后添加概率为0.5的dropout层。表1中列出了四种模型的详细结构。在浅层模型中,所有卷积层都有大滤波器,而深层模型将大滤波器分成几个固定尺寸为3times;3的小滤波器,这是来自[37]的灵感。每个深或浅模型包括2或3个最大化层,因此总共有四个模型。
- 后期处理
每个提取的交通标志ROI被馈送到上述多任务CNN以获得分类结果。该操作应用于测试视频的每个帧。在视频的临近帧中,由于它们在不同帧中的不同外观,识别结果可能略有不同。因此,融合所有帧的结果以在短视频中获得最终识别结果是必要且重要的。对于正向分类,我们设置阈值threshp以移除具有低置信度的候选者。对于所有剩余的候选符号,计算所有帧中每个类的频率,并且将频率大于频率阈值的交通符号类指定为视频中的现有符号类。可以通过对验证数据集的网格搜索来确定这两个阈值。
对于正分类,我们设置阈值threshp以移除具有低置信度的候选者。对于所有剩余的候选符号,计算所有帧中每个类的频率,并且将频率大于频率阈值threshp的交通符号类指定为视频中的现有符号类。可以通过对验证数据集的网格搜索来确定这两个阈值。
- 训练CNN的数据准备
在我们的系统中,检测阶段和分类阶段都依赖于CNN模型。由于CNN结构的复杂性,需要尽可能多地标记数据来训练可靠的CNN模型。为此,我们提出了两种不同的方法来获取额外的培训数据。一种是使用街景图像,另一种是使用合成交通标志。
值得注意的是,这两种方法也用于一些相关的工作中。在[18]中,Google街景图像用于帮助开发基于视觉的驾驶员辅助系统。从标准交通标志生成合成数据被用于检测和分类某些工作中的交通标志。本文的目的是识别所有类别的交通标志,它比以前的工作更具挑战性。我们使用两种类型的数据,并且在实验中评估每种类型的数据的贡献。
- 从街景中收集训练数据
传统上来讲,为了收集交通标志识别系统
资料编号:[5797]
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。