基于深度卷积神经网络的交通标志识别方法外文翻译资料

 2021-11-22 21:44:15

英语原文共 11 页

基于深度卷积神经网络的交通标志识别方法

交通标志识别(TSR)是自动驾驶系统的重要组成部分。为TSR系统设计一个高性能的分类器是一个非常具有挑战性的任务。本文提出了一种基于深度卷积神经网络的TSR系统设计方法。为了增强网络的表达能力,设计了一种将网络中的网络和剩余连接相结合的新结构(下称块层)。我们的网络有10个带参数的层(块层视为单层):前7个是交替的体积层和块层,其余3个是完全连接的层。我们在德国交通标志识别基准(GTSRB)数据集上训练我们的TSR网络。为了减少过度拟合,我们对训练图像进行数据增强,并采用正则化方法“dropout”。我们在网络中使用的激活函数采用了尺度指数线性单元(SELUs),它可以诱导自归一化性质。为了加快训练速度,我们使用一个高效的GPU来加速卷积运算。在GTSRB的测试数据集上,我们达到了99.67%的准确率,超过了目前最先进的结果。

文件编号:A文章编号:1673-1905(2017)06-0476-5

近年来,随着驾驶员辅助系统和自动驾驶汽车的迅速发展,交通标志识别(TSR)越来越受到研究者的重视。交通标志提供了许多有用的交通环境信息,如限速、方向、危险警告等。及时识别交通标志,使驾驶安全便捷。然而,TSR系统输入的所有交通标志图像都是在真实环境中拍摄的,它们具有不同的光照条件、视点、局部轮廓和分辨率。因此,克服这些困难,保证模型的鲁棒性是非常重要的。

近十年来,人们提出了许多TSR系统模型[1-3]。一般来说,TSR过程可以是分为两个阶段,即,检测与识别,并在本文中重点介绍了识别阶段。Lim等人利用颜色/形状和象形图信息提取特征,并将特征输入径向基函数神经网络(RBFNN)对交通标志进行分类。Madani和Yusof[5]使用预先训练的多类支持向量机(MCSVM)代替前面提到的RBFNN对交通标志进行分类。卷积神经网络(CNNs)以其良好的分类性能,近年来在计算机视觉领域得到了广泛的应用。Lau等人提出了一种TSR方法并基于CNN实现了对Ma- laysia交通标志数据库的良好准确性。为了提高交通标志识别的准确性,我们提出了一种深度cnn结构,并将其应用于德国交通标志识别基准(GTSRB)数据集。

整流线性单元(ReLU)是近年来深核神经网络最常用的激活函数。与双曲正切或乙状结肠单位[7]相比,含有ReLUs的深部神经网络训练速度更快。不幸的是,ReLU单位在训练中可能会很脆弱而“死亡”。为了解决[8]的“死ReLU”问题,提出了泄漏ReLU的解决方案。Xu等人[9]证明了leaky ReLUs在CNN中的表现要优于ReLUs。为了训练深度CNNs,通常使用批处理归一化或层归一化对网络中各层的输出进行归一化。我们在网络中使用的激活函数是由Klambauer等人提出的指数线性单位(SELUs)。通过网络传播时,SELUs收敛到零均值和单位方差。在我们的网络中,我们发现SELUs在GTSRB数据集上实现的accu-比ReLUs(约0.95%)和leaky ReLUs(约0.4%)更高。SELU激活函数由给出。

在传统的CNNs中,层的结构通常是由堆叠的卷积层(可选地接着是标准化层和池化层)和几个完全连接的层组成,如LeNet-5[11]、AlexNet[12]和VGG[13]。Lin等人提出了一种新的深度神经网络——网络中的网络(network in network, NIN)来增强卷积神经网络的表示能力。受到NIN的启发,Szegedy等人[15]设计了一个代号为“Inception”的深度卷积神经网络架构,并获得了2014年ImageNet大规模视觉识别挑战(ILSVRC)的桂冠。

残差网络最早是由He等人在文献[16]中提出的,他们为网络中添加残差连接的优点提供了实证证据。Szegedy等人[17]在ILSVRC 2012分类任务中,将Inception架构与剩余连接相结合,得到了比没有剩余连接时更高的准确率。

为了利用几种不同尺寸的卷积滤波器来提取不同层次的特征,并从增加剩余连接中获益,我们设计了一种新的结构——块层,如图1所示。为了简化表示,我们省略了图中的激活函数。块层中的所有卷积层和最大池化层都具有相同的step为1,并且具有相同的填充方案“same-padding”,以确保它们的输出网格与输入的大小匹配。换句话说,块层的输出与它的输入具有相同的大小。这种机制使得块层可以添加到传统的普通CNNs中的任何位置。在块层中,在昂贵的5times;5和3times;3体积之前,使用1times;1卷积作为降维模型,以减小网络的尺寸。

图1 我们TSR网络中使用的块层

块层的输出H(x)是其inputx的函数。块层的堆叠底层映射表示为F(x)。由于添加了剩余连接,块层的输出可以描述为:块层的输出H(x)是其inputx的函数。块层的堆叠底层映射表示为F(x)。由于添加了残余连接,块层的输出可以描述为:

H(x)=F(x) x. (2)

现在我们已经准备好描述我们的交通标志识别模型的总体架构。一个简明的描述概括在图2中。为简单起见,上面描述的块层表示为单层。该网络包含10层权重:前7层为交替卷积层和块层,其余3层为全连接层。最后一个全连接层的输出被馈送到一个43路softmax,它产生一个分布在43类交通标志标签。最大池层遵循C3、C5和C7层。池的网格是3,步长设置为2。换句话说,我们在网络中使用重叠池。

图2 TSR深卷积神经网络的结构示意图

我们的网络输入是一个RGB图像,大小为48times;48times;3。输入图像的预处理是对图像进行线性缩放,使其达到零均值和单位范数。如图2所示,B2层、B4层和B6层是块层,与之前对应的卷积层al层(可能是池)相连。C1层过滤64个大小为7times;7times;3的内核,步长为1像素的输入图像。C3层有128个大小为5times;5times;64的核,与之前的块层相连。C5层有256个大小为3times;3times;128的内核,C7层有256个大小为3times;3times;256的ker- kernel。前两个完全连接的层(FC8和FC9)各有512个神经元。最后一个完全连接层(FC10)有43个神经元。我们的网络的详细示意图也如图3所示。

图3 TSR网络的详细表示

GTSRB数据集[18]包含43个类中的51 893张图像(39 209张训练图像和12 630张测试图像),如图4所示。交通标志的尺寸在15times;15和222times;193之间。图像保持10%的利润率(至少5个像素)周围的交通标志。所有的图像都是从真实的环境中采集的,这些环境具有不同的光照和天气条件。部分交通标志图像由于分辨率低、光照差、局部暗沉、运动模糊等原因不易识别。图5为在污染条件下从GTSRB数据集中选取的部分检查图。

图4 GTSRB数据集中43个交通标志类

图5从GTSRB数据集中选取的污染条件下的例子,如分辨率低、光照差、部分遮挡和运动模糊

在GTSRB的训练集中,每个类的图像数量在210到2250之间变化。为了避免不平衡数据对实验结果的影响,我们将每个班的图像数量增加到2250张。对于小于2250张图像的类,我们在类中随机选择一些图像,然后调整亮度、对比度、旋转等。这样,培训数据的数量就可以增加到96750。

为了减少过度拟合,我们对训练数据集进行了数据扩充。由于GTSRB数据集中的图像大小不同,我们首先提取训练图像的最中间区域,并将其缩放到52times;52的大小。对于缩放后的图像,我们随机抽取48times;48个patch。这将我们的训练集的大小增加了16倍。另一种扩大训练集的方法是随机调整图像的亮度和对比度。同时考虑到GTSRB数据集的图像来自真实世界,其中一些图像的光照条件较差,我们只在短时间内随机选取一个因子来调整亮度和对比度。

我们使用由谷歌公司开发的TensorFlow[19]机器学习系统来训练我们的网络。我们的培训使用Adam[20]优化器,其学习率为0.000 1(每30个纪元将学习率降低10%)。批大小设置为128。我们使用重量衰减(L2惩罚乘数设置为0.000 5)和前两层完全连接的[21]正则化(drop- out ratio为0.5)来减少过度拟合。我们使用Ref.[22]的随机初始化过程来初始化网络中的权重。在我们的网络中,偏差初始值为零。我们通过平衡训练集对网络进行大约100次循环训练,这在NVIDIA Tesla M60 8G GPU上大约需要17小时。实验结果如图6所示。

图6 GTSRB数据集上的训练:(a)训练损失与训练时间的关系;(b)训练准确性与训练时期

在测试时间,我们首先提取交通标志区域并将其缩放到48times;48像素,然后将其输入到训练好的网络中。测试精度细节如图7所示。我们网络工作的GTSRB的最终精度为99.67%。表1给出了一些提交给GTSRB的算法与人工性能的比较。在测试阶段,我们的网络在CPU和GPU设置上的速度如表2所示。实验结果表明,GPU的速度是CPU的几十倍。我们的网络可以在NVIDIA GTX 1060 6G GPU上每秒处理300多张图像。在使用GPU的情况下,我们的网络工作在重构过程中获得了很高的计算效率。

图7 GTSRB数据集相对于训练时点的测试精度

表1 GTSRB测试集结果对比

表2不同设备上的网速

测试阶段的一些真阳性和假阴性的例子如图8所示。对于轻度污染条件下的图像(图8(a)),我们经过训练的网络可以做出真实的预测。但是对于一些在极端污染条件下的图像(图8(b)),我们的网络工作并不是很好。

图8测试阶段的一些例子:(a)真正态例子;(b)假阴性例子

本文提出了一种用于交通标志识别的深度CNN。该网络包含三个块层,除了单个卷积和全连接的lay-

人队。网络中的块层可以提取不同的数据级功能,并可以灵活地添加到传统的CNNs中。在GTSRB测试数据集上,实现了99.67%的精度。这一结果超出了人类的水平。在未来的工作中,我们打算提高我们的网络的精度,并在预测阶段加快计算速度。在这方面,我们计划考虑以下问题:调整我们网络工作的层数,采用更多的数据扩充方法,并减少参数的个数。

利用卷积神经网络和方向梯度直方图金字塔对车辆标志进行检测

摘要:本文提出了一种从车辆前后视图图像中检测和识别车辆标志的新方法。该方法是一种结合卷积神经网络(CNN)和梯度直方图金字塔(PHOG)特征的两阶段算法。首先利用CNN作为候选区域检测和识别的第一阶段。第二阶段采用支持向量机分类器PHOG对第一阶段的结果进行验证。利用网络采集的汽车图像数据集进行了实验研究。结果表明,与其他传统方法相比,该方法具有较高的鲁棒性,能够准确地定位和识别车辆标志。该方法对20类汽车标志数据集的召回率可达100%,准确率为96.96%,识别率为99.99%。

关键词-汽车标志;标志检测;标志识别;美国有线电视新闻网(CNN);PHOG。

车辆检测与识别是计算机视觉领域与智能交通系统相结合的研究课题之一。这个任务的目的是定位包含车辆的图像区域,然后找出哪些品牌或车型的车辆可以导致自动应用系统,可以监测,跟踪车辆,并检测违反交通法规。车辆检测与识别的主要困难在于,目前有很多不同品牌的车型和设计可供选择,而且随着时间的推移变化也很快。因此,为了检测车辆,我们选择了在相同品牌的车辆中,无论车型和设计如何,往往是相同的标志作为车辆检测的主要特征。

为了在场景图像中找到标识,许多研究者采用了不同的图像特征和识别模型。然而,许多方法对复杂的背景和车辆纹理都不够健壮。Apostolos等人[1],[2]提出了基于SIFT的车辆标志检测与识别方法。通过使用来自多个图像的合并特性,系统性能得到了提高。采用广义霍夫变换进行特征聚类,采用仿射变换进行几何验证。

不使用SIFT,可以通过车牌位置[2]、[4]a对称轴[2]、[3]或边缘图像[3]、[4]来定位车辆标志。Kai等人提出了一种利用外观特征和对称性进行汽车标志定位的混合方案。摘要将对称特性和基于边缘的特征相结合用于栅格检测,可以提供车辆标志的相对位置信息,有效地用于汽车前视图像中车辆标志的检测和识别。与其他只使用对称性的相关工作相比,该工作在标识检测方面的表现优于其他工作。在Yang等人的工作中,提出了一种基于边缘检测和投影的汽车标志检测方法。车辆标识可以通过车牌定位来检测。检测到车牌后,利用垂直投影和水平投影来定位相对接近车牌的logo区域。然而,依赖于车牌检测的方法在很多情况下都不能很好地发挥作用。例如车牌不能位于车辆前部的中心,或者出于隐私原因车牌被审查或模糊,如谷歌街景。

Tong Sam等人提出了利用适度Adaboost算法和径向切比切夫矩的车辆检测和识别模型。该系统可以在旋转、缩放、平移、倾斜等不同角度识别车辆标志。对于汽车标志的检测,提取Haar-like特征来表示图像的各个部分,采用改进的Adaboost算法进行分类。检测到标识后,系统将标识正常化并将其移回正常的前视图。然后用径向切比切夫矩表示图像模式,并用k近邻分类器进行识别。

本文从汽车的前视图和后视图两方面研究了汽车标志的检测与识别。该方法能够识别车辆标志的位置并进行识别。为了提高计算精度,我们将卷积神经网络(CNN)与PHOG相结合,提出了两阶段方案,如图1所示。在第一阶段,CNN作为许多视觉识别作品[6]-[9]中使用的框架,被用来选择可能是制造商logo的候选区域。在一般过程中,CNN从图像中提取低层特征。然后,采用k -均值聚类[6]、[7]受限玻尔兹曼机(RBM)、自动编码器或稀疏编码等无监督学习方法学习模型的特征集。在这项工作中,我们使用改进的K-均

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。