英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料
摘要 - 最先进的驾驶员辅助系统(ADAS)通常侧重于单个任务,因此具有明确定义的应用领域的功能。 虽然ADAS功能(例如车道偏离警告)表现良好,但它们缺乏一般的可用性,例如 高速公路和乡村道路的不同运作模式。 本文提出了一种实时性强的方法,通过使用新开发的层次主成分分类(HPCC)对驾驶场景进行分类。 基于此,ADAS获取有关当前场景上下文的信息,并且能够激活不同的操作模式。 例如,该算法在三个不同类别(高速公路,乡村道路和内城)上进行了培训,但可以应用于任何数量和类型的类别。 9000张图像的评估结果显示了该方法的可靠性,并将其标记为更复杂的高级应用程序的关键步骤。
I.引言驾驶辅助系统越来越重要的是进一步减少交通事故的数量是一个广为人知的事实。与此同时,这些高级驱动程序辅助系统必须处理的复杂性同样增长,导致使用许多感觉设备和处理结果的信息融合的复杂系统。然而,目前可用的系统只关注受限制的应用领域,例如。公路。不包括有关当前场景上下文的信息。然而,所述应用程序基于指定的上下文做出许多假设,这导致预定义的一组规则和参数。通常,这些规则和参数仅将这些系统的使用限制在一个应用程序区域。然而,不同的规则/参数集可以允许应用程序通过简单修改基本假设来在多种场景环境中工作。因此,关于场景的知识对于改进更高级别的应用程序是有价值的,允许在不同的环境中进行更多的专门和多样化的反应。在本文中,我们提出了一种快速,可靠的分类方法。该算法独立于可能过时的地图数据以及全球定位系统数据的错误和不准确之处。此外,它与地图数据中的重新编码的上下文信息无关,因为它仅需要场景的图像。基于新颖的分层主成分分类(HPCC),该算法在各种复杂场景(9000张图像评估)中可靠地对场景进行分类(超过97%)。评估将显示,提出的方法是进一步了解驾驶状况以及各种运行应用的基础的重要一步。
视觉场景分类的概念近年来越来越多地被中断。为此,许多出版物以一般方式处理此主题,但只有少数是为流量域设计的。现有算法的一般过程是类似的。因此,根据先前的结果,提取从图像中取出的数字,其将被立即处理或者从图像中逐渐提取。之后,进行分类。可能的分类方法将提取的特征与在训练阶段得到的平均值进行比较。视觉场景分类的出版物,主要使用多个所选类别,例如室内/室外,景观/城市,海岸/景观/森林/山脉。分类的典型低级特征是颜色直方图(见[1],[2],[3]),纹理取向(见[3] [4],[5])或这些特征的组合。
另一种方法是使用[6]中使用的概念性潜在语义分析(pLSA)作为分类的中间层上的特殊功能,如灰度级,色点和SIFT描述符。通过[7]提出了一种进一步的中间级方法,其通过将每个像素分配给诸如水,沙子,天空等之一的类别来分割图像的RGB,HSV和纹理值,之后,同一类别的像素转化为地区,分割整体情况。区域及其彼此的空间关系用于分类。 Oliva和Torralba(参见[8],[9])已经显示出基于频域使用的场景分类的更有希望的方法。因此,他们引入了所谓的判别光谱模板(DST),它们是从大量的采样图像生成的。因此,通过多个频率选择滤波器对图像的频谱进行采样,并将其分配给每个类(如人造/自然,开/关,扩展/封闭等,参见[10]),其值在0和1对应于其各自的会员资格。因此,每个类都有一个连续的描述图像到该类的成员资格。每个特征的采样频率结果允许生成模板,其描述了针对某一类别的相应强度的所有相关频率。然而,Oliva和Torralba提出的方法一方面是对得到的分类结果不断进行的,这使得某一类别的决策变得困难。另一方面,在汽车领域中存在类似类别的情况下,该方法不足够区分。
处理适用于驾驶员辅助系统的场景分类的出版物很少。其中之一是[11]的工作,其使用HSV颜色空间的特征来识别具有砖,草等颜色的图像像素的数量。这些特征通过设定的模糊规则来评估以对场景进行分类。然而,与流量领域中的典型场景相反,大多数类别(在一般情况下)与其视觉特征(例如景观/城市)有很大的不同。 ADAS的典型场景将始终包含在车前的街道。上中间部分经常显示天空。对象可以随时遮挡场景中的视图,并且不存在用于不同类别的唯一对象,这将简化任务。此外,分类必须处理照明条件的变化,并且还可以在场景类别内例如多样化。与通过草原包围的乡村道路相比,通过森林的乡村道路(参见图1的示范类别)。
III系统描述 - 场景分类在下文中,给出了我们对场景分类方法的粗略概述(见图2)。此后,更详细地描述所有处理步骤及其理论背景。整个系统可以分为三个主要部分。第一个是预处理,其中进行图像的适应以减少数据量,并且减少照明条件变化的影响(参见[8])。在预处理的最后一步中,图像被分成16个相等大小的方形子部分,这将在以下特征提取部分中独立地进行处理。在第二部分中,完成特征提取以获得图像的相关信息。如前所述,我们的系统使用频域来获取数据的紧凑表示。为此,对于16个子部件中的每一个,DFT用于计算光谱。之后,用多个高斯滤波器对每个频谱进行采样(Le。加权),这是受[12]的启发,它使用定向Gabor滤波器进行频谱采样。采样数据用训练阶段的计算平均值和方差值进行归一化,以提供子部件不同尺度之间的可比性。为了进一步减少数据量,在保持相关信息的同时,应用主成分分析(PCA)。最后,在第三部分进行分类,这是独立于以前的步骤,因为可以选择不同的方法。因此,对新开发的HPCC的两个版本进行了评估。
A.预处理系统的输入是一个400x300的RGB图像,在第一步将被转换为灰度图像。之后,会降低不同照明条件的影响。为此,使用对数曲线重新定标图像以改变强度值的分布。这是由于人类视觉途径中的早期过程,并提高了黑暗区域的对比度,以补偿数码相机曝光控制能力有限的影响。更具体地说,数码相机使用整个图像上的强度平均来计算曝光,导致黑暗区域中的低对比度。因此,强度值被重新缩放以覆盖整个动态范围(见图3b)。下一步是高通滤波,以减少低空间频率,衰减对比度的大差异以及DFT的副作用。为此,图像用滤波器滤波,其频率响应在等式(1)(见[13])。
滤波导致在整个图像上均匀分布的强度(见图3c)。 之后,图像被调整为256times;256像素,这导致水平轴的压缩和频域中垂直轴的伸长。 由于在训练期间进行了调整大小以及执行阶段,所以分类结果不受影响。 最后一步是在尺寸为64x64像素的16个相同大小的平方子部分中分割图像(见图3d)。 在下文中,每个子部分被独立地变换到频域。 子部分的划分是为了从某些图像区域的特征幅度值得出结论,如果整个图像将直接转换到频域,这将是不可能的。 因此,每个子部分可以被描述为在幅度和相位上分离的复杂空间频率函数(参见等式(2))。
在下文中,仅使用频谱的幅度,并且相位信息将被忽略。
B.特征提取算法的第二部分处理从16个谱中的每一个提取相关信息。每个光谱都是独立处理的,而所有光谱的过程是相同的。当瞄准实时实现时,具有64x64值的频谱对于图像来说是一个太高的维度描述,不适合直接分类。另外,在一定频率和相位上的单个幅度值的知识是不感兴趣的,因为图像中的对象位置的改变也将在光谱的能量水平上引起小的变化。因此,将对频谱的某些区域的能量分布进行评估,而不是单个幅度值。另一点是该方法的一般适用性,如果在某一位置和阶段使用单个幅度值,则可能会发生对训练数据的可能的过度补偿,这干扰了分类的良好泛化的目标。因此,频谱由多个高斯滤波器采样,其被缩放,旋转和移位以获得不同频率的不同分辨率,并且可以被解释为采样区域的加权平均值。这些16个光谱中的每一个用100个高斯滤波器(见图4b)的阵列进行滤波,这些滤波器已被适应于在低频下提供高分辨率并在高频下提供低分辨率的频谱。单个滤波器核(见图4a)可以用高斯函数描述(详见[14]),如公式(3)。
(y-yo) c(y_Yo)2)(3)(a)(x(x-xo)2 2b(x-xo)
对于滤波器核心的旋转角度(),以下参数a,必须对频带c进行调整(参见式(4),等式(5)和方程(6))。
最后,过滤器内核的宽度和高度可以通过ax和y进行调整,并且以过滤器的-3dB边界频率相互接触的方式进行选择。过滤核心的中心位移由Xo和Yo的适应性决定,由空间频率10定义,以及角度()(见式(7)和式(8))。
N Xo = 102:cos()Yo = 102Sln()
对于每个子部分i,采样的结果是具有1000x1维度的向量Yi(i = 1 ... 16)。总体结果是16个向量,每个具有100个值,每个图像总共有1600个属性。在可以进一步减少数据之前,可以对每个子部分i进行归一化,以生成Yi(h)的每个向量元素h的类似范围的值。对于归一化,必须根据训练数据为每个子部分估计平均值和标准偏差向量。用于训练的数据库保持N个图像,其对于每个子部分(i)产生16个矩阵Vi,其总体尺寸为100times;N。子部分i的矩阵Vi的行j包含从图像j采样的Yi的数据。因此,对于采样向量Yi的每个向量元素h,平均估计器(关于该概念的细节参见[15])可以由等式(9)。
和标准差(见[15])等式(10)为n表示图像。
N(h)= JE(a;(h))= N〜1 Lyf(h)-fMh)(10)n = 1特征向量Yi(h)的子部分和元素h的归一化与式。 (11)。 (h)= ih(h)-fMh)(11)Yt si(h)对于整体训练数据的归一化(子部分i)的所有元素(h)),因此,Vi见等式(12)。 Vi - I Nxl。 Yt Y i = INxl。 sT(12)t其中NxP是维度的单位矩阵N x P,Yi是平均向量,Si是子部分i的方差向量。如已经提到的,基于PCA的结果(在训练阶段),进一步减少提取的特征。在下文中,将为每个矩阵Y i(包含子部分i的N个训练图像的数据)计算PCA(参见[16]),其可以被视为坐标变换,其中第一个新坐标轴沿着数据的最大方差,第二轴沿第二大方差等。为此,PCA的结果是变换矩阵r i,其中每列包含单个主要组件的系数,并且列以其重要性的降序排列。为了减小每个Yi(h)的大小,只有第一个v主成分将用于投影。因此,构造仅包含第一v个主成分的缩短变换矩阵ii。特征提取的最后一步是通过公式将矩阵Y i投影到它们的新坐标系。 (13)。
类似地,对于单个特征向量Yi,通过等式(14),它是以下分类步骤的输入。
C.培训与分类由于空间局限性,HPCC将在下文中进行详细说明,而基础方法在此不再赘述,但可以在文献中找到。具有窗口判别光谱模板(WDST)的线性判别分析(LDA)的分类方法的细节可以在[10]中找到,关于神经网络的细节请参考[17]。在大多数情况下,分类算法尝试通过简单地从所有类别提取主成分来在一个步骤中区分所有可能的类别。对于这种描述的系统的层次主成分分类(HPCC)开发了不同的方法。更具体地,构建决策树,总是在两组之间分离,并且每个组包含多个类别(至少一个)。在第一种观点下,如果分类是基于相同的数据或相同的主要组成部分,这不是新颖的。但是,如果在每个分类步骤中仅使用来自当前两组的主要组件,则会发生变化。首先计算每个类别的主成分空间中特征向量的平均值yc。在这些平均值的基础上,将类别分为A,B〜C组(A,B满足AnB = 0和AUB = C),优化方程式的标准。 (15)。 (i = 1,j,i,j,i = ji,jEB,ii = j,而Ix-yI2描述向量x和Y之间的欧氏距离(见[16] )。同时,A组和B组平均值之间的欧氏距离应变为最大值(对于数学描述,参见式(16))。
A组和B组的分离是决策树第一个节点的初始步骤。如果例如组A包含多个类别,则重复上述过程。现在,归一化是以组A的一部分的类别的平均值和标准偏差来完成的,并结合在矩阵YA中。再次,主成分被计算,矩阵投影到A组的主成分子空间,YeA = t A。叶。此外,计算类别的平均值YcA,并优化先前的标准(方程(15),等式(16)),将A组划分为AA和AB。该方法适用于B组以及所有含有多个类别的子组。类别的总数最初由训练数据定义。该方法的优点是在决策树的每个节点处的主要组件的具体计算。只有在第一个节点,整体训练数据被用于形成两组,这两个组彼此最大程度地异质性,但同时对于组的成员最大程度上是均匀的(关于类别的平均值yc)。每个节点的分类可以用LDA和WDST(参见[10])或神经网络(参见[17])进行。因此,在每个节点,训练一个特定的分类任务。具有分类步骤的整个系统如图2所示。简而言之,以下列方式进行训练和后续分类。作为第一步,对完整的训练数据进行预处理,之后每个具有其子部分的图像被独立地变换并且它们的光谱被采样。在第二步中,学习了决策树。因此,存储用于转换到主要分量空间的矩阵以及每个节点的平均和标准偏差向量。最后一步是图像的分类,因此图像的特征被提取并存储在采样向量Yi中。在每个节点处,采样矢量用相应的平均和标准偏差向量进行归一化,然后投影到主要分量空间。结果按其中一个命名方法分类并分配给其中一个子组。重复该过程直到达到树叶,这导致将图像分类到叶子的类别。在HPCC的另一变型中,生成来自图像的每个子部分的决策树。因此,为每个子部分构建16个决策树,最后对16个结果进行多数投票。在以下部分中,整个图像的单个分类树的方法称为HPCC 1,16个单一分类的方法称为HPCC 2。
IV 结果在本节中,我们通过训练和测试来评估系统的性能,总共10800张图像,从几个图像流中获取。图像手动分配到公路,乡村道路和内城之一(见图1)。图像显示各种场景,一些包含汽车,卡车和行人,其他不包含交通相关对象。场景也显示不同的照明条件,有些是黑暗的,其他的是明亮的。培训每个类别进行600张图像。此后,评估由五个独立的人员完成,每个1800张图像(每个类别也有600张图像)。该方法使用Matlab实现,并在1,83 GHz Intel Centrino Duo上进行了评估,具有1GB RAM并运行Windows XP。只有一个CPU内核被用于计算。不同测试组的HPCC结果对分类率(差异2%)表现出类似的表现。表I显示了五次评估运行中的平均结果。为了进行
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[138128],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。