英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料
机器视觉受益于人类的情景期望
已知情景环境有助于机器和人类进行目标识别,这表明底层表示可能是相似的。或者是,从定性的角度看他们是不同的,因为机器和人类的训练经验是截然不同的。机器明显地在包含目标和它的环境的图片上进行训练,而人类常常在体验没有对象的场景(例如没有汽车的高速公路)。如果这些环境模型确实不同,那么机器视觉算法将通过人类的环境模型去提升他们识别。前提是这些期望是能够被测量的,并且是属于系统的。这里,我们开发了一种衡量人类环境期望的范例。我们要求人类受试者指出没有这些物体的场景中汽车或人员可能出现的规模,位置和可能性。这产生了高度系统性的期望,然后我们可以准确地预测使用场景特征。这使我们能够预测人类对新场景的期望,而无需进行明确的测量。接下来,我们通过深度神经网络对这些预测的人类期望进行了增强,并且在检测汽车和人员(1-3%)以及检测相关对象(3-20%)方面获得了显着的准确性提升。相比之下,使用其他传统计算机视觉功能对增强深度网络决策产生了更小的收益。总之,我们的研究结果表明,利用人类衍生的情境期望来增强深度神经网络可以改善机器视觉的表现,这表明情境表征在人类和深层神经网络中具有质的不同。
即使对于非常成功的深度卷积神经网络(CNN),在现实世界场景中准确检测目标仍然是一个难题。例如,最先进的深度卷积网络,如Alexnet2 和更快的RCNN3 根据我们对现实世界场景数据集的评估,可以检测到82-88%精度的人和具有77-84%精度的汽车相比之下,在加速汽车检测或人员检测任务中,人类93%的准确率表现要好得多,这种性能差距的一个潜在原因是人和机器具有质量上不同的训练数据。机器通常在包含嵌入其周围环境中的目标的大型图像数据库上进行训练。当对象与其周围环境具有弱相关性时,在存在更多信息性对象特征的情况下难以学习环境信号。当对象与其上环境具有强相关性(例如始终包含微波炉的厨房场景)时,对象信号可能与环境一起被错误地学习。这些变化使得难以系统地且独立于对象特征来学习环境。相反,人们经常查看目标对象移出视野或移动到静态背景的场景。这些经历是人类学习目标和背景的独立特征的机会。如果这是真的,那么即使在不包含那些目标的场景上,人类也必须对目标物体有系统的期望。视觉体验的这些差异可能会导致机器和人类的情境表征在质量上不同。如果这是真的,那么可以通过用人类衍生的情景期望来增强它们的表现来改善它们的表现。
在人类视觉和计算机视觉的研究中,该环境可以有助于物体检测。在人类中,众所周知,在一致的情景中查找对象比在不一致的情景中更快。场景的简要预览引导眼睛运动到提示目标。非目标对象和粗略场景布局都有助于对象检测,虽然他们的相对贡献最近才被阐明,但在大脑中,有专门的场景处理区域响应场景以及相关对象。在计算机视觉中,从目标现场场景中学习的情境先验已经存在。
图1
(A)受试者评定的可能包含人而非汽车的示例场景。(B)具有高车和低人物可能性的示例场景(C,D)示出代表性非目标对象和从这些图像提取的粗略场景信息。我们使用人/车的特征(未示出),非目标对象(中间)和粗略场景的结构(右)来模拟这些期望。
用于通过约束搜索位置来改进对象检测和位置搜索,结合环境特征的模型也被证明可用于预测任务导向的眼球运动。最近,深度卷积网络已经显示出引人注目的改进和对象分类。但是,尚不清楚这些深度网络是否学习目标和情景功能。因此,虽然有证据表明场景可以促进机器和人类中的对象检测,但是主要认为它有助于搜索对象。此外,情景是否涉及处理目标特征、相关联的非目标对象或场景布局仍然不清楚。
结论
我们的核心前提是机器和人类具有质的不同的情景表示。我们选择汽车和人员作为合适的测试对象,因为它们具有重要的生态学意义和广泛的研究,并且在流行数据集中很常见。我们的结果组织如下:我们首先对人类进行了行为实验,我们在其中测量了他们对自然场景的背景预期,并使用计算建模来理解和预测这些期望。其次,我们证明了这些预测的人类期望可用于改善现有技术的物体探测器的性能。最后,我们证明这种改进是很特殊的,因为它不能使用各种类型的目标相关信号来获得。为了便于进一步研究,本研究中使用的代码,行为数据,视觉特征和刺激可在以下公布https://github.com/harish2006/cntxt_likelihood.
衡量人类期望(实验1)。如果人类可以独立于情景处理对象特征,那么他们必须能够形成对场景中可能出现对象的可能性,规模和位置的系统期望。在这里,我们开始使用人类受试者的行为实验系统地测量这些期望。在每次试验中,对象被显示为不包含汽车或人的场景,并被要求在稍后的时间点指示场景中汽车或人的可能性,规模和位置(详见方法)。
图片1说明了人类在两个示例场景中产生的系统期望:第一个场景被人类主体评定为可能包含人而非汽车,而第二个场景被评为可能包含汽车但不包含人。为了测量这些期望的可靠性,我们将受试者分成两组,并计算从所有图像中的每组获得的平均评级之间的相关性。所有相关性都很大且非常显着(r = 0.94,0.9,0.91,0.89,0.47,似然,x-位置,y-位置。
表1
表1,预测人类预测汽车/人可能性评级的模型性能。Ceil指的是数据可靠性,它是模型性能的上限,因为评级中的主体间可变性(见文本)。预测汽车和人员可能性的最佳模型是基于非目标和粗略场景特征(NC)。我们将模型性能计算为超过1000个随机80-20场景分割的平均交叉验证相关性(平均值plusmn;sd)。星号代表与NC模型比较的统计学显着性(*是p lt;0.001, #是pgt; 0.05)。统计显着性计算为1000个随机80-20分裂的分数,其中模型相关性超过最佳模型。请注意,由于过度拟合,在添加额外功能后,模型性能有时会降低。缩写:T,N,C:目标,非目标和粗略特征。TN =目标和非目标等。
对人来说,汽车的奇数和偶数主题之间的面积和纵横比;r = 0.87,0.79,0.96,0.86&0.36;所有相关性系数p lt;0.00005)。
汽车和人的可能性的计算模型。接下来,我们询问是否可以使用计算建模预测和理解上述系统期望。为此,我们将每个场景中存在的图像特征划分为与目标相关的特征,非目标对象和情景特征(参见方法)。由于这些场景不包含目标对象,因此包含目标相关的功能可能在第一眼看上去是违反直觉的。然而,我们将它们包括在内以保持完整性以及因为人类期望可能仍然受到给定场景中类似目标特征的弱相关存在的驱动。我们基于目标,非目标和粗略场景信息的组合测试了许多模型。评估模型预测从未在模型拟合中使用的新场景的平均似然评级的能力(表1).
总体而言,可能性评级的最佳模型是包含非目标和粗略场景但不包含目标特征的模型。我们确定它是最好的模型,因为(1)它比仅用目标,非目标或粗糙场景特征训练的模型(在所有情况下p lt;0.001)产生更好的数据拟合。(2)它优于基于其他特征通道对的模型,即目标和非目标(两种情况下p lt;0.001)或目标和粗糙场景结构(两种情况下p lt;0.01)(3)其性能等同于完整模型包含目标,非目标和粗糙场景特征(pgt; 0.05)。所有数值均在表中给出,图中示出了最佳模型的性能以及示例场景。我们还确认,与单独的场景类别标签相比,粗略场景特征预测这些汽车和人的可能性要好得多(表S5)。
然后我们询问增加汽车可能性的非目标物体是否也降低了人的可能性,反之亦然。对于此分析,我们在预测人员可能性的模型中提取非目标对象标签的回归权重,并针对预测汽车可能性的模型中的相同非目标标签的回归权重绘制它们。我们获得了确认该预测的否定和显着相关性(r = -0.31,p lt;0.05)。我们观察到,诸如标牌,在高速公路上经常发生的电缆等非目标往往会增加汽车可能性并降低人的可能性。相反,诸如工作台,楼梯和自行车等非目标标签往往会增加人的可能性并降低汽车可能性。鉴于这些对象分别与汽车和人员的关联,两种模式都是预期的。
可能的位置,比例和纵横比的计算建模。接下来我们询问基于目标,非目标和粗略场景特征的组合的模型是否可以预测似然数据的其他方面,即平均水平位置,垂直位置,比例(即面积)和纵横比(即垂直/水平范围)在人类受试者的可能性任务中。我们目测检查了受试者绘制的注释框,以指示可能的汽车或人员位置,并发现平均水平或垂直位置在所有情况下都有意义,但很少有例外情况,例如当受试者在两个甲板中的任何一个上绘制对应于可能的人位置的方框时椅子和普通人的盒子最终都在两把椅子的中间。结果总结在补充表1中。通常,包含非目标和粗略场景信息(NC)的模型产生了最佳预测。模型预测与观察到的人类数据显着相关,但未达到噪声上限,表明人类和模型使用的基本特征的差异。
有趣的是,与水平位置相比,模型更能预测汽车或人的垂直位置。这可能是因为汽车或人的垂直位置变化小于水平位置,或者因为水平位置难以预测,因为其变化是由于3d场景布局的差异。我们注意到之前已经提到过预测水平物体位置的困难。
图2
(A)受试者评定的具有非人物可能性的低和高可能性(顶行)以及非目标标签和粗糙场景结构(底行)的示例场景。黄色框表示受试者在每个场景中最可能出现一个人的平均位置和比例(B)最佳模型(NC:非目标和粗略场景特征)对可能性的预测与最可能的水平位置之间的相关性(xpos),人物可能出现在场景中的垂直位置(ypos),比例和宽高比(asp)。每个条上方的青色区域代表人类数据的可靠性(校正的半分相关的平均值plusmn;标准)。(C,D)汽车可能性数据的类比图。C对于(A,C)中的顶行中的面板没有进行任何改变,并且第一作者提取粗略场景信息并且在(A,C)中的左下和右下面板中示出。这些代表性图像由5注释独立主题使用的方法用于注释从Labelme绘制的650个场景39 并用于(B,D)中的计算建模。
与其他计算机视觉模型比较。为了确认模型的有效性和特征通道的具体选择,我们将最佳模型(NC)的性能与其他三个模型的性能进行了比较:(1)基于像素的模型,其中直接使用图像像素作为输入;(2)CNN预训练用于1000路对象分类(3)CNN预训练用于场景分类与CNN相比,NC模型在预测可能性,垂直位置和尺度方面产生了类似但略低的性能,但能够更好地预测目标的预期水平位置(图2)。所有模型预测再次达不到人类数据的噪声上限,表明模型和人类之间的基本特征表示存在系统差异。
利用人类衍生的情景期望来增强深度网络。上述结果表明,人类对场景中汽车或人可能出现的整体可能性,位置和规模形成高度系统的期望,并且这些期望主要由粗糙场景特征和非目标对象的存在驱动。可以使用计算建模预测人类期望这一事实意味着我们可以使用这些模型来生成预测的人类期望,而无需人类受试者进行任何费力的手动注释。
在本节中,我们询问用这些人类衍生的先验增加深度神经网络是否会改善其性能。肯定的答案表明,在深度神经网络和人类中,语境表征在质量上是不同的。这种结合决策或分数的方法是分开的。
图3
与其他模型的比较。(A)原始像素(黑色),非目标 粗略场景特征(蓝色),对象-CNN(橙色)和场景-CNN(绿色)的人可能性数据的模型性能。该目标-CNN经过预先培训,可进行1000路对象分类,现场CNN经过预先培训,可进行205路场景分类。阴影灰色条表示每种类型数据的噪声上限(平均值plusmn;标准差)。(B)汽车可能性数据的模型性能。Lklhd:可能性。
模型称为后期融合,并且适用于已知融合的信念或分数来自不同决策过程的情况。
我们使用通过连接来自每个CNN的针对目标类别的置信度得分而形成的线性分类以及为没有人类注释的新场景生成的预测的人类期望(可能性,水平和垂直位置,比例和纵横比)来训练线性分类。为了生成这些预测,我们使用仅使用粗略场景特征训练的仅情景模型,因为它解释了人类评级中的大部分差异(表格)1–2,补充表1和3。我们也选择这种方法,因为它可以扩展到大型图像数据库,其中获取非目标对象的人类注释是不切实际的。所得到的模型性能总结在表中2。
增强模型在与原始数据集共享的场景类别上表现更好,性能更好(表格2并且即使在完整数据集上也显示出适度的改进(表S3)。正如预期的那样,在人类行为实验中使用的同一组场景中获得了最大的改进(表S4)。提高精度不仅仅是添加更多参数的结果,因为精度是交叉验证的(表格2)。直观地,只有当由于预测的人类先验的额外维度而增加两级可分离性时才会出现准确性益处。这可以在RCNN后验概率得分的情况下看出,其中诸如预测的汽车可能性或人y方向位置的特定属性增加分类器准确度(补充图1)。这进一步表明,由于过度拟合不会产生增强的准确性。
图中显示了在规模和位置包含汽车的示例场景,这些场景使得它们难以可靠地检测到。通过用人类衍生的先验增强CNN决策来正确地对这些场景进行分类。我们发现具有类似盒子的物体的场景可能导致汽车的误报警,然后通过不一致的场景布局有效地抑制,例如修道院塔楼,建筑立面和酒吧柜台场景(图4B)。同样,我们发现CNN错过了许多场景中的人(图4C)。当人们出现在非常小的尺度或偏心的位置时,这样的场景也会受益于增强。就像汽车一样,我们发现不一致的情况也可以抑制误报,例如在带有拖拉机的帆船或户外农场场景的河景中(图4),在这两种情况下,都排除了大规模人群的存在。
为了进一步阐明为什么CNN准确性受益于人类情境预期的增加,我们绘制了每个场景的预测汽车可能性与汽车类别的基线CNN置信度得分(图2A)。增强的分类器边界具有负斜率,从而产生更好的性能。这种性能提升可归因于高可能性场景的弱匹配被正确地声明为目标,并且低可能性场景的强匹配被正确地拒绝作为非目标。通过改变原始CNN和增强CNN的决策标准获得的
全文共10874字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[191],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。
您可能感兴趣的文章
- 2.3港口吞吐量预测外文翻译资料
- 使用多标准移动通信分层遗传算法的阻抗 匹配网络的宽带优化外文翻译资料
- 移动RFID标签阅读与非重叠串联阅读器在输送带的应用外文翻译资料
- 利用数字图像进行的全场应变测量方法外文翻译资料
- 自然灾害中并发事件的多种应急资源的分配外文翻译资料
- 基于主机的卡仿真:开发,安全和生态系统影响分析外文翻译资料
- 实现基于Android智能手机的主机卡仿真模式作为替代ISO 14443A标准的Arduino NFC模块外文翻译资料
- 探索出行方式选择和出行链模式复杂性之间的关系外文翻译资料
- 信息系统研究、教育和实践的基本立场及其影响外文翻译资料
- 仓储和MH系统决策模型的设计优化与管理外文翻译资料