英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料
用于全物体识别的多传感器三维物体数据集的姿态估计
Alberto Garcia-Garcia , Sergio Orts-Escolano , Sergiu Oprea , Jose Garcia-Rodriguez , Jorge Azorin-Lopez , Marcelo Saval-Calvo , Miguel Cazorla
摘要:在这项工作中,我们使用新型高分辨率Kinect V2传感器和PrimeSense Carmine等一些其他流行的低成本设备,提出了一种新的三维物体识别数据集。 由于大多数已经存在的用于3D对象识别的数据集缺乏一些特征,诸如关于场景中的对象的3D姿态信息,每像素分割或遮挡水平,我们提出将所有这些信息结合在单个数据集中的新的数据集,其可用于验证现有的和新的3D物体识别算法。而且,随着新的Kinect V2传感器的问世,我们能够使用单个传感器为RGB和深度信息提供高分辨率数据,而其他数据集必须合并多个传感器。此外,我们还将提供有关对象不同部分的半自动分割和语义标签,以便数据集可用于测试机器人抓取和场景标记系统以及对象识别。
关键词:3D计算机视觉,物体识别,3D对象数据集,Kinect V2,PrimeSense Carmine
1 介绍
物体识别被定义为识别图像中物体的任务。 如今,3D对象识别在类别和实例级别仍然是一个相对未解决的问题。 通常,检测和识别对象意味着在场景中找到它的位置,并且还将对象本身分类或直接给出对象的特定名称。 根据对象的位置,我们可以只考虑三维空间中的特定坐标,或者也可以指定场景中对象的三维姿态。 随着机器人系统在混乱的环境中抓住真实物体的出现,这些信息正变得越来越重要。
在过去的几年中,我们目睹了许多步骤,主要得益于低成本RGB-D传感器(如Microsoft Kinect设备)的出现。除此之外,计算机视觉的局限性在很大程度上得到了推进,这主要是由于创建了大量高质量的数据集,使研究人员能够高效地开发和测试算法。然而,没有明确的公开的数据集选择。虽然存在多个三维视觉数据集,但其中大多数缺乏其他数据集中存在的一些重要特征,反之亦然。我们认为,减缓解决3D物体识别问题的主要障碍是缺乏完整统一的数据集,可能需要开发,培训,改进和测试他们的系统。在这个意义上说,对于提供单一和完整的解决方案,它涵盖了所有的优势,而且没有任何现有技术数据集的弱点可以让研究人员创建更好的系统,它能够为研究人员提供所有的资源。
该提案的主要目标是为用户提供最完整的数据集,以使用一组信息执行3D对象识别,检测,3D姿态估计和重建。 作为额外贡献,为获取对象和手动注释而开发的应用程序将作为用于创建自定义数据集的开源包发布。
此篇文章的结构如下。 第2节回顾了最常用的数据集,以确定其优势和劣势。 第3节概述了我们提案的捕获系统设置。 第4节介绍了我们数据集的组成部分。 第5节和第6节说明如何捕获和生成训练集和验证场景。 最后,第7节对此提案作出了一些结论,并概述了未来的工作。
2 相关工作
在提出这个新的数据集之前,我们仔细分析了现有的数据集,以便找到它们的弱点和强大的方面。选择以下数据集进行比较:华盛顿RBGD对象数据集V1和V2 [1],对象分割数据库[2],Willow Garage数据集 [3]是由Mian等[4,5],ECCV2012数据集[6],BigBIRD数据集[7],ACCV2012数据库[8]和博洛尼亚描述符匹配数据集[1](1,2,3和5)[9-11]。这些数据集是根据流行度、新鲜度和完整性标准来选择的。
在此分析中,我们考虑了各种特征:对象数量,颜色,每像素标记,边界框标记,类别标记,分割掩模,6DoF信息,注册网格,遮挡水平,360度注册云, 评估场景的数量,捕获设备和提供的文件格式。 表1显示了这种比较的总结图。
此外,我们将根据上述特征简要回顾三个最显着数据集的子集:华盛顿RGB-D对象数据集V2,BigBIRD和Willow Garage 数据集。 这将有助于我们突出显示这些数据集中最重要和最具要求的特征,以证明其纳入我们的提案。
一方面,华盛顿数据集非常适合以分层方式实现对象实例和类别识别的系统。 它的主要优点是从多个视点捕获的大量对象,以及他们用分类和实例标记它们的分层组织。 此外,该数据集包括一系列混乱和闭塞室内环境的视频序列的评估场景。它们还提供了一种新颖有效的方法减少了视频序列标签任务的复杂性。 然而,该数据集缺乏某些特征,对于某些算法可能非常有用,例如场景中物体的6DoF姿态信息,数据集中每个物体的网格重建或单个物体的完全注册点云。
另一方面,BigBIRD数据库是训练以对象实例识别问题为焦点的系统的优秀数据集; 其主要优势是大量的物体具有从大量视角拍摄的高质量图像以及重建的网格,姿态和校准信息。 它利用高质量的3D扫描系统并为数据收集过程提供了大量的软件组件。 然而,数据集的主要缺点是它不包含评估场景,因此它不适合在混乱条件下或遮挡情况下测试场景中的物体识别系统。
最后,Willow Garage数据集由于其大量的评估场景而脱颖而出, 但是,它缺少许多上述功能。 除了Mian等人定制的数据集外,其余数据集在任何时候都不是特别显着。 它采用美能达Vivid 910拍摄,并提供高质量完全重建的网格和登记的具有地面真实姿势的云。
考虑到所有这些因素,我们的贡献侧重于提供一个单一的数据集,它可以提供所有这些数据集的更好的功能,提供合理数量的对象(参见图1)和各种文件格式的评估场景,还可以使用多种传感器 PrimeSense Carmine和最近推出的Kinect V2。
3 捕获系统概述
捕获系统由安装在三脚架上的微软Kinect V2传感器装置组成,该三脚架高1.3米,与转盘中心的固定距离为0.9米,相对于转盘平面倾角约为30°。另外,PrimeSense传感器安装在同一个三脚架上; PrimeSense Carmine被安置在相同的高度,但靠近平台(离转盘中心约0.7米)。
除传感器设备外,捕获系统的主要组件是旋转平台或转台(见图2)及其控制单元。转盘的移动由Arduino Uno设备控制,该设备通过串口接收命令,包括逐步旋转平台的命令,改变步长和时间,将平台返回到原点并校准旋转。
4数据集组成
数据集由两部分组成:训练集和验证场景。 训练集包含使用先前描述的捕获系统获取的每个对象的360度视图。 验证场景是在家庭环境中获得的,考虑到不同程度的遮挡和各种常见物体。
对于这个初始版本的数据集,我们在训练集中包含了28个对象(见图1)和9个评估场景。 如果数据集获得普及,我们打算增加训练对象和验证场景的数量。
为了覆盖研究界的大多数人,我们将提供不同图像和点云格式的数据。 4.1节和4.2节详细描述了数据集提供的信息。
表1 比较当前艺术数据集的状态和我们数据集提案的定义
图1 数据集中的所有对象都放置在起始位置的转台上。彩色图像对应于Kinect V2设备捕获的图像。从左到右,从上到下依次是:可口可乐纸玻璃,可乐杯,空气清新剂,塑料板,塑料刀,咖啡杯1,咖啡杯,2-爱丁堡,达能酸奶,无线电话,电话,药剂1-supradyne,牛奶,洋甘菊茶包,药剂2-enalapril,药剂3-almax,药剂4-dacortin,药剂5-metformina,药剂6-drsos,蜜糖罐,巧克力糖浆,蓝色花瓶,植物,糖精,大骰子,塔斯马尼亚人像,香蕉,护手霜和卫生纸(在线彩色图)
图2 我们的转盘附近放置一个物体,注意蓝色的平台执行色度键控操作(在线彩色图)
4.1训练集
使用先前描述的捕捉系统扫描训练集的每个对象,并且以不同且等距间隔的视点执行64次捕捉(360度转动,每次5.625度完全捕捉)。使用上述三个传感器设备。捕获系统提供的所有信息稍后进行后处理,以便为每个对象生成以下数据:
bull;64种PNG格式的彩色图像。
bull;64个PNG格式的深度图像。
bull;PCD格式的64色结构点云。
bull;PLY格式的64个彩色点云。
bull;64 PBM格式的分段掩码。
bull;PCD和PLY格式的360注册点云。
bull;以PLY格式重建对象网格。
bull;类别和实例标签。
bull;语义组件标签。
bull;TXT文件中的采集设置。
为了使用户能够利用矩阵组织来加速执行对这些数据的计算的算法,以有组织的格式提供用于每个观点的64个原始颜色的PCD点云。
使用捕获系统提供的信息生成这组数据的整个过程在第5节描述。
4.2验证场景
我们的数据集中包含了一组九个验证场景。 验证场景是在家庭环境中获得的,其中对象的分布是混乱的。 因此,不同对象之间可能会出现遮挡。 为了正确识别场景中的每个对象,这个事实将是一个挑战。 对于每个验证场景,我们将提供与我们为训练集提供的类似数据(颜色和深度图,结构化PCD和PLY,但显然没有360注册云或重建网格)。 尽管如此,我们还将提供场景的标签彩色图像,其中每个对象都由标签标识。 这些信息将反映在一个TXT文件中,图像像素将被标记。 我们将在第6节中描述标签过程。
5训练集生成
在下面的章节中,我们将描述从信息捕获到包括所有点云注册在内的最终对象重建过程中为生成训练集所采取的所有步骤。 为了简单起见,我们将仅使用Kinect V2传感器来描述该过程。
5.1信息捕获
数据集生成的第一步是信息捕获,其中处理由传感器提供的数据流以创建有用信息。 在我们的例子中,每个物体被相机在360度全景拍摄64次平台的转向。 对于每个捕获,Kinect V2数据流的直接处理为我们提供了三种不同的信息源:1920times;1080 RGB彩色图像(图3),512times;424深度图和512times;424红外图像(图4)。 这三个源分别转换为RGB和灰度PNG图像,作为数据集信息的一部分。
图3应用程序使用Kinect V2设备捕获的信息(在线彩色图)输出PNG格式的RGB彩色图像(1920times;1080)
图4 预览模式下的深度图,反转颜色表示(左)和红外图像(右)都是512times;424个PNG图像通过我们使用Kinect V2提供的数据输出
图5 通过应用结合颜色信息(图3)和深度图(图4)以及应用对象分割(颜色图在线)生成的捕获点云
通过使用颜色信息和深度图,通过将颜色投影在深度数据上来生成彩色点云,如图5所示。然后,通过使用色键操作将对象在该点云中分割以去除 平台和一组深度阈值以及一个消除非键控点的边界框。 我们的数据集生成器应用程序允许用户完全自定义前述过程的参数,以获得完美的手动分割。
分割出来的点实际上并没有从点云中移除; 相反,它们表示为NaN,以便云以有组织的格式保存。 这样,可以应用到这些云的算法可以利用矩阵组织来加速某些操作的处理。 因此,将彩色点云导出为PLY和PCD文件,并且还会生成PBM格式中已删除点的分段掩码。
使用PrimeSense Carmine 1.09传感器对物体和上述设置重复此过程。
5.2 云注册
云注册阶段是指将来自不同观点的64个捕获的对象点云整合成一个360度云的过程。
重要的是要注意,由传感器设备提供的深度图包含噪声数据和离群值形式的测量误差,当应用某些3D数据处理方法(如常规估计或点云配准)时,最终可能会产生失败。 特别是,这种噪声在使用Kinect V2设备执行的捕捉中非常具有特征,并且通常由在轨迹形式的对象边界处生成的伪影组成。这种噪声是由于Kinect V2传感器使用的飞行时间技术。我们在图6中显示了这种噪声的一些例子。
在注册之前执行的第一步包括降低噪音水平以提高对准方法的性能和质量。为此,我们应用了在点云库(PCL)[12]中实现的多个过滤器。 最有效的一个就是统计孤立点去除(SOR)过滤器,它可以处理由Kinect V2设备产生的迹线(见图6),如图7所示。
正如我们所看到的,SOR滤波器在去除轨迹方面做得很好,但由于去掉了可能不是噪声的稀疏点,它倾向于产生群集。 径向孤立点去除(ROR)滤波器也应用于物体,但其结果与通过使用SOR获得的结果非常相似。
假设这些簇是噪声,我们可以通过应用欧几里得簇提取(ECE)操作将它们去除。 我们也假定小的群集往往是孤立的噪声信息,所以我们使用前面提到的过滤器将最大的k个群组保留为有效信息。 图8示出了将ECE滤波器应用于图7所示的SOR滤波点云的示例。
图6 通过结合由Kinect V2传感器提供的深度和颜色映射(颜色数字在线)生成的数据集中两个对象的噪点云
图7 对于平均距离估计和0.9的标准偏差乘数阈值,将数据集(左侧)和统计异常值移除过滤器的对象的噪声点云应用于该点云(右侧)。 请注意,轨迹已被删除,但形成了两组点(在线彩色图)
图8 SOR过滤了数据集(左侧)对象的云,并在ECE操作后使用黄色框和相同的云标识了两个群集,保留最大群集(右侧)(在线彩色图)
然而,当上述假设不正确时,SOR和ECE的这种组合并不完美。 即使在生成多个群集时,不仅最大的群集必须是唯一有效的群集,因此为k参数确定适当的值是非常关键的。
图9 数据集中一个对象的噪声点云(左)和Cut滤波器应用于该点云(右),使用量为50%。请注意,包含噪声的云的一半部分被去除(在线彩色图)
图10 数据集中的一个对象的噪声点云(左)和截止滤波器应用于该点云
全文共14114字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[13524],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。