英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
全方位摄像机的大型直接SLAM技术
摘要
我们提出了一种全方位或宽视场鱼眼镜头的实时、直接的单目SLAM方法。这是一种直接跟踪(直接图像对齐)和映射(逐像素距离滤波)直接用于统一的全向模型,该模型可以对180°以上视野下的中央成像设备进行建模。这是在现有的直接单目SLAM方法,如DTMF或LSD-SLAM中运作的校正后的图像,在实践中限制视场约130°对角。这不仅允许观察和重构周围环境的较大部分,而且也能使系统在退化(仅旋转)运动中的表现更加稳健。它的两个主要贡献是:(1)对统一全向模型进行直接图像对齐,(2)对失真图像直接进行增量立体快速精确的处理。我们评估了用185°鱼眼镜头拍摄真实世界序列的框架,并将其与一个校正和分段校正方法进行了比较。
一、引言
视觉测程法(VO)、同时定位和映射(SLAM)正变得越来越重要。机器人和移动视觉应用程序,因为它们只需要光学相机——便宜,轻,多功能,以及因此可以很容易地投入到商品硬件的应用中。很多研究一直围绕这些主题展开。过去十年,大家特别关注实时系统,例如可以用于自主控制无人机的例子[ 1 ],[ 2 ]。
现有的大多数方法都是基于关键点的:一旦提取特征点,图像抽象为一个点观测的集合,然后用于计算几何信息。这可以在一个过滤框架[ 3 ] [ 4 ] [ 5 ],或基于关键帧的非线性优化框架[ 6 ]、[ 7 ]、[ 8 ]中体现。这可以说是优点:所需的工作量大部分只做一次关键点的提取,使得剩余的计算资源可用于执行。大规模几何一致性(束平)离群值可以直接删除。
最近,所谓的直接方法取得了成效。它受欢迎的地方在于:并不把图像抽象出来,而是以渐进的方式计算稠密[9],或半稠密[10]的深度地图,并跟踪使用直接将图像对齐的相机。这有以下优点:可以使用更多的信息,特别是包含边缘或稠密纹理表面的信息。此外,生成的映射包含更多关于环境,可用于避障、路径规划的信息。
所有这些视觉方法都有共同之处,那就是它们依赖于翔实的观察环境。然而,在许多实际情况下,这可能是一个非常严格的限制。假设:例如室内有很多。没有纹理的白色墙壁,或在移动物体的存在,很大一部分的相机图像可能变得对SLAM技术来说没有可用信息。如果使用的相机只具有小视场(FOV)这将是非常真实的。另一方面,视野越开阔,也越可能有可见的某一部分场面非常适合SLAM技术。
然而,大多数的视觉SLAM或VO系统都限制使用经典的针孔相机模型。通常,这是结合了径向畸变模型(如在模型中使用了本文所述的方法)。所有这些模型都不能。直接用于全向摄像机(因其视场角超过180◦)。这对通常运行在校正后——限制视野不超过130◦的图像来说是尤其真实的。
在本文中,我们提出了一个针对全方位摄像机模型的LSD-SLAM [10]扩展。该方法能够处理所有类型的,如鱼眼和折反射式相机的中心投影系统。我们评估它对拍摄的图像覆盖的视场角为185◦鱼眼镜头。我们表明,特别是对于含有侵略性的摄像机旋转的轨迹,它优于以前提出的算法,而不会失去它的实时能力。
A.绪论
关于全方位视觉技术,尤其是机器人和地面车辆定位,有一系列相关工作。例如,[ 11 ]采用折反射系统估计车辆的自我运动,采用了旋转估计——然而它仅限于平面运动的直接光度误差最小化。而在例[ 12 ]中,RANSAC的SIFT特征点协会用于估计平移和旋转,在一台摄像机中进行5次整流。再次强调,该系统仅限于平面运动。在例[ 14 ]中,一个EKFbased SLAM系统适用于全向摄像机;而在例[ 15 ]的情况下使用全向摄像机的优点就如上下文所说的那样。Meilland等人的作品,即例[ 16 ]更接近我们的生活,因为它对来自球面图像数据库的多个帧执行密集注册。它们通过外部传感器或立体视觉增加距离信息。然而,该系统是基于先验学地理参考图像数据库的,并且不执行在线的SLAM技术。
B.贡献和大纲
在本文中,我们探讨了全方位和鱼眼镜头在直接,大范围视觉SLAM技术中的运用。我们提出了两种不同的,且我们融入了最近出现的,在现实世界和模拟数据中的LSD-SLAM [ 10 ]框架和评估产生的算法。更确切地说,本文的主要贡献有两点:(1)给出了一种全方位摄像机模型的直接图像对准公式。(2)我们推导出了一种高效、准确的进行立体直接的全方位图像的方法,既为了分段校正方法,也为了在本地统一的全景模型。我们打算使包括参考标准在内的数据集真相公开可用。本文的结构安排如下:在第二章中,我们介绍了作为一般投影功能的摄像机模型,并描述了在本文中提到过的三种参数模型:章节II-A中的针孔模型;章节II-B中的数组秒针孔模型和章节II-C中的统一的全方位秒针模型。在第三章II-C中,我们描述我们的全方位直接SLAM方法。我们先回顾了LSD-SLAM [ 10 ]中介绍的管道。然后,我们详细说明了依赖于摄像机模型的两个主要步骤——概率、半密集深度估计和直接图像对准——如何适应全方位摄像机的实时图像操作。在第四章中,我们评估了三种不同模型在模拟和真实数据上的准确性、健壮性和运行时间。最后,在第五章中,我们总结了结果并展望了未来的工作。
二、相机模型
在这一章中,我们将展示本文中提到的三种不同的参数投影功能pi;:在章节II-A中,我们简要地回顾了著名的针孔模型并讨论其局限性。然后在章节II-B中,我们将它扩展到一个更广泛的针孔模型数组,允许在SEC中覆盖整个观察球。在章节II-C中,则引入了统一的全方位的模型,使在封闭系统中构建360◦的视觉范围成为了可能。
符号:我们使用粗体,大写字母R表示矩阵,粗体小写字母x表示向量。U =[ U、V ] Tisin;Ωsub;R 2一般表示像素的坐标,在Ω中则表示图像域。X = [ x,y,z ] Tisin;R 3将用于三维点坐标和tilde;x:= [ 1 ] X T,T为对应的齐次点。[·]i表示一个矩阵/向量的第i行。
在最一般的情况下,相机模型是一个功能pi;:R 3→Ω,在相机的框架定义的三维点x之间的映射,并在图像像素的U。具有可忽略的直径的镜头,一个共同的假设是单视点的假设,即所有的光线通过一个单点的空间——相机架C。因此投影位置的点的起源不仅仅取决于X的方向,我们将为了将像素映射到3D的函数而使用pi;minus;1:Ωtimes;R →R 3 ,这将使用它们的反距离D。进一步,我们定义了一个集中在C的固定的特权方向Z(主轴)和正交两个方向、指向正交的相机框架。
注意,单一观点假设允许从任何其他相机模型,任何他们共同的其他可见点的领域中转换图像——这通常被称为图像矫正,并经常做预处理步骤中,将图像转换为遵循一个更简单的模型如通过消除径向畸变。给定两个投影函数pi;1,pi;2和图像I1:Ω1→R,用相机pi;1,我们可以计算出各自的形象I2:Ω2→R后投影
然而,这种扭曲引入插值的人工制品,并会降低图像质量,尤其是在角分辨率显著改变的区域。
- 针孔模型
针孔相机模型是最常用的摄像机模型。它通过将每个点投影到位于z=1的平面上,然后进行仿射映射并得到图像。
其中fx,fy是焦距,cx,cy是焦点。它在图2中示意性地示出了。
这种模型通常用作投影函数的线性(在齐次坐标系中)——以及3D中的直线被投影到图像中的直线这一事实——使其成为最简单的模型选择。然而,它有一个主要缺点,就是它无法建立一个广阔的视野:角分辨率急剧地向图像的边界减小,导致图像失真——图2右侧显示了一个例子。
为了使该模型兼容小径向失真,可以将非线性径向失真函数(通常近似为多项式)应用于投影像素坐标。尽管如此,针孔投影的本质是禁止点位于像平面之后,将视场限制在180°以下。
- 针孔相机阵列
扩展视野的直接方法是使用由多个针孔摄像机阵列组成的摄像机模型,这些摄像机具有相同的主点但方向不同。投影函数pi;mp(x):R 3→cup;iOmega;i然后通过分段旋转然后是针孔投影给出,即:
其中i(x):R3→[1,k]将三维空间分割成k个子空间。虽然通常可以任意选择相关摄像机的分割和方向,但我们选择将R3分割成六个大小相等的象限,形成立方体形状的图像平面。这具有以下优点:i(x)可以从x,y和z上的二进制比较来计算,而Ri对应于正交旋转。
虽然这个模型有许多理想的特性——它在均匀坐标系下是分段线性的,计算简单并且提供合理均匀的角分辨率——它不适合天然透镜。为了使用它,传入的图像必须在预处理步骤中纠正。此外,模型的分段性导致图像空间Omega;=cup;iOmega;i的不连续性,使其在实践中的使用复杂化。
- 中央全方位照相机:统一模型
文献中已经提出了许多不同的投影函数,用于模拟和校准屈光度数和双屈光度全方位相机。这种功能的理想特性包括:(1)能够精确描述各种各样的实际物理成像设备;(2)容易进行参数校准;(3)对于非投影函数pi;-1。由于本文以实时直接SLAM为目标,另外一个标准是投影点和未投影点的计算成本以及评估相应衍生物的成本。
通过将所有非线性移动到径向对称函数中,并确定其泰勒展开的第一个系数,可以得到准确的结果[17]。 虽然这种方法可以模拟符合单个视点假设的每个摄像机,但它缺少闭式非投影功能——并且近似于计算成本较高。
相反,我们使用最初在[18]中提出的中央反射折射系统模型,并在[19],[20]中扩展用于更广泛的物理设备,包括鱼眼相机。这个模型背后的核心思想是将两个连续的投影连接在一起:第一个投影将世界上的点投影到以相机为中心的单位球体上。第二个是通过-z轴沿z轴移动的中心的普通针孔投影。该模型由总共五个参数fx,fy,cx,cy和xi;来描述。点的投影计算为
其中是x的欧氏范数。相应的未投影函数可以以封闭形式计算,并由下式给出
并且
三、直接全方位SLAM
在本章中,我们描述了基于LSD-SLAM的全向大规模直接SLAM系统[10]。首先,在第二部分。III-A我们回顾了适用于全向摄像机的LSD-SLAM管道。然后,我们在第二部分中为统一相机模型导出直接图像配准公式。III-B。 在第二部分 III-D中,我们将展示如何在此框架中——立体声可以在统一(1)和分段整流(2)模型上高效完成。
符号。D:Omega;d→R 将表示当前关键帧的反距离图。由于符号的轻微滥用,se(3)的元素将直接表示为6向量mu;,并且我们使用exp和log来关联元素,谎言代数与谎言群体的相应元素。然后,我们将构成运算符定义为
作为速记,我们使用Rmu;和tmu;来表示变换的相应旋转矩阵和平移向量,并且[·] i来提取矩阵/向量的第i行。
- 方法概述
我们的方法不断构建并维护关键帧的姿态图。每个关键帧都包含一个概率半密集反距离图,该坐标在所有具有足够强度梯度的像素的反距离上保持高斯概率分布。通过对大量小型基线立体声比较进行滤波,随着时间推移进行估计。反过来,新图像——以及闭环约束——使用直接图像对齐来计算。请注意,与[10]相反,我们使用反距离d =-1而不是深度,以便我们可以对相机后面的点进行建模。概述如图6所示。
1)SE(3)跟踪:当捕捉到一个新的相机帧时,使用直接图像对齐方式跟踪其相对于最近关键帧的刚体姿态,这将在IIIB中得以体现。
2)概率距离地图估计:基于距前一关键帧的移动距离(相对于其平均反距离)以及相对重叠,定期选择关键帧。对于每个关键帧,通过传播距离其前一个前景的反距离图来初始化反距离图。随后,通过从许多小基线立体比较中获得的合并信息来更新并扩展到新区域。这一步将在章节III-D中更详细地描述。
3)基于Sim(3)的尺度漂移感知姿态图优化:在背景中,我们连续地在所有关键帧之间进行姿态图优化,并试图找出可能重叠的关键帧之间的新约束。约束表示为相似变换以说明尺度漂移——关于这部分的更多细节可以在[10]中找到。
4)初始化SLAM系统:系统初始化为随机深度图,平均值为1,协方差大——只要前几秒钟内的摄像机运动不会过于退化,通常会收敛到一个很好的估计值。
- SE上的全向直接图像对准(3)
通过直接最小化光度误差,相对于具有相关的反距离图DKf的最接近的关键帧IKf跟踪每个新帧I new,定义为
其中rho;表示强大的Huber规范,并且
函数omega;不投影一个点,并用mu;转换它。如[10]中所示,残差用其传播的反距离方差进行归一化。
然后使用迭代重新加权的Levenberg-Marquad算法在左侧组合中进行拟合,在粗到细的方案中将加权最小二乘问题最小化:在每次迭代中,我们求解左乘的增量
在r = [rIu1. . . rIun]T处是堆积的残差向量,W是包含权重的对角矩阵。J是在mu;(k)处评估的叠加残差矢量的ntimes;6雅可比矩阵:
然后将其乘以当前的估计值
利用链式规则,雅可比行列式的每个1times;6行Ju可以分解为三部分
在这里
bull;Jomega;mu;(k)是一个3times;6的雅可比行列式,表示转换点的左边的组成导数,在mu;=mu;(k)时被评估
bull;Jpi;omega;是投影函数pi;在omega;=omega;(mu;(k),u)处的2times;3雅可比行列式。
bull;JInewpi;是在pi;=pi;(omega;(mu;(k),u))点评估的新图像的1times;2强度梯度。
请注意,每个雅可比矩阵的评估点如何依赖于mu;(k),因此在每次迭代中都必须重新评估一切。 在实践中,计算成本是由这种评估支配的——在我们的例子中尤其如此,对于统一模型投影,因此它的导数Jpi;omega;要复杂得多。
为了避免这种情况,我们使用了一个反演成分公式——这是文献中众所周知的技巧[21]:在每次迭代中,不是将增量应用于参考框架中的点,而是将其反转应用于 关键帧。也就是说,不是
全文共8895字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[14491],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。