通过关节轨迹平滑和帧变形实现有效的视频稳定外文翻译资料

 2022-08-09 10:17:49

英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料


通过关节轨迹平滑和帧变形实现有效的视频稳定

摘要:视频稳定通常包括三个阶段:特征轨迹提取,轨迹平滑和帧变形。大多数以前的方法将它们视为三个单独的阶段。本文提出了一种将最后两个阶段(轨迹平滑和帧变形阶段)组合到单个优化框架中的方法。我们将它们组合在一起的方式存在新颖性:轨迹平滑部分起主要作用,而框架翘曲部分起辅助作用。通过这种设计,我们可以通过强大的一阶导数项方便地增加轨迹平滑部分的强度,从而可以产生非常积极的稳定效果。另一方面,我们在帧变形部分采用了自适应加权机制,以尽可能地遵循平滑的轨迹,同时将其他位置尽可能地规则化。我们的方法在利用前景和背景特征以及非常短的轨迹方面是很健壮的。所有这些信息的利用又提高了所提出方法的准确性。我们还提供了我们方法的简化实现,虽然精度较低,但效率更高。在各种视频上进行的实验证明了我们方法的有效性。

索引词:视频稳定,轨迹平滑,网格变形,优化。

  1. 引言

如今,诸如数字电话之类的便携式摄像头设备每天都会捕获大量视频,而这些手持设备捕获的视频通常会表现出剧烈的晃动。 视频稳定技术是一种可以将不稳定的视频稳定为视觉稳定的技术,在过去十年中获得了很多研究。

以前的视频稳定方法可以大致分为三类:基于2D参数模型的方法[1]-[7],基于3D重建的方法[8]-[12]和基于特征轨迹的方法[13]-[22]。 2D方法通过连续视频帧之间的仿射,单应性或成束的单应性表示摄像机运动。 他们对2D参数模型进行平滑处理以获得稳定的相机路径。 2D方法既高效又稳健,但是处理具有较大视差或较大深度变化(例如由巨大的运动物体引起)的视频时灵活性较低。 3D方法会先重建3D相机运动,然后再平滑3D运动。 它们可以产生更具侵略性的稳定效果,但对于纹理较少的场景,3D重建本身在计算上是沉重且脆弱的。

最近,基于特征轨迹的视频稳定技术在2D和3D方法之间取得了很好的折衷,已获得更多关注[13] – [22]。 Lee等人[13]提出了最早的利用2D特征轨迹进行视频稳定的工作之一。但是,他们试图计算的是一组平滑特征轨迹的参数转换。这意味着,从本质上讲,该方法仍属于2D参数方法[1] – [7],并且2D特征轨迹仅用作中间媒介,以帮助完成2D模型的估计。然后,刘等人[14]提出了一种新颖的子空间视频稳定方法。该方法将原始特征轨迹矩阵分解为两个低阶矩阵,其中之一包含特征轨迹。然后将平滑滤波器应用于本征轨迹,而不是原始轨迹。后来,Goldstein等人[15]通过对极转移构建长的虚拟点轨迹,然后平滑虚拟轨迹以稳定视频。这两件作品都试图从原始轨迹中找到更重要的东西,并将其用于视频稳定。但是,一方面,基本的事情是对原始轨迹的近似,这不可避免地会牺牲一些原始信息。另一方面,用于提取基本事物的技术本身也有缺点,例如要求较长的特征轨迹。 Wang等[16]和Koh等人[18]发现最好直接平滑原始轨迹(或代表轨迹的Bacute;ezier曲线),然后使视频帧变形以适合平滑的轨迹。但是,这两种方法将轨迹平滑和帧变形视为两个单独的阶段。张等[21]将两个阶段合并到一个框架中,但是合并的方法不是最佳的。

在本文中,按照Zhang等[21]的观点,我们也采用了同时进行轨迹平滑和帧变形的思想。 然而,我们发现,张等人提出的组合方法不是最优的,该组合方法是具有轨迹平滑作为仅在变形期间要实现的目标之一的视频网格变形框架。 相反,我们提出了一种将两个阶段组合在一起的不同方法。 在我们的公式中,轨迹平滑部分起主要作用,而框架翘曲部分起辅助作用。 这种设计使增加轨迹平滑部分的强度更加方便,从而获得更积极的稳定效果。 我们使用详尽的实验来证明我们的方法在绝大多数情况下优于Zhang等人的工作[21]。

在我们的方法中,我们主要依靠稳健的一阶导数能量项来增强轨迹平滑性。 此外,我们在帧变形部分中使用自适应加权机制,以尽可能地遵循平滑的轨迹,同时将其他位置的规则化尽可能相似。 我们的方法完全在原始特征轨迹上运行,而不是对它们的任何近似。 我们同时考虑了前景轨迹和背景轨迹以及非常短的轨迹,从而提高了稳定结果的准确性。 在实际应用中,视频稳定算法的效率也非常重要。 因此,我们以某种有效性为代价,提出了一种更有效的方法。

我们进行了许多定量和定性实验,证明了我们的方法可以在困难的视频(例如包含大型移动物体,沉重的晃动,复杂的摄像机运动等)上产生更好的视频稳定效果。

  1. 相关工作

视频稳定方法可以大致分为2D,3D和基于特征轨迹的方法。 我们将分别对其进行审查。 由于我们提供了一种简化且快速的方法,因此,还将对现有的实时视频稳定方法进行回顾。·

2D方法通过累积的参数运动模型(如连续帧之间的仿射或单应性)表示摄像机运动。在早期,仅使用一个全局仿射/单应性来估计两个帧之间的运动[1] – [4],[23],[24]。这些方法是鲁棒的,有效的,并且对平面场景有用。但是,单一模型的灵活性不足以处理具有视差的视频。为了缓解这个问题,已经开发了采用多个平面的方法[5] – [7]。例如,刘等人[6]提出了一种用于视频稳定的捆绑相机路径优化算法。他们将视频帧划分为规则的网格,在相同的空间坐标下为网格计算本地摄像机路径,然后优化框架中的所有本地路径。王等[7]采取了类似的想法,该想法首先计算图像的多个平面,然后改进基于平面的稳定技术。这些方法比基于单一模型的方法更有效,但仍无法处理带有大型运动对象的视频。最近基于深度学习的视频稳定方法[25],[26]也可以归为此类,因为它们还可以推断出一组网格网格转换来稳定每个不稳定的帧。他们的深度学习模型是通过专门制作的设备捕获的成对稳定视频和不稳定视频进行训练的。

3D方法需要在3D空间中重建真实的相机运动路径,然后直接平滑3D路径。在早期,由于仍然难以对任意视频进行欧几里得重建,Buehler等[8]后来,利用现成的运动结构(SFM)来恢复原始的3D摄像机运动[9],[27]。但是,SFM算法速度慢且不够鲁棒,无法处理具有较少纹理或视差的视频。周等人[28]观察到这一点。提出了一种混合方法,该方法可以估计属于同一平面的区域的单个单应性,同时借鉴Liu等人的结果[27]。在非平面区域。 Smith等[29]利用光场摄像机。通过直接计算相机阵列之间的相对姿势序列,避免了3D相机运动重建。刘等[10]依靠额外的深度传感器(例如Kinect相机)来简化相机运动估计和帧变形。郭等[12]提出了一种利用立体视差约束来稳定抖动的立体视频的方法。刘等[11]提出了一种在场景为平面时应用2D方法而在深度不连续性较大时应用3D方法的混合方法。

基于特征轨迹的方法适用于跨视频帧的2D特征轨迹。 Lee等人[13]首先提取轨迹,然后找到一组转换以平滑轨迹。要优化的变量是变换参数,而不是轨迹。刘等。[14]将跟踪的特征组合成一个轨迹矩阵,将其分解为两个低阶矩阵,然后在低维线性空间中执行滤波或曲线拟合。赵等[19]还研究了由长轨迹组成的轨迹矩阵,从中提取了许多局部轨迹材料以平滑每个视频帧。 Goldstein等人[15]通过极点转移从原始轨迹计算出长的虚拟轨迹,然后通过高斯模糊核对虚拟轨迹进行平滑处理,而不是原始轨迹。 Wang等[16]用Bacute;ezier曲线表示特征轨迹,然后共同优化Bacute;ezier曲线,并明确规定了曲线之间的空间刚度关系。 Koh等人[18]通过低秩矩阵完成方案专注于不完整的轨迹增强,并通过排除大型运动物体上的特征来进行稳健的轨迹选择。张等[21]统一的轨迹平滑和帧变形。然而,它们的形成是视频翘曲框架,并且轨迹平滑仅仅是翘曲的目标之一。 Liu等[17]代替了稀疏的特征轨迹。处理密集像素的原文件,即SteadyFlow。于等[22]提出了一种稳定自拍视频的方法。他们通过3D人脸模型估算前景运动,而背景运动则通过光流建模。白等人[30]将用户交互功能整合到其视频稳定系统中,以消除前景轨迹,该轨迹现在可以通过[31]的背景识别方法自动实现。

快速的视频稳定在实践中很重要,但是通常以准确性为代价来实现。 王等[16]通过两种方式加速了他们的方法。首先,用Bacute;ezier曲线表示特征轨迹,以减少要优化的参数。其次,将输入视频划分为多个片段,然后对其进行逐一处理。 刘等人[32]提出了一种用于在线视频稳定的MeshFlow运动模型,该模型仅考虑网格顶点处的运动矢量。 董等[20]采用了单一参数运动模型(单应性),并使用卡尔曼滤波器进行运动平滑。 王等[33]通过二项式滤波器对相同长度的特征轨迹进行平滑处理,然后在帧变形步骤中从附近的轨迹拟合变换矩阵,而不执行时间成本优化。有趣的是,刘等[34]借助于在视频编码中使用的运动矢量来重建摄像机时代的运动。从软件方面来看,所有上述方法都可以加速视频稳定。不同的是,Dimov等[35]利用硬件为便携式设备设计实时2D视频稳定方法。

最近,已经为360°和超延时视频开发了视频稳定技术[36]-[39]。 在某些作品中,视频稳定与视频拼接[40]-[44],视频快进[45]和消除干扰[46]集成在一起。 最近,张等[47] 在转换空间中稳定视频。

  1. 我们的方法

以前大多数基于2D特征轨迹的方法都由三个阶段组成:轨迹提取,平滑和帧变形。 在本文中,我们将最后两个阶段统一为一个优化框架,以使轨迹平滑部分起主要作用,而框架翘曲部分起辅助作用。

在下文中,我们首先介绍我们的轨迹S平滑公式。 然后,我们回顾尽可能相似的图像变形方法[48]。 最后,我们展示了如何将两个组件结合在一起。

    1. 轨迹平滑

为了稳定摇晃的视频,我们的方法直接平滑了从视频中提取的特征轨迹。 所有大于10的轨迹都输入到我们的方法中。 之所以选择10,是因为一方面轨迹短于10是不可靠的,另一方面,轨迹10短得足以让我们从任何类型的视频中找到足够的轨迹来执行视频稳定化。 我们不区分前景轨迹和背景轨迹。 两者都输入到我们的方法中。 唯一的假设是轨迹应在视频帧上均匀分布。 稍后我们将展示如何实现这一目标。

令N为轨迹数。 对于第(1le;ile;N)个轨迹,我们使用si和ei表示其开始和结束帧。 令j为si与ei之间的数字,即sile;jle;ei。 我们用isin;表示第i条轨迹的第j个特征点。 相应地,是的平滑位置。给定以上定义,我们的轨迹平滑是通过最小化将原始轨迹转换为目标轨迹的以下能量函数来实现的:

其中,

等式2中定义的术语ESmooth被称为数据术语,其用于防止特征点远离其对应点移动。等式3中定义的术语ESmooth用于平滑特征轨迹。我们将轨迹的一阶和二阶导数最小化。 一阶导数项,即等式3的,对于稳定化是非常有效的,因为它使轨迹变成垂直于视频帧的线。 如果做到这一点,摄像机将是静态的,并且相应的视频将是最稳

定的。方程3的二阶导数项,即,也使轨迹变成一条线,但是该线不必垂直于视频帧。 因此,它强制执行线性摄像机运动。 权重alpha;1和alpha;2用于平衡这三个项(它们的值将在实验部分中讨论)。

鲁棒的一阶导数项。当摄像机快速移动时,应减小等式3的一阶导数项的权重alpha;1,否则,由于太强的平滑度,整个帧可能会崩溃,如图1的第一行所示。 这是因为快速的相机运动通常会在轨迹的两个相邻点之间带来较大的距离,而一阶导数项会尝试将该距离减小为零。 这个巨大的变化产生了图1中的问题。为了解决这个问题,我们提出了一个鲁棒的一阶导数项。令,且。我们的鲁棒一阶导数平滑项定义为:

与相比,我们将权重和添加到。当摄像机移动得更快时,权重减小,从而降低了平滑的强度。图1中的示例视频包含快速旋转。第一行显示了产生的结果 由提供,而第二行显示产生的结果。强大的一阶平滑项使我们的方法能够处理摄像机快速运动的视频。

图1.改进的一阶导数轨迹平滑项使我们的优化功能更加强大,可以处理快速的相机运动(在此示例中为快速旋转)。 第一行:简单的一阶导数项ESmooth产生的结果。 第二行:稳健的一阶导数项ESmooth/rs1产生的结果.

仅当或表示相机移动非常快时,才在等式3中采用而不是。 参数sigma;0设置为13.2,当和时,几乎消除了的影响。

    1. 尽可能类似的翘曲

在本节中,我们将回顾尽可能相似的翘曲算法。 最初,该方法是由Igarashi等人设计的[48]用于根据用户交互对2D形状进行严格控制。 然后,刘等人[27] 将其用于视频稳定。

变形算法[27]的输入是一个2D三角形网格以及一些控制点。 用户对控制点进行一些修改,然后网格将相应地变形。 令M = {(vi1,vi2,vi3)} iM = 1是网格,其中(vi1,vi2,vi3)是表示第i个三角形的元组,vikisin;R2(kisin;{1,2,3})为 三角形的顶点,M是所有三角形的数量。 令P = {pj} jC = 1为控制点集合,其中pjisin;R2表示第j个控制点,C为所有控制点的数量。假设用户将控制点P移动到P〜= {p〜j} jC = 1,则可以通过最小化以下步骤来实现由控制点的移动引发的网格变形:

其中M = {(v〜i1,〜vi2,〜vi3)} iM = 1是变形的网格,第一项是数据项,第二项被称为相似项。

根据Liu等人[27]的研究,数据项被用于强制控制点尽可能接近其目标位置。 假设pj在源网格的三角形中,令wj = [wj1,wj2,wj3] T是相对于三角形circ;i的pj的平均值坐标,即pj = wj [vi1,vi2,vi3] T。 然后将术语EWarp数据定义为

相似性项使三角形经历相似性转换。 三角形的任何一个顶点都可以由其他两个顶点局部表示[27]:

其中R90 = [0,1; -1、0],a和b是vi2和vi3定义的局部坐标系中vi1

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239534],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。