慢动作缩放:快速和准确的一阶时空视频超分外文翻译资料

 2022-08-05 10:14:08

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


译文:

慢动作缩放:快速和准确的一阶时空视频超分

肖玉祥1,lowast;,田亚鹏2,lowast;,张玉伦3,傅云3,Jan P.Allebach1,dagger;,徐晨良2,dagger;

1普渡大学,2罗切斯特大学,3东北大学

{xiang43,allebach}@purdue.edu,{yapengtian,chenliang.xu}@rochester.edu,yulun100@gmail.com,

图1:时空视频超分辨率示例。 我们提出了一种单级时空视频超分辨率(STVSR)网络,在不显式插值中间LR帧的情况下,从相应的低分辨率(LR)和低帧率(LFR)帧直接预测高帧率(HFR)和高分辨率(HR)帧。 给出了一个HR中间帧t及其相邻的低分辨率帧:t1和t 1作为覆盖图像。 与最先进的两级方法:DAIN[1] EDVR[37]在HR中间帧t上相比,我们的方法更能处理视觉运动,从而恢复更精确的图像结构和更锐利的边缘。 此外,我们的网络在推理速度上比DAIN EDVR小4倍以上。

摘要

本文探讨了时空视频超分辨率任务,目的是从低帧率(LFR)、低分辨率(LR)视频中生成高分辨率(HR)慢动作视频。一个简单的解决方案是将其分成两个子任务:视频帧插值(VFI)和视频超分辨率(VSR)。 然而,在这项任务中,时间插值和空间超分辨率是内部相关的。 扭曲方法不能充分利用自然属性。 此外,最先进的VFI或VSR网络需要一个大的帧合成或重建模块来预测高质量的视频帧,这使得两阶段的方法具有较大的模型大小,因此是耗时的。 为了克服这些问题,我们提出了一种新的时空视频超分辨率框架,它直接从LFR、LR视频中合成HR慢动作视频。我们不像VFI网络那样合成缺失的LR视频帧,而是首先在缺失的LR视频帧中通过所提出的特征时间间插值LR帧特征来捕获局部时间上下文政治网络。 然后,我们提出了一个可变形的ConvLSTM,以同时对齐和聚合时间信息,以更好地利用全局时间上下文。 最后,采用深度重构网络对HR慢动作视频帧进行预测。 在基准数据集上的广泛实验表明,该方法不仅获得了更好的定量和定性性能,而且比最近的两阶段最先进的方法(例如DAIN EDVR和DAIN RBPN)快三倍以上。

1.导言

空时视频超级分辨率(STVSR)[30]旨在从低分辨率和低帧速率输入视频中自动生成具有高空时分辨率的照片实现视频序列。 由于HR慢动作视频更具视觉吸引力,包含精细的图像细节和清晰的运动动力学,它们在丰富的应用中是理想的,如电影制作和高清电视。为了解决这一问题,以往文献中的大多数现有作品通常[30,22,33,28,6,14]采用手工制作的正则化并作出强有力的假设。 例如,[30]采用时空方向平滑先验,[22]假设静态像素的光照没有显著变化。 然而,这些强大的约束使得这些方法在建模各种不同的时空视觉模式方面的能力有限。此外,这些方法的优化通常是计算盟友昂贵(例如,sim;1小时,60帧在[22])。

近年来,深度卷积神经网络在视频帧插值(V FI)[24]、视频超分辨率(V SR)[4]和视频去模糊[32]等多种视频恢复任务中表现出了很有前途的效率和有效性。 要设计一个STVSR网络,一个简单的方法是直接组合视频帧插值方法(例如,SepConv[25]、ToFlow[40]、DAIN[1]等。) 以及视频超分辨率方法(例如DUF[11]、RBPN[8]、EDVR等。) 以两阶段的方式。 首先用VFI对缺失的中间LR视频帧进行插值,然后用VSR重建所有HR帧。 然而,STVSR中的时间插值和空间超分辨率是内部相关的。 两阶段方法将它们分成两个单独的程序,不能充分利用这一自然属性。 此外,为了预测高质量的视频帧,最先进的VFI和VSR网络都需要一个大的帧重建网络。 因此,组成的两阶段STVSR模型将包含大量的参数,并且在计算上是昂贵的。

为了缓解上述问题,我们提出了一个统一的标准STVSR框架,以同时学习时间插值和空间超分辨率。 我们建议自适应地学习一个可变形的特征插值函数,用于临时插值中间LR帧特征,而不是像两阶段方法那样合成像素级LR帧。 插值函数中的可学习偏移可以聚合有用的局部时间上下文,并帮助时间插值处理复杂的视觉运动。 此外,我们还引入了一种新的可变形ConvLSTM模型,以有效地利用同时进行时间对齐和聚合的全局上下文。 利用深度SR重建网络,可以从聚合的LR特征中重建HR视频帧。 为此,一阶段网络可以学习端到端,以序列时间序列的方式将LR、LFR视频序列映射到其HR、HFR空间。 实验结果表明,所提出的一阶段STVSR框架优于最先进的两阶段方法,即使参数更少。 一个例子如图1所示。

本文的贡献有三个:(1)我们提出了一个一阶段的时空超分辨率网络,它可以在一个统一的框架内同时处理时间插值和空间SR。 我们的一阶段方法比两阶段方法更有效,利用两个子间的内部相关性问题。 它在计算上也更有效,因为只需要一个帧重建网络,而不是两个大型网络,就像最先进的两阶段方法一样。 (2)提出了一种基于可变形采样的帧特征时间插值网络。 我们设计了一种新的可变形ConvLSTM,以显式地提高时间对齐能力,并利用全局时间上下文来处理视频中的大运动。 (3)我们的估算方法在Vid4[17]和Vimeo[40]上实现了最先进的STVSR性能。 它比两级网络快3倍:DAIN[1] EDVR[37]而模型大小减少了近4倍。 源代码在https://github.com/Mukosame/ZoomingSlowMo-CVPR-2020.中发布

2.相关工作

在这一部分中,我们讨论了三个相关的主题:视频帧插值(VFI)、视频超分辨率(VSR)和时空视频超分辨率(STVSR)。

视频帧插值视频帧插值的目标是在原始帧之间合成不存在的中间帧。 Meyer等人。 [21]介绍了一种基于相位的帧插值方法,该方法通过每像素相位修改生成中间帧。 Long等人。 [19]用编解码器CNN直接预测中间帧。Niklaus等人。 [24,25]将帧插值视为两个输入帧上的局部卷积,并使用CNN学习每个像素的空间自适应卷积核,用于高质量的帧合成。为了显式地处理运动,也有许多基于流的视频插值方法[10,18,23,2,1]。 这些方法通常存在固有的问题,不准确和缺少来自光流结果的信息。 在我们的一阶段STVSR框架中,我们不像目前的VFI方法那样合成中间LR帧,而是从两个相邻的LR帧插值特征,直接合成丢失帧的LR特征映射,而不需要显式监督。

视频超分辨率视频超分辨率旨在从相应的LR帧(参考帧)及其相邻的LR帧(支持帧)中重建HR视频帧)。 VSR的一个关键问题是如何将LR支持帧与参考帧暂时对齐。 几种VSR方法[4,34,26,36,40]使用光流进行显式时间对准,它首先用光流估计参考帧和每个支撑帧之间的运动,然后使用预测的运动图对支撑帧进行翘曲。最近,RBPN提出将VSR的单幅图像和多帧SR结合起来,其中流图是直接连接的。

图2:我们的一个阶段STVSR框架概述。 它直接重建连续的HR视频帧,而不合成LR中间帧Il。 特色 暂时的 插值 还有 双向的 可变形的 Conv LSTM 都是用于利用局部和全局时间上下文更好地利用时间信息和处理大运动。 请注意,我们只显示两个输入LR帧从一个长序列在这个图中更好插图有LR视频帧。 然而,很难获得精确的流;流翘曲也将伪影引入对齐帧。 为了避免这一问题,提出了带有动态滤波器的DUF[11]和具有可变形对准的TDAN[35],用于无运动估计的隐式时间对准。 EDVR[37]通过探索多尺度信息来扩展TDAN中的变形对准。 然而,上述大多数方法都是多对一的体系结构,它们需要处理一批LR帧来预测一个HR帧,这使得Meth-ODS的计算效率低下。 递归神经网络,如卷积LSTM[39](ConvLSTM),可以简化序列到序列(S2S)学习;它们被用于VSR方法[15,9]以利用时间信息。 然而,没有显式的时间对齐,

以最大后验马尔可夫随机场[7]为重建问题,以图切[3]为求解器。武田等人。 [33]利用局部方向和局部运动来引导时空回归核。 Shahar等人。 [28]提出利用时空补丁复发之前的自然视频为STVSR。 然而,这些方法建模丰富而复杂的时空视觉模式的能力有限,这些方法的优化通常在计算上是昂贵的。 为了解决这些问题,我们提出了一个一阶段的网络,直接学习部分LR观测和HR视频帧之间的映射,并实现快速和准确的STVSR。

3.时空视频超分辨率

给定 LR、LFR 视频序列: , ,我们的目标是生成相应的高分辨率慢动作视频序列: 。到中间的 HR 帧 , 输入序列中没有相应的 LR 对应物。为了快速准确地增加时空域的分辨率,我们提出了一个阶段的时空超分辨率框架:缩放图 2 中所示的缩放慢动作。该框架主要由四个部分组成:功能提取器、帧功能时间插点模块、可变形ConvLSTM和HR框架重构器。

我们首先使用具有卷积层和k1残留块的功能提取器从输入视频帧中提取功能地图 。然后,我们将功能图作为输入,将LR功能地图合成为:中间帧与建议的帧功能插点模块。 此外,为了更好地利用时间信息,我们使用可变形的ConvLSTM处理连续功能地图:。与香草康夫LSTM不同,建议的可变形ConvLSTM可以同时执行时间对齐和聚合。最后,我们重建HR慢动作视频序列。

图3:基于可变形采样的帧功能时间插话。由于近似将用于预测相应的 HR 框架,因此它将隐性地执行可学的偏移,以捕获准确的本地时间上下文并感知运动。聚合功能图。

3.1. 框架功能临时插话

给定提取的功能地图:和从输入LR视频帧: 和 , 我们希望合成功能地图 L对应于缺少的中间LR框架.传统的视频帧插点网络通常在像素方面对视频帧进行时间插播,这将导致两个阶段的STVSR设计。与以前的方法不同,我们建议学习一个功能时间插点函数f(·)直接合成中间功能图(见图3)。插点函数的一般形式可以制定为:

= f( , ) = H(( , ), ( , )) , (1)

在这里(·)和 (·)是两个采样功能,和是相应的取样参数:H(·)是聚合样本功能的混合函数。

用于生成准确的 ,(·)应捕获 和 之间的前向运动信息, (·)应捕获 和之间的向后运动信息。但是,不可用于在此任务中计算前进和向后运动信息。

为了缓解此问题,我们使用和之间的运动信息来近似向前和向后运动信息。受最近VSR中[35]中可变形对齐的启发,我们建议使用可变形采样函数来隐式捕获帧功能时间插点的运动信息。通过在采样功能中通过可变形的卷积来探索丰富的本地时间环境,我们的功能时间插话甚至可以处理视频中非常大的运动。

两个采样功能共享相同的网络设计,但权重不同。为了简单起见,我们以 T1 为例。它将 LR 帧功能映射 和 作为输入,以预测取样 的偏移:

= ([ , ]) , (2)

其中是可学的偏移,也指采样参数:; 表示几个卷积层的一般函数:[,]表示通道上的连体。借用已学到的偏移,可通过可变形的卷积执行采样功能 [5,42]:

( , ) = (, ) . (3)

同样,我们可以学习偏移 = ([ , ]) 作为采样参数:Phi;3 然后获得可变形卷积 ( , ) 的采样功能。要混合两个采样功能,我们使用简单的线性混合功能H(·):

= , (4)

其中 和 是两个可学的1times;1卷内核和lowast;是一个卷积操作员。由于合成的 LR 功能图 将用于预测中间 HR 框架 , 因此它将强制执行合成的 LR 功能地图以接近真正的中间 LR 功能地图。因此,两个偏移 和 将隐性地学会分别捕捉前进和向后的运动信息。

将设计可变形的时间插点功能应用于 ,我们可以获得中间帧功能图。

3.2. 变形对流LSTM

现在,我们有连续的帧功能图:用于生成相应的 HR 视频帧,这将是一个序列到序列映射。在以前的视频恢复任务 [40、34、37] 中已经证明,时间信息至关

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[262618],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。