英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料
评估全景视频编码方案的框架
摘要
在头戴式显示器上观看带有实时头部运动跟踪的现实场景的全景视频可以提供沉浸式的视觉体验。 对于直播应用程序,压缩对于降低比特率至关重要。 对于本质上是球形的全景视频,在编码之前被映射到一个或多个平面上以适用于现代视频编码标准。在本文中,我们考虑使用头戴式显示器进行观看时,评估编码效率的问题。我们提取基于视点的头部运动轨迹,并在视点上比较的原始视频和编码视频。采用这种方法,我们比较了不同的球-面映射。我们发现平均视点质量可以通过加权的球形PSNR来近似。
介绍
历史上,带有头戴式显示器(HMD)的虚拟现实(VR)与游戏应用程序和计算机生成的内容相关联。但是,向用户显示宽阔视野内容的能力可用于提供对真实场景的沉浸式视觉体验。我们将这些应用称为电影VR。为此,我们必须在所有方向捕捉真实场景,从而产生有球形观看空间的全景视频。
现代HMD能够以低延迟跟踪头部运动,这可用于呈现与用户面对方向相对应的视图。另外,为了模拟深度,它向每只眼睛呈现独立的视图。在电影VR中,这转换为视图之间具有水平视差的有立体感的全景视频。随着相机和HMD的进步,描述电影VR内容需要更高的比特率,这使得电影VR内容的交付很快就会成为瓶颈。现代视频编码标准不是为了处理球形视频而设计的。因此,球形视频被映射到矩形平面,形成了所谓的全景视频。将球体映射到矩形上有很多方法。一些不同的压缩方案已经在文献中被提出,用于减少编码全景视频所需的比特率。然而,不同的映射和不同的测试标准已经被用来报告编码效率。本文的主要目标是设计一个统一的框架用来评估全景视频的编码效率。使用此框架,我们根据HMD上呈现的视图的峰值信噪比(PSNR)来评估不同的映射。
这项工作自然地延伸到增强现实(AR)中的应用。全景视频为基于位置的AR系统提供内容。而且,全景视频可以用作叠加层,而不是完全替代用户的场景。
相关工作
以前大多数生成全景图的研究都是针对优化人类观看的体验。这尚未详细研究映射对视频编码器编码效率的影响。文献[6]提出了一种内容保留的投影方法,它借助手动输入来查看映射的全景图。在文献[7]中提出了多平面透视投影,以减少前景物体的失真,也用于查看产生的全景图。映射方案还可以利用一些属性来评估,如采样均匀性,面积偏差,形状失真等。
为了编码全景视频,文献[8]中的方法指出,使用球面谐波直接在球面域进行编码。然而,背离矩形的基于块的混合编码体系结构,会使现代视频编码技术(例如,H.264/AVC,H.265/HEVC)中的许多近期性能改进都会丢失。在文献[5]介绍了一个使用全景投影对H.264/AVC编码的影响的早期研究。但是,它只考虑了球形观察空间的赤道附近的区域。事实上,在常用的全景投影中,球形观察空间两极附近的区域可能会产生最大的失真。可以使用不同投影表面来映射球体,例如立方体[2],圆柱体[3],十二面体[9]等。此外,即使投影表面是固定的,也存在多种将球体映射到已选择的表面上的方法。在映射和编码之后,许多已提出的压缩方案计算全景域中的编码误差。但是,全景域中的误差并不反映原始球体上的误差,因为需要通过反向映射以获得原始球体上的点。为了解决全景域像素相对重要性的这种差异,文献[9]提出将每个像素的误差乘以其覆盖在球体上的相应的立体角。但是,很多方面都没有在已发表的文献中提到:
(a)对于球形视频,目前还不清楚如何将高分辨率地地面实况视频与编码后的较低分辨率视频进行比较,特别是当使用不同的全景投影来表示视频时。
(b)球形观察空间上的所有点可能不具有相同的观看概率,例如,我们更可能观看赤道附近的内容而不是极点。
(c)此外,由于大多数显示器的屏幕是平面的,并且视野有限,因此根据当前头部位置呈现给用户的最终视图涉及从球体到显示器焦平面的投影。这个事实在文献[4]中被考虑,并且计算出呈现给用户的视点上的错误。但是,它不涉及HMD所有可能的3D旋转(见图2)。
(d)在视频数据从服务器传输到使用HMD的客户端的系统中,客户端请求的数据可能延迟到达。在这种情况下,客户端可以采用隐藏方案(例如,重复上次可用的视点)。评估框架也需要处理这种延迟带来的影响。
本文的贡献:
我们首先提出一种方法,通过生成与头部运动数据相对应的视点来计算视点之间的峰值信噪比(PSNR),以比较原始的全景视频和编码后的全景视频。这给出了呈现给用户的视图质量的估计。我们使用这个度量来研究各种全景投影对视频编码器编码效率的影响。但是,在设计编码系统时,实际的头部运动数据是事先不知道的。因此,我们提出了一种基于球面的PSNR计算,记为S-PSNR,以接近所有可能的观察方向的平均质量。然后,我们考虑一个事实,即不是所有的观看方向都具有相同的可能性,例如,用户更有可能观看赤道周围的区域而不是极点。我们将头部运动数据用于一组用户,并估计访问球体上不同点的相对频率。因此,我们计算加权S-PSNR,而且表明这可以在没有精确的头部运动数据时,用来近似平均视点的PSNR。
本文提出的所有评估指标的源代码可在https://github.com/mattcyu1/
omnieval上找到。
全景投影的回顾
我们考虑使用广角光学设备或计算方法的捕捉系统,例如拼接来自多个相机的视频以生成全景视频。使用计算方法可能导致拼接错误,包括撕裂和图像加倍等人为因素。由于粗量化会消除尖锐的边缘,所以低比特率下,轻微的撕裂影通常不会影响编码效率。但是,由于编码器会保留这些特征,所以在高比特率下,这些人为影响可能消耗大量的比特。在这次研究中,我们选择一个具有最小拼接影响的数据集。为了将全景视频存储在内存中,需要使用纬度和经度来形成从球面到平面的全景投影。不同的全景投影(等矩形,等面积,墨卡托,立方等)可能会产生非常不同的采样模式。本文中被比较的圆柱形投影的水平,垂直和组合的球体采样密度如图1所示。注意,单独考虑组合采样密度,忽略在南北两极时,圆柱形投影的水平取样密度大幅增加。
图1:不同投影的水平(a),垂直(b)和组合(c)采样密度相对于等矩形投影在赤道上的水平,垂直和组合采样密度,表示为纬度的函数。
这里我们简要回顾一下我们比较中使用的全景投影。
等矩形:该投影使用纬度和经度的恒定间距分布,并分别地使用和来表示全景中的垂直和水平位置。由于恒定的纬度间隔,该投影在球体上具有恒定的垂直采样密度。然而,水平地,每个纬度(其周长由cos给出)被拉伸到单位长度以适应一个矩形。因此,纬度处的水平采样密度由1 / cos给出,其在极点附近趋于无穷大。
兰伯特圆柱等面积:该投影试图通过减小相应的垂直采样密度来补偿当我们接近极点时增加的水平采样密度。具体来说,垂直采样密度设置为cos ,以使整个球体的组合采样密度保持恒定,因此称为等面积。
并矢:等面积投影修改垂直采样密度以补偿水平过采样,这里我们设计一个直接减小等矩形投影的水平过采样的投影。这是通将于的全景视图的水平分辨率减半来实现的。
立方体:该投影将单位直径的球体放置在具有单位长度边长的立方体的中心。 立方体的每个面都是通过在水平和垂直方向上具有90°视野的直线投影生成的。这会导致采样密度在立方体的每个面上变化。采样密度在立方体面的中心处最低,在立方体面相交处最高。
图2描述了从地面实况信号生成不同全景图的过程。我们从所需全景图上的目标(整数)位置p开始。不同的全景投影可以将相同的位置p映射到球体上的不同位置,表示为s1和s2。因此,位置p上的值是由不同位置的地面实况信号g1和g2计算出来的。在本文中,双三次插值用于计算亚像素位置处的值。生成的全景图使用各种比特率的视频编码器进行编码。
图2 从地面真实信号生成不同的全景映射
基于视点的质量评估
考虑在以点O为中心的单位半径的观察球上定义的视觉信息,如图3所示。该视点具有有限的视场并且被建模为与球体相切的平面片段ABCD ,切点O#39;为视点的中心。在本节中,我们使用HMD的头部运动信息并计算视点中的编码错误。
图3 视点的实例
为了确定视点中的像素,我们使用针孔照相机模型,即通过使用透视变换将3D点投影到图像平面上形成场景视图。如果我们均匀地跨越球体可见区域的球面坐标并将光线从O传递到球体上的点,则它们将与像素之间的间距不均匀的视点平面相交。我们称之为前向投影。为了在视点中计算一个均匀的像素网格,我们从视点中的所需位置(又名纹理坐标)开始,并反向映射以计算球体上的相应位置。
我们假设标准的头部位置是用户正在俯视负Z轴。设R代表用户头部相对于标准位置的旋转。这相当于将用户的头部固定在标准位置而将球体旋转RT。通过一个固有的矩阵建模让从3D坐标变换到2D齐次坐标:
(1)
式中:
和是以像素表示的焦距。例如,如果W是视点的宽度(以像素为单位),是HMD中每个眼睛的水平视场,则有。
和是视点中心O#39;的纹理坐标。
假设表示当前可见区域中球体上的点,ersquo;表示其在视点上的投影的2D齐次坐标。 前向投影可以写成
(2)
式中w表示比例因子。使用这个公式,我们可以从所需的纹理坐标ersquo;开始执行反向投影,并计算出单位球面上的坐标。这可以表示为
(3)
我们对视点上的所有所需点重复此过程,并确定球体上相应的一组点。 最后,这组点用于确定原始视频和已编码视频之间的编码误差。
在客户请求的数据没有及时交付以呈现视图的系统中,此视点评估方法将计算从原始视频剪切出的预期视点与展示给用户的实际视点之间的误差。这允许我们的框架来评估可能会导致传输延迟的各种交付方案。
球面比较
如果我们了解用户的头部运动轨迹,则基于视点的比较可以用作失真的度量。 但是,这并不是预先知道的而且不同的用户可能会沿着不同的轨迹查看相同的视频。因此,我们提出了一种球形PSNR,称为 S-PSNR,以总结所有可能视点的平均质量。
图4描述了提出的计算编码错误的方法。为此,我们不是从全景投影开始,而是从球体上的一组均匀采样点开始。例如,球体上的一点s被映射到地面实况信号g处和已编码的全景信号q处。计算这些位置处的像素值并确定这些像素之间的误差。接下来,访问与球面上的相同点对应的不同编码全景信号上的位置r,并确定g和r处的像素之间的误差。对球体上所有点的误差进行平均,以计算不同编码表示的地面实况信号的S-PSNR。
图4 比较地面实况视频和基于球体上一组均匀采样点的已编码全景视频
接下来,我们观察到,并非所有的观看方向都是等可能性的被观看,例如,用户更倾向于观看赤道而不是极点。我们使用头部运动数据来训练球体上的两种统计数据:
据观看概率得到的访问球体上不同点的相对频率。 这在图5a中被显示为热图。
如图5b所示,访问不同纬度的相对频率,以简洁地捕捉潜在的动态。
我们使用训练的相对频率来加权S-PSNR计算期间的编码误差,以更好地接近用户将经历的视点质量。
在图5b中,请注意,尽管预期地观测概率在赤道附近达到峰值,但像素访问概率在=plusmn;30°左右的范围内出现峰值。发生这种情况是因为视点是将球体投影到平面上的透视投影。因此,集中在赤道附近的用户视点上的像素均匀采样产生了球体上远离赤道区域的高采样密度。
图5:根据头部运动轨迹观测得的像素访问的相对频率。这些数字显示了10个用户每个观看10个全景视频的平均统计数据。(a)可视化为等矩形热图。 前方向对应于(0,0)位置。(b)可视化在经度上被边缘化。虽然观测的可能性预计在赤道附近最高,但访问峰值发生在=plusmn;30°附近,因为当我们离开赤道时,对视场位置进行均匀采样会导致对球体上的点的访问更密集。
实验结果
我们在第4、5节中描述了不同的方法来确定向用户呈现的视频数据的质量。在这里,我们使用这些方法来研究使用H.264 / AVC编解码器时,视频质量如何随比特率而改变。我们考虑一个包含10个长度均为10秒的全景视频的数据集。我们使用了各种各样的场景(例如骑自行车在相机周围骑行,在繁忙的街道上驾驶公交车等)捕捉不同的情景。尽管这些视频的持续时间相对较短,但我们可以预计一般统计数据(例如,用户倾向于观看赤道上的内容比在两极处更多)来保存较长的视频。一组10名受试者被要求使用定制视频播放器在Oculus Rift DK2上观看这些全景视频,并在整个持续时间内记录其头部位置。参与者被告知要站立,然后在穿戴HMD时可以自由转身。如果要求用户坐下(在可旋转椅子和不可旋转椅子上),比较观察的统计数据的差异会很有趣。然而,这个比较有待在以后的工作中进行。
实验评估分为两部分。在第一部分中,我们评估了各种映射方案及其对编码效率的影响。然后,我们考虑不预先明确头部运动轨迹测的情况下测试编码系统的情形。
序列 等距形 立方 并矢
BMX 9.4% 11.4% 3.3%
Cannes -0.2% 7.0% -0.8%
China1 -7.3% -4.0% -6.1%
China2 -8.3% 7.7% -7.1%
Kauai1 -9.4% -10.4% -9.0%
lt;
全文共7756字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[13183],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。