英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料
2016 IEEE多媒体国际研讨会
符合标准的多视点视频编码和流媒体虚拟现实应用程序
Kashyap Kammachi-Sreedhar,Alireza Aminlou,
Miska M. Hannuksela和Moncef Gabbouj
诺基亚技术公司,芬兰坦佩雷工业大学(芬兰坦佩雷)
电子邮件:firstname.lastname @ {nokia.com,tut.fi}
摘要
虚拟现实(VR)系统采用多视点相机或摄像机装置从整个360度视角捕捉场景。由于计算或延迟限制,在编码之前可能无法将多视图视频拼接成单个视频序列。在本文中,我们将研究多视点VR视频内容的编码和流式传输。我们提出了一种符合标准的方法,我们首先将相机视图分为两种类型:主要视图表示具有较低分辨率和不重叠(最小重叠)内容的摄像机视图的子集,覆盖整个360度视野以确保在非常快速的头部运动期间立即观察到单眼。辅助视图包括具有更高分辨率的剩余摄像机视图,这些视图与主视图产生重叠内容并且另外用于立体观看。基于这种分类,我们提出了一种编码方案,其中,使用来自主视图的层间预测,主视图在基本层中独立编码,并且附加辅助视图被编码为增强层。所提出的系统不仅满足VR系统的低延迟要求,而且符合现有的高效视频编码标准的多层扩展。仿真结果表明,与先前的方法相比,所提出的方案的编码和流式传输性能显着提高。
虚拟现实;多视点视频编码;选择性流媒体;
I. 介绍
虚拟现实(VR)媒体通过模拟物理世界的三维特性带来沉浸感。为了获得真实世界的体验,它倾向于将观众置于场景的中心,并利用多视图和立体视频以及头戴式显示器(HMD)等设备。图1显示了采用HMD的典型VR视频流系统。
用于捕获VR内容的商用相机和相机设备使用各种类型的向外指向的相机设置,而不是使用并行相机设置的传统多视点相机。 VR相机通常采用宽视场(FOV)或鱼眼镜头,这些镜头可以产生超过FOV的内容[1]。取决于所使用的相机光学元件,周围的整个视角被两个或更多个透镜捕获。捕捉整个周围环境也意味着在任何给定的时间只有一部分视频可以被观看,但是它也允许观看者期望的视角可能快速变化[2]。
与传统视频一样,多视图VR视频可能会在本地存储在物理媒体上,或者可能会流式传输。VR视频既可以编码为单独的场景,也可以通过补偿摄像机之间的任何偏移或重叠来预先缝合到单个场景中。 然而,预拼接是一个复杂的过程,可能不可行,例如 当内容从摄像头设备被实时捕获和流传输时。由于从捕获的图像域到选定的二维投影域的投影以及此转换中涉及的重采样,预先缝合还会导致细节丢失。多视图视频的编码可能涉及层间补偿。然而,层间预测中的层数可能增加编码VR视频的复杂度。
服务器通过可靠的网络连接传输视频,以消费客户端设备(HMD),从而为客户提供交互式选择要呈现的视图或视图的灵活性。 此外,我们假设HMD可能采用客户端驱动的自适应视频流解决方案,例如基于HTTP的动态自适应流媒体(MPEG-DASH)[3],以从服务器请求适当的视图。为了实现更好的用户体验,优先考虑客户当前的观看方向是合乎需要的。在本文中,以高分辨率从服务器请求与HMD动态识别的客户端透视图对应的编码照相机视图的子集。 为了应对快速的头部移动,覆盖整个360°所需的其他摄像机视图也可以流式传输,但分辨率较低。
为了保证高质量的完全沉浸体验,VR系统提出以下建议,例如覆盖整个FOV的视图的可用性,以允许客户期望的视角的快速变化,提供深度感知的立体观看,高帧率(优选地60帧/秒),高视频分辨率和低系统响应时间以响应快速头部移动以提供良好的用户体验[4]。忽视这些最佳实践会导致次优的VR体验,因此可能导致某些人出现模拟器疾病。在这些限制条件下,VR系统面临着多项技术挑战,例如,针对单视点视频存储和流式传输的多视图视频的带宽需求以及非典型投影,如鱼眼镜头。另外,由VR系统采用的显示设备(例如HMD)嵌入头部跟踪解决方案,其有助于选择要显示的视频部分。
因此,在本文中,我们研究了编码方法,其中每个摄像机视图被单独编码(或作为单独的层),可能在它们之间具有某种类型的预测。本文的主要目标是通过使用符合标准的视频编码工具,显着降低使用多台摄像机的VR系统的流媒体比特率。在这方面,我们提出了一种多层编码方案,它有效地解决了VR应用程序的流媒体效率和低延迟要求。
本文的结构如下。第二部分回顾了与多视图视频的编码和流媒体有关的文献。 第三节描述了所提出的多层编码方案。第四节简要介绍了所使用的模拟设置和获得的相应结果。最后,第五节给出了结论。
II. 相关工作
在VR系统中用于多视点视频的编码和流传输的直接解决方案是联播编码,即对每个视频进行单独编码。通过以更高的空间分辨率选择性地发送覆盖客户机的当前观看方向的视图,可以减少联播编码的多视图视频的流式比特率。涵盖整个360度FOV的所有其他必需视图都以较低的比特率进行流式传输。这种方法不仅降低了服务器和客户端的编码复杂度,而且还有助于在快速头部移动期间快速切换视图。但是,联播编码没有利用多视点摄像机之间的高相关性,并因此保持比特率相对较高。另外,如果用户的相对观看方向在一段时间内没有快速改变,则来自相邻视图的许多比特被丢弃,导致网络带宽的大量浪费,否则可能将其用于其他目的。
多视点视频编码[5] [6],MV-HEVC标准(高效视频编码标准(HEVC)的多层扩展之一)中的当前技术水平声称提供针对联播编码的显着压缩增益 通过利用视点间的冗余。然而,视图间预测使得选择性视图流式传输或解码更加困难并且计算要求分别安排在服务器和终端设备上。此外,MV-HEVC标准主要针对传统平行相机设置而开发,可能使标准次优的向外指向相机设置具有宽视场镜头,这是典型的VR视频拍摄。
Kurutepe等人提出的编码系统 在[7]中使用基础层的多视图编码来对所有摄像机视图的低分辨率版本进行编码,然后将每个视图的高分辨率版本编码为可扩展的增强层。此外,上述多视图可伸缩系统通过以高比特率选择性地流式传输客户端的当前视图并且采用方法来自适应地选择覆盖基层处的360度FOV的低质量视图,从而减少流式比特率。然而,该系统的缺点是增加了视图间预测步骤的数量和编码中使用的层数,因为它增加了服务器和终端设备处的编码复杂度,并因此可能增加系统等待时间。
III. 建议的系统描述
所提出的系统的主要目标是利用VR摄像机视图之间的冗余,同时显着降低流传输比特率和系统延迟,从而提供改进的VR用户体验。 在这方面,我们提出了以下选择性多分辨率流媒体解决方案。
A.提议的选择性多分辨率流
首先为了减少流传输比特率,我们传输整个FOV的低质量版本和客户端当前视角的高质量版本。 相应地,我们将VR系统的多视点视频大致分为两类。
1)主要视图,产生非重叠或最小重叠内容并覆盖整个FOV的摄像机视图的子集;
2)辅助视图,其余的相机设置对产生与主视图完全重叠并且被选择为适合立体观看的内容。这种分类可以推广到任何类型的VR相机设置,因此并不特定于我们模拟中使用的相机设置。
在我们图2所提出的系统中,主视图是没有任何层间预测或补偿的同播广播编码。 这些视图以相对低于辅助视图的质量或分辨率在基本层中传输,并覆盖整个FOV。客户端设备基于客户端的当前视角请求适当的辅助视图。服务器有选择地传送所请求的辅助视图以及主视图。 请求的辅助视图形成系统的增强层,并用主要视图的某种形式的层间预测进行编码,并且也以更高的质量或分辨率进行传输。
例如,如果用户的当前观看方向没有改变,则解码的高质量辅助视图被呈现在HMD上。如果潜在的快速头部移动导致错误的辅助视图被流式传输,则HMD现在可以利用可用的主视图自动切换到单视场观看,然而现在可能具有可能较低的观看质量,直到辅助视图的正确高质量版本到达装置。
系统在主视图和辅助视图之间进行切换以及相应地在立体观看和平面观看之间进行切换的能力额外补偿了系统中的任何网络延迟。此外,由于主视图在没有任何层间预测或补偿的情况下被编码,所以在单视场观看期间解码器复杂度降低,否则将增加系统等待时间。因此,所提出的系统确保更平滑的VR体验。以下小节描述了所提议的系统中使用的编码方案。
B.提议的VR编码方法
图2描述了本文提出的多层编码结构。主视图的较低分辨率版本用传统HEVC标准编码并形成基本层HEVC比特流。通过对没有预测误差的独立层进行上采样来形成每个主视图的另一版本,其可以被称为跳过编码的增强层。然后使用主视图的跳过编码的增强层作为视图间预测中的参考来对多个高分辨率辅助视图进行多视图编码。这种实现可以通过HEVC的分层扩展中的现有外部基层技术容易地实现。
与[7]相比,本质上的区别是我们的方法以不同的顺序执行视图间预测和空间可伸缩编码。因此,在我们的方法中,层间预测发生在高分辨率的图片之间,而不是[7]中的低分辨率图片之间的层间预测。此外,文献[7]中的编码方案涉及在视点间预测图片和辅助视点的空间增强图片两者中的预测误差解码,而我们的方法仅在辅助图像的视点间预测图片中涉及预测误差解码 因为主要视图的跳过编码图片仅仅是对应的低分辨率图片的上采样版本。因此,我们的方法中的解码复杂度低于[7]中的解码复杂度。由于辅助视图依赖于主要视图(总是传输),所以不存在由层间预测引起的流式比特率开销。
由于主要视图的编码符合HEVC标准且辅助视图分别符合HEVC标准的可缩放和多视图扩展SHVC/MV-HEVC,所提出的方法可容易地整合到现有内容传送系统中。SHVC和MVHEVC,使底层块级编码结构与单层HEVC标准保持一致,只改变高级语法[5] [8]。这种设计架构降低了用户设备解码的复杂性。另外,即使在HEVC标准中不存在组合的可缩放和多视图简档,MV-HEVC标准的外部基本层能力也有助于使用重构的HEVC层作为用于视图间预测的参考。
此外,我们在编码方案中使用层次图像组(GOP)结构,如图2所示,而其他类似的GOP模式同样可以使用。为了降低解码复杂度并因此满足VR系统的低等待时间要求,只有一部分图片利用了层间预测。该时间子层概念提供了时间可伸缩性,并通过丢弃相应较高时间子层中的网络抽象层(NAL)单元来帮助切换到较低时间分辨率[9]。如图2所示,仅在时间子层0处选择性地启用视图间/层间预测。当不显示主要视图时,仅需要它们中最低的时间子层来被解码以作为访谈/层间预测的参考。这种方法通过降低客户端的解码复杂度在压缩效率和快速视图切换之间提供了良好的折衷。
IV. 仿真设置和结果
接下来,我们将所提出的VR视频编码和选择性流传输方法的速率-失真(RD)性能与以下三个参考系统进行比较:
1)联播方法:同步视频的编码和流播(与当前观看相匹配的视图客户端的方向)以及主要视图(覆盖整个FOV的视图),所有视图都以高空间分辨率进行流传输。
2)多分辨率同播方法:如第II节所述的选择性多分辨率同播编码系统。换句话说,覆盖当前客户头部方向的辅助视图与主要视图一起以高空间分辨率流动,覆盖以较低空间分辨率流动的整个360度FOV。
3)Kurutepe方法:这是与[7]中相同的编码方案,也在第II节中描述。它使用多视图编码系统以基础层中的基本分辨率编码所有视图(辅助加主),并为每个基础视图编码空间增强层。在所有的参考系统和所提出的方法中,假定客户机显示引擎识别用户的当前观看方向并向服务器请求适当的辅助加主视图以覆盖整个360度FOV。
在模拟中使用六个序列,每帧100帧,帧率为25帧/秒。使用图3的诺基亚OZO相机拍摄了五个序列
每个镜头中的FOV。 虽然警长是一个由8个鱼眼视图组成的电脑生成的动画序列集,相机沿着立方体相机设置的8个角向外指向,分辨率为1920x1920,每个鱼眼视图覆盖360度FOV。 Shelter2900是一个包含8个鱼眼视图的固定摄像机序列集,分辨率为1408x1408的每个视图(图6中显示了一个示例框架)。Shelter6500是一组8个鱼眼视图,类似于Shelter2900,但具有对象加相机运动。 LRRH再次是8个鱼眼视图的固定摄像机序列集合,每个分辨率为2048x2048。 BearAttack和VRCConcert是具有4个鱼眼视图的序列(图3的透镜01到04),每个视图具有2048times;2048的分辨率; 包含固定摄像机和摄像机运动内容。
通过假设序列集的主视图始终以基本质量进行流式传输,而其他相邻摄像机对则基于当前客户端的观看方向进行流式传输,从而计算流式传输比特率。 这种假设导致多个相邻摄像机对基于它们在相机几何体中的物理接近度。例如,在图4的相机中,存在六个相邻的相机对,即(1,2),(2,3),(3,4),(1,4),(5,6),(7,8)。(1,4)的相机对覆盖整个FOV并且因此形成主视图,因此总是与用于立体观看的其他相机对(辅助视图)一起流动。最终流式比特率是所有相邻对上的平均值以及所观察到的相机对的编码所依赖的主要视图以及主要相机对的任何编码表示。Bjoslash;ntegaard度量被用于评估所提出的方法[10]。
编码层符合H.265 / HEVC的Main,Scalable Main和Multiview Main配置文件。 仿真使用H.265 / HEVC [11]的HM版本16.0参考软件和H.265 / HEVC [12]的可扩展和多视图扩展的SHM版本12.0参考软件进行。 在模拟中使用的量化参数值(QP)是22,26,30和34.使用在部分IIIB中讨论的分层GOP结构,GOP大小为4并且内部周期为24。
如表1所示,所提出的方法分别针对联播,多分辨率同播和Kurutepe方法给出平均流比特率减少42.4%,11.5%和9.4%。 所提出的方法的显着收益来自于增强层中的辅助视图与基础层中的主要视图的视图间预测,其
全文共7105字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[15205],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。