英语原文共 14 页
预测虚拟现实视频流在移动网络中的性能
摘 要
随着公众可对虚拟现实(VR)视频进行获取并访问,虚拟现实视频流在移动网络中的需求急剧增长。然而,移动网络环境灵活多变,因此会对这种高带宽要求的服务的感知产生不可预料的影响。在这种情况下就需要提出一个新颖的适合VR视频流的性能评估模型。在本文中,我们介绍了PERCEIVE,这是一个分为两阶段的方法,可用于预测在移动网络条件下进行VR视频流自适应传输的的质量。通过机器学习,我们的方法可首先使用网络服务质量(QoS)指标作为预测指标来预测自适应VR视频播出性能。然后在第二阶段它采用预测的虚拟现实视频播出性能指标来建模和估计最终用户的感知质量。PERCEIVE的评估考虑了真实的网络环境,其中VR视频在LTE/4G网络环境下进行流式传输。通过计算预测值和测量值之间的差值来评估PERCEIVE的准确度,平均预测误差低于3.7%,并且在估计感知质量方面,对于超过90%的所有测试案例,其预测误差低于4%。此外,它还能使我们更精准的确定影响自适应VR视频流传输的QoS条件。
关键字:虚拟现实;HTTP自适应流媒体;服务质量;体验质量;移动网络
- 绪论
基于互联网的视频应用的种类和数量一直在增加。事实上,IP视频流量预测从2016年至2021年会增长9倍,且会在2021年占总移动流量的78%[5],根据同以消息来源,虚拟现实(VR)视频产生的流量预计到2021年会增长11倍[5]。促进这样高速增长的一个关键因素是头戴式设备(HMD)的广泛推广。头戴式设备正变得更加有效且价格亲民(例如Google的Cardboard),且已经存在一些智能手机免费提供(例如三星的Gear VR),另外有些产业正在推广(例如Facebook最近宣布Oculus Go耳机永久降价,以此来达成10亿VR用户的目标)。
为了提供身临其境的VR视频用户体验,与传统视频应用相比,VR视频需要更高的带宽。这些超高带宽不可始终用于无线网络,且不容易通过轻量级的移动设备进行处理。事实上,目前通过移动网络传输VR视频并非最佳的选择。VR视频包含完整的360°全景视图,无论在任何时刻只有一小部分(即视口)可见。为了优化带宽使用,最近的研究方向已经提出了基于HAS(HHT自适应流传输)范例的视频流的适口感知方案[10,27]。HAS方法侧重于以多个质量表示(即比特率)对源内容进行编码,而每个质量由时间分成多个小部分(即段),为了进一步优化带宽使用,最近的研究调查提出了HAS变体,其中质量表示不仅在时间上被分段,而且在空间上被分成更小的块(即瓦片)[6].
将2D自适应流传输技术引入VR领域需要对VR视频以不同的质量水平进行编码,在时间上划分成段并进行空间平铺[19]。之后在视频流传输会话期间,只有视口位置的瓦片以最高速率进行传输,而其他瓦片则保持在低级别速率或者不进行传输[24]。因为用户需要使用预计的视口图块来填充缓冲区,因此需要使用视口预测算法来提高效率。
尽管使用视口预测技术可以减少带宽消耗,但网络性能对VR视频流传输的影响仍然在用户的QoE中起着重要作用。与常规视频相比较,VR视频的全景视图需要更高的比特率,即使其一部分视口也可能需要高比特率。在这些方面,最近的研究强调了网络性能在自适应视频流应用的感知质量(QoE)的重要性[8,10,13,14,16]。然而,他们并未考虑空间切割,因此在预测VR视频的感知质量方面,其方法不够先进。
QoE已经被证明为是视频应用的关键因素[1,18]。因此,网络运营商和 VR内容提供商都必须考虑一个重要问题:考虑到IP网络的广泛性能水平,当前的网络条件能够在多大程度上为用户提供QoE?解决这个问题非常复杂, 因为有两个约束:首先,网络对VR视频表现的影响未知,其次,关于VR视频估计建模的技术并未考虑VR视频的上下文。在本文中,我们介绍了PERCEIVE(针对VR视频的表现预测),这是一种旨在解决上述两个约束的方法。PERCEIVE是一个两阶段自适应VR视频性能评估模型,它使用了机器学习算法首先使用网络的QoS指标作为预测器来预测VR视频播出性能。然后使用视频播出性能指标来建模和估计最终的用户QoE。在真实的4G/LTE网络条件下进行评估,PERCEIVE不仅可以准确预测网络上的VR视频性能,也可以精确的确定影响VR视频流服务的QoS条件。
本文的其余部分安排如下。在第2节中,我们讨论了相关工作。在第3节中,我们介绍了一种基于图块的自适应VR视频流的方法。在第4节中,我们介绍了PERCEIVE,即我们之前提出的两步性能预测方案。在第5节中,我们报告评估结果,以证明所提方案的技术可行性。报告包括评估方法,数据集生成,培训集分析和最终结果的详细信息。最后,结论和主要发现见第6节。
第二章 相关工作
在本节中,我们全面描述了最新技术。在2.1节中,我们简要介绍了应用于VR环境的自适应媒体流,并回顾了最先进的方法。在2.2节中,我们重点介绍了文献中最重要的QoE估算模型。
2.1 基于平铺和视口的自适应视频流
对基于图块的自适应VR视频流服务来讲,其要考虑的一个方面是视口预测,视口预测可以显著优化带宽使用。由于完整的VR视频可以轻松的达到8K分辨率[7],因此大多数视频播放器依靠启发式算法来预测用户的头部运动轨迹。通过预测下一个运动位置,视频播放器可以请求仅在视口内的瓦片使用高分辨率。为了提供这种预测,启发式算法考虑许多变量。例如用户头部的角速度,先前观众的运动模式,视频内容(例如在足球比赛中用户最有可能跟随球的运动),以及其它因素[2].通过执行此类预测,视频播放器可减少高达72%的带宽利用[12]。
实际上,视口预测算法负责保持视频播放缓冲区和不久将来可能属于视口区的图块。为了说明视口预测如何与播放缓冲区交互,应考虑用户观看基于图块的VR视频所使用的头戴式显示器。考虑给定的时间段SK和相应的视口VK,如图所示1所示(a)。此时,视频播放器仅为视口VK内的图块请求高分辨率。然后,基于下一段的近期视口预测(SK 1),视频播放器开始请求VK 1的高分辨率瓦片(如图1(b)中的右虚线框分隔)。正如预测的那样,观察者略微向右移动(见图1(c))。此时,在视口预测器的驱动下,VR视频播放器开始为片段SK=2的预测视口上请求高分辨率瓦片(图1(d)),依次类推。
最近的几项调查[11,23,24]的主要目标都集中:设计高带宽效率的自适应VR视频播放器,同时将QoE保持在可接受水平。将视口预测信息作为输入,大多数方法依赖于每瓦片速率自适应算法,通过仅在视口位置下载高分辨率图块来减小信息量。[24]钱等人提出了一种视口预测方案,该方案考虑了用户的头部运动(轨迹),并依赖于加权线性回归来预测用户下一秒的头部位置。此研究还表明,当预测窗口间隔增加到2秒时,估计精度会由90%下降到大约60%。[11]范等人考虑了HMD的传感器信息和内容相关的特征(即图像显著性图和运动图)来训练神经网络以预测视口位置。另外,Hossseini等人[23]提出了一种高效的3D几何网格来表示3D空间中的平铺视频,与非平铺视频相比,能够将带宽消耗降低30%。该工作还依赖于MPEG-DASH空间表示描述符(SRD)来描述360°空间中瓦片的空间关系,优先考虑视口内的瓦片以高质量下载。Petrangeli等[23]提出了一种方法,通过基于HTTP/2的推送机制以及基于视口速度的视口预测方案,能够将带带宽消耗降低达35%。如上所述,视口预测是一项敏感度很高的任务,可能会出人意料的影响到用户的感知。即使网络条件足以保证用户的QoE,视口预测错误将对用户的QoE产生巨大的影响。在这项工作中,我们感兴趣的是以孤立的方式预测网络对VR自适应流的影响,而不受来自视口预测错误的影响。因此,对于在此呈现出的分析,我们假设完美预测,即视频流播放器确切的知道用户在每个时间点的视口位置。
2.2 自适应视频流QoE估计
自适应视频流(2D,3D或VR)QoE估计应用的最大挑战之一是质量感知的准确性和实时性。且基于此提供反馈回路以动态地影响质量适应。毛等人[16]提出了一个模型来估计QoE,同时也考虑了客户端视频播放器测量的网络和应用性能指标(例如平均比特率,视频停顿和比特率变化)作为输入。同样,江等人[13]提出了一种内容交付网络(CDN)节点选择方法,该方法采用关键特征分析(CFA)设计来提供准确的QoE估计。在这项工作中,作者还依赖客户端视频播放器提供的信息作为输入。另外,Xianshu 等人[14]提出了一种网络路径选择方案,该方案考虑在服务器端测量比特率,以产生应用于自适应视频流的简化QoE估计。Dimopoulos等人[10]介绍了一种基于加密的HTTP视频流以分析网络中观察到的流量,从而估计QoE。Da Costa Filho等人[8]提出了一种基于通过主动测量的获得的网络QoS指标来进行估计QoE的方法。这两项调查[8,10]都证明可以根据网络方面的信息估计视频流的QoE。虽然这些方法可能不如基于客户端或服务器端测量的方法准确,但它们已显现出令人满意的准确度,并且有如下关键性优势:除了端到端QoE估计以外,它们还允许用于快速识别和隔离QoE损伤的网段。尽管最近对视频流演进做出了重大贡献,但自适应视频流的QoE建模工作基本上集中于2D视频上。与2D视频内容不同,VR视频要考虑更复杂的元素(例如,空间分割,视口预测和瓦片速率适应)。因此,当前的QoE模型不适合估计VR视频的QoE。
图1 适口预测的工作原理实例
第三章 使用瓦片以及区域质量的自适应视频
传输
本文介绍了设想PERCEIVE的自适应VR视频流方法。为了减少流式传输所需要的带宽,采用了一种平铺结构,其中视频不仅在视频段中划分,而且在区域(瓦片)中也在空间中划分[23].此外,在流式传输之前,将图块分组在质量区域中。根据在前一段中测量的网络条件,为每个区域分配质量等级。在接下来的两个小节中,介绍了本工作中采用的结构和自适应流技术。
3.1 自适应VR流式结构:空间平铺和区域质量
VR视频V可以由一组k个空间划分的区域Z={Z1,...,Zk}表示,使得cap;forall;kZk=empty;。同一个视频V在时间上被分成离散数量的m个片段S={S1,...,Sm},从而使得cup;forall;mSm=V。每个区域Zk由一组瓦片tisin;Zk组成。瓦片t被时间分割为m个块C={Ct1,...,Ctm},并且可以随时间呈现不同的比特率(质量)R(Ctm)。最后我们将segment称为一组给定时间范围的块,例如Sm=cup;forall;tCtm。在基于图块的方法中,编码过程定义视频如何在空间上划分(即切片方案),哪些比特率将在HAS上下文中可用(即质量表示),以及段长度(即秒数)。
这种结构的一个例子如图2所示。有三个质量区Z=Z1,Z2,Z3,每个质量区由一组相邻的瓦片构成。Z1是与视口中心相邻的一组瓦片(t28,t29,t36,t37),Z2是视口的边界(t43,t44,t45,t46,t38,t30,t22,t21,t20,t19,t27 ,t35),Z3由其余的瓦片构成。
图2:基于自适应瓦片的VR视频3个质量区域的结构实例
3.2 自适应流式启发式
算法1描述了本文采用的自适应流式启发过程(改变自[23]).特定区域Zk中的比特率被命名为R(Ct)|Zk。算法输入(i)对视频V的引用,(ii)描述视频分段的集合S和(iii)视频V中的可用区域。算法1中描述的启发式工作如下。若知道网络中的可用带宽,VR播放器就会以最高比特率下载瓦片。首先,启发式算法尝试增加视口内区域的比特率。然后,重复从外部区域至内部区域的过程。观察到在区域Zk的比特率严格要求上限的情况下,启发式不会增加后续区域Zk 1上的比特率R(Ct)|Zk 1。换句话说,它确保了相同区域Zk内的瓦片以相同的比特率R(Ct)流式传输,即R(C0)|Zk=R(C1)|Zk=hellip;=R(Ct)|Zk。如何可用带宽不足以下载全部瓦片,则流式传输停止,直至填充缓冲区。因此,用户确保在播出期间的所有图块都是同步的,并且不会出现黑色图块。有关流式启发式工作原理的更多信息,请参阅[23]。
图3:PERCEIVE两阶段质量预测
第四章 PERCEIVE:自适应VR视频性能预测
图3给出了所提出的两阶段VR性能预测方法的框图。第一阶段由四个预测变量组成,这四个变量为每个VR视频应用程序的性能指标(即启动延迟,质量,质量转换数和视频停顿)[32]。输入方面,预测器还考虑网络服务质量(QoS)(即延迟,分组丢失和TCP吞吐量)和切片方案。
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。