英语原文共 2 页
研究抖音短视频的特点及其对边缘缓存的影响
摘要:抖音,以”Tik tok”为名,在国际具有一定的知名度,已经成为一个最成功的短视频平台。为了维持它的大众性与名气,抖音必须提供更好的质量的体验(简称QoE)来不断增长其用户基础。因此,了解抖音视频的特点对改进其服务和系统设计显得至关重要。在本文中,我们介绍了以所收集的在近三个月内的,超过26万个短视频数据集的视频为基础的抖音基本特征的初步研究。经过研究,抖音视频的特点与传统在线视频有显著性的不同。其中视频比特率、大小和流行程度有不同程度的差异。特别是视频比特率和大小的分布服从威布尔分布。我们进一步观察到,最受欢迎的抖音视频在视频受欢迎程度上遵循Zifp定律,而其他视频则没有。我们还研究了抖音视频的人气指标之间的相关性。研究发现,观看次数与点赞次数之间存在较强的相关性,而其他相关性相对较低。最后,通过一个实例研究表明,上述研究结果对设计高效的边缘缓存系统具有重要的指导意义。
关键词:边缘缓存,体验质量,视频人气,Zipfian分布、威布尔分布,抖音 (Tik Tok)
1介绍
在线视频分享平台(如YouTube、Facebook、Instagram和Snapchat)的成功令人瞩目。根据思科(Cisco)的年度视觉网络指数(VNI)预测,视频占据了互联网流量的绝大部分。随着移动设备使用的增加,视频流量从有线终端(如个人电脑)转移到移动终端(如智能手机)。随着向移动互联网的转移,视频分享行业近年来已被重塑。最大的趋势之一是短格式视频平台的出现(如抖音)。这些平台通常拥有大量的用户生成内容(UGC),而用户生成内容的时间只有几十秒,比传统视频的长度短两个数量级。
类似抖音、Instagram和YouTube等移动互联网应用程序的成功依赖于丰富的视频库,更重要的是,是其优化缓存系统的设计发挥了重要作用。此外,越来越受欢迎的短视频服务占用了互联网带宽的很大一部分。此外,它们对时间很敏感,尤其是对于像抖音这样的短视频平台。抖音目前在中国每天的活跃用户超过1.5亿,而上传视频文件的平均大小为1.96 MB。如果每个用户每天只上传1.96 MB的视频,那么存储所有视频所需的磁盘空间至少为294tb。因此,对于这样的平台,动态有效的缓存是必要的。此外,带宽成本和端到端延迟对抖音来说也是同样重要的问题。体验质量无疑是其面临的最大挑战。边缘缓存不仅可以减少回程带宽和延迟的使用,而且可以提高能源效率,这对于容量规划和体验质量的增强起到至关重要的作用。
抖音成立于2016年,又名TikTok,已经成为增长最快的移动互联网应用之一。业内人士估计,2018年9月,抖音的下载量超过了YouTube、Facebook、Instagram和Snapchat。Sensor Tower估计,2019年2月,抖音在苹果应用商店(App Store)和谷歌Play上的下载量超过了10亿次。另一方面,一些研究,如YouTube和Twitter,为研究缓存机制分析了不同的特点,。与YouTube和Twitter不同,抖音是专门为移动互联网用户提供短视频的。虽然抖音的缓存机制是基于对传统短视频的研究,但抖音的三大特点要求对抖音缓存进行新颖的设计。首先,抖音视频的数量比传统短视频的数量要多得多。其次,抖音视频的大小比传统的短视频小很多(90%的抖音视频小于1.5 MB, 而一个典型的YouTube短视频是25MB)。最后,最流行的抖音视频的观看频率符合著名的Zipf分布,对于短视频的边缘缓存有重要影响。随着抖音平台的日益普及和使用,了解抖音视频的特点对于设计一个动态高效的抖音视频缓存系统具有重要的意义。
本文对抖音视频的基本特征进行了初步研究。我们分析了2018年初三个月收集的26000多段视频短片的视频文件特点和受欢迎程度。结果表明,抖音视频的比特率和大小可以用威布尔分布[9]来表示。我们还仔细研究了抖音视频的人气指标,包括观看次数、点赞次数、评论次数和分享次数。使用Pearson系数的相关分析表明,除了观看次数和点赞次数外,大多数流行度指标的相关性都很小。然而,通过一个案例研究表明,我们的分析可以针对抖音短视频独特特点的高效缓存系统设计提供指导。
据我们所知,我们的工作是第一次对抖音短视频进行研究,这不仅为进一步探索和理解抖音提供了基础,也为最新短视频平台的边缘缓存系统设计提供了初步的基础。
我们在本文中的主要贡献可以总结为:
bull;基于抖音的真实数据集,我们给予了抖音短视频的首个和具有广泛性的特性。
bull;考察抖音视频的人气分布情况,这对于设计基于人气的抖音缓存系统具有特别重要的意义。
bull;进一步分析抖音视频的人气指标之间的关系。分析结果表明,视频流行度确实需要一种新的计算范式。在此基础上设计了一个基于边缘缓存的实例研究,进一步验证了本文研究的适用性。此外,案例研究表明,我们的研究结果对于设计和开发一种高效、智能的缓存系统,为抖音等最新形式的移动社交短视频媒体提供了非常有益的帮助。
本文的其余部分组织如下。第二部分简要介绍了抖音及其视频数据集的背景。第三部分研究了抖音短视频的特点。第四部分分析了抖音视频的受欢迎程度。我们在第五部分中对边缘缓存进行了一个案例研究。最后,在第六部分对全文进行了总结,并对今后的工作进行了展望。
2背景
在这一节中,我们首先对抖音做一个简短的介绍。然后描述了抖音短视频的数据集。
2.1 抖音
抖音是一个具有强大编辑功能的手机短视频平台,用户可以在自己的视频上添加各种类型的音乐和效果。抖音视频的长度被限制在15秒以内,这使得它们更具吸引力。
抖音的内容传递机制是分散式的。当收到用户上传的视频时,抖音会对其进行排名,并通过分析用户的兴趣,推荐相关的短视频。抖音包含了大量的UGC。对于大量的短视频内容,推荐机制计算每个视频的标签,根据类别特征对视频进行分类。然后,它将视频的标签映射到具有相同标签的用户。
2.2抖音短视频元数据
我们的数据集由短视频的元数据组成。除了上传短视频的历史,抖音还会存档用户的个人资料以及他们的社交网络,包括关注的用户和粉丝。
抖音为每个视频分配了一个不同的19位十进制ID。每个视频都包含以下元数据:视频ID,它发行的时候,比特率是玩每个视频的比特率,视频长度,每个视频的播放时间,视频文件的大小是缓存的一个关键指标,验证类型表明用户上传视频,是否已通过抖音的官方认证、有多少数量的观点、点赞、评论和分享。元数据的基本参数如表1所示。
数据收集时间为2018年2月1日至2018年5月10日,包括来自不同用户的27万段视频。删除重复视频后,得到260939个视频。每个条目包含除了视频大小之外的所有元数据。
表1:抖音视频的元数据
视频ID |
6553843141084974340 |
视频发布时间 |
2018年5月10日14时58分 |
比特率 |
1104867 bps |
视频长度(时长) |
15070 ms |
视频文件大小 |
1.98 MB |
验证 |
1型 |
浏览次数 |
1564次 |
点赞数 |
12个 |
评论数 |
3 |
分享次数 |
1 |
3抖音短视频的三个特点
在本部分,我们描述了抖音视频文件、视频长度、视频比特率和视频大小之间的关系。抖音视频的特点可分为时不变和时变两种。一些特征是静态的,如视频长度、视频文件大小和视频发布时间,而另一些特征是动态的,如浏览次数、点赞次数、评论次数和分享次数。然而,信息在每个时间段内都是静态的。研究了以下特征:视频长度、视频文件大小、浏览次数、点赞次数、评论次数和分享次数。此外,我们还研究了它们之间的关系。
3.1视频长度
抖音视频的长度是与传统视频最显著的区别之一,传统视频一般持续0.5-2.5小时(如YouTube),抖音主要提供音乐视频短片,我们整个数据集中95%的视频长度都是在15秒内,由抖音对普通用户上传。然而,我们确实发现了超过这个限制的视频,因为抖音官方允许一小群授权用户上传超过15秒的视频。
图1为抖音视频长度在70秒内的概率密度函数(PDF)和累积分布函数(CDF),呈现出两个峰值。最高峰值在14 - 16秒之间,约占视频总时长的65%。此外,15秒的视频显然是最受用户欢迎的。第二个高峰在9到11秒之间,约占总数的27%。
3.2比特率
视频的比特率是其播放质量的一个指标。低比特率降低了用户的体验质量,导致抖音的人气随着时间的推移而下降。我们观察到,威布尔分布符合抖音视频比特率的偏态曲线。这种结果对于基于自适应比特率的高效缓存系统设计非常有用。
从图2可以看出,所观察到的视频中有两个比特率峰值。一个峰值在1130 kbps左右,另一个峰值在410 kbps左右。只有2.7%的视频以低于200kbps的比特率进行编码。同样,大约1.8%的视频以高于3000kbps的比特率编码。这意味着它不遵循众所周知的Zipf分布。与传统视频相比,抖音视频有更高的比特率。74.1%的视频比特率在500kbps到3000kbps之间,这可能是由于网络通信技术的发展和设备芯片功能的增强。在不久的将来,5G通信技术的广泛商业化将进一步增加多媒体视频的比特率范围。
3.3视频文件大小
视频文件大小信息无法用于抖音视频。然而,我们可以从视频长度(持续时间)及其比特率来计算视频文件的大小。每个视频文件的大小可以计算如下:
大小=比特率times;长度(1)
如图3所示,我们绘制了视频文件大小的PDF和CDF,发现视频文件大小的分布不同于视频长度的分布,即使它们之间存在直接关系。在收集的数据集中,97.8%的视频小于5MB,从表2可以看出,平均视频文件大小为1.96 MB,小于YouTube视频(7.6 MB)。但是,考虑到每天有1.5亿活跃用户,如果每个用户上传一个1.96 MB的视频,那么每天存储所有视频所需的磁盘空间至少是294 TB。因此,有效的缓存是必不可少的。我们还在表2中列出了视频长度、比特率和大小的统计数据。
表2:视频长度、比特率、大小统计
Min |
Max |
Mean |
Median |
Std.Dev. |
|
length(s) |
4 |
73 |
13.1 |
14 |
3.9 |
bitrate(kbps) |
0 |
4719 |
127.6 |
1205 |
691.3 |
size(MB) |
0 |
24.5 |
1.96 |
1.8 |
1.2 |
4视频人气
视频流行度在推荐系统和缓存机制的设计中起着重要的作用。为了减少延迟,可能会向用户推荐流行视频,并将其缓存在靠近用户的边缘服务器上。在这一部分中,我们分析了抖音短视频的受欢迎程度。
4.1分布
每个抖音视频都有四个流行指标:观看次数、点赞次数、评论次数和分享次数。我们根据上述人气指标对所有视频进行排序,将人气值和plot在对数尺度上进行标准化,如图4所示,从图4中可以很容易地看出,分布不遵循Zipf定律,在log-log plot上近似线性。然而,我们认为5000个最受欢迎的视频的分布遵循Zipf定律(在下一节中,我们将解释仅近似最受欢迎视频分布的基本原理,以及如何在设计缓存系统时利用这种近似)。数学上,齐夫定律可以定义为
pn sim; nminus;alpha; (2)
这意味着人气最高的第n个视频pn是 最受欢迎的视频的流行,在alpha;是一个常数参数。见图5(a),通过最小二乘多项式拟合,我们发现Zipf定律与alpha;= 0.552经验观测值相符。最受欢迎的三个视频的归一化浏览次数分别为p1 = 0.022、p2 = 0.017、p3 = 0.016。很容易看到p2sim;*p1,p3sim;*p1。
从上面的分析,我们可以得出结论,最受欢迎的视频会带走大部分的浏览量,以及喜欢、评论和分享。图5也验证了这一点。例如,18.6%最受欢迎的视频占据了80.5%的浏览量。这意味着
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。