了解互联网短视频分享的特点:基于youtube的测量研究外文翻译资料

 2022-04-23 18:17:25

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


了解互联网短视频分享的特点:基于youtube的测量研究

摘要:从2005成立以来,YouTube已成为提供新一代短信息视频共享服务。今天,YouTube单独消费带宽在2000年的整个互联网中都是一样的。理解YouTube及类似视频分享网站的特点对他们的可持续发展和网络至关是重要的流量工程。本文利用1.5年的爬行痕迹SPAN(从2007年2月到2008年9月),我们提出了一个深入系统的测量特性研究YouTube视频。我们发现YouTube视频明显不同于传统流媒体视频的统计,从长度,访问模式,到他们的活跃寿命。这个系列数据集也使我们能够识别这一增长趋势。快速发展的互联网站点,以前很少有人探索过。我们也密切关注YouTube的社交网络方面。这是成功的关键动力。特别是,我们发现上传者选择的相关视频链接形成一个小型的世界网络。这表明视频有相互关联性强,创造机会开发新的缓存和对等分发方案有效地向终端用户传送视频的特点。

指数:计量 对等网络,社会网络,YouTube

  1. 引言

最近四年发生了一场网络视频共享作为一种新的杀手锏的互联网应用式爆炸。最成功的网站YouTube现在享有的不仅仅是每月有60亿部视频被观看的数据,其他类似成功的网站,如新雅虎视频与优酷是在中国最受欢迎的视频分享网站,和谷歌收购昂贵的YouTube,进一步证实了大众市场利益。他们的伟大成就在于组合内容丰富的视频,甚至更重要的是,建立一个社会网络。系统允许内容供应商毫不费力地上传视频,并将上传的视频标记为关键字和链接到其他视频。用户可以轻松地通过邮寄链接到它们或嵌入视频到他们的博客上。视频不再独立于客户端与客户端一起浏览链接。因此,流行的视频可以上升到顶端的有机时尚。毫无疑问,这些网站正在改变内容分布景观甚至大众文化。

YouTube是2005成立的增长最快的公司之一,并已成为第三个最被经常访问的网站互联网,据Alexa调查,一份2008年4月的报告YouTube消耗了同样多的带宽2000年度全互联网及业内人士估计YouTube每天花费大约100万美元来支付服务器带宽。另一方面,最近的一项研究显示YouTube的性能远比许多人差其他测点。因此,了解其特征对于YouTube网站对网络流量工程是至关重要新一代的可持续发展服务。

在本文中,我们提出了一个深入和系统的测量YouTube视频特点进行研究。我们2007年初在YouTube网站上爬行四个月,收集三百万个不同的视频信息。我们进行第二轮爬行七个月

在2008,获得了59个数据集,共计5, 043个,082个不同视频信息,据我们所知,目前是最大的数据集爬行。从这个大量的数据集中,我们发现YouTube视频有明显不同的统计数据。从传统的流视频,从视频长度方面访问模式。两轮测量的大跨度也使我们能够检查新的特征。在以前的测量研究中,例如生长趋势和有效寿命。

我们还密切关注YouTube社交网络方面的问题,因为这是YouTube和类似网站成功的关键动力。特别是,我们发现上载者选择表格生成相关视频链接一个小型的世界网络。这表明视频有相互关联性强,创造机会开发新的缓存和点对点分布有效地向终端用户传送视频的方案。

论文的其余部分按如下方式进行组织,第二节介绍相关工作,第三节介绍了我们的方法,

收集YouTube视频的信息,然后第四节进行分析,第五节是网络方面。第六节讨论了结果的含义,并提出了YouTube服务可能的改进方式。最后,第七章进行总结全文。

  1. 相关工作

努力研究和理解传统媒体服务器的工作负载重大的动力,例如,视频流行度和访问位置。我们仔细地比较了它们的测量结果。我们发现,在共享相似特征的同时,这些传统媒体服务器的视频统计是不同于YouTube类网站,例如视频长度分布、用户访问模式和活动寿命。更多重要的是,这些传统研究缺乏社会网络视频。

我们同时看到和调查YouTube的作品。类似的Web 2网站在过去的四年中查等。研究

YouTube和DAUM UCC,在韩国最流行的是用户生成内容(UGC)服务,他们检查了用户的行为,确定塑造流行度分布的关键要素,并对UGC设计提出了一些改进意见。Gill等人在校园网络中跟踪YouTube交易,专注于从网络中获取视频访问模式边缘透视,并讨论了改进方法例如缓存和CDNS。我们补充他们的工作,通过爬行一组更大的视频。因此,能够更精确地测量它们的全局特性,特别是在社交网络中那些没有得到解决那些作品。

哈尔维等是在YouTube上第一个研究社会网络方面的人,主要关注迷恋的用户等。研究了四个在线社交网站(Flickr,YouTube),LeVeLoad和Orkutt,并证实了幂律,SimulWord

在线社交网络的无标度特性。我们的研究补充了现有的作品,包括我们以前的工作作品,通过跨越1.5的长期测量年。它有助于我们对这种快速发展的服务的最新发展进化的理解。我们专注于YouTube视频的网络,它们是间接形成的用户交互的含义比用户网络。我们也提出了初步的探索尝试,加速内容分发的社交网络。

  1. 测量方法

我们已经建立了YouTube爬虫,收集了YouTube信息。通过YouTube API组合的视频信息以及YouTube视频网页的擦拭。在本节中,我们首先简要介绍YouTube技术,然后描述我们的

YouTube爬虫和爬行数据集。

A:YouTube视频格式和元数据

YouTube的视频回放技术是基于Adobe的Flash播放器,它允许YouTube显示视频质量与之相媲美已建立的视频回放技术(如Windows媒体播放器、QuICTIME和RealPoor。YouTube以多种格式接受上传的视频,被转换成.FLV(Adobe Flash视频)上传后的格式。众所周知,使用统一的易于播放的格式对YouTube的成功至关重要。在我们的测量过程中,YouTube采用H.263视频编解码器,引入“高质量”。2008年底使用H.264编解码器的格式,以便更好地查看质量。然而,我们的测量和结论是很大程度上独立于这些变化的。

YouTube给每个视频分配一个不同的11位ID0—9,A,Z,A,Z,-和。每个视频包含以下内容直观元数据:视频ID,上传的用户,它被添加的日期,类别,长度,视图数量,收视率和评论,以及“相关视频”的列表。相关视频是链接到其他具有相似标题、描述或标签的视频,所有这些都是由上传者选择的。只有YouTube页面显示最多20个相关视频一次,所以我们也限制了我们刮到这些前20个相关视频。一个典型的例子元数据在表I中显示。

B:YouTube爬虫

我们考虑所有YouTube视频形成有向图,其中每个视频是图中的一个节点。如果视频在相关的视频列表中视频,然后有一个有向边。我们的爬虫使用广度优先搜索(BFS)在图1中找到视频。我们定义了一个ID列表的初始集,爬虫在爬行开始时排队。加工时每一个视频,它检查相关视频列表并添加任何新的视频。排队等候。给定视频ID,爬虫首先提取来自YouTube API的信息,其中包含所有除了日期、类别和相关视频之外的元数据。爬虫然后刮掉视频的网页来获取剩余信息。

我们每两天运行一次爬虫,从而获得一个数字。数据集。在大多数情况下,爬行结束时结束。

每次爬过第四个深度。我们开始爬行2007年2月22日,第一轮在5月18日结束,2007,收集2994947个视频。在2008年3月27日爬行,我们开始第二轮比赛。平均来说,爬虫

每次发现8万1000个不同的视频。爬行结束于2008年9月8日,收集了5043082个视频,其中在第一轮中,只有8.3%的数据被爬行,暗示YouTube正在迅速增长。

为了研究视频流行的增长趋势,我们也使用爬虫更新一些先前发现的视频的统计数据。对于这种爬行,我们只检索了数字。对相对较新的视频的看法,在2007,我们得到7个数据集在两个月的时间内。2008,我们重新收集了这个信息,从四月到九月一周爬行一次2008,得到21个数据集。我们将专注于2008个数据,代表YouTube的最新发展,我们将指出明显的和有趣的差异。在2008和2007数据之间。我们还分别爬行了文件大小和比特率信息。为了获取文件大小,爬行器检索响应信息。从服务器请求下载视频时文件和提取信息的大小下载。一些爬虫下载后提取的视频文件的元数据也有嵌入在FLV视频中的比特率之中。

最后,爬虫检索到关于从YouTube API上传每个用户的视频和朋友,数量的信息共有200万多名用户。所有的爬行数据都可以在http://netsg.cs. sfu.ca/youtubedata.html.在线获取。

  1. YouTube视频的特点

我们的爬虫视频占了整个视频的很好的一部分。YouTube视频存储库(约1亿2000万视频)

2008年9月)。因为这些视频大部分可以被访问从YouTube主页不到10点击,它们通常是活动的,因此是代表性测量知识库的特点。我们稍后还会客观展示我们的爬行数据集,在测量中,视频的一些特性是静态的。并且可以从整个数据集中测量一次(例如,类别,增加长度和日期)。有些特征是动态的,从数据集到数据集(例如,视图数量)的变化。我们认为这种动态信息是静态的爬行。后面更新的视图信息数量将是用于测量视频的增长趋势和活动寿命。

A:视频类别

在YouTube中,用户选择了15个类别中的一个。上传视频时表二列出了数量和百分比在所有类别中。在我们的整个数据集中,我们可以看到分布偏高:最流行的类别是“娱乐”在25.4%左右,其次是第二是“音乐”,在24.8%左右。这两类视频占整个YouTube视频的一半,表明YouTube主要是一个娱乐网站。

B:视频长度

YouTube视频的长度的区别是最显著的。从传统媒体内容来看,大多数传统服务器通常包含长时间视频的一个重要部分。1到2小时电影(例如,HPLABS媒体服务器9)和OnLeNETV记录器,YouTube主要由短视频剪辑。在我们的整个数据集中,98%的视频长度在600秒内。这主要是因为YouTube对普通用户上传的分钟数的极限是10的极限。但是,找到比这个限制更长的视频,因为YouTube导演程序允许一小部分授权用户上传视频超过10分钟。图1示出直方图和累积分布函数。在700秒内YouTube视频的长度(CDF)显示出三个峰。第一个峰值在一分钟之内,包含20%的视频,显示YouTube主要是一个非常短的视频网站。第二个峰在3和4分钟,包含大约17.4%的视频。如图2所示,该峰值对应于“音乐”范畴,是第二个最流行的范畴YouTube。第三峰接近10分钟,并且是由于上传视频长度的限制。这鼓励一些用户绕过长度限制。把长视频分成几个部分,每个部分靠近限制10分钟。类似的原因也解释了每一分钟都有。

图2显示了顶部四的视频长度分布最受欢迎的类别。“娱乐”视频有相似之处分发作为整个视频,并有最大的峰值大约10分钟。这是因为其中很大一部分视频是脱口秀,通常是半个小时到几小时长,但已切成10个部分近分钟。“音乐”视频在三之间有非常大的峰值

四分钟(29.1%)。“喜剧”和“人物和博客”视频在两分钟内有更多视频(53.1%和41.7%)

可能分别对应于“突出”类型的剪辑。

C.视频文件大小和视频比特率

我们检索文件使用正常爬行的视频ID,超过13万个视频的大小。毫不奇怪,我们发现视频大小的分布与由于恒定比特率(CBR)的视频长度分布YouTube使用的编码模式。我们绘制直方图和CDF。图3中YouTube视频文件的大小。在我们的爬行数据中,99.1%这些视频不到25 MB。对于2008个数据集,我们计算平均视频文件大小为7.6 MB,这更小。超过2007个数据集(8.4 MB),所以有更多和上传更多短片。然而,考虑到有近1亿2000万YouTube视频,需要的总磁盘空间存储所有视频几乎是900 TB。智能存储管理因此对这样一个巨大而静止的东西还是很苛刻的,我们将在第七节更详细地讨论。

我们发现,我们爬行的视频中有99.6%包含FLV元数据在开始时指定视频的比特率文件。对于其余的视频,我们计算平均比特率。从文件大小和长度。如图4所示,视频比特率在320 kbps附近有一个清晰的峰值,还有两个峰值。在大约285 kbps和200 kbps。这意味着YouTube视频具有适中的比特率,从而平衡了质量和带宽。表III列出了视频长度、文件大小和视频比特率。

D. Date增加上传趋势

在爬行过程中,我们记录了每个上传视频的日期,以便研究YouTube上传的趋势。图5显示每两周新增的视频数量我们的整个爬行数据集为2008。YouTube成立2005年2月15日,我们可以看到有一个缓慢的开始,最早的视频是在8天后上传的一天。请注意,我们可以得到早期的视频只有当他们仍然非常活跃或与我们爬行的其他视频链接。从YouTube建立的几个月,上传的数量视频急剧增加。这种趋势可以很好地解释规律曲线,如图5所示。在我们收集的数据集中,上传视频的数量。从2008年3月开始急剧下降。然而,这确实并不意味着YouTube视频上载率突然上升降低。原因是到那时,许多新的上传的视频还未被包括在其他视频列表,因此我们的爬虫不能找到它们,除非它们是上传后非常流行。我们已经发现了2007数据也显示了这个特性,2008个数据确实证实了这一点。上传趋势不会下降。

D:查看用户访问模式

视频所拥有的视图的数量是另一个重要的我们测量的特性,因为它反映了流行和访问视频的模式。因.随着时间的推移这个属性正在改变,我们不能从组合的整个数据集中测量它。所有的数据一起。因此,我们使用一个包含超过15万个视频的单个数据集,这可以被考虑相对静止。我们已经检查了所有的数据集,并且其他人也显

全文共12188字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[13420],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。