移动社交大数据:微信朋友圈数据集,网络应用程序与机遇外文翻译资料

 2021-11-17 00:03:04

英语原文共 8 页

移动社交大数据:微信朋友圈数据集,网络应用程序与机遇

摘要:随着各种移动设备技术的增长,MSN服务带领我们进入移动社交大数据时代,人们每时每刻都在创造新的社交数据。对于企业、政府和机构而言,了解人们在网络空间中的行为如何影响底层的计算机网络或者他们的离线行为是至关重要的。为了研究这个问题,我们从WM收集了一个称为微信网的数据集,涉及25133330名微信用户,他们的页面上有246369415条链接转发记录。我们回顾了基于微信数据分析的三种网络应用,即移动蜂窝网络中的信息传播、骨干网络中的网络流量预测和移动人口分布预测。我们还讨论了使用已发布数据集开发新应用程序的潜在研究机会。

介绍

在过去的十年里,社交网络的广泛使用极大地丰富了人们的日常生活,提供了新的娱乐形式并构建了新的关系类型。根据GWI最近一份关于人们每天花在社交网络上的时间的报告,人们每天在社交网络上花费的时间往往超过两个小时。斯坦福大学的研究人员提出了一个名为SNAP(http://snap.stanford.edu/)的网络分析和图形挖掘库,以帮助计算分析网络结构。

由于专有移动技术和网络的迅猛发展,移动社交网络(MSN)服务伴随着移动社交大数据的新时代应运而生,在这个时代,用户可以通过他们的移动设备随时随地方便地与其他人交流和连接,并创建新的社交数据。与基于网络的社交网络相比,MSNs为移动网络和无线网络提供了更多的专用使用机会,例如基于位置的服务、移动通信和增强现实。然而,由于缺乏有前途的数据集,只有少数研究工作集中在新的MSN上。

移动社交网络应用的分类

社交网络中的人际关系,即社交关系,被定义为社交圈之间的信息传递关系,它们交换和转发各种信息。两个人之间的社交关系的强度可以通过他们通过任何在线交流的频率和/或离线渠道来评估。

根据用户之间社交关系的强弱,有两大类移动社交网络应用程序。

陌生人之间单向关注MSN:在Twitter或微博上,关注某人并不是相互的。一个人可以不经你的批准就关注你(默认情况下),你不必反向关注他们。例如,一个名人可能有数百万推特或微博粉丝,但是其中大多数人在现实生活中他们并不认识。

朋友间的相互关注:在Facebook上,如果有人批准对方的朋友请求,则两个朋友会互相关注。与此同时,Facebook还允许用户单向关注由企业、组织和品牌创建的页面,这些页面允许所有人都关注。与此同时,社交即时通讯应用程序,如WhatsApp、微信和Line,要求两个熟人互相关注,允许他们互相发送即时消息,而不是使用传统的短信。

具有相互关注关系的两个用户通常比只有单向关注关系的两个用户具有更强的社会关系;通过社交即时通讯工具连接的两个用户之间的交流可能比那些只在MSN上关注彼此而不发消息的用户更频繁。许多MSN应用程序都孵化了自己的信使应用程序,如Facebook信使和Twitter上的直接消息。

微信的新特点

在微信中,朋友不仅可以互相发送即时消息,而且可以访问彼此的页面,即朋友圈页面。WM不仅利用了基于Web的社交网络服务,还添加了以下新功能,可能会让用户感到高兴。

保持强大的社交联系——不要访问朋友圈上的陌生人页面:MSN和messenger应用程序定义了不同的页面访问策略,以不同的方式影响着信息的传播过程。在Twitter上,一个页面对所有人开放(默认情况下),每个人都可以看到转发的路径,并且很容易通过转发路径关注任何人。 在WM中,如果两个用户没有作为朋友连接,则他们不能看到彼此的页面,并且没有可见的转发(重新发布)消息的路径,也没有人知道消息来自何处。

选定内容显示——向选定朋友显示的私人内容:在WM的某些场景中,存在的内容最好只向选定的亲密朋友公开,其他朋友不能查看和转发这些内容(例如,不能访问陌生人的页面)。这种私人内容只在选定的亲密朋友之间分享,进一步加强了这些朋友之间的社会联系。

群聊——接近陌生人的一种方式:微信作为一个即时通讯工具,为陌生人提供群组聊天功能,每个用户都可以通过点击群组链接、扫描二维码或被现有的群组成员邀请加入一个群组。同样,同一组中的两个成员不必是朋友(例如,他们被这个组中的两个不同的成员邀请)。用户可以将文本、图片、视频/语音剪辑和HTML5页面链接发送到群组中,这已经成为宣传线上/线下活动的一种流行方式。

网络应用程序的数据分析面临的挑战

企业、政府和机构都对数据分析感兴趣,以了解人们在MSN上的在线行为如何影响底层计算机网络,或者他们的离线行为。然而,当我们重新审视以下问题时,可能会出现新的挑战,因为WM中的访问控制策略(例如,不访问陌生人的页面、私人内容)限制了“熟人”之间的信息扩散,这减少了一个帖子暴露于陌生人的机会以及重新发布的可能性。

移动蜂窝网络中的信息传播:在移动蜂窝网络中从一个用户到另一个用户的信息传播取决于蜂窝用户之间的连接的可靠性(例如,设备到设备连接)。 这是一个具有挑战性的问题,因为我们不了解它们之间的连接质量。同时,我们观察到,通过MSN进行的信息传播很有可能取得成功,因为MSN服务可以很容易地刺激用户在外出时与亲人共享信息和消息。因此,研究是否存在具有高质量连接的有影响力的用户来帮助在蜂窝网络中传播信息将是一件有趣的事情。

骨干网流量预测:可以通过挖掘其周期性行为来预测MSN用户的离线位置。 人类移动和移动模式具有高度的自由度和变化,但由于地理和社会的限制,他们仍然可以展示其结构模式。 因此,用户迁移可能导致主干网络流量分布的变化,例如,具有高密度移动用户的位置应该被分配更多的主干网络资源。主干网的流量分布取决于用户的移动,也与他们从朋友那里转发的频率有关。在线交互频率是WM中用户之间社会关系的一个重要指标,需要进行细粒度的分析,以便更好地分配底层主干网中的资源。

流动人口分布预测:用户的在线行为(例如,重新发布链接)可以反映某些地理属性。 然后我们可以推测MSN和离线移动网络之间存在着一个地理位置。当大规模移民(春节期间,或寒假/暑假)发生时,可以监测社会网络结构的变化。因此,企业必须预测移动人口分布如何变化,以便部署适当的区域营销策略,或为家庭,工作或旅行中的用户提供个性化建议。

在本文中,我们从WM收集了一个名为微信网的数据集,该数据集涉及25,133,330个微信用户,他们从2016年1月14日至2月27日在其页面上重新发布链接重新记录246,369,415条。这是WM首次发布的关于用户的行为举止的大数据集。我们回顾了三个基于微信数据分析的网络应用程序。我们首先提出一个投票策略,在移动蜂窝网络中找到最有影响力的用户或信息传播。通过观察时间和空间域中朋友之间的交互,我们预测底层主干网中的流量负载,预测准确率超过90%,从而产生近乎最优的资源分配(即,底层骨干网中的服务器放置工作)。根据在WM中查看和重新发布链接的用户的位置,我们提出了一个模型来预测流动人口的分布。我们还将讨论使用我们发布的微信网数据集开发新应用程序的潜在研究机会。

微信数据集

由于移动社交网络通常是在移动设备上开发的,传统的网页可能无法提供良好的视觉体验。HMTL5是一种很有前途的方法来适应不同屏幕大小的移动设备。微信提供了几个官方接口来帮助开发人员设计HTML5页面。用户可以很容易地访问页面内容,并通过像WM这样的MSN将这些有趣的页面转发给他们的朋友。

在WM网络中,用户共享/发布的链接通常指向HTML5 (H5)中的一个帖子。这类WM贴子为用户提供了交互式操作,如在线贺卡、轻量级在线游戏(如flappy birds)、心理测试等等。WM帖子可以由WM服务提供商(腾讯)或第三方web开发人员发布。

表1.社交网络服务的比较:Twitter,微博,Facebook,微信和WhatsApp。

(表格中的统计数据截至2017年7月31日)

我们可以看到Twitter和微博主要用作社交网络,而WhatsApp主要用作即时通讯工具, Facebook(Messenger)和微信结合了社交网络和即时信使。 WeChat Moments显示为具有许多功能的移动社交网络。

WM数据收集:我们的目标是收集WM扩散后的统计数据。我们使用业务WM页面创建者平台fibodata(http://www.fibodata.com/)提供的应用程序编程接口(api)对在平台上创建的页面的扩散跟踪进行爬行。根据收集到的数据,我们可以为每个发布的WM页面构建一个扩散图。数据集包含2016年1月14日至2016年2月27日业务创建的约32万页,涉及25133330微信用户,链接转发记录246369415条。

信息扩散过程:假设用户i和j是WM网络中的朋友。当用户i与朋友共享WM文章的链接时,用户j可以单击共享链接查看此文章的内容。如果用户j发现这个帖子很有趣,他可以进一步将链接转发给他的朋友,这样更多的用户就有机会查看这个WM帖子。因为这个过程类似于感染的传播:

·如果用户浏览了WM帖子,我们将其称为受感染的用户。

·如果一个用户浏览了这篇文章并转发了这篇文章的链接,我们就称他为WM文章的感染用户。

后视图记录:我们的数据集中的后视图记录是以下列格式的5元组:lt;U1, U2, PID, IP, tgt;,其中U1是其帖子被查看的用户的ID; U2是用户U1查看帖子的用户的ID; PID是WM帖子创建者平台分配的WM帖子的ID; IP是帖子查看器的IP地址,即用户U2的IP地址; t是发布视图的时间。 整个元组在用户U1的PID后记录用户U2在地址IP处的后视图事件。

MSN应用程序的比较

在表1中,我们比较了五个最具代表性的社交网络应用程序,包括即时通讯器。我们可以清楚地看到,Twitter和微博主要是社交网络,而WhatsApp主要是即时通讯;Facebook(信使)和微信将社交网络和即时通讯结合在一起。微信朋友圈作为移动社交网络出现,具有许多值得注意的功能。

首先,WM利用社交网络中具有影响力的用户(帐户),提出订阅帐户,公司或个人可以在其中编辑网页并向关注者推送。这一功能已被证明对吸引用户的注意力有很大的影响。其次,WM继承了即时通讯工具强大社会关系的好处。 即时通讯(WeChat)中的用户之间的关系是双向的,而不是单向关注(微博)。这种关系也是私密的,这意味着如果陌生人不是朋友(即无法访问陌生人的页面),他们就无法访问某些用户的信息。这对于广告来说可能是一把双刃剑,例如,广告可能通过与关系紧密的朋友之间的沟通而获利,而广告可能难以广泛传播,在大多数情况下,企业无法获得较长的转发路径。第三,微信利用群聊的优势。 具有抽象内容而不是URL地址的HTML5页面可以发布到组聊天窗口中,使用户更容易获取信息。 第四,微信在离线服务方面也是独一无二的,例如订购食品,打电话给出租车,通过扫描QR码获取优惠券等等。

在本文中,我们研究了用户的在线重新发布行为对底层计算机网络的影响,并且我们使用微信网数据集展示了三个典型的网络应用程序,如图1。

图1.基于微信网数据集上的数据分析的三种典型网络应用程序

移动蜂窝网络中的信息传播

移动蜂窝网络的体验质量在很大程度上取决于蜂窝用户/设备之间连接的可靠性(例如,设备到设备的连接)。例如,一个用户拥有的高质量连接越多,就越能广泛地将信息传播给其他用户/设备。在这项研究中,我们有兴趣找到最具影响力的用户,他们可以帮助在移动蜂窝网络中传播信息。

在同一地理社区中,移动蜂窝用户的连接图可以基于移动社交网络中的信息扩散图来构建。因此,我们可以将移动蜂窝网络中最具影响力的用户选择问题转化为移动社交网络中最具影响力的关键意见领导者(KOL)选择问题。

通过投票策略实施

拥有数百万追随者(或大量朋友)的KOL在MSN中显示出强大的社会联系,他们可能有能力帮助传播在线营销/广告信息。例如,企业通常会邀请选定的消费者通过微信订阅账户试用或奖励产品。这些消费者应该是KOL,这样才能最大限度地发挥广告的影响力。一个在Twitter或微博上拥有数百万粉丝的用户应该是一个KOL。然而,在WM中,通过计算朋友的数量来检测KOL是一项挑战,因为WM中的大多数用户只有有限数量的朋友,并且WM已经规定了可以连接到的最大数量的朋友。即使是名人也可能只有几百个朋友。

移动社交网络的信息扩散过程可以用一个独立的级联(IC)模型来抽象:当一个用户变得活跃(他们接收到一条消息)时,他们有一个单一的机会激活每个当前不活跃的邻居(他们没有接收到消息),其概率由兴趣、关系等决定。我们提出了一种基于投票的策略,通过观察用户对信息扩散过程的局部贡献来选择有影响力的节点,而不是计算他们的朋友的数量,这与现有的贪婪解决方案不同,后者使用的是懒惰的评估策略,这种策略倾向于寻找具有较大边际影响的节点。基于投票的策略工作如下。首先,对信息扩散过程中的主要扩散树进行识别。然后,在每个扩散树中,每个非Spring节点都可以为其父节点投票,因为从父节点到非Spring节点使用的WM页面是不同的。在重复这些步骤多次之后,扩散树中的一个节点接收到的投票数表示该节点在网络中的影响。

在WM中,扩散图/树的大小可能非常大,我们无法枚举所有扩散树或节点来执行投票操作。 因此,我们利用吉布斯采样技术在有限的时间内完成上述投票过程。 这个策略有两个参数,简单来说,我们需要采样一些R1差异树; 对于每个选定的树,我们执行一些R2投票操作。 设S表示我们通过投票策略找到的K个有影响的用户集合,让s(S)表示集合S的计算影响。

我们使用2016年1月14日的数据,图2a显示了S在投票策略下的影响值,通过改变R1,而k=100,r2=100000。绿线表示传统贪婪算法的性能,该算法选择在k=100时将带来最大边际值(s(s)的最大

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。