英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
论社交网络与协作推荐
伊安尼丝康纳斯
计算机科学系
格拉斯哥大学
英国,g12 8qq
瓦西里奥斯·斯塔托普洛斯
计算机科学系
格拉斯哥大学
英国,g12 8qq
乔门森·M·若泽
计算机科学系
格拉斯哥大学
英国,g12 8qq
邮箱:jj@dcs.gla.ac.uk
摘要
社交网络系统,比如last.fm在web2.0中扮演着重要的角色,它包含大量丰富的多媒体数据,通过显式的用户提供注释和隐式的聚合反馈(描述每个用户的个人偏好)来增强这些数据。这也是这些系统的一个共同趋势,鼓励用户之间建立虚拟网络,允许他们建立友谊纽带,从而为数据交换提供一种新颖而直接的媒介。我们研究了这些额外的关系在开发跟踪推荐系统中的作用。考虑到用户、物品和标签之间建立的社交关系图中所蕴含的社交注释和友谊,我们创建了一个能够有效适应每个用户个人信息需求的协作推荐系统。为了提供一种更自然有效的表示社交网络的方法,我们采用了随机重启动的通用框架。在这次的工作中,我们最后收集了一个足够具有代表性的音乐社交网络last.fm,捕捉明确表达用户友谊的纽带以及社交标签。我们对带重启模型的随机游动和基于皮尔逊相关相似度的用户协同过滤方法进行了一系列比较实验。结果表明,图形模型系统得益于嵌入在社会知识中的附加信息。此外,该模型的性能优于标准的协同过滤方法。
类别和话题描述
H.3.3 [信息存储和检索]:信息搜索和检索—信息过滤,检索模型,选择过程; I.5.1 [计算方法]:模式识别—模型
一般用语
算法、实验、测量、性能
引言
随着最近科技的进步,社交媒体和社交网络系统出现了。从社会学家的角度来看,社交媒体可以被描述为“通过电脑媒介的集体行动生产的集体产品”。以多媒体丰富的社交网络系统为例,如last.fm,集体物品是音乐曲目,而集体行为则是创造个人音乐偏好档案的过程,并通过友谊纽带或合作注释将它们显式地联系起来。
这种集体行动导致了一个隐含的社交网络结构的创建,我们的目标是进一步探索。特别是考虑到亚马逊和Netflix等商业网站上的商品推荐系统的成功,我们认为有必要从社交网络的新视角重新审视推荐问题。一般来说,推荐系统的目的是根据用户以前的行为,以及通过商品描述和用户简介收集的其他信息,为用户提供个性化的商品推荐。但是,没有强调这一点。
原因在于,尽管人们对社交网络的探索越来越感兴趣,但目前还没有一个具体的数据集,既包括用户之间明确的友谊纽带,也包括项目的自由形式的协作注释。这是因为大多数社交媒体系统都不允许免费访问所有用户的个人资料或好友列表。
鉴于社交网络被广泛采用的动机,以及之前缺乏直接解决如何有效整合这些网络在协作推荐领域提供的附加价值知识的研究,我们提出了一种解决上述问题的新方法。在这方面,我们作出以下贡献:
bull;我们引入了一个基于last.fm数据的数据集社交网络,描述了网络之间的用户关系,跟踪和标记,有效地包括债券的友谊与协作诠释。
bull;我们评估随机重启( RWR)并对该数据集进行建模,结果显示合并友谊和社交标记可以改善推荐系统的性能。
bull;我们展示了RWR方法优于标准的协同过滤(CF)方法,它还可以对相同的数据集求值。
bull;我们展示了使用RWR方法需要的方法没有经过任何训练,成功捕获社交网络中的知识。
论文的其余部分组织如下。第2节我们回顾相关工作并提供必要的背景资料,对于本研究中使用的RWR和CF方法。采用的方法,包括我们收集的方法数据来自被研究的社交网络,评价并进行了比较实验包括在第3和第4节。在第五部分中,我们进行了分析并对实验结果进行了总结以及第6和第7节对我们工作的评论。
2.相关工作
2.1推荐系统
我们可以把协作分为两大类推荐系统,即基于内容的与与基于协作过滤的。基于内容的系统根据项目内容之间的相关性来选择项目。(关键字描述项目,如专辑类型,艺术家等,为音乐曲目)和用户的喜好[6]。然而,它仅限于用户使用的关键字与项目描述之间的字典约束关系,因此不探索用户之间的隐式关联。
协同过滤系统分为两类:基于内存和基于模型。在基于内存系统[9]中,我们使用一些启发式度量(如余弦相似性或皮尔逊相关系数)来计算所有用户之间的相似性,这是基于他们对条目的评分。然后,我们通过将我们想要推荐给的用户的 k个最近邻居的评级相加,来预测缺失率。
基于模型的过滤系统假设用户基于他们对条目的相似行为来构建集群。使用聚类、贝叶斯网络等机器学习技术,根据用户评价行为中识别的模式来学习模型[1,21]。基于该模型的方法的问题在于,有必要对模型的几个参数进行微调,而且所生成的模型在完全不同的上下文中可能无法很好地概括。更重要的是,在基于记忆的系统中,为了从社交网络中引入知识,需要额外的努力和培训。
2.2 社交媒体
最近,许多研究出版物都围绕着社交媒体领域展开。特别是,有几项研究着眼于从社交网络收集和分析数据集。 Das等人提出了基于样本的算法,利用随机游动捕获动态社交网络中用户的邻域信息。 Halpin等人研究了标签在社会化书签网站del.icio中的分布。为了评估协作推荐行为背后的动态,我们提出了一个协作标签生成模型。他们的发现证明了所收集的数据集遵循幂律分布。尽管这两项研究都考察了基于社交标签的社交网络,但它们并没有探究用户之间友谊的动态。
考虑到用户(而非作者/所有者)对商品进行自由形式标注的力量,研究人员还关注标签推荐。Subramanya和Liu[17]提出了一个系统,该系统使用类似于协同过滤技术的相似度排序,为博客自动推荐标签。Stromhaier[16]研究了标签推荐中的一个新概念,它将用户在查询中发出的关键字与社会系统实际使用的标签之间的间隙连接起来。他认为,用户在执行查询时使用的标签显示了他或她的意图,而条目的注释描述了内容语义。因此,他提出了一种新的目的性标签形式,它可以提取用户的意图,并在社交网络中促进以目标为导向的搜索。这两项研究都强调了社交标签的重要性和区分能力,我们的工作也证实了这一点。
2.3 随机游走
随机游走二部图的应用领域已经有了一些研究。Craswell和Szummer[4]研究了一个点击数据图,以执行项目推荐。然而,用户之间没有可用的社交内容。Yildirim和Krishnamoorthy[21]提出了一种新颖的推荐算法,该算法在表示项之间相似性度量的图上随机游走。他们使用MovieLens的数据来评估他们的系统。尽管随机游走模型在推荐上下文中表现良好,但它们对项目相似矩阵的使用引发了一些问题,比如当基于社会标签引入其他相似性时,系统扩展的能力。最近在应用领域也做了一些工作,用社会图代替双分图,类似于我们在本文中提出的。Clementset al.[3]提出了一个单一的术语查询系统,它必须遍历包括用户、项目和标签在内的图。他们使用来自LibraryThing的数据,这是一个在线图书目录,用户可以在上面对他们读过的书进行评分和标记。由于缺少基本事实,他们假设每个用户分配给一个项目的标记与使用查询术语检索带注释的项目相同。我们认为,这种假设相当有力,为了正确地确立基本事实,用户实验将更合适。
Hotho等人用del.icio的数据集评估了自适应PageRankon的变化。我们正在探索基于协作注释的书签大众分类法。然而,由于他们是根据经验来评估他们提出的算法的,任何对他们的结果进行比较的尝试都会变得很麻烦。虽然这两项研究都接近我们的方法,但我们使用了不同的模型,即RWR,在该模型中,我们显式地在数据集中包含友谊,并执行协作查询,而不是对图进行查询。
2.4 背景
2.4.1 协同过滤
在传统的协同系统中,用户以评分的形式对项目进行明确的偏好判断。这些评级通常是有界的和离散的。然后,过去的用户评分被用来预测对尚未登记的项目的偏好。基于记忆的协同过滤系统可以根据使用过去偏好判断的方式分为基于用户的系统和基于项目的系统。
基于用户的系统做出新的预测,首先找到与活跃用户(即预测其对新项目的偏好的用户)评分相似的用户,然后对他们的评分进行加权组合。更正式地说,让a成为活动用户,而i是不被a评分的项目。然后a对i、pa、i的预测评分由pa得出
其中ru、i是用户u对物品i的评分,macr;ra和macr;ru是用户a、u和wa的平均评分,u是用户a和u之间的相似度。
另一方面,在基于项目的系统中,通过寻找相似的评分项目,然后计算它们的评分加权组合来做出预测。换句话说,
其中,macr;ri就是物品i和wi的平均评分,k就是物品i和k之间的相似度权重。基于项目的系统背后的主要动机是计算项目-项目相似性矩阵的计算节省。在现实世界中,商业应用程序项往往比用户项少得多。在我们的研究中,曲目明显多于用户,因此考虑了基于用户的方法。
为了计算用户或项目之间的相似性,可以使用几个相似性度量。在这项研究中最受欢迎的是,使用皮尔森相关系数定义在(3),其中sigma;a是用户的偏差评级标准。
[9]之前已经讲过,惩罚相关性基于物品的数量,用户共评可以提高预测精度。这种方法降低了从非常少的证据来源获得的相关性得分的信心。
在本研究中,我们使用了[9]中提出的显著性加权方法。更具体地说,如果两个人共同评分的项目数n小于Tr路径数,那么我们将它们的相似度权重与nTr相乘。然后我们用n/Tr乘以它们的相似度权重。在文献中,在性能和准确性方面,只使用一小部分用户进行预测也是常见的。选择通常通过设置相似度权重的阈值或选择k个最相关的用户来完成。在本实验中,我们使用后一种方法。
在我们的数据中,我们并没有以评分的形式做出明确的偏好判断。相反,我们使用用户听曲目(播放计数)的次数作为首选项的隐式指示符。这与Morita和Shinoda[12] 的研究相似,他们将花在阅读文章上的时间作为一种隐含的偏好指标。此外,为了整合来自用户社交互动和标签的信息,我们采用了以下ad hocprocess。我们计算三个相似性权重建立在用户,用户标签和用户友谊使用皮尔逊相关系数,然后用它们的加权和wa,在方程(3)u。更具体地说,
alpha; beta; gamma;= 1 和是相似权重,从用户跟踪,获得用户的友谊背后分别标记。本研究采用CF法作为基线系统。
2.4.2 随机重启游走
图是数据的一种自然表示,具有某种内在的关系结构。在图中,对象及其关系可以分别表示为节点和加权边,其中权值表示关系的强度。这种抽象允许我们以有原则的方式集成异构数据源。
利用随机重启动(RWR)理论[11]可以测量图中两个节点的亲缘关系。从一个节点x开始,在每一步随机地跟随到另一个节点的链接执行RWR。此外,在每一步都有一个概率重新启动x。让p(t)是一个列向量的概率p(t)我表示步骤t是在节点的随机漫步。q是一个列向量的零元素对应的起始节点设置为1,即qx = 1。也设为图的列标准化邻接矩阵。换句话说,S是跃迁概率表,其中它的元素Si j给出了j是下一个状态的概率,给出了当前状态i。通过递归地应用(5)直到收敛,可以得到每个节点的稳态或稳态概率,
因此,p(l)i,其中l为收敛后的状态,可以认为是节点x与i之间关联程度的度量。
重启动随机游动近年来在信息检索的许多不同领域引起了研究者的兴趣,从链接分析[13]到图像标注与检索[14,19],文本分类[20],数据分析点击[4],协同推荐[7]。本研究的目的是利用last.fm社交网络服务中抓取的数据,研究社交网络和社交标签在协同推荐中的作用。RWR允许我们通过ac直接预测用户对数据库中特定曲目的偏好。
重启动随机游动近年来在信息检索的许多不同领域引起了研究者的兴趣,从链接分析[13]到图像标注与检索[14,19],文本分类[20],数据分析点击[4],协同推荐[7]。
本研究的目的是利用last.fm社交网络服务中抓取的数据,研究社交网络和社交标签在协同推荐中的作用。RWR允许我们直接预测用户对数据库中特定歌曲的偏好,不仅考虑他们的音乐品味,还考虑他们的标签行为、社交网络以及类似的标签歌曲。具体地说,我们通过将用户、跟踪和标记表示为图中的节点来创建图。用户之间的关系使用对应节点之间的双向边缘进行编码。对于用户听过的每首歌曲,我们还添加了一个由时间的数量加权的边缘。
3. 方法论
3.1 数据收集
由于目前还没有公开的数据集用于实验,包括友谊和社交标签,我们从一个最著名的社交网站收集了实时数据last.fm1是一个音乐社交网络,允许用户创建一个个人资料,并添加他们所听的音乐曲目,无论是来自网站本身还是来自他们自己的私人音乐收藏。最常见的做法是启动一个播放列表的自动创建,其中的曲目在某种意义上彼此
全文共16435字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[1732]
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。