《用户-项目矩阵之外的协作过滤:对现状和未来挑战的调查》外文翻译资料

 2022-05-17 22:42:37

英语原文共 45 页,剩余内容已隐藏,支付完成后下载完整资料


《用户-项目矩阵之外的协作过滤:对现状和未来挑战的调查》

代尔夫特理工大学:YUE SHI,MARTHA LARSON和ALAN HANJALIC

摘要:

在过去的二十年中,大量的研究工作致力于开发推荐算法。这些研究进展证明:推荐系统中用户个人偏好用户项目(U-I)矩阵的重要性。 U-I矩阵为协同过滤(CF)技术提供了基础,这是推荐系统的主要框架。目前,正在出现的新推荐方案提供了超出U-I矩阵的有前景的新信息。这些信息可以分为与其来源相关的两类:关于用户和项目的丰富的边信息,以及与用户和项目的相互作用相关的交互信息。在本次调查中,我们总结和分析了涉及信息来源和最近为解决这些问题而开发的CF算法的推荐方案。我们全面介绍了大量研究成果,超过200个重要参考文献,旨在支持利用超出U-I矩阵的信息的推荐系统的进一步发展。在此材料的基础上,我们确定并讨论了推荐系统技术面临的主要挑战,无论是对现有技术的扩展,还是对其他研究领域中技术和技术的整合。

类别和主题描述符:H.3.3 [信息存储和检索]:信息搜索和检索 - 信息过滤

通用术语:算法、设计、性能

附加关键词和短语:算法、应用程序、挑战、推荐系统、社交网络、调查

ACM参考格式:Yue Shi,Martha Larson和Alan Hanjalic。 2014年,用户项目矩阵之外的协作筛选:对现状和未来挑战的调查。

1. 简介

推荐系统在用户和项目之间产生直接联系的能力,代表兴趣和喜好的匹配,这些都是缓解Web用户信息过载的重要工具。推荐系统现在在网上无处不在,它们支持媒体消费和销售,例如电子商务平台,例如Amazon和eBay.。最成功和广泛使用的推荐技术是协作过滤(CF),它基于基于以下核心假设:过去表达过类似兴趣的用户将在未来享有共同利益。在过去的几十年中,通过部署CF来利用用户项目(U-I)关系,这通常以U-I矩阵编码。然而,近年来出现了大量推荐场景,其中除了U-I矩阵之外,还有各种附加信息源可用。在这种情况下,可以通过增强CF来提高建议的性能,以便更好地利用产品/项目推荐以外的不同任务。

本调查的目标是提供推荐方案的概述和分析,其中涉及超出U-I矩阵的其他信息来源以及支持它们的推荐系统技术。 关于其他信息来源,我们特别提到与用户和项目有关的丰富信息以及与用户和项目之间的交互有关的信息。我们通过阐明给定推荐方案中的问题与为解决问题而开发的算法之间的关系来追求我们的目标。然后,我们评估现有技术水平,并在此基础上制定未来挑战并确定推荐系统领域进一步研究和开发的最有效机会。

我们的目的还在于补充和扩展先前推荐系统调查的信息覆盖范围。 例如,Adomavicius和Tuzhilin [2005]不仅审查了基于CF的推荐方法,还审查了替代范例,如基于内容的推荐方法和混合推荐方法。他们的工作可以被认为是预测我们的调查,因为他们从他们的观点预测,从推荐情景中获得的信息将在推荐系统的未来发挥越来越大的作用。我们跟进这一预测,并调查U-I矩阵以外的其他可用信息如何帮助改进基于CF的建议。我们不深入研究基于CF的推荐范例的基本原理和实现可能性,因为这种范式在Ekstrand等人的着作中得到了广泛的论述。[2011]Konstan和Riedl [2012]:这些调查包括分析基于CF的推荐算法与特定领域应用程序之间的关系,以及评估框架概述。 另一类调查包括不同推荐算法的实验分析,以及它们在不同推荐情景下的特点和用处. 我们不进行实证研究,而是选择关注以下主要贡献:

- 我们调查和分析了部署超出U-I矩阵的已被利用的信息源以及已经开发的用于整合它们的算法类型的关键理论和经验性贡献。

- 我们介绍并讨论CF方向上的一系列关键挑战,这些挑战可能对未来的研究有价值。

本调查的其余部分结构如下。在下一节中,我们将简要回顾常规CF。然后,在第3节中,我们介绍了可用于扩展CF范例的附加信息的类别,这些信息超出了仅依赖于U-1矩阵的用户项矩阵的协作过滤技术。然后,我们在第4节中介绍和分析到目前为止提出的主要研究成果,以便在开发推荐系统时考虑到这些信息。根据这一分析,我们在第5至第7节中确定并讨论了我们认为对今后工作十分重要的一系列关键挑战。结束语见第8节。

2.传统协同过滤的背景

在本节中,我们简要介绍常规CF--即只利用U-I矩阵的CF--以便为单个用户生成建议。我们首先对CF问题进行了正式的定义,然后讨论了传统CF方法的两大类:基于内存的CF和基于模型的CF[Adomavicius和Tuzhlin 2005;Ekstrand等。2011]。

2.0问题的定义

在CF的标准设置中,我们有一组用户(例如M个用户)和一组项目(例如,N个项目)。用户对单个项目的偏好可以用一个U-I矩阵R来表示,其中Ri j的值表示如果Ri jgt;0,用户i对项目j的偏好。用户首选项可以直接表示(例如通过评等),也可以间接使用二进制值来表示用户是否单击、查看或购买了这些项。请注意,用户对项的已知首选项通常非常有限,这使得矩阵R通常是稀疏的。通常,我们使用Ri j=?来表示用户i对项目j的偏好未知的情况。在此设置下,CF问题可以定义为:给定一个代表已知的M个用户对N个项目的偏好集的U-I矩阵R,向每个用户推荐一个按与用户兴趣相关的降序排列的项目列表。有一点需要注意的是,如果用户不喜欢以前已经消费过的推荐项目,则不考虑对用户具有已知首选项的项目进行推荐。例如,如表一所示,给出了一个U-I矩阵,由四个用户到六个项目的评分组成。然后,CF方法是根据给每个用户的U-I矩阵生成建议(根据未看电影的排名列表)--例如,电影“盗梦空间”、“拍摄”和“天降”需要按预测相关性的降序排列,作为对Alice的推荐。

2.2. 基于内存的协同过滤

协同过滤、基于内存的CF方法分为基于用户的方法和基于项目的方法。给定一个U-I评级矩阵,一种典型的基于用户的CF方法通过聚合几个类似用户先前给该项目的评级[Resnick等人]来预测用户对目标项目的评级。1994]。类似的用户使用相似度量(通常是皮尔逊相关或余弦相似[Singhal 2001])来识别,这些度量应用于等级向量,每个向量包含集合中由一个特定用户分配的项目的等级。通常,K近邻(即与给定用户相似性最高的K个用户)被选中,并对目标项上的评等进行聚合,以便为给定用户生成该项的预测评等。根据第2.1节中的符号,我们可以将用户i对项目j的预测等级表述如下:

其中Zi是用户i的K个相邻用户的集合,C是一个正规化常数,SIM(i,k)表示用户I和用户k之间的相似性(根据预先定义的相似性度量)。计算出的相似性反映了基于内存的CF的关键特性.。它们构成系统的“内存”,用于生成以后的推荐。注意方程。(1)是最简单的表示基于用户的CF的形式,并且可以应用许多调整,如Adomavicius和Tuzhlin[2005]所报告的。

为了改进基于用户的CF,已经提出了一些改进和增强的核心机制,比如引入细粒度的邻域加权因子[Herlock等]。1999],利用递归邻居搜索方案[张和普,2007年],并使用基于用户偏好子谱的用户-用户相似性[施等人2009]

与基于用户的CF不同的是,基于项目的CF方法根据用户先前已经给出的其他项目的信息推荐项目[Deshpande和Karypis 2004;Linden等。2003;Sarwar等人。2001]。通过聚合每个候选项与用户已评等的项之间的相似性,对给定用户的推荐项进行排序。项目相似性是由一个相似性度量定义的,通常是余弦相似性[Linden等人,2003]或调整余弦相似性[Sarwar等人,2001],在用用户分配的分数表示每一项的向量之间。类似于方程(1),我们也可以用最简单的形式来表示基于项目的cf。
详情如下:

其中Zj是项j的K邻域项的集合,C是一个正规化常数,而sim(j,k)表示项j和项k之间的相似性(根据预定义的相似性度量)。

基于内存的CF方法有两个典型的缺点。首先,计算所有用户或项目对之间的相似性是昂贵的,因为它的二次时间复杂性。第二,推荐的准确性取决于所采用的相似性度量,而相似性度量通常基于用户之间或项目之间的次优关系。另一方面,传统的基于内存的CF模式为整合用户和项目丰富的侧信息提供了一个优雅的机会,以改善相似性,这将在第4节中进一步讨论。这种扩展有助于弥补前面提到的缺点。

2.3.基于模型的协同过滤

基于模型的CF方法是基于全部或部分以U-I矩阵作为输入的预测模型[Adomavicius和Tuzhlin 2005;Ekstrandet al.]。2011]。然后,经过训练的预测模型可用于为单个用户生成建议。在一个简单和一般的形式中,我们可以表示。
基于模型的CF如下:

其中pi和qj分别表示用户i和项目j的一组模型参数,f是将模型参数映射到已知数据(例如,评等)的函数。因此,基于模型的CF的任务是在函数f下从已知数据R中估计模型参数p和q。传统的基于模型的CF方法的例子包括贝叶斯网络模型[Breese等人,1998],它模拟了项目之间的条件概率;潜在语义模型[Hofmann2004],它围绕U-I交互的潜在类别将用户和项目聚在一起;混合模型[Si和JIN,2003年;Kleinberg和Sandler,2008年],该模型对每一组志同道合的用户中项目的概率分布进行了建模。最近,矩阵分解(MF)技术因其在可扩展性和准确性方面的优势而备受关注,Netflix竞赛中开发的算法就证明了这一点。2009]。

一般来说,MF模型从U-1矩阵中的信息中学习用户和项目的低阶表示(也称为潜在因素),这些信息被进一步用于预测用户和项目之间的新分数。为了便于阅读,我们在下面列出了最常用的MF格式,第2.1节中部分定义了这些符号:

其中U和V是两个潜在因子矩阵,Ulowast;和Vlowast;表示由极小化得到的最优值。具体来说,UI是U的列向量,表示用户I的潜在因素。同样,VJ表示J项的潜在因素。II j是一个指示函数,如果Ri jgt;0,则等于1,否则为0。|U|F表示矩阵的Frobenius范数,lambda;U和lambda;V是正则化参数,通常用来减轻模型的过拟合。MF也是从概率的角度提出的--即作为概率矩阵分解(PMF)问题[Salakhutdinov和Mnih 2008 a,2008 b]。PMF框架根据观察到的等级对潜在因素的条件概率进行建模,并包括处理复杂性正则化的先验。基于模型的CF,特别是MF方法,可以扩展到将附加信息纳入推荐系统中。在第4节中,我们将详细审查这些扩展。

3.协作过滤的可选信息来源

正如导言中提到的,我们除了U-I矩阵之外,还将包括两种被认为有助于改进建议的附加信息:关于用户和项目的丰富的侧面信息,以及关于用户与项目交互(例如,费率、单击或购买)的情况的信息。图1中的玩具示例说明了这两种类型的信息,本节其余部分将更详细地讨论这两种信息。

3.1丰富的用户和项目信息

用户和超出U-I矩阵范围的项目的附加信息来源的范围非常广泛和多样。最常见的信息来源之一是属性信息[Agarwal和Chen 2009;包等人,2009;甘特纳等人。2010年a;Koenigstein等人。2011;Li等人。2010;Moshfeghi等人。2011;施等。2010年a]。用户属性可能包括诸如用户的性别、年龄和爱好等信息。项属性反映项的属性,如类别或内容。然而,最近在推荐系统研究中越来越重要的两个信息源是社交网络和用户贡献的信息。在本小节的其余部分,我们将更详细地讨论这些信息源。

3.1.1 社交网络

在过去几年中,社交网络的出现影响了广泛的研究领域[Grossman,2006;Lazer等人,2009;美国瓦茨,2007年],推荐系统也不例外。具体到推荐系统领域,社交网络以用户-用户关系的形式引入信息,这可能对提高推荐的质量特别有用。一般来说,用户之间的社会关系可以是定向的,也可以是非定向的。社会信任和不信任关系是研究得最多的直接社会关系[Guha等人,2004;Leskovec等人。2010年c;Ma等人。2008,2009年a;马萨和阿维萨尼,2007年]。信任/不信任关系通常可以描述为一个不对称的用户-用户关系图/矩阵,它指示一个用户是否信任/不信任另一个用户,例如Epinion中的信任网。接下来是另一个重要的定向社会关系,例如Twitter [Kwak等人]所使用的后续关系。2010]。以下关系类似于信任关系,因为它反映了一个用户(追随者)对另一个用户(追随者)的赞赏。在Twitter的情况下,追随者会收到追随者的微博帖子。非定向社会关系的典型例子是友谊,如Facebook 中所使用的那样。友谊可以表示为对称的用户-用户图/矩阵[Konstas等人,2009],它编码两个用户是否是彼此的朋友。还可以通过分析链接结构和用户行为的常见模式来提取更复杂的关系,例如社交网络中用户之间的联系强度和相似性[Backstrom和Leskovec 2011;Gilbert和Karahalios 2009;Liben-Nowell和Kleinberg 2003]。试图利用社会关系的推荐系统算法,无论是定向的还是非定向的,都采用了这样一种假设,即彼此之间存在积极关系的用户也可能拥有相似的兴趣,这一点将在第4.1节中进一步讨论。

3.1.2用户提供的信息

用户贡献的信息已经在大多数推荐系统中广泛使用,自从Web2.0技术引入以来,用户贡献的信息数量稳步增长。严格地说,U-1矩阵中包含的用户评级也可以看作是一种用户贡献的信息。在这里,我们介绍四种超出U-i矩阵的用户贡献的信息:标签、地理标记、多媒体内容和免费文本评论和评论,它们越来越多地用于推荐系统中:

——标签:标签是用户分配给项目的简短文本标签[Robu等人,2009;Sen等人。2006]

全文共13663字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[12235],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。