英语原文共 24 页,剩余内容已隐藏,支付完成后下载完整资料
- 简介
推荐系统(RS)收集用户的许多方面的偏好信息(例如电影,音乐,书籍,笑话,小工具,手机应用,网站,旅游目的地以及电子学习资料)。这些信息可以显式(通常是通过收集用户的评分)或隐式(通常是通过监视用户的行为,例如听到的歌曲、下载的应用程序、访问的网站和阅读的书籍)获取。推荐系统(RS)可以使用用户的人口特征(如年龄、国籍、性别);社交信息,如关注者、关注者、twits和帖子,并且是通常在Web 2.0中使用。现在人们越来越倾向于使用来自物联网的信息(例如GPS位置、RFID、实时健康信号等)。
RS利用不同的信息来源为用户提供项目预测和建议。它们试图在建议内容中平衡准确性、新颖性、分散性和稳定性等因素。协作过滤(CF)方法在推荐中起着重要的作用,尽管它们经常与其他过滤技术(如基于内容的、基于知识的或社会的)一起使用。
CF是基于人类在整个历史中的决策方式:除了我们自己的经验之外,我们的决策也基于我们每个人从一个相对较大的熟人群体中获得的经验和知识。
近年来,RS在互联网上的应用越来越多,促进了RS在各个领域的应用。最常见的研究论文集中在电影推荐研究上;然而,大量关于RS的文献集中在不同的主题上,如音乐、电视、书籍、文档、在线学习、电子商务、市场应用和网络搜索等
RS(协作、基于内容和人口统计)开始时使用最多的过滤类型描述在Breese写的文章中,在其中评价了不同算法对协同过滤的预测精度,之后介绍了协同过滤RS的评价基础。
RS的发展表明了RS混合技术的重要性,将不同的RS融合在一起,以获得各自的优势。本文对混合RS进行了综述。然而,它并没有涉及到社交过滤的作用,这是近年来通过社交网络变得更加流行的一种技术。
基于邻域的CF是RS开始时最流行的推荐方法;Herlocker等人。为设计基于邻域的预测系统提供了一套指导原则。Adomavicius和Tuzhilin概述了RS领域,突出了RS研究人员在“下一代RS”中应关注的最复杂领域:基于内容的方法中的有限内容分析和过度专业化,CF方法中的冷启动和稀疏性,基于模型的技术,非侵入性,灵活性(实时定制)等。
在研究人员开发RS的同时,也发表了不同的调查论文,总结了该领域最重要的问题。鉴于不可能在一篇论文中展示所有这些技术的每一个细节,本出版物选择了作者认为最适合理解RS演变的问题。
虽然现有的调查侧重于RS领域最相关的方法和算法,但我们的调查却试图促进RS的发展:从基于传统网络的第一阶段到目前基于社交网络的第二阶段,后者目前正在向第三阶段(物联网)发展。为了对RS领域的新读者有用,我们在本调查中包括了一些传统的话题:RS基金会、K-近邻算法、冷启动问题、相似性度量和RS的评价。其余的文章处理了现有调查不考虑的新主题。通过本次调查,RS高级读者将深入研究与社会信息相关的概念、分类和方法(社会过滤:关注者、关注者、信任、声誉、可信度、基于内容的社会数据过滤;社会标签和分类法),向用户群推荐并解释推荐。对全新和未来的应用感兴趣的读者会发现这项调查很有用,因为它提供了位置感知RS趋势和生物启发方法方面的最新作品。他们还将发现一些重要问题,如隐私、安全、P2P信息和物联网使用(RFID数据、健康参数、监控数据、远程操作、远程呈现等)。
根据RS倾向于利用不同的信息源(协作、社会、人口、内容、基于知识、地理、传感器、标签、隐式和显式数据获取等)的观点,本次调查强调了混合架构,基于通过不同的已知技术(每个技术代表特定的信息源)提出建议。
一项调查的质量可以通过对其参考文献的适当选择来衡量。这项调查包含了249篇系统获得的参考文献,这些参考文献的选择考虑了最近被引用的次数和发表论文的期刊的重要性等因素。
本文的其余部分结构如下:在第二节中,我们简要地说明了选择RS领域最有意义的论文的方法。第3节描述了RS的基础:用于根据传统web信息提供建议的方法、算法和模型:评分、人口统计数据和项目数据(CF、人口统计过滤、基于内容的过滤和混合过滤)。第4节描述了评估RS预测和建议质量的措施。第5节展示了如何利用Web2.0中的社交信息,通过信任、声誉和可信度等概念进行推荐。我们还将描述基于内容的社交信息技术(如标签和帖子)。第6节着重于两个重要领域(虽然还没有得到很好的研究):向用户组提出建议和解释建议。第7节主要介绍推荐系统的发展趋势,包括基于生物的方法和Web3.0信息过滤,如位置感知RS。第8节介绍了相关的工作和本次调查的原始贡献。
结语部分总结了RS的发展历史,重点介绍了所使用的数据类型以及算法和评估方法的发展。结论部分还指出了七个新的领域,我们认为在不久的将来可能是科学界RS研究的重点。
- 方法论
进行初步研究,以确定RS领域最具代表性的主题和术语。首先,从期刊中选出300篇RS论文,对当前和经常被引用的文章具有更高的优先权。接下来,我们从这300篇论文中提取出最有意义的术语。我们对关键词的重视程度最高,对标题的重视程度较低,最后,对摘要的重视程度最低。
我们忽略了常用词,如冠词、介词和一般用法词,我们从剩余的词库中选择了300个在RS字段中表示的词。从一个词条矩阵中,我们存储了每一个词条的重要性,我们生成了词条之间的关系树。图1描绘了图的最重要部分(由于空间限制,整个树未示出,但在图1 AdditionalData.png中作为附加材料提供)。词与词之间的短距离表示相似度最高;暖色表示关系更可靠。节点的大小表示单词的重要性,它是参数Nk、Nt、Na (关键字、标题和摘要中的有意义单词的数目)和Nkw;Ntw;Na w(关键字、标题和摘要中单词w出现的次数)的函数。
图1
图1所示的信息用于识别RS的最相关方面,它们由图中最有意义的词和相关术语表示。本文所引用的文章是基于以下标准选择的:(a)根据图1中单词的重要性对主题的超越;(b)其历史贡献(包括经典参考文章的重要部分);(c)文章被引用的次数;(d) 在具有影响因素的期刊上发表的文章优先于会议和研讨会;以及(e)最近的文章优先于多年前发表的文章。图2示出了参考文献的时间分布。
图2
我们使用图1中的词簇来构造调查的解释。对于解释的每一个概念:(1)我们根据图1获得了它们的关键字和所有与它们相关的词;(2)我们在300篇论文中,识别出了那些与这个概念相关的词;(3)我们选择了处理这个概念的论文子集,优先考虑那些在论文的重要性和引用次数等标准上有很高的价值;(4)我们试图平衡论文在调查中被引用的次数,目的是参考所选的300篇论文中的大部分。
- 推荐系统基础
本节介绍了传统RS所基于的最相关的概念。在这里,我们对经典的分类法、算法、方法、过滤方法、数据库等进行了一般性的描述。此外,我们还展示了描述传统推荐模型及其关系的图形。接下来,我们将描述冷启动问题,这将说明当RS包含少量数据时,进行协作推荐的困难。接下来,我们将描述kNN算法;最常用的基于CF的RS实现算法。最后,我们将描述不同的相似性度量来比较用户或项目。我们将展示用于测量这些相似性度量的质量的图形。
- 推荐系统结果评价
自从RS研究开始以来,对预测和建议的评估就变得非常重要。RS领域的研究需要质量度量和评估指标来了解预测和建议的技术、方法和算法的质量。评估指标和评估框架有助于对同一问题的几种解决方案进行比较,并从产生更好结果的不同有希望的研究领域中进行选择。
由于采取了评价措施,RS建议逐步得到检验和改进。一套具有代表性的现有评价措施有标准的表述,并产生了一组开放的RS公共数据库。这两个进展促进了新提出的推荐方法和以前发表的方法的质量比较;因此,RS方法和算法的研究不断进步。
最常用的质量指标有:(1)预测性评价,(2)成套推荐评价,(3)排名表推荐评价。
评价指标可分为(a)预测指标:如准确度指标:平均绝对误差(MAE)、均方根误差(RMSE)、标准化平均误差(NMAE);覆盖率指标:如准确度、召回率和接收机工作特性(ROC);等级推荐指标:如半衰期和贴现累积增益和(d)多样性指标:如推荐项目的多样性和新颖性。验证过程通过使用最常见的交叉验证技术(随机子抽样和k倍交叉验证)来执行;对于冷启动情况,由于所涉及的用户(或项目)投票数有限,通常选择的方法是不进行交叉验证。
Hernaacute;ndez和Gaudioso提出了一个基于交互子系统和非交互子系统之间区别的评估过程。一般出版物和评论也存在,其中包括最普遍接受的评估指标:平均绝对误差、覆盖率、精度、召回率和这些指标的衍生物:均方误差、标准化平均绝对误差、ROC和沉降;Goldberg等人。关注与评估无关的方面,Breese等人,在一组有代表性的问题域中比较各种方法的预测精度。
- 社会信息
随着web 2.0的发展,RS越来越多地融入了社会信息(例如,可信和不可信的用户、关注者和追随者、朋友列表、帖子、博客和标签)。这种新的上下文信息改进了RS。社会信息改进了基于内存的RS固有的稀疏性问题,因为社会信息加强了传统的基于内存的信息(用户评级):由信任网络连接的用户在项目和元数据上表现出显著的更高的相似性,而非连接的用户。
研究者使用社会信息有三个主要目的:(a)提高预测和建议的质量,(b)提出或产生新的反应,以及(c)阐明社会信息与协作过程之间最重要的关系。
信任与声誉是RS研究的重要领域;这一领域与RS中当前包含的社会信息密切相关,产生信任和声誉度量的最常用方法是:(a)用户信任:通过用户的其他显式信息计算用户的可信度,或通过用户的隐式信息计算用户的可信度在社交网络中获得和(b)项目信任:通过用户的反馈计算项目的信誉,或通过研究用户如何处理这些项目来计算项目的信誉。
在social RS字段中,用户可以引入与项关联的标签。三元组huser,item,tagi构成了信息空间,称为folksonomies。基本上,folksonomies有两种使用方式:(1)创建标签推荐系统(仅基于标签的RS)和(2)使用标签丰富推荐过程。
由于社交网络的激增,基于内容的过滤最近变得更加重要。RS显示出一种明显的趋势,允许用户引入评论、评论、评分、意见和标签等内容,并建立社交关系链接(例如,关注者、关注者、喜欢用户和不喜欢用户)。这些额外的信息提高了预测和建议的准确性,从而产生了各种研究文章:Kim等人、Zheng和Li以及Carrer Neto等人。
- 附加推荐系统目标
商业服务商通过提供最好的推荐内容和质量以及各种各样的服务来参与市场竞争。向用户组推荐有助于向用户组(例如,希望选择电影的四个朋友组成的组)联合推荐。对于CF,四种设计方法提供了一个行动的机会:(1)进入相似性度量阶段,(2)获取邻居,(3)获取预测,以及(4)生成建议。研究结果表明,不同方法的推荐质量差别不大,但当使用推荐时(当组的相似性度量的设计是最有效的解决方案时),执行时间大大缩短。
为了让RS生成的推荐对用户有价值,必须以简单、有说服力和准确的方式对其进行解释。迄今为止,推荐解释领域一直是RS研究的新领域。传统上,解释类型分为以下几类:(a)人类风格(用户对用户的方法),(b)项目风格(项目对项目的方法),(c)特征风格(项目特征),以及(d)混合。它还利用会话技术,并结合地理社会信息。
考虑到用户群体的RS正在开始扩展,并被用于不同的领域:旅游、音乐、电视、网络。
考虑到向组推荐的特定特性,应该为不同的组语义建立共识,从而将用户之间的协议和分歧形式化。
为了以结构化的方式展示迄今为止所做的工作,我们在CF RS中对推荐给组的内容进行了分类。我们可以将采取行动分为四个基本层次,以便将组的用户数据与获取组的用户数据的目标统一起来:相似性度量,建立邻域,预测阶段,确定推荐项目。
在第一种情况下,在图的顶部,在CF处理的预测阶段执行数据统一:在组的一个预测中组合组的n个用户的n个单独预测(预测聚合)。Berkovsky和Freyne,Garciacute;a等人已经使用了这种方法。还有克里斯滕森和希亚菲诺。
第二种情况对组用户的邻居集起作用,将它们统一到整个组的一个邻居中。Bobadilla等人研究了这种方法,提出了组中每个用户的大量邻居(k)的交集。
在第三种情况下,为该组的每个用户获得的建议合并为该组的一个建议。Baltrunas等人使用推荐的单个列表的秩聚合。
第四种情况使用相似性度量,它直接作用于用户组的评分集。这个解决方案是唯一一个直接为用户组提供一组邻居的解决方案。
有一项研究,在前面的任何一个案例之前,提出在处理不完全模糊语言偏好关系时,作为前端,加入一个估计缺失信息的过程。
- 推荐系统趋势
从该领域现有的RS和研究论文的演变来看,收集和整合更多、不同类型数据的趋势明显。这一趋势与网络的演进是平行的,我们可以通过以下三个主要阶段来定义:(1)在网络的起源阶段,RS只使用用户的明确评分以及用户的人口统计信息和基于内容的信息,这些信息都是由RS所有者包含的。(2) 对于web2.0,除了上述信息外,RS还收集和使用社交信息,如好友、关注者、关注者、信任者和不信任者。同时,用户帮助协作包含这些信息:博客、标签、评论、照片和视频。(3) 对于web 3.0和物联网,来自各种设备和传感器的上下文感知信息将与上述信息结合在一起。目前,地理信息已包括在内,预期的趋势是逐步纳入信息,如射频识别(RF
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[409956],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。