第三章
基于内容的推荐系统:艺术的状态及趋势
Pasquale Lops, Marco de Gemmis 和 Giovanni Semeraro
摘要:推荐系统具有在巨大可能的选择空间中以私人化方式引导用户对对象感兴趣的效果。基于内容的推荐系统尝试推荐给定用户和过去的相似的项目。事实上,由基于内容的推荐工具执行的基本过程包括匹配已存储的偏爱和兴趣的用户简档的属性,以及内容对象(项目)的属性,向用户推荐新的有趣的项目。本章提供了一个基于内容的推荐系统的概述,旨在强加一定程度的秩序在其设计和实施所涉及的不同方面的多样性。本章的第一部分介绍了基于内容的推荐系统的基本概念和术语,高层架构及其主要优势和缺点。本章的第二部分通过详细描述用于表示项目和用户简档的经典和先进技术,回顾了当前的状况在几个应用领域中所采用的系统的艺术。还介绍了最广泛采用的用于学习用户简档的技术。本章的最后部分将通过描述用户生成内容作为考虑不断演变的词汇表的方式以及向用户提供偶然性建议的挑战,讨论可能导致系统的下一代发展的趋势和未来研究,也就是说,他们可能没有发现令人惊讶的有趣的项目。
3.1 绪论
网络和数字图书馆提供的大量信息,结合其动态性和异构性,决定了在我们需要的时候以最符合我们要求的方式找到我们想要的东西的难度正在迅速增加。
因此,用户建模和个性化信息访问的角色正变得越来越重要:根据自己的兴趣和品味,用户需要一个筛选大量可用信息的个性化支持。
许多信息来源包含推荐系统来作为用户个性化内容的一种方式[73]。推荐系统具有在可能选项的大空间中以个性化方式引导用户到有趣或有用的对象的效果[17]。推荐算法使用关于客户兴趣的输入来生成推荐项目的列表。在亚马逊网站上,推荐算法被用来为每个顾客个性化在线商店,例如向软件工程师展示编程题目,给新妈妈展示婴儿玩具[50]。
推荐项目的问题已经被广泛研究,出现了两个主要的范例。基于内容的推荐系统尝试推荐给一个给定用户和过去喜欢的项目类似的项目,而根据协作推荐范例设计的系统识别偏好与给定用户的偏好类似并推荐他们喜欢的项目[7]。
在本章,提出对基于内容的推荐系统进行了全面而系统的研究。意图是双重的:
bull; 通过强调显示最有效的技术和他们所采用的应用领域来提供最先进系统的概述;
bull; 展示可能导致下一代基于内容的推荐系统的未来研究趋势和方向。
本章安排如下。首先,我们介绍与基于内容的推荐的相关基本概念和术语。描述了提供基于内容的推荐的经典框架,以便理解该体系结构的主要组成部分,提出建议的过程以及使用这种推荐技术的优点和缺点。第3.3节详细介绍了基于内容的系统的最新技术,提供了有关表示要推荐的项目的经典和高级技术的细节,以及学习用户配置文件的方法。第3.4节介绍了基于内容的推荐系统领域的发展趋势和未来研究,第3.5节给出了结论。
3.2 基于内容的推荐系统的基础知识
实施基于内容的推荐方法的系统分析一组文档和/或用户先前评估的项目的描述,并且基于该用户所评价的对象的特征来建立用户兴趣的模型或简档[63]。该配置文件是用户兴趣的结构化表示,用于推荐新的有趣的项目。推荐过程主要包括将用户配置文件的属性与内容对象的属性进行匹配。结果是表示用户对该对象感兴趣程度的相关性判断。如果配置文件准确地反映了用户的偏好,则对于信息访问过程的有效性具有巨大的优势。例如,它可以用来过滤搜索结果,通过判断用户是否对特定的网页感兴趣,并且在否定的情况下,阻止它被显示。
3.2.1 基于内容的系统的高级架构
基于内容的信息过滤(IF)系统需要用于表示项目和生成用户简档的适当技术,以及将用户简档与项目表示进行比较的一些策略。图3.1描述了基于内容的推荐系统的高层体系结构。推荐过程分三个步骤执行,每个步骤由一个单独的组件处理:
bull; 内容分析器 - 当信息没有结构(例如文本)时,需要某种预处理步骤来提取结构化的相关信息。该组件的主要职责是以适合于下一个处理步骤的形式表示来自信息源的项目(例如文档,网页,新闻,产品描述等)的内容。数据项目通过特征提取技术进行分析,以便将项目表示从原始信息空间转移到目标项目(例如表示为关键字向量的网页)。此表示形式是简档学习和过滤元件的输入;
bull; 简档学习者 - 该模块收集代表用户喜好的数据,并试图概括这些数据,以构建用户简介。通常情况下,泛化策略是通过机器学习技术[61]来实现的,它们能够从过去喜欢或不喜欢的项目开始推断用户兴趣模型。例如,网页推荐的简档学习可以实现一个相关性反馈方法[75],其中学习技术将正向和反向示例的向量组合成代表用户简档的原型向量。培训示例是用户提供正面或负面反馈的网页;
bull; 过滤组件 - 该模块利用用户配置文件通过将配置文件表示与要推荐的项目进行匹配来建议相关项目。其结果是一个二元或连续的相关性判断(使用一些相似性度量计算[42]),后一种情况导致潜在有趣的项目排名列表。在上述例子中,通过计算原型向量和项目向量之间的余弦相似度来实现匹配。
图 3.1 基于内容的推荐器的高级体系结构
推荐过程的第一步是由内容分析器执行的,通常借鉴信息检索系统的技术[80,6]。来自信息源的项目描述由内容分析器处理,它从非结构化文本中提取特征(关键字,n元组,概念,...)以产生存储在存储库中的结构化项目表示。
为了构建和更新活动用户ua(必须为其提供推荐的用户)的配置文件,她以某种方式收集对项目的反应并记录在存储库中反馈。这些反应,称为注释[39]或反馈,连同相关的项目描述,在学习模型的过程中被利用,这对于预测新呈现的项目的实际相关性是有用的。用户还可以明确定义他们感兴趣的领域作为初始配置文件,而不提供任何反馈。
典型地,可以区分两种相关性反馈:正面信息(用户喜欢的推断特征)和负面信息(即,推断用户不感兴趣的特征[43])。
可以采用两种不同的技术来记录用户的反馈。 当系统要求用户明确评估项目时,这种技术通常被称为“显式反馈”;另一种称为“隐式反馈”的技术不需要任何积极的用户参与,反馈是通过监视和分析用户的活动而获得的。
明确的评估表明项目与用户的相关程度或趣味程度如何[74]。 有三种主要的方法可以获得明确的相关性反馈:
bull; 喜欢/不喜欢 - 通过采用简单的二进制评分量表将项目分类为“相关”或“不相关”,如[12];
bull; 评级 - 通常采用离散的数字尺度来判断项目,如[86]。或者,符号评级被映射到一个数值范围,比如在Syskill&Webert [70]中,用户可以将网页评为热门,一般或冷门;
bull; 文本评论 - 收集关于单个项目的评论并将其呈现给用户,作为促进决策过程的手段,如[72]中所述。例如,客户在Amazon.com或eBay.com上的反馈可能有助于用户决定某个项目是否受到社区的赞赏。文本评论是有帮助的,但是他们可能使活跃用户超载,因为她必须阅读和解释每个评论,以决定它是正面还是负面,以及在什么程度上。文献提出了情感计算研究领域的先进技术[71],使基于内容的推荐器能够自动执行这种分析。
显式反馈具有简单性的优点,尽管采用数字/符号级别增加了用户的认知负担,并且可能不足以捕捉用户对项目的感觉。隐式反馈方法基于将相关性分数分配给项目上的特定用户动作,诸如保存,丢弃,打印,书签等。其主要优点是即使可能发生偏差,例如在阅读的同时打断电话,他们也不需要直接的用户参与。
为了建立活动用户ua的配置文件,必须定义ua的训练集T Ra。T Ra是一组lt;Ik,rkgt;对,其中rk是ua对项目表示Ik提供的评分。给定一组用评级标记的项目表示,简档学习器应用监督式学习算法来生成一个预测模型 - 用户配置文件 - 通常存储在配置文件存储库中供以后使用的过滤组件。给定新的项目表示,过滤组件通过比较项目表示中的特征与用户偏好(存储在用户简档中)中的特征,来预测活动用户是否可能感兴趣。通常情况下,过滤组件实施一些策略,根据与用户配置文件的相关性对潜在感兴趣的项目进行排名。排在前列的项目包含在推荐列表La中,即提交给ua。用户的口味通常会随时间变化,因此必须保持最新的信息并提供给简档学习器,以便自动更新用户配置文件。通过让用户表达他们对La中的项目的满意度或不满意度,收集进一步的反馈意见。在收集到这些反馈之后,在新的训练集上再次执行学习过程,并且产生的简档适应于更新的用户兴趣。随着时间的推移反馈学习循环的迭代允许系统考虑用户偏好的动态性质。
3.2.2 基于内容的过滤的优点和缺点
与合作模式相比,采用基于内容的推荐模式具有以下几个优势:
bull; 用户独立性 - 基于内容的推荐器仅利用活跃用户提供的评分来构建自己的个人简档。相反,协作过滤方法需要来自其他用户的评级,以便找到活动用户的“最近邻居”,即具有相似品味的用户,因为他们类似地评估相同的项目。然后,只推荐活跃用户的邻居最喜欢的项目;
bull; 透明度 - 通过明确列出导致项目在建议列表中出现的内容特征或描述,可以提供关于推荐系统如何工作的解释。这些功能是需要咨询的指标,以决定是否信任某项推荐。相反,协作系统是黑匣子,因为对项目推荐的唯一解释是具有类似品味的未知用户喜欢该项目;
bull; 新项目 - 基于内容的推荐能够推荐尚未被任何用户评分的项目。因此,他们不会受到首要问题的影响,这会影响只依赖用户偏好提出建议的合作推荐人。因此,在新项目被大量用户评价之前,系统将不能推荐它。
尽管如此,基于内容的系统有几个缺点:
bull; 有限内容分析 - 基于内容的技术对与其推荐对象关联的功能的数量和类型有自然限制,无论是自动还是手动。通常需要领域知识,例如,系统需要了解演员和导演的电影推荐,有时还需要领域本体。如果分析的内容不包含足够的信息来区分用户喜欢的项目和用户不喜欢的项目,则基于内容的推荐系统不能提供适当的建议。一些表示仅捕获内容的某些方面,但还有许多其他方面会影响用户的体验。例如,常常没有足够的词频信息来模拟用户对笑话或诗歌的兴趣,而情感计算技术则是最合适的。同样,对于网页,来自文本的特征提取技术完全忽略审美品质和额外的多媒体信息。
总而言之,自动和手动将特征分配给项目不足以定义对于激发用户兴趣而言必需的项目的区别方面。
bull; 过度专业 - 基于内容的推荐没有找到意想不到的内在方法。系统建议在与用户个人资料相匹配时得分较高的项目,因此用户将被推荐为与已评分项目类似的项目。这个缺点也被称为偶然性问题,以突出基于内容的系统以有限程度的新颖性产生推荐的趋势。一个“完美的”基于内容的技术很少会发现任何新颖的东西,限制了它的应用范围。
bull; 新用户 - 在基于内容的推荐系统真正了解用户偏好并提供准确建议之前,必须收集足够的评分。因此,当有少量评级可用时,对于新用户,系统将无法提供可靠的建议。
下面将介绍和讨论解决上述问题的一些策略。更具体地说,将描述使用常识和领域特定知识来增强内容表示的新技术(3.3.1.3-3.3.1.4节)。这可能有助于通过提供新功能(如WordNet [60,32]或Wikipedia概念)来克服传统内容分析方法的局限性,这些新功能有助于以更准确和透明的方式表示要重新推荐的项目。此外,在第3.4.1节中将介绍用户定义词典(如民俗分类法)在生成建议过程中的整合情况,以此来考虑不断演变的词汇表。为用户提供偶然性推荐的可能方式,也就是说,具有高度新颖性的有趣项目将被分析为解决过度专业化问题(第3.4.2节)。
最后,将介绍克服新用户问题的不同策略。其中,社区用户提供的社交标签可用作对系统可用的特定用户评分很低或无评分时产生推荐的反馈(第3.4.1.1节)。
3.3 基于内容的推荐系统的现状
顾名思义,基于内容的过滤利用数据项的内容根据用户的配置文件预测其相关性。对基于内容的推荐系统的研究发生在许多计算机科学主题的交叉点上,特别是信息检索[6]和人工智能。
从信息检索(IR)中,对推荐技术的研究推导出用户搜索推荐的参与者正在从事信息搜索过程。在IR系统中,用户通过给出查询(通常是关键字列表)来表达一次性信息需求,而在IF系统中,用户的信息需求由她自己的简档表示。根据用来描述它们的属性的数量和类型,要推荐的项目可能会有很大的不同。每个项目可以通过相同数量的具有已知值的属性来描述,但这不适用于通过非结构化文本描述的项目,例如网页,新闻,电子邮件或文档。
在这种情况下,没有定义明确的值的属性,并且根据IR研究使用文档建模技术是可取的。从人工智能的角度来看,推荐任务可以作为利用过去关于用户的知识的学习问题。最简单的用户配置文件是用户指定的关键字或规则的形式,并反映了用户的长期利益。通常,建议推荐方式学习用户配置文件,而不是强加于用户提供用户配置文件。这通常涉及机器学习(ML)技术的应用,其目标是学习根据先前看到的信息对新的信息项目进行分类,所述信息已被用户明确或隐含地标记为有趣的或不明确的。给定这些标记的信息项目,ML方法能够生成一个预测模型,给定一个新的信息项目,将有助于确定目标用户是否可能感兴趣。
第3.3.1节描述了从传统文本表示到集成本体和/或百科知识的更先进技术的替代项目表示技术。接下来,适用于所述表示的推荐算法将在3.3.2节中讨论。
3.3.1 项目表示
可以推荐给用户的项目由一组也称为属性或属性的特征表示。例如,在电影推荐应用程序中,用于描述电影的特征是:演员,导演,流派,主题等。。。)。当每个项目由相同的一组属性描述,并且存在一组已知的属性值时,该项目通过结构化数据表示。在这种情况下,许多ML算法可以用来学习用户配置文件[69]。
在大多数基于内容的过滤系统中,项目描述是从网页,电子邮件,新闻文章或产品描述中提取的文本特征。与结构化数据不同,没有定义明确的值的属性。由于自然语言的模糊性,文
全文共7036字,剩余内容已隐藏,支付完成后下载完整资料
英语原文共 872 页,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[15890],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。