英语原文共 15 页,剩余内容已隐藏,支付完成后下载完整资料
一种新的基于Bhattacharyya系数的相似性度量方法
1、 介绍
在过去的几十年里,推荐系统技术已经成功地用于帮助人们应对信息过载问题,并且已经成为电子商务领域不可分割的一部分。 推荐系统的主要任务是通过大量的产品或项目空间为单个用户提供个性化的产品或项目建议。 许多推荐系统算法在电子商务、数字图书馆、电子媒体、在线广告等各种应用中得到了发展。 这些算法可以分为两大类,即基于内容的过滤和协同过滤,在文献中也可以找到这些算法的结合来解决它们的缺点。
在基于内容的过滤中,通过分析用户的配置文件、项目的配置文件和用户过去喜欢的项目的配置文件,将项目推荐给活动用户。 然而,分析在多媒体数据等许多应用程序中,配置文件常常是困难的。
协同过滤(CF)是最成功、应用最广泛的推荐系统。 CF是通过分析其他用户或系统中其他项目的评分信息来向用户推荐项目。 协同过滤的主要优点是它是领域无关的,比基于内容的过滤更准确。 CF分类中有两种主要的推荐方法,即基于社区的CF和基于模型的CF。
基于邻域的CF依赖于一种简单的直觉,即如果一组相似的用户喜好某项产品,或者该产品在系统中已经欣赏过类似的产品,那么该产品可能对活跃用户感兴趣。
基于模型的CF算法使用机器学习和其他技术从测试数据中学习模型。 随后,该模型被用于预测。 基于模型的方法的主要优点是它不需要在模型建立之后访问整个评级数据。 很少有基于模型的方法能比基于邻域的CF提供更准确的结果。 然而,大多数电子零售商,如亚马逊、Netflix,都部署了基于社区的推荐系统来帮助他们的客户。 这是因为基于邻域的方法简单、直观,并且没有学习阶段,所以它可以在新用户收到反馈后立即提供响应。 基于邻域的方法的另一个优点是它只使用一个参数(邻域的k个数),而不像基于模型的方法需要很多参数(学习参数g,正则化参数m等)。
通常,基于邻域的CF使用相似性度量来查找活跃用户的邻域或查找与候选项相似的项。 传统的相似度度量方法如皮尔逊相关系数、余弦相似度及其变量等常用来计算一对用户之间或一对产品[15]之间的相似度。 在这些度量中,一对用户之间的相似度是根据两个用户对共同项目(共同评价项目)的评分来计算的。 同样地,条目相似性是通过对两个条目进行评级的用户提供的评级来计算的。 然而,如果给定的评级数据中没有足够数量的共同评级项目,基于相关性的度量就会表现不佳。 例如,如果没有单个用户对两个项目进行评级,那么两个项目可能是相似的。 同样地,如果两个用户对不同的物品进行了评级,他们也可以是相似的。 因此,基于相关性的度量及其变体不适用于稀疏数据,在稀疏数据中,单个用户的评级数量较少,且共同评级的条目数量较少或没有。Yildirim和Krishnamoorthy观察到基于相关的相似性度量不适合稀疏数据。
在本文中,我们提出了一种在稀疏数据中寻找一对用户之间相似度的新方法。 所提出的措施重视用户对所做的每一个评分。 Bhattacharyya测度(在信号和图像处理领域很流行)被用来寻找一对被评价项目之间的相关性。 本文提出的相似度量称为CF中的Bhattacharyya系数(BCF)。 基于CF测量的BCF在实际评级数据集上进行了测试。 我们在本文中的贡献总结如下。
- 提出了一种新的基于用户的协同过滤相似度度量方法。 与现有的度量方法不同,建议的度量方法使用由一对用户做出的所有评级。
- BCF将评分相关性与每对评分项目的相关性相结合。 BCF可以计算在没有共同评分项目的情况下两个用户之间的相似度。
- 为了显示所提出的度量方法的有效性,我们使用基于相关的度量方法和其变体实现了基于邻域的CF。 在三个流行的数据集上的推荐结果测试使用各种性能指标,如平均绝对误差(MAE),均方根误差(RMSE),ensp;F1测量,使用BCF度量的CF优于使用最新度量的CFs。
本文的其余部分结构如下。 在第2节中,我们将讨论必要的背景和相关工作。 在第3节中,我们给出了相似度量。第4部分总结了本文,并提出了未来可能的研究方向。
2、背景及相关工作
在这一部分中,我们详细讨论了基于邻域的方法的工作原理,并引入了不同的相似性度量来提高推荐系统的性能。
2.1、基于邻域的方法
基于邻域或记忆的方法被引入到GroupLens Usenet文章推荐器中,并且由于其在商业领域的广泛应用而广泛使用。这种方法使用整个评级数据集来为活跃用户生成项目(产品)的预测或推荐项目的列表。假设在一个基于CF的推荐系统中,R =[rui]^Mtimes;N是一个给定的评分矩阵,其中每个条目rui代表一个由uth用户Uu对第Ii项做出的评分值。
通常,评级值是一个范围内的整数。条目rui 0表示用户Uu尚未对项目Ii进行评级。基于邻域的CF算法的预测任务是利用uth用户的邻域信息(基于用户的方法)或者利用ith项目的邻域信息(基于项目的方法)来预测ith项目的评分。
基于用户的方法根据终端用户的邻居对该项目的评分进行预测。为此,该方法计算活动用户(这里是Uu用户)和Up之间的相似度;p =1... M;pne;u。然后,选择K个最接近的用户,形成活动用户的邻域。最后,它使用下面的等式来预测ith项的^rui评分。
其中ru是用户Uu所做评级的平均值;s-Uu;Uk表示用户Uu与其第k个邻居之间的相似度值;rku是用户Uu的第k个邻居给出的等级的平均值,rki是第k个邻居对该项目给出的等级。
世界最大的在线零售商亚马逊公司已经部署了基于项目的协同过滤。基于项目的方法在中介绍。它计算目标项目Ii和所有其他项目Ij之间的相似度;j =1... N,ine;j查找K个最相似的项目。最后,使用活动用户Uu 对这k个项目的评级来预测未知评级^rui。
相似度计算是基于邻域的协同过滤的重要步骤。许多相似性度量已经被引入到不同的领域,例如机器学习、信息检索和统计学。推荐系统社区的研究人员和实践者直接使用它们或发明新的相似性度量来满足目的。接下来我们简单讨论一下。
2.2、CF中的相似性度量
基于邻域的CF方法的关键步骤是利用合适的相似性度量来寻找活跃用户的邻域。 正如我们在前一节中讨论的,传统的相似度量不能用于稀疏评级数据集。 在本节中,我们提出了适合于稀疏数据集的相似度量方法。 我们建议的措施的动机如下。
传统的度量如皮尔逊相关系数(PC)、余弦相似度等常用于推荐系统。表1列出了基于邻域的相似性度量中常用的相似性度量.余弦相似性是信息检索领域中非常流行的度量方法。为了计算两个用户U和V之间的相似性,它们被认为是N维的两个评级向量其中N0是包含0的自然数的集合.那么,两个用户之间的相似度值就是U和V之间角度的余弦。余弦相似度在基于项目的CF中很流行。然而,在计算一对项目之间的相似性时,余弦相似性不考虑单个用户提供的不同评级尺度。调整余弦相似性度量通过从项目的评分中减去相应的用户平均值来解决这个缺点。它计算两个项目评分之间的线性相关性。
皮尔逊相关系数是基于用户的协同过滤中非常流行的度量。PC测量两个用户如何彼此线性相关。在确定了用户U和V之间的装饰项目后,PC使用表1中给出的定义计算它们之间的相关性.PC的值范围为1;thorn;1.值1表示高度相关,1表示彼此负相关。同样,两个项目I和J之间的相似性也可以使用PC来计算。约束皮尔逊相关系数(CPC)是个人电脑的一种变体,其中使用绝对参考(评分标准中的中间值)来代替相应用户的评分平均值。均方差(MSD)在中提出,并使用表1中给出的公式进行计算.但随后并没有受到研究者的重视。
为了提高基于邻域的推荐精度,近几年来,许多研究者引入了不同的相似性度量来解决数据稀疏和冷启动问题。罗等人通过引入两种类型相似性,即局部用户相似性和全局用户相似性,解决了稀疏数据中的相似性问题。为了计算一对用户之间的局部相似性,他们使用每个用户的向量,该向量是从每个被评级项目的评级分布和对该项目的评级中导出的。最终预测是从本地邻居和全局邻居获得的预测的线性组合。这项工作在中有所扩展。引入了各种稀疏性度量,并将其用作线性组合中的权重。这种方法的主要缺点是每个项目的评级分布被假定为拉普拉斯。
PIP是继传统相似性度量之后最受欢迎的度量方式。点击率衡量标准包括三个重要方面,即同一项目的两个评分之间的接近度、影响力和受欢迎程度。接近系数是一个项目上两个评分之间的简单算术差。同意是相对于绝对参考来决定的,即,。评分等级的中位数。影响因子显示用户喜欢或不喜欢某个项目的程度。流行因素对远离物品平均等级的等级很重要。该因子捕获相关项目的全局信息。匹普计算每对同等级项目之间的这三个因素。在向新用户提供推荐方面,基于画中画的推荐优于基于相关性的推荐。
Kim等人提出了解决冷启动问题的相似性度量。它建立了一个模型,该模型首先预测评级,然后根据每个用户的已知评级计算预测误差。根据这个错误信息,最终模型被建立。然而,该方法使用传统的相似性度量进行初始预测。
博瓦迪利亚等人。针对其中传统度量的缺点,提出了一些相似性度量。博瓦迪利亚等人建议将雅克卡和均方差(MSD)(称为JMSD)结合起来,相互补充。他们还提出了基于独特性的衡量标准,将相关和非相关评级的百分比与共同评级项目的MSD值结合起来。博瓦迪利亚等人,建议在计算两个用户之间的相似性时,使用数字评分(信息)以及两个用户的评分分布(变化)。为了获取数字信息,作者计算具有完全相同评级的同评级项目的数量、具有不同评级等级的同评级项目的数量和MSD对同等级项目的评级。Jaccard度量用于捕获由这两个用户提供的评分变化。这些措施被称为基本措施。最后,将这些基本度量结合起来形成一个相似性度量,称为均值-雅克卡-差值(MJD)。神经学习技术用于计算每个基本度量的权重。他们表明,在计算了大量的邻居后,基于MJD的CF在MAE(平均绝对误差)精度度量方面开始优于基于皮普的CF。然而,这三种方法都存在一些共评项目问题。因此,这些不能用于稀疏数据的评级。
Choi和Suh 介绍了一种基于个人电脑的测量方法,他们认为活跃用户的邻域是动态的,它取决于目标项目。他们使用等式计算了用户V和活动用户U对于目标项目I的相似性。
刘海峰等人最近引入了一种新的相似性度量,称为NHSM(新的启发式相似性模型),它解决了基于粒子群优化的度量的缺点。他们提出了一个论点,即在计算邻近性和影响因素时,基于和平执行方案的措施不必要地不止一次地进行惩罚。他们采用了一个非线性函数来计算三个因素,即邻近性、显著性和基于点云的测量在同一条线上的奇异性。最后,将这些因素与修正的Jaccard相似性度量结合起来。然而,这些因素仅在同等级项目上计算。未装修项目的评分被忽略。为了利用非装饰物品的评级,在中首先使用了流行的Bhattacharyya度量。Patra等人。提出了一个通用的相似性度量公式,其中现有的度量方法可以用来解决用户冷启动问题。在这种方法中,如果非装饰物品之间的相似性最大,则考虑对一对非装饰物品的评级。否则,评级将被忽略。这种方法的主要缺点是它不能利用所有非共评项目的评级。如果一对用户对很少或没有相似的项目进行评分(最大相似度),这种方法不能用于寻找他们之间的相似度。甄等为协作团队环境提出了基于CF的推荐系统。由于传统的测量方法不能用于这种情况,他们引入了一种相似性测量方法,这种方法可以捕捉协作团队的上下文信息。四维工作流空间模型被用来寻找团队成员之间的相似性。甄等还为P2P环境下的知识推荐系统提出了一种计算节点间相似度的方法。每个对等体的配置文件信息由数字、二进制和名义属性组成。这三种类型的属性是分开处理的。这些措施具有高度的领域特异性。
3、CF的建议相似性度量
基于邻域的相似性度量方法的关键步骤是使用合适的相似性度量找到活动用户的邻居。正如我们在前一节中讨论的,传统的相似性度量不能用于稀疏的评级数据集。在这一部分中,我们提出了适合于稀疏数据集的相似性度量。我们提议的措施的动机如下。
- 在稀疏的数据中,单个用户的评价数量一般很少,并且发现共同评价的项目很少。建议的措施在两个用户之间很少或没有共同评价的项目时有效。
2、相似性度量使用本地和全球评级信息。使用用户评级的相关性计算的本
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[259193],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。