适用于在线学习的协同过滤推荐系统外文翻译资料

 2022-06-25 22:53:42

英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料


适用于在线学习的协同过滤推荐系统

摘要

在在线学习推荐系统的环境下,我们打算让具有更多知识的用户(例如,在各种在线测试中获得较好成绩的用户)在推荐指标的计算时比知识较少的用户拥有更大的权重。为了实现这个目标,我们在基于记忆的协同过滤算法中设计了一些新的方程,通过这种方式扩展现有的方程来收集和处理每个用户在不同等级的测试中获得的分数的相关信息。

1.介绍

推荐系统(RS)涵盖了在Web 2.0环境中开发的协作服务中的一个重要领域[1-3],并且能够以复杂而强大的方式利用用户生成的意见。RS可以被认为是提供动态协作通信、交互和知识的社交网络工具。

RS涵盖了各种各样的应用[4-6],但与电影推荐相关的内容在研究领域是最知名和最广泛使用的[7-9]。尽管如此,协同过滤方法在线学习领域正在蓬勃发展[10,11],将这一领域转化为重要的应用接收器,并在计算机科学领域[14,15]以及其他不同的领域[16,17]产生了大量研究论文[12,13]。在创建分布式、联邦式[18]和网格式[19]协作式电子在线学习服务的努力尤其有趣。

通常在推荐系统中对获得的结果质量影响最大的是协作过滤(CF)阶段[20,21]。CF基于根据被认为与该用户相似的一组用户的偏好来对该用户的偏好进行预测。CF领域的大量研究集中在如何确定哪些用户与给定用户相似; 为了解决这个问题,目前基本上有三种方法:基于记忆的方法,基于模型的方法和混合方法。

基于记忆的方法[22,23]使用相似性度量[21],并直接对包含所有用户的评分的比率矩阵进行操作,这些用户在协同服务中表达了他们的偏好; 这些度量在数学层面上通过每各自的比率矩阵表示两个用户之间距离。基于模型的方法[22]使用比率矩阵来创建一个模型,从中建立相似用户集合。在我们使用最广泛的模型中:贝叶斯分类器[24],神经网络[25]和模糊系统[26]。一般来说,在商业上运用的推荐系统是使用基于记忆的方法[27],而基于模型的方法通常与研型或学术型的推荐系统有关。

无论协同过滤阶段采用何种方法,通常所追求的技术目标都是通过尽可能提高推荐系统的的准确性[28-31]来使预测误差最小化; 然而,还有其他指标需要纳入考虑范围:比如,避免过度专业化现象,找到好的项目,建议(推荐结果)的可信度,精确度,召回率等等。

基于记忆的方法在U个用户分别在I个项目上的评分表格(矩阵)上进行作。对用户u未进行评分的项目i的预测被当做一个集合进行计算,这个集合中的数据是与该用户最相似的K个其他用户(k领域)对同一个项目i的的评分r的集合。处理这种集合数据最常见的方法就是是求平均数或求加权平均数; 相似性方法通常基于两个用户已经评分的项目的评分来计算两个用户x和y之间的相似度:sim(x,y)。最常用的相似度度量方法是Pearson相关系数相似度和余弦相似度。

2.基于在线学习记忆的过滤

推动推荐系统发展的理念中强调的一个观点是基于用户之间的平等,这里所说的平等不仅取决于用户他们获得服务的可能性,而是也是最重要的是他们每个人对其他人收到的建议的可能性是相对平等的。通常的推荐系统是根据用户提供的评分矩阵来找到与每个用户最相似的其他用户,并通过这些相似用户的行为(评分)来形成推荐。

在大多数推荐系统中,用户之间的平等对待是合理和方便的,例如,我们事先没有理由相信一个用户比另一个用户更有资格完成对有关电影,旅程,博客等的推荐。然而,存在一组推荐系统,在这种推荐系统中上述所说的这种情况没有多大意义从而可以不予考虑。在这种不对称的情况下,在线学习领域的推荐系统是最典型的例子; 因为,我们知道在这些推荐系统中,人们可以很容易区分高级用户和新手用户,例如教师和学生产生的评分,或者高级学生(在线学习时间已经很久)和正在开始学习的学生提供的评分行为。

应对这一新特征的一种方法可能就是将所有用户划分为不同的类别,每个类别可以包含一个参考组(老师,高级学生,新手学生等),并且每个的参考群体都有一个表示其重要性的权重值。在我们的案例中,我们选择了一个更加通用和渐进的解决方案,在这个解决方案中,我们避免了为系统中的每个用户都建立不同类别的权重值。

在我们的适用于在线学习的推荐系统的协同过滤模型中,我们首先构造一个常见的二维矩阵R,它由U个用户对I个项目的评分构成,此外我们在评分矩阵的基础上添加另外一个二维矩阵C ,它由U个用户在T个不同水平的测试或考试中取得的分数所构成。通过这种方式,在线教育系统的每个用户(基本上是学生)就可以通过他们对项目可能进行的评分(在我们的案例中对文档,教师,科目等进行评估)以及来自学术水平测试T的分数进行区别(分类),因为用户的以上两种行为可以反映了他们对某个线上教育材料中的知识的接受程度以及接受效果。水平测试的等级T可以被设计得像期望的那样大,并且可以包括自动校正测试的分数,已经通过的项目的分数,练习的分数,进行的实践等等。

我们想要正式确定的基本想法是通过不同用户所表现出来的细节特征来确定他们在推荐过程中所应有的权重,因此,以后所考虑的不仅仅是目标用户的评分行为和其他用户的评分行为之间的传统意义上的相似性,而且还考虑到分数较高的用户(如,高级学习者)比分数较低的用户的推荐权重更大。

为了评估用户x(Cx)从具有知识的用户y(Cy)那里获得推荐的知识的重要性,很多的度量方法和函数已经被建立。在本文中,我们已经决定使用通过函数f (如公式1)所建立的简单而不对称的度量,但是,其实使用其他度量(如公式2中所示的度量)也是完全可行的。选择这种度量或者另外一种度量取决于期望权衡每对用户所展现的知识关系以及推荐系统本身的性质。

因此,在度量(1)中,如果用户x的知识为0.7(以0-1为尺度),用户y的知识为0.2(在相同尺度下),则用户x对用户的知识的权重y将为0.5,而用户y对用户x的知识权重为零。

公式(2)中所包含指数函数的度量指标可以提供最平稳和最先进的结果,当没有重要原因设计新的适合特定需求的新指标时,它将成为最合适的适应于推荐系统需求的指标。

所以新的定义的用户x和y之间的相似性的度量方程可以被建立如公式(3)所示,这里我们将相似性称为重要性,即一个用户的推荐知识对于另外一个用户的重要程度。方程的第一项是指用户的测试分数的重要性,故将其纳入考虑范围,而第二项是指用户根据它们的评分行为来完成传统相似性的度量,并将两个部分相乘,传统相似性的度量可以用Pearson相关系数相似度、余弦相似度和MSD相似度等等。

总和用于发现评估用户知识的T个测试所得分数的算术平均值; 未进行测试的项目必须以最低分数(0-1的范围内取最低分数0)进行初始化。Cxt表示用户x在t项目上的知识(通过测试分数反映)。

在用户对之间获得的重要性值用于获得每个用户的k邻域,就像使用协同过滤的传统度量所做的那样,并且以这种方式,可以给予目标用户最为相似的k个用户,与之前传统的协同过滤计算相似度相比,这种方式保证了用户之间的最相似。

3.测试推荐结果

全文共11763字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[10677],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。