英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料
基于项目域特征的用户偏好协同过滤推荐算法
摘要
个性化推荐是对抗“信息过载”的有效方法。然而,它的性能往往受到几个因素的限制,例如稀疏性和冷启动。一些研究人员利用社会标签系统中用户创建的标签来描述用户对个性化推荐的偏好,但由于用户的描述习惯和语言表达的多样性不同,很难识别出具有相似兴趣的用户。为了更好地描述用户偏好,使其更适合个性化推荐,我们引入了一个框架,该框架利用项目域特征构建用户偏好模型,并将这些模型与协同过滤(CF)相结合。该框架不仅将领域特征集成到个性化推荐中,而且有助于检测用户之间的隐含关系,这是传统的CF方法无法检测到的。实验结果表明,该方法取得了较好的效果,证明了用户偏好模型在推荐中的有效性。
关键词:个性化推荐、协同过滤、用户偏好模型、项目域功能
1.介绍
信息技术的快速发展以及当前互联网的增长和普及促进了信息爆炸,加剧了信息过载问题。个性化推荐作为最有用的方法之一,最早于20世纪90年代提出,它采用数据挖掘和机器学习等知识发现技术,根据用户行为发现用户兴趣,然后进行推荐。个性化推荐的一个典型应用是在电子商务中,比如亚马逊的图书推荐,Netflix的电影推荐,TiVo中的视频推荐等等。一个高效的推荐系统不仅能为用户提供合适的推荐,还能帮助服务提供商获得可观的利润。
主流推荐算法可分为四类:基于内容(CB)、协同过滤(CF)、基于网络(NB)和混合推荐(HR)。基于内容推荐算法的对象与目标用户以前喜欢的对象相似。然而,这种方法无法过滤音频、图像或视频信息。协同过滤推荐算法是最成功的推荐系统技术。在协同过滤算法中,我们根据具有相似性能的用户希望选择相似项目的假设进行推荐。然而,协同过滤算法的性能受到数据稀疏性的显著限制。基于网络推荐算法利用用户和项目之间的关系或用户之间的关系构建网络,然后分析网络以间接确定对用户的推荐。然而,“冷启动”问题无法解决。最后,混合推荐算法是目前最流行的方法,它结合了至少两种推荐算法来确定推荐。
最近,许多学者将各种信息集成到推荐系统中以提高性能。这些信息包括标签、时间、信任关系、浏览记录、社交网络等。例如,郑和李调查了标签和时间信息在预测用户偏好时的重要性和有用性,并因此研究了如何利用这些信息来构建有效的资源——推荐模型。尹等人考虑了信任关系的潜在价值,构建了一个信任偏好网络来提出建议。Kardan等人介绍了一种创新的推荐系统架构,该架构利用了协作标签和概念图。Zhang等人提出了一种在单一模型中结合内容和关系分析的推荐方法,来评估用户、标签和资源之间的关系,以获得标签、项目和用户建议。向推荐系统添加信息不仅可以提高性能,还可以增强对哪些因素影响推荐的理解。
社会标签系统目前受到学者的欢迎,他们利用用户创建的标签来描述用户对个性化推荐的偏好。Kim等人提出了一种协同过滤(CF)推荐方法,通过用户创建的标签提供增强的推荐质量,这些标签用于识别和过滤用户对某些项目的偏好。Shang等人研究了一个个性化推荐模型,该模型利用用户、对象和标签之间的三元关系,提出了基于偏好和标签信息的相似性。Zhang等人提出了一种基于用户-项目-标签三方图的综合扩散推荐算法。Schenkel等人提出了一种增量阈值算法,该算法同时考虑了用户之间的社会关系和不同标签之间的语义关系。Nakamoto等人创建了一个基于标签的上下文协同过滤(CF)模型,将标签信息作为用户配置文件。Tso Sutter等人提出了一种通用方法,通过将三元相关性减少为三个二元相关性,然后应用融合方法重新关联这些相关性,使标签能够并入标准的协同过滤CF。然而,由于人类的描述习惯和语言表达的多样性,用户创建的标签数据非常稀疏。例如,许多用户更喜欢用“快乐”来表达他们的喜悦,而其他人则更喜欢“高兴”。同样,一些用户习惯于使用“糟糕”来表示不满,而另一些用户则更喜欢“讨厌”。这一特征阻碍了通过社交标签系统识别具有相似兴趣的用户。
此外,不同的领域项目往往表现出不同的特征。例如,性能和质量对电子产品很重要;类型、导演和演员构成了电影的主要信息;音乐风格和服务范围是人们关注的其他主要因素。这些特征在本文中称为域特征。鉴于领域特征的多样性,传统的个性化推荐并不适合所有领域。因此,需要结合领域特征和个性化推荐的方法。
近年来,学者们开始关注领域推荐系统。例如,Chen等人提出了一种糖尿病药物,基于药物属性和患者症状领域本体的推荐系统。Garcia-Crespo等人提出了一个基于消费者体验和酒店特征的语义专家酒店推荐系统。Xin等人提出了一种结合模糊聚类和协同过滤CF的财务信息推荐算法。Carerneto等人在电影领域提出了一个基于社交的内容推荐系统,该系统使用了语义网原理,为了帮助用户找到与他们的喜好相关的内容,同样也提出了构建新协同过滤的CF的社交网络。Wei等人介绍了一种新闻推荐系统,其中每个用户都被视为网络的一个节点。用户可以向他人发布和推荐新闻,同时也可以接收他人的新闻。然而,这些推荐系统只能很好地适应一个特定的领域。因此,开发适用于各个领域的通用方法更有意义。此外,尽管领域特征通常用于增强项目特征描述,但很少有研究关注基于项目的领域特征扩展用户偏好。
在本文中,为了更好地描述用户引用并将领域特征集成到推荐系统中,我们提出了一个框架,在该框架中,我们首先使用项目域特征构建用户偏好模型,然后将这些模型与领域推荐的协同过滤CF相结合。此外,该框架还可以向尚未与他人选择任何公共项目的用户提供建议。最后,将该框架应用于电影领域,取得了良好的效果。
2.方法
2.1通过标签和评分比较寻找邻居的能力
鉴于用户描述习惯的差异和语言表达的多样性,不同的用户使用不同的词或短语来描述相同的感受。这一特性阻碍了通过用户创建的标签识别具有相似兴趣的用户。为了说明这一点,我们对基准数据集MovieLens进行了统计,其详细信息在第3.1节中描述。通过使用标签和评分,比较找到兴趣相似的用户的能力,统计数据显示MovieLens中只有大约15%的用户通过使用用户创建的标签拥有邻居。我们还对其他数据集进行了统计,得到了类似的结果。
与标签相比,项目特征是基于统一标准给出的,特征空间小于标签空间。因此,我们希望使用项目特征而不是用户创建的标签来构建用户偏好模型。
此外,项目始终包含电影领域的类型、导演、演员和国家信息,以及电子产品领域的性能和质量等功能。这些特性不仅有助于用户更好地理解,还可能在一定程度上反映用户的偏好。举一个简单的例子,如果一个用户选择了很多恐怖片,但只有几部关于爱情的,他或她可以被认为是喜欢恐怖片的人。事实上,用户偏好并不像示例那么简单,它总是由各种因素组合而成。因此,我们利用项目特征来构建一个表示用户偏好的模型,并将领域特征集成到个性化推荐系统中。
2.2基于项目域特征的用户偏好矩阵建模
鉴于第2.1节最后一段中讨论的所有上述原因,我们假设用户偏好通常可以从他/她的评分项目中暗示出来。
我们使用V={1,2,hellip;,N}来表示项目集,用户集是U={1,2,hellip;,M}。为了方便起见,i和j分别用于表示项目和用户。用户j评定的项目评分集定义为:其中表示用户j对项目i的评级,Vj表示用户j对项目的评级。显然, =是V的子集。
附加到项目i的域特征集被表示为。以电影领域为例,它的领域特征包括多个类别的信息,如类型、导演、演员、国家等。
因此,描述用户偏好的功能集正式定义为:其中,是用户j首选的特性之一,是用户j选择的项目的特征的联合。包含域特性。
因此,用户j的偏好矩阵由和确定:其中是一个htimes;r矩阵,其中列表示用户j首选的特征,行表示用户j评级的项目。由以下函数确定:。
2.3用户偏好向量建模
我们使用表示用户j的偏好向量。是的重量,满足。无限多个可行解满足这些条件。因此,关键问题是从用户偏好矩阵中找出最优解。
第2.2节,是用户j的偏好矩阵,其中列是一组有限的属性(项目特征),行是一组离散的备选方案(项目)。在多属性决策(MADM)中,被称为决策矩阵。是属性的权重向量,如果给定,我们可以应用MADM方法对备选方案进行排序。TOPSIS(与理想解相似的排序技术)是MADM方法之一。它基于这样一种理念,即选择与理想解决方案相似的替代方案。因此,我们可以应用TOPSIS的概念来建立优化模型,以找到最优解。
TOPSIS的主要步骤总结如下:首先通过函数将规范化为;第二将加权归一化决策矩阵构造为;第三,确定正理想解和负理想解: 对于正面影响属性,,对于负面影响属性,;然后计算备选解和理想解(正解和负解)之间的欧几里得距离,记为d 和dminus;; 最后,使用函数计算备选方案与理想解决方案的相似度,并对备选方案进行排名。
这里,项目特征既不是正面影响属性也不是负面影响属性。因此,TOPSIS 中的理想解决方案无法适应这种情况。通常,人们习惯于使用特征评分的平均值来表达理想的特征评分。因此,理想点可以近似表示为,其中。因此,我们基于TOPSIS的概念构建优化模型,使备选方案与理想点之间的距离平方和最小,并将每个权重的参数作为模型的决策变量。功能如下所示:
,
解决办法是:
。
我们对权重进行降序排序,保留权重在前NF的特征,以降低维数,提高计算速度。
2.4基于用户偏好模型的CF
为了将用户偏好模型与 CF 相结合,我们假设两个具有相似向量的用户喜欢相同的物品。因此,我们使用以下余弦函数来计算它们的相似度。
,其中j, kisin;U。我们对相似度进行降序排序,并选择相似度在顶部PL中的用户作为目标用户的邻居。目标用户j的邻居集合被标记为。
更具体地说,用户j用于评价项目i的预测分数由以下公式计算:
,其中sim (j, k)是用户 和k之间的相似度,是用户j的邻居k对项目i 的评分。表示目标用户j 的邻居集合。我们对进行降序排序,然后选择在top L中的item i推荐给目标用户。向用户j推荐的项目集标记为。
2.5算法
我们提出了一个框架,旨在基于项目域特征对用户偏好进行建模,并将它们与 CF 结合起来进行个性化推荐。 该框架由三种算法组成:UPM-B-IDF(基于项目域特征建模用户偏好矩阵)、UPV(建模用户偏好向量)和CF-B-UCM(基于用户偏好模型的CF)。UPM-B-IDF算法旨在利用物品领域特征对用户偏好矩阵进行建模;UPV算法旨在从用户偏好矩阵中推导出用户偏好向量;CF-B-UCM算法旨在将用户偏好模型与协同过滤相结合,提供个性化推荐。 这些算法表示如下:
UPM-B-IDF算法:
UPV 算法:
CF-B-UCM算法:
UPM-B-IDF算法和UPV算法的计算复杂度都是O(htimes;r),CF-B-UCM算法是O(log M)。
3实验和结果
3.1数据源
我们使用基准数据集 MovieLens来评估我们的推荐算法的有效性。MovieLens是在 HetRec2011框架中发布的,包含2113个用户、10197部电影、20种电影类型、4060位导演、72个国家、13222个标签和 855598个评分。我们使用10折交叉验证来评估该算法的性能,其中数据集被随机划分为10个集合。在十次运行中的每一次中,其中一组作为测试集,其余九个组合成训练集。十次运行后,每组在测试集服务一次,在训练集服务九次。我们计算十个结果的平均值作为最终结果。
3.2绩效评估指标
我们采用六个指标:NMAE(归一化平均绝对误差)、召回率、精度、F度量、多样性和流行度 [13,31,32],来研究所提出算法的性能。前三个是准确度指标,而第四个是准确率和召回率的综合性。Inter-diversity (De) 衡量针对具有不同习惯和品味的不同用户的个性化推荐。最后一个指标衡量推荐深色(不太受欢迎)项目的能力。
在介绍上述指标的具体定义之前,我们应该解释符号,和|.|。表示用户j的推荐列表。是用户j在测试集中评定的项目集。|.|表示基数。
NMAE是通过将数值预测值与用户原始评分进行比较来评估推荐算法准确性的最常用方法。
,其中 M 表示用户数,和分别表示评分范围内的最大值和最小值,是用户 j 对项目 l 的原始评分,表示用户 j 对项目 l 的预测评分。
精度定义为出现在和中的项目数与中的项目总数的比率。因此,整个系统的精度由下式给出:
,其中Pr e代表Precision,n是用户数。精度也称为命中率。更大的精度对应于更好的性能。
召回率定义为出现在和中的项目数与中的总项目数的比率。因此,整个系统的召回率由下式给出:
,其中Re代表回忆。较大的召回对应于更好的性能。
召回率指的是命中集大小与测试集大小的比率,而精度指的是命中集大小与前L集大小的比率。然而,这两个指标往往相互矛盾。例如,增加数字L往往会增加召回率,但会降低准确率。因此,F-measure指标是精确性和召回率的综合性。
,其中beta;用于调节 Precision(精确性)和Recall(召回率)的重要性。通常beta;= 1,F-measure标记为F1。
鉴于De基本衡量了两个推荐列表之间项目的多样性,可以通过和之间的汉明距离(Hamming Distance )来量化,即,其中和是用户a和用户b的推荐列表,len是推荐列表的长度。
因此,整个系统的多样性De由下式给出:。更大的De通常会为不同的用户提供更个性化的推荐。
的流行度定义为中项目的平均流行度。因此,整个系统的流行度由下式给出:
,其中 i 是中的一个元素,是i的度数,表示观看过i的用户数。较小的流行度对应于较强的推
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[590340],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。