基于社交媒体标签挖掘的个性化 音乐推荐系统外文翻译资料

 2022-03-11 22:05:45

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


基于社交媒体标签挖掘的个性化

音乐推荐系统

摘要

在过去的几年中,推荐系统在帮助用户从海量数据中挑选他们更感兴趣的内容的过程中充当了十分关键的角色。就音乐推荐而言,最近的推荐系统主要试图通过根据用户对音乐的评分来将音乐与用户喜好相关联。但是,这种推荐机制遇到了所谓评估多样性的问题,而这使得预测结果并不可靠。为了解决这一问题,在本文中,我们提出了一种新颖的音乐推荐方法,利用社交媒体标签而不是评分来计算音乐片段之间的相似度。通过这种基于标签的相似性,隐藏于标签中的真正的用户喜好可以被有效推断出来。 对真实社交媒体数据集的实证评估揭示了我们提出的方法在预测用户对音乐的偏好方面,使用社交标签要优于现有的仅使用评分的方法。

1. 引言

如今,音乐信息的迅速增长使得对用户喜好的分析阐明的需求大大增加。正因如此,在过去几年中,如何帮助用户从海量的音乐数据中有效地获取他们偏好的音乐(本文中称为item)已成为一个具有挑战性的问题。为此,大量的推荐系统已被提出用来解决这个问题。通常来讲,一个传统的推荐系统会允许用户给出一个数值评分,范围上从1到5。也就是说,用户的喜好程度可用1到5进行量化。基于这种评分,一般的推荐流程可被分解为两个主要的阶段,分别叫作评分预测阶段和项目选择阶段。

1.评分预测阶段:这个阶段主要是考虑到为了预测那些尚未获取的项目的评分。所谓尚未获取的项目是指那些未被用户主动评分的项目。

2.项目选择阶段:在对那些尚未获取的项目进行评分预测后,可以导出一个未获取项目的排名列表,前k名的项目则是系统推荐给那些活跃用户的。

由于第二个阶段相对直接且并不昂贵,过去的大部分研究主要仅集中于第一阶段,即对所有未获取项目进行评分与猜测。一般来说,传统的推荐系统的基本思想是基于这样一个假设,即具有相近的评分的项目或个人会被划分到一个集合中来支撑评分预测。这种类型的推荐系统称为协同过滤(CF)。不幸的是,基于协同过滤的推荐系统在预测项目评分上面临着一个巨大的问题,我们称之为评估多样性,评估多样性表明评级在项目或用户中并不一致。例如,考虑一个事务表如图1所示,它描述了一个包含6个用户和6个项目的评分的矩阵。在本例中,对项目2而言,基于项目的传统推荐系统给出的最相关的是项目4,对用户1而言,基于用户的传统推荐系统给出的最相关的用户是用户5。如果要获得用户4对项目4的预测评分,传统的推荐方法会通过用户4对其已评级的项目2来给出预测评分,即1分。相应的,由于实际用户评分是4分,评分错误是4-1=3分。这个错误对体现真正的喜好关系而言实在太大。同样,5-1=4分的巨大的评级错误,在使用基于用户的推荐系统来获得用户5对项目5的预测评分时也会出现。(因为用户1对项目5的评分为1分,但用户5的实际评分为5分)

项目1

项目2

项目3

项目4

项目5

项目6

用户1

1

0

0

5

1

0

用户2

0

2

0

3

2

3

用户3

0

2

0

2

0

0

用户4

4

1

0

4

0

0

用户5

1

0

0

5

5

3

用户6

0

2

0

1

3

0

图1 基于传统的协同过滤方法的项目评分预测实例

为了减少上述问题,在本文中,我们提出了一种新颖的推荐系统,称为基于标签驱动的项目相似性的推荐系统,它采用播放次数作为隐性评分,项目标签作为语义偏好。通过挖掘评分及标签之间的关系,我们可以很成功的得出用户的喜好。实验结果表明,我们提出的方法,相比目前最先进的方法,可以更有效地获得用户在音乐方面的偏好。另外,实验结果更是表明用户的偏好同其社交标签高度相关。本文的剩余部分按后续所述来组织。在第二节,给出本系统目前的研究现状。在第三节,我们将描述如何通过挖掘社交标签来预测用户偏好。第四节则给出我们所提议的经验评级的真实数据集。最后在第五节,我们则陈述相应结论以及未来的工作。

2.相关研究

协同过滤原则上是指一组推荐系统从用户的评分中学习检索行为偏好。过去由于音乐获取方面的需求,已经开展过相当多的音乐推荐系统的研究。尽管这些研究被证明有效,这当中仍然存在一些问题且难以解决。下面依据不同分类简要介绍过去的研究成果。

I. 基于记忆的协同过滤

这是一个传统的推荐范式,它通过参考用户-项目矩阵来推测评分。众所周知的事,基于用户的推荐系统,通过最相关的用户来尽可能的预测项目评分,而基于项目的推荐系统则通过最相关的项目来预测评分。为了解决上述方式缺乏个体性的问题,Wang 提出了一个将基于用户和基于项目的协同过滤方法相统一的算法。另一个类似于基于用户的协同过滤但是用的是用户和项目的重要性的算法则是由 Bobadilla提出。事实上重要性仍旧是由评分计算得到的。第一节中提到过,这种类型的推荐系统仅仅只考虑到了评分,因而会遇到评估多样性的问题。

II. 基于模型的协同过滤

同样是在评分的基础上,基于模型的协同过滤的主要目标是通过机器学习技术对行为进行建模。通过从用户的评分记录中学习用户行为,那些隐藏在评分行为中的用户偏好就因此可被推断出来。SVM(支撑向量机),决策树和贝叶斯法是目前用于识别不同分类的特征的最流行的方法,也是 [15] ,[6] 和 [3] 中采用的相应的评分分类器。然而基于模型的协同过滤的有效性在会导致评级多样性的评级空间中是有限的。

III. 基于内容的协同过滤

除了上面已经讨论过的评估多样性问题以外,基于评分的推荐系统的另一个性能瓶颈在于评分稀疏问题。也就是说,比较稀疏的用户-项目评分无法提供足够的信息来进行准确的偏好预测。图1是一个恰当的例子,在本例中,我们很难准确预测第三个用户的偏好因为他/她的评分过于稀少,于是,越来越多的过去的研究把注意力集中在如何利用额外的内容信息,如低层次的音频特征、档案、标签等,以提高推荐的准确程度。在本文中,我们将这种使用标签信息的系统称为基于标签的推荐系统。Tso-Sutter等人提出了一种通用的方法,它包含了标签信息来计算用户和项目之间的加权条件概率关系。通过使用用户资料和标签集群,shtagsen等人提出了一种个性化的算法来诱导用户对音乐的偏好。Peng等人提出了一个联合项目与标签的推荐框架,利用标签数据中的完整信息来实现推荐。Qi等人试图通过推断用户对标签的评分来描述用户,从而改进基于用户的协同过滤。

3. 方法拟定

3.1 基本思想

在实际应用中,大多数基于标签的推荐系统严重依赖于像 Last FM这样的社交音乐网站上的标签。不幸的是,基于社交的音乐网站仅仅提供了用户的播放计数而没有评分。它使偏好预测类型从评级转变为概率关系。换句话说,这种类型的推荐机制可以预测用户和项目之间的相关性,从而生成一个项目的排名列表(所谓的TOP N推荐,TNR)。实际上,要精确地评估基于TNR值的推荐并不容易,因为排名列表中包含了未评分的和测试/评分的项目。然而,当前大部分采用TNR值的基于标签的推荐方法将精度作为评价指标。精度表明测试项目与排名前N的结果的比例。详细地说,基于标签的推荐系统将测试项目视为基本事实。因此,对于这种类型的推荐,一个成功的预测应能保证一个结果项目应该是一个测试项目。也就是说,未测试的项目被认为是不正确的预测结果。这种测量范式似乎不合适,因为没有证据表明未评级的项目对活跃用户是负面的。让我们举一个简单的例子来详细解释这一点。假定在数据库中有{项目1,项目2,项目3,项目4,项目5,项目6}6个项目,并且对活跃用户而言,测设项目集,即表明由活跃用户主动评分的是{项目1,项目2}。那么可由基于标签的推荐系统生成一个排名列表,为{项目3,项目2,项目4,项目1,项目6,项目5}。相应的,精度为0/1, 1/2, 1/3, 2/4, 2/5 和2/6,当N值为1, 2, 3, 4, 5, 6时。在本例中,要说明的一点是,并不适合将为评分的项目直接作为错误预测,因为项目3,项目4和项目5对活跃用户而言可能是正面的。

与上面的前TOP N 推荐相比,评分预测可以更清晰地表现出推荐系统的有效性。在评分预测系统中,它表明推荐系统可以精确地捕捉用户的偏好,如果事实与预测的误差很小。也就是说,错误越小,性能越好,用户的偏好和推荐之间的差距就越小。因此,在本文中,我们仍然可以通过计算音乐之间的标签相似度以预测用户对项目的评分来表示用户的偏好。我们所提出的方法的基本思想是,如果相关的标签分布是相似的,那么项目是相似的。这个想法是由下面的例子来描述的。对于图1中的项目1,它将受到第1节中提到的“评估多样性”问题的影响。假设数据库中的标记集是tag1、tag2、tag3、tag4、tag5以及项目1、项目2和项目4的标记集分别是tag1、tag2、tag5、tag3、tag4和tag1、tag2、tag5。在这个例子中,很明显,在考虑标签相似性的情况下,项目1和项目4之间的相关性要高于项目2和项目4之间的相关性。因此,用户4的项目4的评级是4,通过引用项目1,错误是4-4=0,这比使用评级相似性引用项目2要小得多。

3.2 拟议方法概述

一般来说,音乐推荐系统的目标是满足用户的需求,从而有效地从大量的音乐数据中找到喜欢的音乐。为了达到这个目标,我们提出了一个创新的推荐系统,它考虑了项目标签、艺术家标签和播放计数来预测用户的偏好。在上述章节中提到的概念中,主要的贡献可以总结如下。

图2 拟议推荐系统框架

I. 使用标签信息而不是评分可以有效缓解评分多样性的问题。也就是说,项目的相似性是由标签频率向量计算的。

II. 尽管使用标签信息,用户的偏好是由评分而不是排名列表表示,换句话说,最终结果是通过将标签信息整合到协同过滤算法中所推导出的评分。

III. 即使来自社交音乐网站的数据没有评分,我们也可以通过统计播放次数来得出评分。也就是说,我们提出了一个公式,可用统计理论将播放次数转化为评分。

如图2所示,我们提出的推荐系统的框架分为两个阶段,即脱机预处理和在线预测阶段:1)脱机预处理阶段:此阶段的目的是加速预测,并满足通过评级来表示用户偏好的要求。因此,分别由评分转换和项目相似性计算生成项目-评分和项目-相似矩阵。2)在线预测阶段:这个阶段是由一个活跃用户的访问触发的。对于活跃用户,未评级的项目被视为目标项目,然后通过引用其他相关项目来预测相关项目的评分。

3.3 脱机预处理阶段

3.3.1 评分转换

在实际的应用中,播放次数可以代表用户的偏好。也就是说,你经常听的音乐应该是你在音乐数据库中最喜欢的音乐。在此基础上,本文提出了一种公式,将播放次数映射到评级空间中,用以满足用户对评分的要求。图3显示了如何将播放计数转换为评分。全部流程包含三个阶段。首先,播放次数可通过阈值T划分至两个不同的范围,其中T=mu;-tau;*sigma;,mu;为播放次数,sigma;表示用户播放次数的标准差,tau;是权重。其次,低于T的范围进一步划分为两个相等的子范围,范围数设置{1, 2},而高于T的部分被分为3个相等的子范围{3, 4, 5}。第三,如果一个播放计数在特定范围内,它可以被转换为该范围对应的数值。在这个过程中,T的确定实际上是基于我们所进行的评级系统所收集的真实的评级数据。参考图3,在本文中将实验数据tau;设置为0.5。

图3 播放次数与评分转换

3.3.2 项目相似性矩阵构建

在脱机阶段的另一个工作是计算项目之间的相似性,从而生成一个项目相似矩阵。构建项目相似性的主要目的是减少在线预测成本。关于图2,项目的相似性是通过融合两个相似点来获得的,即项目-标记驱动的相似性和艺术家-标记驱动的相似性,如定义1和2所示。

定义1. 假定数据库中由有i个不同的项目IM={itm1,itm2,⋯itmi}和j个不同的标签{tag1,tag2,⋯ tagj},那么对所有itmnisin;IM而言,标签特征向量可定义为ivn={f1n,f2n,⋯fjn}。其中fjn表示itmn的tagj的注释频率,itma与itmb的项目-标签驱动的相似性可由下式

全文共10868字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[16714],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。