COLLABORATIVE FILTERING RECOMMENDER
SYSTEMS IN MUSIC RECOMMENDATION
Urszula Kuzelewska[1], Rafal Ducki[2]
-
Faculty of Computer Science, Bialystok University of Technology, Bialystok, Poland
[2] Student of Faculty of Computer Science, Bialystok University of Technology, Bialystok, Poland
Abstract: Nowadays, the primary place of information exchange is the internet. Its features, such as: availability, unlimited capacity and diversity of information influenced its unrivalled popularity, making the internet a powerful platform for storage, dissemination and retrieval of information. On the other hand, the internet data are highly dynamic and unstructured. As a result, the internet users face the problem of data overload. Recommender systems help the users to find the products, services or information they are looking for.
The article presents a recommender system for music artist recommendation. It is composed of user-based as well as item-based procedures, which can be selected dynamically during a users session. This also includes different similarity measures. The following measures are used to assess the recommendations and adapt the appropriate procedure: RMSE, MAE, Precision and Recall. Finally, the generated recommendations and calculated similarities among artists are compared with the results from LastFM service.
Keywords: collaborative filtering, music recommendations, recommender systems
- Introduction
Recommender systems (RS) are methods approaching the problem of information filtering. Their task is to register and analyse a user^s preferences and generate a personalised list of items. In other words, the systems filter the information that may be presented to the user based on their interest. As input data, they register products5 ratings, views of Web sites, purchases of items, as well as specific characteristics or descriptions of the products [11].
Recommendation concerns, among the others, news, music, video, content of e-learning courses, books and subject of web sites or web site navigation.[1]
Music is regarded as particularly difficult domain for recommender systems application [3]. It combines the fields of music information retrieval (MIR) and recommendations [14]. There are several approaches addressed this problem. The easiest solution is to gather ratings from users, however this type of data is difficult to obtain and can contain, sometimes intended, outliers and noise. The other approach is to count tracks played by users and process them to form ratings, e.g. LastFM (http://www.lastfm.com) . Finally, input data can be users5 playlists composed of their favourite songs and artists. There are also methods, which process music streams extracting fundamental complex features from the records, e.g. Mufin (http://www.mufin.com), Pandora (http://www.pandora.com).
The article presents a recommender system for music artist recommendation. It uses track play counts as input data. Different RS approaches, including similarity measures, have been implemented and evaluated using efficiency coefficients and compared to LastFM service results. The paper is organised as follows: the next section introduces recommender system domain: classification, problems, similarity measures and evaluation. The following part presents selected music recommendation solutions. The last two sections concern experiments as well as analysis of the results and the final conclusions.
- Introduction to recommender systems
Recommender systems help customers to find interesting and valuable resources in the internet services. Their priority is to create and examine users individual profiles, which contain their preferences, then update the service content to finally increase the userrsquo;s satisfaction. This section introduces recommender systems: their classification and main problems. It presents selected similarity measures and lists the most common approaches to recommendations evaluation.
2.1 Classification and problems in recommender systems
Considering a type of input data as well used methods, recommendation systems are divided into content-based, collaborative filtering (CF), knowledge-based and hybrid [9].
Content-based recommendations (called content-based filtering) base on attribute (characteristic) vectors of items created from text connected with the items, e.g. their description, genre, etc[11].Asan example, in case ofbooks, the item characteristics include its genre, topic or author. The content-based algorithms recommend items, which are similar to highly rated by the user other items in past. As an example, if a user liked (rated or bought) X movie, a recommender system searched other movies, which were similar to X with regard to its genre, title, directors name or description of the story. The main advantages of content-based systems are: relatively simple implementation and independence of users. The disadvantages are: a problem of 'cold start' for users and the requirement of items5 features analysis.
Knowledge-based approach is better for one-time users stores, e.g. selling cameras (people do not buy cameras often) [1]. The approach bases on technical attributes of the items and user preferences, also weighted, related to the attributes. Knowledge acquirement is often realised by interaction with users. This is an approach, where the 'cold start' problem does not appear and usersrsquo; data are not required to store for long time, however they have to use specific techniques to gather the knowledge.
Collaborative filtering techniques search similarities
剩余内容已隐藏,支付完成后下载完整资料
基于协同过滤的音乐推荐系统
乌苏拉库泽莱斯卡[1]、达基拉法[2]
- 比亚莱斯托克理工大学计算机科学学院,比亚伊斯托克,波兰
- 波兰比亚伊斯托克比亚利斯托克理工大学计算机学院学生
摘 要
如今,信息交流的主要场所是互联网。它的特点,例如:可用性、无限容量和信息的多样性影响了它无与伦比的普及,使互联网成为存储、传播和检索的强大平台信息。另一方面,互联网数据具有高度的动态性和非结构化。作为结果,互联网用户面临着数据过载的问题。推荐系统帮助用户查找他们要查找的产品、服务或信息。
本文提出了一个音乐艺术家推荐系统。它是由基于用户和基于项的过程,可以在用户的会话。这也包括不同的相似性度量。以下措施用于评估建议并采用适当的程序:RMSE、MAE,精确和召回。最后,生成的建议和计算出的相似性。其中艺术家与LastFM服务的结果进行了比较。
关键字 协同过滤;音乐推荐;推荐系统
介绍
推荐人系统(RS)是处理信息问题的方法筛选。他们的任务是注册和分析用户的偏好,并生成一个个性化的项目列表。换句话说,该系统过滤了可能会对以下信息进行过滤,根据用户的兴趣向用户展示,作为输入数据,他们注册产品的评级、网站的意见、项目的购买,以及具体特点或产品说明[11]。
推荐内容包括新闻、音乐、视频、内容网站或网站导航的电子学习课程、书籍和主题。
音乐被认为是推荐系统应用中特别困难的领域[3]。它结合了音乐信息检索(MIR)和推荐领域[14]。有几种方法可以解决这个问题。最简单的解决方案是收集用户的评分,然而这种类型的数据很难来获取,并可能包含(有时是有意的)离群值和噪声。另一种方法是统计用户播放的曲目,并对其进行处理,以形成评级,例如:LastFM ()(http://www.lastfm.com)。最后,输入的数据可以是用户的播放列表,由用户喜欢的歌曲和艺术家组成的播放列表。也有一些方法,它可以处理从记录中提取基本的复杂特征的音乐流,例如Mufin(http://www.mufin.com)、潘多拉(http://www.pandora.com)。
本文提出了一个音乐艺术家推荐系统。它使用曲目播放量作为输入数据。不同的RS方法,包括相似度指标,并利用效率系数对其进行了评估,并与LastFM服务结果进行比较。本文的组织结构如下:接下来的内容是部分介绍推荐系统领域:分类、问题、相似性、措施和评价;下面的部分介绍了选定的音乐推荐方案;最后两部分涉及到实验以及对音乐推荐方案的分析结果和最后的结论。
推荐系统的介绍
推荐系统可以帮助客户找到有趣的、有价值的资源。他们的首要任务是建立和检查用户的个人档案。其中包含他们的偏好,然后更新服务内容,最终增加用户的满意度。本节介绍了推荐系统:它们的分类方法和主要问题。本报告介绍了一些选定的相似性衡量标准,并列举了最多的相似性问题、评价建议的共同方法。
2.1 推荐系统的分类与问题
考虑到输入数据的类型和使用的方法,推荐系统分为基于内容的过滤、协同过滤(CF)、基于知识的过滤和混合过滤(CF)[9]。
基于内容的推荐(称为基于内容的过滤),其基础是由与项目相关的文本创建的项目的属性(特征)向量。例如,它们的描述、体裁等[11]。以图书为例,条目特征包括其体裁、主题或作者等。基于内容的算法推荐的项目,与用户过去的其他项目相似度高的项目,都是用户评价较高的项目。比如,如果用户喜欢(评分或购买)X部电影,推荐系统会搜索其他电影,在体裁、片名、导演姓名等方面与X相似的电影或故事的描述。基于内容的系统的主要优点是:实施起来相对简单,用户的独立性。缺点是:对用户来说,有 '冷启动 '的问题,并且需要对项目的特征进行分析、用户的 '冷启动 '问题和对项目特征分析的要求。
基于知识的方法更适合一次性用户商店,例如销售相机(人们不经常购买相机)[1]。基于技术属性的方法与属性相关的项和用户首选项的权重。知识获取通常是通过与用户的交互来实现的。这是一种方法,其中不出现“冷启动”问题,用户数据不需要存储。然而,长期以来,他们不得不使用特定的技术来收集知识。
协同过滤技术搜索用户或项目之间的相似性,但是只分析用户行为的档案[1]。例如,相似的用户篮子里的产品基本都是一样的,相似的商品被同样的客户购买。这是推荐系统中最受欢迎的技术。他们基于这样的假设,即如果两个用户对某一特定的项目,他们很有可能喜欢类似的其他项目。最重要的优势是这类系统的特点是:精度高、实现简单、不需要额外的关于领域或对象的知识。这一长串的优点是补充了具有以下缺点:用户和对象的 '冷启动 '问题和可扩展性差。
混合方法至少结合了两种不同的方法:每种方法的问题都有不同的方法解决。
在RS领域最常出现的问题是冷启动问题[9]。它涉及到一个新的用户的情况,当没有关于他们的偏好信息时和一个新的项目,当一个新对象被添加到报价中。由于新的对象没有被分配到一个新的对象给任何用户,不能向任何人推荐。基于内容的方法解决了这个问题,通过计算新和已经存储的项目之间的相似性。
在任意推荐系统应用中,提供的项目数量较大,而一个用户在一个会话中访问几到几十次,其结果是输入数据的稀缺性和客户之间的相似度测量可靠性较低[4]。
最后,在线推荐领域中最重要的挑战是可扩展性。RS处理大量的动态数据,但时间结果的产生应该合理地应用于实时应用。一个用户阅读新闻时希望在几秒钟内看到下一个命题,而必须对数百万条存档新闻进行分析[4]。
2.2 协同过滤系统中的相似度计算方法
推荐列表的最终内容在很大程度上取决于为推荐系统选择的类似度量。测量点x=[x1,x2,hellip;,xm]和y=[y1,y2,hellip;,ym]可以使用度量值,这些度量值根据物体之间的关系或距离调整系数专门为推荐而创建。对于所有相似性度量,它们的值越高,表示相似程度越高。
最流行的测量方法是基于余弦的测量方法,它计算的余弦为物体之间的角度(见方程式1)。当两个用户或物品相似时,它们具有可比性,因此它们在空间上接近,方向相同。从原点开始。最近的点的值等于1,而最远的点等于-1。
相似性度量的另一个例子是用户相关,它计算两个成对的值按比例一起移动的趋势。这个相关性由方程2描述,其值来自区间[-1,1]。
皮尔森相关性,虽然简单,在早期的研究论文中经常使用。有几个缺点,首先,该值不考虑重叠值与向量的大小之间的关系;另一个是一个未定义的值,如果用户对所有项目有相同的偏好。
另一种基于相关性的相似性的变体是Spearman秩相关系数。它还衡量了变量之间的关系,但是,它并不是用系数来代替。在计算过程中,我们会把它们的相对排名作为计算的依据。排名的基础是按得分高低顺序排列,因此最低分的用户的排名等于1,最低分的用户的排名等于1,最高分的用户的排名等于1。下面的一个等级等于2,等等。等式3描述的是系数;等级向量x′和y′对应于偏好向量,分别为x和y。
Tanimoto系数是一个衡量标准,它忽略了偏好值,考虑到了两个向量中出现的对象集(见方程式4)。
以距离为基础的测量方法通常用于测量物体之间的相似度。为了使它们的值随距离的增加而增加,可以通过以下方法进行调整(见方程式5),其中d(x,y)表示x和y之间的距离。
基于距离的相似度的值来自区间(0,1]。在推荐系统中最常用的距离度量是欧几里得和曼哈顿度量。
2.3 推荐系统的评价
评估推荐系统及其算法是一项困难的任务[8]。主要的原因是它们的性能取决于数据。这种方法应根据不同的评级值以及用户或项目的主要数量进行调整。排名是指在用户数量和项目数量上占主导地位。第二个原因是数据在时间上的变化。随着新产品的出现或项目的出现,用户的口味也会随着时间的变化而变化。最后,许多推荐系统使用了不同的指标,以及提出了新的措施,这些措施也取决于具体的数据集。
然而,有一些衡量标准,经常被用来评估预测准确度。预测准确度指标衡量推荐系统的预测有多大程度的接近,评分是对真实的用户评分[8]。
最常见的例子是RMSE,它已经在Netflix中普及获奖(www.netflixprize.com)。它由方程式6描述,其中计算预测p和实际r之间的额定值。类似的测量方法是MAE(见方程式7)更能容忍高等级的分歧。两个指标应该有最低的值。
推荐评估的另一种方法是用来自信息检索领域的度量:精确性和召回。萨瓦尔[12]申请了RS。项目可以出现在推荐列表中,并且是相关的(Nrr)或不相关的(Nri),也可以不推荐,但实际上是相关的(Nnr)或不相关的(Nni)。精确性定义为推荐的相关项目与推荐列表中所有项目数量的比率(方程式8),而召回定义为推荐的相关项目与可用的相关项目总数的比率(方程式9)。
精度代表了推荐项目的相关概率,而Recall计算的是相关项目被推荐的概率,它这些指标的最高值是可取的。
音乐推荐
音乐是人们日常生活中的一部分。我们可以在收音机里听音乐。在互联网上或在商店购买专辑。但是,只有推广的或最受欢迎的音乐是很容易找到的。推荐人系统是解决这个问题的好工具。
目前最流行的音乐推荐方法有:协同过滤、基于内容的信息检索、基于情感和基于情境的模型[14]。
协同过滤音乐推荐人根据历史上的曲目播放记录或直接的音乐评分。有趣的解决方案是自动生成播放列表[3],其中搭配的艺术家根据他们在播放列表中的出现情况来确定。
基于内容的程序分析歌曲的描述、特征或声学特征[5]。基于提取的特征,数据挖掘算法,如聚类或采用kNN分类。
与基于内容的方法类似,基于模式的情感模型,但更喜欢感性的特征,如能量、节奏、时间、光谱和和谐[2]。
基于情境的方法,利用舆论发现和推荐音乐的方法[10]。流行的社交网络网站提供了丰富的人类知识,如评论、乐评、标签和友情关系等。基于语境的技术收集信息来识别艺术家相似性、流派分类、情感检测或语义空间。
音乐数据库就是一个巨大数据源的例子。有众多的音乐艺术家,然而却有更多的音乐迷。尽管有一些流行的音乐发现网站,如LastFM、Allmusic(http://www.Allmusic.com)或Pandora(http://www.Pandora.com),但科学文章中出现了许多新方法。最常被提出的是混合推荐系统,这是处理数据大小的一个很好的解决方案[6]。
实验
本节介绍了音乐推荐混合系统的实验结果。该系统是比亚利斯托克大学硕士论文的一部分关于技术[7]。它是一个使用Apache Mahout库的Web应用程序[16]。
训练数据以文本文件的形式从LastFM音乐服务中提取,如图1所示。这套系统包含500名用户,他们收听了13680次,4436位艺术家的足迹。平均来说,一个用户听了27.36首歌,而另一个用户这位艺术家被演奏了3.08次。文件的每一行都包含了用户的id、一个艺术家的名字和一个演奏曲目的名字。
图1 从LastFM服务提取的数据
本文实践部分的目的是在真实环境中构建和评估一个推荐系统(见图2)。它涉及到数据的来源、服务器上的应用部署以及评估的方法,其中包括与LastFM的推荐列表进行比较。为了使其推荐有效,该系统必须使推荐程序适应活跃用户的需要。
其中一个主要问题是对分配给用户的数据进行预处理与评级值,将用户分配到轨道上。它是利用轨道播放次数进行的。第一步是:将游戏次数归一化(见等式10),并将结果用整数进行排序。从区间[1,2,3,3,4,5]中选取。在方程中使用的符号如下。r(ui,tj)--表示评分值,|ui(tj)|是用户ui的轨道tj的播放次数,|ui|是用户ui收听的总播放次数,剩余部分表示某一特定曲目的最大播放次数,由其中一个用户输入数据。
图2 创建推荐系统的体系结构
规范化操作不影响数据关系;图形呈现最常演奏的艺术家及其受欢迎程度(见图3)。
图3 最常播放的50位艺术家人气(右)数据处理
用方程11计算出的用户评分矩阵的密度(p为评分等级,m - 用户数和n - 艺术家数)为0.62%。足够高,可以应用协同过滤程序,并且不影响对生成的建议清单的时间有负面影响。
在处理后的数据中,值为1的评价最多(47.41%),其次是值2(25.58%)、值3(11.24%)、值5(9.9%)和值4(5.86%)。值得一提的是表明评级范围的选择不仅是由其受欢迎程度决定的。使用RMSE值的范围[1,.,.,10]的实验结果更差。
实验所采用的算法是基于用户和项目的算法。相似度量有:余弦量、Pearson和Spearman相关度量、Tanimoto系数、Manhattan系数和基于欧几里得的距离度量。
在基于用户的方法中,有必要确定活动对象的邻域用户。最常用的方法是识别其k近邻(kNN方法)。一些邻国很重要,影响到建议的准确性。表1包含了不同数量k的RMSE结果。
表1 不同邻域数和不同相似度量的基于用户的RMSE方法
在大多数相似度量的情况下,当下列情况下,RMSE值会下降:邻域的大小上升。两者的相关系数都是例外。邻居用户需要更多的时间来识别和处理它们。考虑到上述信息,最佳的结果是100和250大小的邻域和基于欧几
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[410062],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。