英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料
基于电影群的电影推荐系统
Sajal Halder 计算机工程系 庆熙大学
A.M.Jehad Sarkar 数字信息工程系 韩国外国语大学
Young-Koo Lee 计算机工程系 庆熙大学
摘要
电影推荐在提供增强娱乐方面对我们来说很重要。这样的系统可以向用户建议一组电影基于他们的兴趣,或热门电影。虽然已经有一些电影推荐系统了,但这些大多数都不能向新用户或者现有用户来推荐一部合适的电影。在本文中,我们提出了一个电影推荐系统它能够和其他人一样向新用户推荐电影。 本系统挖掘电影数据库以收集所有重要信息,如受欢迎程度和吸引力,推荐所需。 它不会产生电影群只是方便电影制片人对人们欢迎的电影的走向有所了解,也适用于电影推荐。 实验研究在真实数据上揭示了效率和有效性提出的制度。
关键词:有趣的电影,热门电影,电影群,推荐系统
一、导言
鉴于在这个世界中有大量电影可供选择,用户找适合他/她的口味的电影可能会有些困难。 不同的用户喜欢不同的电影或演员。 找到一种方法来过滤不相关的电影或找到一组相关的电影非常重要。
最著名的推荐系统是基于协同过滤(CF)[3]和基于内容的过滤[2]。 协同过滤首先试图找出答案自动从一组活动的类似用户组用户。 用户之间的相似性使用计算相关度量。 然后它根据用户群体的意见向用户推荐项目。 虽然协同过滤在许多领域取得了成功,但他有以下缺点,稀疏性和可扩展性[12]。协同过滤使用用户评级找到类似的用户。 但是,很难找到这样当前收视率的较高电影。
在本文中,我们提出了两种重要电影推荐思想:开采电影群的资源库和向导演推荐新片的方向,并为新项目推荐流行和有趣电影进行挖掘,这样可以用来解决新用户的问题。使用MovieLens数据集有效地证明了我们提出的方法的可行性。
本文的其余部分安排如下。 在第二节中,我们讨论相关工作。 在第三节中,我们定义了问题。 在第四节中,我们讨论了提出的方法。在第五节中,我们展示了实验结果并进行了讨论各种相关的系统发布。 在第六节中,我们总结本文的未来工作方向。
二、相关工作
据我们所知,推荐系统中已经提出了许许多多方法。众所周知的推荐系统是协同过滤[3],使用用户评估观察项目衡量用户的相似度。 这种评估是确定的明示或暗示。有的应用就很直接地要求用户以一到五的比例提供他们的评级,然后用于测量相似性。 而有的应用并不会采用让用户评级的方式,通常用户的评级都是基于浏览行为。 但是,如果项目集很大而这些用户评分很小,通常很难找到用户之间的相似之处。 这导致精度低预测甚至未能做出预测。
Balabanovic等人 [2]曾提出以内容为基础的推荐系统,可以应用于不同的领域,例如书籍,电影,视频或音乐。 它使用TF-IDF和信息增益(IG)常用于提取这些[1],[10]例如作者,流派和最常见的用过的词。
乔治等人 [6]提出了一种电影推荐系统的混合方法。 这是一个基于Web的推荐系统,通过图形用户界面以五个音阶收集电影的用户评级。 这个过程实现了两种变化; 替代和转换。 替代的目的是利用协同过滤。 该系统使用协同过滤技术作为主要推荐方法。 但是,如果可用评级的数量低于给定阈值,它使用基于内容的技术进行预测。
在协同过滤[3]中,当一个新用户或一个新项目进行了引入,系统就没有可以提出建议的预测。 基于内容的[2]方法虽然可以处理新项目,但是无法处理新用户。混合系统[6]试图结合协作和基于内容的过滤,但是它在处理新用户方面也存在困难。
在本文中,我们提出了一种能够处理新用户和项目的推荐系统。 首先,电影群创建基于电影类型的群体,这些群体是基于内容的推荐系统的特征。 此过程解决了新项目和新用户推荐问题。 但是,当发布大量相同类型的电影时,此过程可能会过载。 为了解决这个问题,我们提出了一种使用流行和有趣电影的方法。
三、定义问题
设Udb = {u1,u2,...,un}是所有用户的集合,Tdb = {t1,t2,...,tm}是数据库中所有时间戳的集合,Gdb = {g1,g2 ,...,gp}是所有电影类型的集合,Idb = {i1,i2,...,iq}是所有电影项目的集合。 Udb的子集称为用户集U.Tdb的子集称为时间集T,Gdb的子集称为电影
类型集G和Idb的子集称为电影项集,用户集,时间集,电影类型集和电影项集的数量分别用| U |,| T |,| G | 和| I | 来表示。 在描述更多细节之前,我们已经定义了一组术语。
定义1.短时电影群(STMS):如果U sube; Udb中的所有用户在时间戳tisin;Tdb享受电影类型gisin;Gdb,则称群集(U,t,g)为短时电影群
定义2.长时间电影群(LTMS):如果Usube;Udb中的所有用户在时间戳Tisin;Tdb享受电影类型Gisin;Gdb,则称群集(U,T,G)为长时间电影群。| T | ge;mint(最小阈值)。
为了避免挖掘多余的长时间电影群,我们进一步给出了长时间电影群的定义如下:
定义3.长时间电影闭合群(LTMCS):长时间电影群(U,T,G)被称为长时间电影闭合群,如果没有T,U其中Tsub;T并且Usub;U为特定类型Gp sube;Gdb和(U,T,Gp)是长时间的电影群。
定义4.有趣的电影(IM):如果短时间群(U,t,i)在时间戳t享受项目i,则电影项目iisin;Idb被认为是有趣的电影,其中| U | ge;minuu和这部电影的平均评分avgr(i)gt; rim。
定义5.流行电影(PM):如果短时间群(U,t,i)在时间戳t享受项目i,则电影项目iisin;Idb被称为流行电影。 当| U |ge;minpm U和这部电影的平均评分avgr(i)gt; rpm。
在本文中,已经发现短时间的电影群体,长时间的电影群,流行,有趣和基于用户设置的有趣和流行的电影类型等影片。
四、一般系统架构
系统架构如图1所示,该方法由两种技术组成,即电影群挖掘和有趣且流行的电影挖掘。 预处理步骤负责数据收集和清理,因为数据可能不准确,不一致和嘈杂。 然后对预处理的数据集执行挖掘技术并找到电影群集,有趣和流行的电影集和类似的用户组,这些对于电影推荐系统非常有用
图1 系统架构
以下小节,详细描述了每种技术。
电影群挖掘
具体地说,电影群(U,T,G)必须在电影类型集G = maintain时保持两个最小阈值minu和mint(U,T)。 其中U = {ui1,ui2,...,uip} sube; Udb和T sube; Tdb,它需要满足三个要求:| U | gt; = minu,| T | gt; = mint和gti(ui1)gti(ui2)... gti(uip)= phi; ti isin;G。 至少有一种电影类型在T中的每个时间戳包含U中的所有用户。如果| T | = 1它被称为短时电影群(STMS),否则它是长时间电影群(LTMS)。 电影群挖掘找出有趣的电影类型和类似用户群| S(U)| 时间戳时的 min| S(T)| ge; min[5]。 为了找出电影群,我们使用了两个基本步骤。 这些步骤如下所述。
修剪步骤:在我们提出的方法中,我们使用两种修剪来减少时间和空间的复杂性。 它还提高了算法的效率。 两个修剪步骤都是这样的。
定义7.列修剪(CP):电影类型集giisin;Gdb,用于在时间戳Tdb存储用户组,其数量小于minu,然后我们丢弃电影类型gi,称为列修剪。
定义8.行修剪(RP):在时间戳Tsub;Tdb,它存储电影类型Gdb中的用户信息集,其数量小于minu,然后我们丢弃时间戳T,它被称为行修剪。
我们可以将列和行修剪线分别定义为等式1和2。
推荐新用户需要此电影挖掘。 当用户注册到系统中时,他/她没有先前的知识,因此在该问题中推荐是非常具有挑战性的。 在这个系统中已经提出了以前和当前有趣或流行的新用户电影。 大多数以前的推荐系统都没有考虑这种情况意味着新用户的问题。
五、实验
所有算法均采用Java实现,所有实验均在3.30 GHz Intel Core i5系统上进行,内存为4GB。
(1)数据集
在我们的性能研究中,我们对由明尼苏达大学的GroupLens研究项目收集的MovieLens数据集[13]进行了实验。 这个数据集包含了2000个加入MovieLens的6,040名MovieLens用户制作的18种类型的3,952部电影的1,000,209个匿名评级。
图2短时间电影群在不同时间的smts指数
(2)电影群挖掘的结果
在电影群中,我们需要频繁的电影类型,用户经常喜欢。 电影制片人从这种挖掘技术中获得了很好的反馈,并鼓励他们制作电影,这些电影更受欢迎,并且很有可能受欢迎。 群中的用户考虑类似的用户组,并且一个用户可以向不喜欢特定电影的其他用户推荐电影。
图3长时间的电影群在不同的时间戳的阈值
图2和图3显示了我们提出的方法的结果,这非常令人鼓舞。 STMS的数量和STMS的平均等级在图2中示出。图3显示出了用于动作电影的不同阈值处的LTMS群的数量。 如果阈值降低,则LTMS群的数量增加。 在最低阈值处,我们得到大量的群,并且随着时间戳的增加,群的数量减少。当时间戳增加时,群数减少。 从图中我们发现动作片更受欢迎,因为它们创造了最大数量的群。 在时间戳中,如果k-timestamps值较小,那么它会发现大量的swarm,但如果它的值很大,那么它会找到少量的swarms。 因此,参数值更有效地产生电影群。
六、总结
在本文中,我们首先阐述了电影推荐系统和电影数据挖掘的重要性。 我们提出了一种称为电影群挖掘的新概念,它使用两种修剪规则和垂直数据格式频繁项挖掘。 它解决了新项目推荐问题,并提供了关于流行电影和用户兴趣的当前趋势的想法。 这对电影制片人策划新电影非常有帮助。 我们还提出了用于挖掘有趣和流行电影类型的算法,以向新用户推荐电影。 在真实数据集MovieLens的两个实验的帮助下,我们已经展示了我们提出的方法的有效性。
然而,如果他/她喜欢不同的电影集,则所提出的方法具有根据电影类型找到用户组的缺点。 在该系统的未来版本中,我们将努力克服这一缺陷。
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[20871],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。