英语原文共 4 页,剩余内容已隐藏,支付完成后下载完整资料
基于内容过滤、协同过滤和关联规则挖掘的图书推荐系统
Anand Shanker Tewari IT department, NIT Patna Patna, India e-mail :anand@nitp.ac.in |
Abhay Kumar IT department, NIT Patna Patna, India e-mail :abhay.kumar@nitp.ac.in |
Asim Gopal Barman Mechanical department, NIT Patna Patna, India e-mail : agbarman@nitp.ac.in |
摘要:推荐系统被广泛用于向最终用户推荐最合适的产品。如今,在线图书销售网站正以多种方式相互竞争。推荐系统是提高利润和留住买家的有力工具之一。图书推荐系统必须推荐买家感兴趣的书籍。本文结合内容过滤、协同过滤和关联规则挖掘的特点,提出了图书推荐系统。
关键词:关联规则,协作过滤,基于内容的过滤,推荐系统。
一.导言
现在,在网上可以找到许多卖书网站。他们中的许多都有自己的推荐系统向买家推荐书籍。一般情况下,这本书推荐的大多数网站并不是买方的兴趣。一般来说,很多信息和建议都被推送给买家,但大多数都与此无关[7]。本文提出了一种新的图书推荐方法。该系统结合了内容过滤、协同过滤和关联规则挖掘的特点,提出了高效有效的建议。
我们的论文进一步组织如下:第二节描述内容推荐系统;第三节介绍基于协同过滤的推荐系统;第四节描述关联规则挖掘的要点;第五节描述图书销售网站使用的主要表格。第六节讨论了我们向买家推荐书籍的新方法。
二.推荐系统
为了向买方提供相关信息,使用了Web Usage Mining(WUM)[5]。Web Usage Mining将用户的行为存储在Internet上并处理这些数据。WUM生成与用户最相关最合适的信息。推荐系统是Web Usage Mining[5]-[6]的实例之一。基于内容的推荐系统根据买家以往购书历史的内容向买家推荐图书。购买历史给出了书籍的概述内容,也就是买家对哪些书籍感兴趣。
基于内容的推荐系统根据图书的内容过滤图书,买方感兴趣[1]。内容推荐系统使用基于内容的过滤来进行分离。与其他系统一样,基于内容的过滤也有一些限制,比如查找内容的质量。例如,基于内容的过滤不能区分好的文章和坏的文章,如果两者使用相同的术语[2]。
三.基于协同过滤的推荐系统
基于内容的协同过滤无法找到项目的质量。为了克服这一问题,协同过滤系统是基于其他用户的意见而使用的[2]。协作过滤(CF)(有时称为“社交过滤”或推荐系统)是在网上进行推荐的方式之一[2]-[3]。最早使用的协作算法和结果之一是GroupLens和Ringo[4],[2]。基于项目的协同过滤推荐算法查找目标用户所评分的一组项目,并计算它们与目标项目i的相似程度,然后选择k-最相似的项{i1,i2hellip;。.,}对于目标用户所评分的一组项目,然后通过对这些类似项目的目标用户评分的加权平均值[8]来计算推荐。
为了计算这两个项目之间的相似性,在m维用户空间中将每一项视为向量。通过计算两个向量间夹角的余弦来度量两项之间的相似性[8]。有m个用户(U1,U2,hellip;,)和n项(i1,i2hellip;,)。因此,在图1中的m*n矩阵中,两个项目i和j之间的相似性表示为
图1 用户—项目矩阵
SIM(i,j)由下面的余弦公式得到。
“·”表示两个向量的点积。
四.关联规则挖掘
关联规则挖掘发现了大型数据集之间有趣的关联和关联关系[9]。市场篮子分析被认为是关联规则挖掘的一个典型例子。在市场篮子分析中,对顾客购买习惯进行分析,找出购物车中不同商品之间的关联关系。设i={i1,i2hellip;}是一组项目。关联规则可以用这种形式A B表示,其中Asube;I,Bsube;I和Acap;B=empty;[10]。关联规则基于最小支持度和最小置信度从数据库中提取模式。支持和信任措施如[9]所述。
支持:规则(AB)在带有支持的事务集D中有效,其中s是包含Acup;B的事务在D中所占的百分比。
Support(AB)=P(AB) (1)
置信度:规则(AB)对事务集D有信心c,其中c是包含A的事务在D中也包含B的事务的百分比。
Confidence (AB) = P (B|A) (2)
一般说来,关联规则挖掘可以看作是一个两步的过程。
(i)生成支持大于或等于用户定义的最低支持的所有项目集。
(ii)产生信任系数较大的所有规则大于或等于用户定义的最小置信度。
五.图书销售网站使用的主要表格
当客户从网站购买书籍时,客户可以使用下面的表格来完成购买操作。该网站将在其数据库中存储每个客户订单的数据。它是从其中提取信息的数据。图书销售网站使用的主要表格如下[11]。
客户信息表:客户信息表存储所有客户的信息,如loginId、密码等。如表1所示。
表1 客户信息表
Field Name |
Description |
Login Id |
用户登录ID |
Customer Name |
用户姓名 |
Password |
用户密码 |
|
用于推送信息的用户电子邮件 |
Mobile number |
用户移动号码 |
图书信息表:图书信息表存储网站出售的所有书籍的信息。如表2所示。
表2 图书信息表
Field Name |
Description |
BookId |
书籍ID |
BookName |
书籍名称 |
CategoryId |
书籍类别Id |
SubCatId |
图书分类ID |
Author |
书籍作者姓名 |
Publisher |
图书出版社名称 |
BookPrice |
图书价格 |
BookOverview |
目录 |
Edition |
图书版次 |
BookRating |
购买书的注册客户给出的平均评分 |
类别表:类别表存储所有类别ID和相应书籍的类别名称。如表3所示。
表3 类别表
Field Name |
Description |
CategoryId |
图书类别ID |
Category Name |
图书类别名称 |
订单信息表:订单信息表用于存储有关客户已经下的订单的信息。它储存订单、书名、数量等。如表4和表5所示。
表4 订单信息表
Field Name |
Description |
Login Id |
用户登录ID |
OrderId |
用户订购ID |
OrderDate |
购买日期 |
TotalAmount |
总计 |
|
用户的电子邮箱 |
表5订单明细表
Field Name |
Description |
OrderId |
用户订单ID |
BookId |
图书ID |
Quantity |
顾客购买图书总数 |
六.图书推荐系统
图书推荐系统的目的是向买家推荐适合他们兴趣的书籍。此推荐系统离线工作,并将推荐系统存储在买方的网络配置文件中。该系统包括以下七个步骤:
- 从买方的网页资料中找出买方较早购买的书籍类别,如小说、科学、工程等。
2.如果在第一步找到的类别中有,找出书的子类别。
3.在第1和第2步中对类别/子类别进行基于内容的过滤,根据买方过去历史记录中的图书概述内容,找出与买方先前购买的图书非常相似的书籍。
4.在第3步的结果上,进行基于项目的协同过滤,并按推荐的递减顺序找出图书列表。在这一步骤中,系统实际上是根据其他买家对推荐书籍的评级来评估推荐书籍的质量。
5.在图书事务数据库中,查找所有类别和子类别(如果有的话)与步骤1和步骤2中的事务相同的事务。在这些交易中应用关联规则,找出买家随后可以购买的书籍。调整支持和信任参数,以获得更强的规则。
6.找出第4步和第5步结果的交集。按照步骤4给出的建议的降序排列交叉结果,这个步骤实际上是更好地细化由步骤4生成的建议。
7.步骤6的结果是对买方的最终建议。所有这些步骤都是在买方离线状态下完成的,并将结果存储在购买者Web配置文件中时执行的。当买方下次上线时,推荐将自动生成。
本书推荐系统由图2中的方框图表示。
图2 图书推荐系统框图
七.结论
大多数推荐系统的目标是预测买方的兴趣并相应地推荐图书。这个图书推荐系统考虑了许多参数,如书的内容和质量,通过对其他买家的评级进行协同过滤。这个推荐系统还使用关联模型来提供更强的建议。该系统没有性能问题,因为它建立的推荐是离线状态的。
参考文献
[1]FOLTZ, P. W. AND DUMAIS, S. T. 1992. Personalized information delivery: an analysis of information filtering methods. Comm. ACM35(12), pp. 51–60.
[2]SHARDANAND, U. AND MAES, P. 1995. Social information filtering: algorithms for automating “word of mouth”. In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems(CHIrsquo;95). ACM Press/Addison-Wesley Publishing Co., New York, NY,pp. 210–217.
[3] Resnick, P.,and Hal, R. V., 1997. Recommender Systems,Communications of the ACM, 40, 3, pp. 56-58.
[4] Resnick, P., Iacovou, N., Suchak, M., Bergstrom, P., and Riedl. J., 1994.GroupLens: An Open Architecture for Collaborative Filtering of Netnews, Proceedings of ACM 1994 Conference on Computer
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[18757],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。