英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
用户数量和用户偏好对推荐系统的影响
Akihiro Yamashita1, Hidenori Kawamura1,
Hiroyuki Iizuka2, and Azuma Ohuchi1
北海道大学信息科学技术研究生院
日本北海道北海道札幌市北区西9北14号
{yama,kawamura,ohuchi}@complex.eng.hokudai.ac.jp
http://harmo.complex.eng.hokudai.ac.jp/
公立函馆未来大学媒体建筑系
北海道函馆市Kamedanakano-cho,邮编041-8655,日本
摘要。推荐系统从大量产品中提供适用于目标用户的确切产品。其中最成功的推荐算法之一是协作过滤,并在很多网站中使用。然而,由于系统在推荐时使用用户的产品评分,所以推荐结果受到诸如用户数量和用户偏好等社区特征的影响。
在本文中,我们使用基于多智能体的模拟评估社区特征对于推荐系统的影响。结果表明基于协同过滤的有效推荐需要一定数量的评级。而且,结果同时表明推荐所需评分的数量取决于用户数量和用户偏好。
关键词:推荐系统,协同过滤,用户偏好,多智能体仿真。
1 介绍
许多电商网站提供成百上千甚至成千上万的商品用于销售。虽然各种商品在网站上面都能找到,但是消费者还是必须投入时间和精力来寻找满意的商品。推荐系统为每位消费者提供个性化推荐以减少问题。最成功的推荐技术之一是协作过滤[5,6,7],并在许多网站中使用[3]。 基于推荐系统在协作过滤中,尝试通过使用先前从其他用户接收的产品的评分来预测目标用户的产品效用。 该实用程序表示用户对产品的满意度。
为了提出准确的建议,系统必须先学习目标用户的偏好或兴趣来自用户给出的评价。
H. Yin等人 (编辑):IDEAL 2007,LNCS 4881,第1112-1121页,2007.
c Springer-Verlag Berlin Heidelberg 2007
用户数量和用户偏好偏好的影响1113
评级很少,系统不能提供有益的建议。这个问题被称为新用户问题或冷启动问题[4]。 因此,
每个用户必须向系统投入一定数量的评级,特别是;这个问题在初始操作中是严重的。 其中一个最简单的解决方案问题是推荐所有用户中最受欢迎的产品作为替代品进行个性化推荐。 但是,很难估计如何应该收集很多评级,因为推荐效果受到影响由于社区的特点,即用户数量和用户偏好,偏好对推荐方法很重要。
本文的目的是评估社区特征的影响在推荐系统上,我们使用多智能体仿真来评估效果。在本文中,我们重点关注用户数量和用户分布情况,
偏爱。
本文组织如下:第2节介绍基于模型设置多代理仿真。 然后,第3节解释使用实验的过程仿真模型,以及第4节显示的结果和讨论。 最后,第5部分结束了论文。
2模拟模型
为了理解推荐过程,建立并应用了基于多代理的模拟模型。 在这个模型中,假定用户谁有不同的兴趣,要求推荐某些产品系统。 每个用户都有自己的偏好,每个产品都有自己的偏好特征。 通常,如果某个用户发现适合他/她偏好的产品,则用户将达到高满意度水平。 这种满意度可以称为效用。 因此,推荐系统的作用可以改写作为推荐目标用户的某些产品,以便实用程序改进。
一般来说,推荐系统从用户那里接收有关该信息的信息用户感兴趣的产品。如果系统直接获得效用,则可以准确地衡量满意度。 但是,唯一的收藏信息由该系统评级为该模型。 评级来自实用程序,即存在于用户头脑中的效用按顺序转换为评分能够将推荐系统作为反馈信息。 如果效用与评分之间的对应关系是最优的,系统会给予最准确的信息。
有许多网站收集关于产品的评价,使用表格中的表格,如双选题(喜欢或不喜欢)或五级评分(来自一星到五星)。 本文采用五级评分作为形式接口。 模型的细节如下所示。
2.1 模型组件
仿真模型有三个组件:用户,产品和推荐器系统。 这个模型可以表示如下:令U = {ui | i = 1,2,...,Nu}
1114 A. Yamashita et al.
为所有用户的集合,令C = {cj | j = 1,2,...,Nc}为所有产品的集合,让RS成为推荐系统。 表示每个用户的偏好由矢量pi =(pi1,pi2,...,piNf)表示,每个产品cj的特征是由向量vj =(vj1,vj2,...,vjNf)表示,其中Nf是维度
pi和vj。
直观上,特征值(vj的元素)可能与形状有关产品,产品颜色等。矢量pi的每个元素表示最理想的产品为用户ui。 何时,它来定义实用程序,之间的距离可以计算偏好向量pi和特征向量vj。如果距离是小,效用高。因此,这两个向量的维数应该相等。
2.2实用程序
效用函数无效函数是用来计算效用值sij的函数偏好向量pi和特征向量vj。 该函数被表述为如下:
sij =futility(pi,vj)
该功能可以通过多种方式进行设计; 然而,有一定的必须遵循的规则:函数必须单调递减功能,它必须与两者的距离成反比向量。 用户ui最重要的因素是找到一个产品与他/她的偏好最接近的效用。 这些信息可以从中获得计算偏好向量附近区域中的公用设施之间的差异。在本文中,指数函数用于强调公用事业,并且可以如下表述:
其中alpha;由矢量的值范围调整。alpha;必须是积极的不变,在本实验中,它被设定为alpha;= 0.5。 该值的范围函数是(0,1]。
2.3 Rating评分
在这个模型中,设R是用户所有产品评级的集合,并且让评级rijisin;R是用户uiisin;U对乘积cjisin;C的评分,即使不同的用户有关于某些产品的相同实用程序可能会生成不同的评级。 然而,最好尽可能地减少这种差异,例如通过在网站上提供关于评级过程的详细解释。 在这模型中,假设理想的设置,即每个用户基于他/她的评价来决定在相同的评级过程中。
如上所述,该模型中使用了五级评分。 因此,该函数有四个阈值。 用户应该统一评估,1115无偏见用户数量和用户偏好偏好的影响
图1给出了偏好向量pi和特征向量vj时的效用分布统一的随机数低或高的评级。 图1上的这个直方图表示当统一服从偏好向量pi和特征向量vj时,实用程序sij的分布随机数。
这个直方图上的公用事业被分成五个相同的区域,而且利用边界值作为函数剔除的阈值。因此,函数frating在此模型中定义如下:
2.4推荐算法
推荐问题归结为评估评级的问题用于没有被用户看到的产品[4]。 在大多数情况下,用户只评价项目的一小部分,换句话说,大部分评分是不明显。 因此,RS的作用是估计不明显的评级。该推荐评估值最高的产品将由推荐系统提供。 在本文中,以下推荐算法是实验。
随机推荐:随机推荐算法提供随机估计不明显的评级。实际上,系统会将随机选择的产品推荐给目标用户。这个算法是其他推荐算法评估的基础。
热门产品推荐:热门产品推荐推荐所有用户获得最高知名度的产品。系统计算所有产品评估的平均值,具有最高平均值的产品将被推荐给目标用户。
1116 A. Yamashita et al.
如果两个或更多产品的评分值相同,其中一个是随机选择,并建议。大多数情况下,建议使用很多用户同样的产品,随着收视率的增加而增加。
协作过滤:协作过滤(CF)根据其他用户的评分来评估不可评论的评分[3,6]。当系统估计
对于目标用户的评级,首先,CF组织一组有历史记录的用户与使用统计技术的目标用户达成一致。在这个操作中,CF计算目标用户和其他用户之间的相似度。
通常,两个用户之间的相似度由相关系数定义,对用户评估的项目评分不满意,如下所示:
因此,系统推荐最高评级的产品calpha;估计rialpha;到用户ui。在此模型中,RS推荐使用该算法的某个产品不明显的评级ialpha;基于相关系数。 但是,如果是评分太少,用户ui的所有相似性无法计算。 所以呢评级估计值定义为rialpha;= 3,RS随机推荐从具有相同估计的产品中。
用户数量和用户偏好偏好的影响1117
3实验
3.1 仿真程序
随着评级数量的增加,基于CF的推荐系统可以提高推荐的准确性。即使系统只能使用收视率很低,将尽可能提供有效的建议。在评估RS时,评级数量与评级数量之间的关系准确性(所有用户的效用)应该被揭示。
在下面的实验中,Nu是一些用户,Nc是一个数字的产品。 RS每次收到一份评级时都会推荐一款产品用户,然后用户对推荐的RS产品进行评级。这种互动直到所有Nu用户对所有Nc产品进行评级。这个操作可以更详细地描述如下:
第1步:每位用户随机挑选所有产品中的一种产品。然后,计算产品的效用,并从效用获得评级被每个用户放入RS。
步骤2:RS估算尚未评级的产品的评级然而,使用用户已经投入的评价。如上所述,三
推荐算法的类型被用于这种估计。
步骤3:推荐评级估计值最高的产品到目标用户。
步骤4:每个用户计算RS推荐的产品实用程序。以来平均的公用事业可以被视为推荐的准确性,平均值被命名为UtilityAverage。从公用事业获得评级后被放入RS,系统返回到步骤2。
3.2 实验设置
偏好矢量的分布:偏好矢量pi表示用户最理想的产品。因此,向量pi的分布直观地表示用户之间的趋势或时尚的每个元素根据以下分布将矢量pi设置为随机数。四应用分布类型来研究分布差异对推荐的影响。请注意矢量的每个元素是相互独立的。
- 范围的均匀分布[-1,1]
- 正态分布N1(mu;= 0,sigma;2= 0.5)
- 正态分布N2(mu;= 0,sigma;2= 0.2)
- 双峰分布(通过随机选择以下两个正态分布之一获得的分布:N(mu;= -0.5,sigma;2= 0.2)
或N(mu;= 0.5,sigma;= 0.2))
均匀分布代表没有偏好趋势的情况
正态分布代表了趋势存在的情况。尤其,
1118 A. Yamashita et al.
当正态分布的方差很小时,趋势很强。还有,更多的,拖曳峰值分布表示用户形成几个的情况按他们的偏好分组。组数由2d计算,其中d是向量pi的维数,因为随机数是独立的
赋予每个元素。
常数:表1显示了我们使用的实验常数。
表1.实验常数
4 结果与讨论
特征向量的分布:在这个模拟中,各种产品作为推荐候选人提供,用于调查影响用户对该建议性能的偏好。 如果有偏见的话特征矢量vj的分布,也影响推荐结果。然而,在这个实验中,我们关注的是优先矢量分布的影响。 因此,我们消除了vj分布的影响通过随机提供特征矢量vj推荐结果。 更重要的是,矢量vj根据均匀分布设置为数字范围[-1,1]。
4.1 每个推荐算法的实验
下图(从图2到图5)显示了每个实验结果推荐算法,四种类型的偏好向量分布PI。这些数字是在Nu = 1000的情况下的结果,并且这些数字是通过一次性实验。但是,如果用户数量增加,波动在每个实验都很少,因为图表显示了UtilityAverage。一个优势流行的产品推荐和协作过滤可以通过与随机推荐进行比较来观察。当评级很少时,CF等于随机推荐,并且它开始产生来自30个评级附近的有效性。的效果CF在后半部分的数据中被拒绝了,因为它以前是推荐的某些与用户偏好相匹配的产品。流行产品推荐在早期阶段产生比CF更好的UtilityAverage,并且是交叉点击热门产品推荐与CF之间的关系30评级。
用户数量和用户偏好偏好的影响1119
图2.均匀分布
图3.正态分布N1(sigma;2= 0.5)
图4.正态分布N2(sigma;2= 0.2)
图5.双峰分布
当我们通过偏好向量的分布比较差异时,首先,随机推荐的UtilityAverage在四张图中不同。这些数字表明,如果偏好向量的分布是N2,随机推荐的效用平均值最高,因为UtilityAverage当向量聚集在中心时上升。而且,在N2分布中,受欢迎的产品推荐产生高效的平均值,因为整个流行是由几个产品,其中有一个特征向量获得靠近中心。然而,CF是任何数字后半部分的最高结果。
4.2 用户数量与建议之间的准确性关系
下面的图(从图6到图9)显示了实验结果基于CF的各种用户数量的推荐。每个图都说明了在每个偏好向量pi分布的情况下的结果。数字也是通过一次性实验制成的。有必要重复类似的实验来获得更准确的实验结果。然而,趋势以推荐精度在增加的用户数量即可从这些结
全文共7321字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[12953],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。