英语原文共 20 页,支付完成后下载完整资料
研究评级预测任务在基于粒度的群体推荐系统和大数据场景中的作用
Ludovico Borattolowast; , Salvatore Carta, Gianni Fenu
摘要:如今,公司面临的一个重要问题是高效处理大数据问题,这意味着他们的商业智能必须管理大量数据。一个有趣的例子是传单分发。研究和市场数据证明,广告传单的分发仍然是吸引潜在用户到公司的有价值的工具。毫无疑问,在公司传单中包含个性化的内容比向所有潜在客户提供相同的传单更可能产生好的结果。然而,制作个性化的传单意味着公司无法承受的成本。准确性和成本之间有效的权衡解决方案是定义针对其内容感兴趣的的不同用户群的最大数量的不同传单。为了系统地支持这种和类似的解决方案,我们提出了一种新颖的群组推荐方法,它能够检测多个终端用户群,其数量等于生成的推荐列表的数量(即系统可以运行的粒度)。此外,它可以为被检测的特定用户组提供建议。特别是,我们关注用户未评分项目的评级预测。实际上,评级预测表示要求推荐系统执行的主要任务,并且如果包含在群组推荐系统中则更加重要,因为可以为每个用户或每个组建立预测。我们的方法还有可能有效地管理维度现象的麻烦,而这种麻烦是由大数据处理导致的评级稀疏性引起的。我们提出了四种基于粒度的组推荐系统,它们使用不同的评级预测算法和体系结构。这些系统使用相同的算法来执行其他任务(即那些不预测评级的任务),这使我们能够评估哪种评级预测方法在准确性方面最有效。对两个真实世界数据集的实验表明,与群体预测不同,单用户预测可以提高推荐准确度和处理维度现象的麻烦。
1 介绍
如今,公司必须处理所谓的大数据问题并过滤大量信息。实际上,为了通过提供有效的建议来执行商业智能并正确定位用户,这些公司的信息系统需要汇总大量有关用户和项目的信息。
最近的文献概述了大数据时代商业智能研究的几大挑战和未来方向。文献 [46] 中强调,信息系统研究目前面临的挑战是能否创建适应大数据处理问题的形式。此外,文献 [26] 已经指出,系统检测用户群完成业务流程能力是商业智能应该走的可能的研究方向。
如今,向客户分发传单,寻求能够推荐给客户可能感兴趣的项目并把他们吸引到公司,仍然是一种有价值的市场策略。事实上,尼尔森最近估计,仅在意大利就需要每年花费10亿欧元用于打印120亿张传单,而多亏这些传单,客户每年大约要消费146亿欧元。鉴于这些传单的主要目标是向终端用户推荐他们可能感兴趣的项目,同时考虑到需要投资大量资金在传单分发、选择最合适的内容以及最有效的分发策略,这仍然是一个挑战。
传统的传单通常包含不够个性化的建议(即每个人都收到相同的传单),因此留下了巨大的改进空间。在公司传单中引入个性化的内容可以实现每次沟通活动相关的更好结果,并导致直接销售增长。不幸的是,设计个性化的传单可能需要在效率、生产和分销成本之间进行权衡。事实上,更个性化的传单更高效,但他们也涉及一个指数级的成本增长。
应用基于粒度的群组推荐方法来识别可以集体地针对用户组的项目集可以解决该问题。可用于活动的总预算可用于定义最大数量的用户组,这将导致相应数量的不同传单组被独立地打印和分发。
基于粒度的群体推荐。 推荐系统旨在推荐给用户可能感兴趣的项目,如今代表了信息系统的主要形式之一。小组推荐是针对推荐过程中涉及不止一个人的情况设计的,这种情况再推荐研究中具有挑战性。
小组推荐可以代表在生成传单内容时引入个性化的有效工具。为清楚起见,下面描述了一个与业务和前面介绍的权衡相关的实际应用场景。
“一家公司决定打印推荐传单去推荐一些产品,即使可以获得为每个客户单独生成推荐的传单数据,为每个人打印不同的传单也会产生无法承受的成本。一种可能的解决方案是设置许多不同的传单进行打印,这样打印过程在成本方面可以负担得起,并且同一传单的接收者会对其内容感兴趣。”
关于经典群组推荐,由于需要有效地定义组以便遵守可以产生的推荐列表的数量的约束,并因此最大化用户满意度,这种方法增加了进一步的复杂度。在群组推荐过程中存在分类任务,这允许系统去检测组并设置系统可以产生推荐的粒度,这是文献中现有系统不存在的新颖层面。在本文中,我们将这类系统定义为基于粒度的群组推荐系统。
定义1 (基于粒度的群组推荐系统) 给定一组n个用户,我们定义推荐系统的粒度为能够产生的推荐系统的最大数目k(其中k lt; n),基于粒度的推荐系统是能够检测k组用户并为其生成推荐的系统。
研究这一领域对于经典的群体推荐系统变得更具有挑战性,因为我们处理涉及分类和推荐方面的混合复杂系统,从分类和推荐的角度看导致新的问题。更确切地说,我们需要定义能够精确预测自动检测到的组的评级并能在集群用户时处理大数据问题(如数据稀疏性)的方法。这些未解决的问题将在下面详细描述。
在群组推荐系统中的评级预测。为了给用户识别有用的项目,一个推荐系统必须预测值得推荐的项目,该预测基于对用户的项目效用的评估,允许系统推荐最高效用的项目。如文献 [1, 39] 中所强调的,预测任务是推荐计算核心。Jameson和Smyth 认为,系统可以通过使用三种不同的方法来预测评级,从而产生小组推荐:
①构建群组偏好,然后使用此模型预测每个群组的缺失评级;
②预测每个用户未评级项目的评级,并合并为群组成员的各项建议;
③将为每个用户构建的预测聚合到群组偏好中。
从前面的观点可以看出,即使在群体推荐系统中,评级预测任务也起着核心的作用。可以为每个用户或群组预测缺失的评级。因此,系统的体系结构根据选择用于预测评级的方法而改变。事实上,预测任务基于不同的输入(即群组模型或每个用户表达的个体偏好)并产生完全不同的输出(即组预测,每个用户的推荐,或每个用户的预测)。这意味着计算流程从根本上改变,因此允许系统去构建预测。因此,该系统产生的结果(即小组推荐)有很大不同。
处理聚类中的数据稀疏性。 推荐系统文献中一个众所周知的问题是,数据集中可用的项目数通常远高于用户已评级的项目数。参考Amazon.com的真实场景,用户会考虑几十个项目,而系统包含数百万个项目。当数据中的维度增加并且数据变得稀疏时出现的问题被称为维度灾难。维度灾难阻止了数据的正确分类,因为在高维和数据稀疏性上发生的现象不会给分类过程带来统计意义。正如文献 [37] 中强调,聚类是受维度影响的分类形式之一。由于聚类是基于点之间的距离,因此当这些现象出现的时候很难去产生有意义的测量结果。
我们的贡献。 本文研究了评级预测任务在前面提到场景中的作用,即基于粒度的群组推荐系统,给定可以产生的推荐列表有限数量,可以检测与列表数量相等的若干群组,并为他们产生推荐。
为了解决前面提到的问题,这项工作将从算法和架构的角度来处理问题。
更具体地,问题陈述如下:
问题1。 给定一组用户,一组项目,和用于表达用户偏好的一组值V(如或者)。用户表示的所有可能的评级集合是三元关系,我们还给出了系统可以用来操作的粒度k,考虑到一种聚类算法,将用户U的集合分为k个分区,以便对于每个组每个用户收到相同的推荐结果,对于每个群体的群体模型策略根据群体的偏好推导出群体模型,我们的第一目标是定义:
①函数能够为各个用户生成预测;
②函数能够为组成员生成预测。
本文的目的是定义基于粒度的群体推荐系统,该系统在不同的系统体系里面使用前两个函数,以便找到允许基于粒度的群体推荐系统最大化其准确度的功能和体系结构。
我们提出了四种不同的基于粒度的群体推荐系统,已经开发了其中三个,以便根据上述三种方法产生预测。第四个系统将通过呈现使用评级预测任务来推断缺失数据点的不同架构以解决数据维度灾难问题,从而避免系统聚类任务的数据稀疏性。
为了验证我们的想法,我们的系统使用相同的算法执行不预测评级任务,通过仅改变预测评级和系统架构的方式,我们将深入研究评级预测任务并研究其作用。
我们提案的科学贡献如下:
①本文是第一篇从算法和系统架构的角度包含在群组推荐系统构建预测的三种方法的比较;
②它包括一项关于如何通过基于粒度的群体推荐系统使用评级预测任务来有效处理因大数据产生的维度灾难问题的研究;
③为了研究在基于粒度的群体推荐系统中必须预测评级的不同场景,已经对两个真实世界数据集和四个不同用户聚类进行了一百多次实验和统计测试,并进行透彻分析;
④提供了对评级预测任务的作用的详细讨论,以帮助设计群体推荐系统,其中必须针对自动检测的组做评级预测。
本研究从算法的角度扩展了评级预测任务的初步工作,并通过以下方式扩展了聚类任务的维数灾难:(1)我们添加了第二个数据集,以加强对我们提案的验证;(2)在第4节中,我们提出了每个系统的新颖架构分析;(3)在第5节中,我们对几乎完全新的实验和结果进行了详细的讨论。尽管是基于我们的原著,但这篇论文已经完全重写了。它可以被看作是一项新的研究,因为它包括专门用于分析在大数据场景中基于粒度的系统中评级预测任务的作用的新实验。
本文其余部分的结构如下:第二节介绍了相关工作,第三节介绍了群体推荐系统中的三个等级预测方法,第四节描述了用于本研究的基于粒度的系统,第五节包括用于评估的实验框架,第六节包含结论和未来工作。
2 相关工作
本节介绍了群体推荐研究领域的现有方法以及处理聚类中维度灾难的工作。没有群体推荐系统适应可以产生的推荐列表数量的约束,所以没有其他方法自动检测组。因此,关于聚类中维数灾难的文献是从群体推荐语境中提出的。
2.1 群体推荐中的评分预测
在这里,我们根据他们如何预测评级,介绍群体推荐文献中做出的主要研究。
2.1.1 构建群组偏好模型
MusicFX是一个向健身中心的成员推荐音乐的系统。由于房间里的人不断变化,系统给了正在工作的用户登录的可能性。要播放的音乐是通过一个求和公式考虑每个用户的喜好来选择的。
Flytrap同样选择在公共场所播放的音乐。系统使用“虚拟DJ”代理自动确定要播放的歌曲。该代理分析用户在其计算机中播放的MP3文件,并考虑有关该音乐的可用信息(例如类似的类型、艺术家等)。要播放的歌曲是通过投票系统选择的,在投票系统中,代理代表房间中的每个用户并对候选人进行评分。
In-Vehicle Multimedia Recommender是一个旨在为一群一起旅行的人选择多媒体项目的系统。该系统聚合乘客的简历概况,并通过使用距离的概念合并他们。基于内容的系统用于比较多媒体项目和群组偏好。
FIT (Family Interactive TV System)是一个电视节目推荐系统,该系统所需的唯一输入是一种传统陈旧的用户表示(即适合用户的一类观众,如妇女、商人、学生等),以及用户喜欢的观看时间。当有人开始看电视时,系统会观察每个家庭成员在那个时间段内看电视的概率,并预测可能有谁在看电视。通过一种将这些概率和用户偏好结合起来的算法进行节目推荐。
TV4M为多个观众推荐电视节目,系统通过提供登录功能来识别谁正在看电视。为了构建满足其大多数成员的组简档,通过可用特征(例如流派,演员等)的总距离最小化来合并当前观看者的所有简档。根据构建的组简档推荐节目给群组。
在文献 [32] 中,提出了一种称为CATS(Collaborative Advisory Travel System)的群体推荐系统。它的目的是帮助一群朋友计划和安排滑雪假期。为了实现这一目标,用户被定位在名为“DiamondTouch table-top”的设备周围,他们的交互(因为他们在物理上共享设备)有助于开发相关的推荐。
2.1.2 合并针对个体做出的推荐
这种方法在文献中没有被广泛使用,包含它的主要相关系统是PolyLens,这是一个旨在为想要观看电影的用户群提供推荐的系统。协作过滤方法用于为该组的每个用户提供建议。预测评级最高的电影被考虑,并且采用“最小痛苦”策略,即对群组的推荐评分为电影的最低预测评分,以确保每个成员都满意。
2.1.3 聚合个体预测
Pocket RestaurantFinder是一个向想要一起用餐的人群推荐餐厅的系统,每个用户填写关于餐馆的偏好的简档,例如价格范围或他们喜欢(或不喜欢)的菜肴类型。一旦知道了群组构成,系统就会估算每个成员对餐馆的个人偏好,并对这些值进行平均以构建群组偏好并生成推荐列表。
Travel Decision Forum是一个帮助人们计划度假的系统,由于系统的目标是在组成员之间找到协议,异步通信是可能的,并且,通过Web接口,成员可以查看(并复制)其他成员的首选项,通过个体偏好的中间值来做出推荐。
Amer-Yahia等人提出了一种通过建立个体预测来产生群体推荐的系统,这些预测也是通过考虑群体成员的不同意见而汇总的。
在文献 [13] 中,Chen和Pu提出了CoFeel,这是一个允许系统通过颜色表达由GroupFun音乐组推荐系统选择的歌曲给出的情感的接口。为了给群组生成播放列表,界面允许用户提供关于他们多么喜欢他们听到的歌曲的反馈,并且系统考虑通过这些情感所表达的偏好。
在文献 [24] 中,Jung开发了一种识别长尾用户的方法,即可以被视为特定属性专家的用户。因此,长尾用户组给出的评级用于向非专家用户组提供相关推荐,这些用户组称为短头组。
Choicla是一个团体推荐系统,旨在将个人决策组合成一个群体决策,独立于系统运作的领域,为此,采用了不同的最先进的聚合策略。
2
资料编号:[3259]
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。