英语原文共 15 页,剩余内容已隐藏,支付完成后下载完整资料
摘要
协同过滤(CF)算法因为它们具有共享集体智慧和经验的独特能力,已被广泛用于构建推荐系统。然而,它们很容易陷入“马太效应”,该效应倾向于推荐受欢迎的商品,让不太受欢迎的商品变得越来越不受欢迎。在这种情况下,推荐列表中的大多数项目已经为用户所熟悉,这会使得在寻找冷项目时比如说新商品和小众商品,性能会严重下降。为了解决这个问题,本文首先对中国的网上购物习惯进行了用户调查,在此基础上,提出了一种在协同过滤算法基础上改进的新颖的推荐算法,通过引入创新者的概念可以向用户推荐冷门商品。具体来说,创新者是用户的特殊子集,他们无需推荐系统即可发现有推荐价值的冷门商品。因此,系统可以通过创新者将有推荐价值的冷门商品捕获到推荐列表中,从而在偶然性和准确性之间取得平衡。为了确认我们算法的有效性,我们使用阿里巴巴在阿里移动推荐算法竞赛中提供的数据集进行了广泛的实验,该数据集是从真实的电子商务环境中收集的,涵盖了大量的用户行为日志数据。
关键词:冷项目, 协同过滤(CF),创新者,推荐系统,偶然
目录
第一章 介绍
在信息超载的时代,推荐系统被开发来帮助用户发现电子商务中感兴趣的项目[1] – [4]。协作过滤(CF)算法被广泛用于构建推荐系统,因为它们具有共享集体智慧和经验的独特能力[1],[5] – [8]。但是,许多CF算法很容易陷入Matthew效应[9]的陷阱,这使它们严重倾向于推荐受欢迎的项目。在这种情况下,很少会发现新产品,而落后的小众产品将变得越来越不受欢迎[10]。具体而言,在本文中,新项目是指发布时间少于一天的项目,小众项目是指发布时间超过一周但项目受欢迎程度较低的项目。 此外,根据我们在第三部分中报告的用户调查,由于花在网上购物的时间有限,普通用户很难自己发现这些商品。 因此,有必要开发一种可以发现新项目和小众项目的推荐系统。 由于新产品的生存时间可能非常短,例如某些服装出现在新发行的电影中,因此推荐系统必须是实时的,即快速反应。 此外,排在后面的许多小众商品十分的特别,这意味着它们可能只为一小群用户的利益服务。 为了帮助这类冷项目吸引用户的注意力,并帮助用户更好地发现他们的个性化需求,有必要在推荐系统中引入偶然性。
为了解决上述问题,对中国的网上购物习惯进行了一次用户调查,在此基础上提出了一种新颖的CF算法,称为基于创新者的CF(INVBCF)。特别是,我们引进了能够在CF中发现冷物品的创新者的概念。一个基本的假设是,用户可能会对推荐系统推荐“创新者”最近购买的产品感到惊讶。但是,在进行推荐时,与现有方法不同,我们不会强迫用户接受冷项目,因为用户对产品成熟度的接受程度不同。因此,所提出的算法首先计算用户活跃度,符合性和个人创新者指数(PII)。PII用于将活跃用户分为创新者和普通用户。对于每个普通用户,其最近的创新者交互的项目将用于构建候选推荐列表。接下来,将邻居的PII和用户的符合性都集成到排名功能中,以对候选推荐列表进行排名。结果,PII高的创新者推荐的产品可以为低合格用户获得高分。因此,所提出的算法成功地提高了推荐系统的偶然性,同时在偶然性和准确性之间取得了平衡,即,使用户感到惊讶而不强迫他们接受冷项目。
如相关工作部分所述,我们提出的算法与现有算法在解决寒冷物品(即新物品和小众物品)方面的主要区别在于,现有算法主要利用诸如物品属性之类的附带信息,会导致额外的计算成本[11],[12]或将所有用户视为创新者,而在实际应用中并非如此[13]。
为了评估该算法的有效性,利用阿里巴巴集团阿里手机推荐算法大赛提供的真实世界的电子商务数据集进行大量的实验已经。实验结果表明,提出的INVBCF算法在保持高精度方面优于现有算法。同时,进行参数分析以分析不同参数值的影响。
本文的贡献总结如下:
1)进行了一项用户调查,该调查显示了中国的在线购物习惯,并为构建提出的推荐方法奠定了基础。
2)提出了一种新的推荐算法INVBCF,该算法可以通过引入创新者的概念,向用户推荐新项目和小众项目,实现偶然性和准确性之间的平衡。
3)设计了离线组件和在线组件用于实现所提出的推荐算法。 在线组件可以在用户的移动设备上执行,这使得可以实时调整推荐列表,并大大节省了服务器的通信成本和计算资源。
本文的其余部分安排如下:第二节介绍偶然推荐中的相关工作。 在第三部分中,我们提供了一项用户调查,该调查反映了中国最大的在线购物商城淘宝用户的在线购物习惯。 然后,我们在第四节中详细描述我们的算法。实验结果报告在第五节中。最后,我们总结了本文并在第六节中介绍了未来的工作。
第二章 相关工作
传统的推荐系统通常使用准确性作为评估性能的主要指标。 但是,提高准确性并不意味着提高用户满意度[14]–[16]。例如,推荐用户已经放入购物车的商品可以达到很高的准确性,但是没有任何意义。一个好的推荐系统不仅需要准确预测用户的购物行为,还需要拓宽用户视野并发现他们的潜在兴趣[17]。 因此,偶然性被引入推荐系统,并已成为近年来非常热门的研究课题[17]-[28]。 根据[29]和[30],可以简述如下。
定义1(偶然建议)
如果推荐结果与用户的历史兴趣不同,同时又满足了用户的需求,则该推荐结果是偶然的。
要评估推荐结果,我们应该测量推荐结果与用户历史兴趣之间的差异。还要注意,推荐系统越早推荐偶然的项目,用户会感到越惊讶。
改善偶然性的自然观点是利用辅助信息,例如用户资料,内容数据,位置信息等。Murakami等人[31]比较了贝叶斯模型和关键字过滤方法之间提高偶然性的性能。结果表明,关键字过滤可以更好地平衡准确性和偶然性。zhang等人[11]通过使用潜在狄利克雷分配技术来利用音乐艺术家的信息,并提出了基于项目的推荐的两个变体,称为社区意识的听觉主义者和泡泡意识的听觉主义者,可以将偶然性注入音乐推荐中。Schedl和Hauger [12]提出了一种算法,该算法在推荐音乐时会考虑年龄,民族,风格和其他因素。实验结果表明,附加信息确实可以改善用户体验。
图1 Rogers的创新采用曲线。 x轴表示产品的生存时间,y轴表示购买该产品的消费者数量.
除了辅助信息外,还从其他角度为解决冷启动问题做出了一些努力[32],[33]。 Wang等人[32]首次为广播电子邮件优先级开发了一个自我学习的活动框架,该框架利用CF功能,处理隐式反馈并考虑了用户对时间敏感的响应能力。基本思想是将广播电子邮件从邮件列表发送给一小部分用户,然后收集对时间敏感的反馈,以预测其余用户的电子邮件优先级。这种主动的学习框架在解决广播电子邮件优先级的完全冷启动问题方面非常有效。此外,提出了一种新颖的跨域推荐框架,用于处理大量邮件列表[33]。尽管在广播电子邮件优先级划分方面取得了成功,但是由于通常不适合在一小部分消费者中进行试用以获取反馈,因此这些方法不能直接应用于电子商务。
改善偶然性的另一个观点是基于Rogers的创新理论。为了说明,图1显示了Rogers的创新采用曲线模型。这是Rogers提出的一种社会学概念,于2006年由Krueger首次引入商业模型[34]。在电子商务中,现象可以解释如下。发布新项目时,不同的用户需要花费不同的时间来发现它。创新者是那些一开始就能发现该项目的人。 Kawamae [13],[35]首先将Rogers的创新理论引入了推荐系统,以提高偶然性。该算法基于以下假设:如果推荐系统推荐当前创新者购买的产品,则用户可能会感到惊讶[13]。然后,开发了一种算法的变体,在构建实时推荐系统时将社区考虑在内[35]。使得能够在社区中很好地表达意见并引领潮流的鉴赏家,可以很快对社区中的粉丝产生影响。这两种算法都显示出改善偶然性的能力。但是,这些方法假定所有用户都是创新者,并使用遍历马尔可夫链来模拟如何通过多个步骤跟踪创新者,这与只有2.5%的用户可以被视为创新者这一事实相矛盾。而且,Hu等人[36]发现用户在选择商品时可能会有自己的临界点,并提出了一个框架,该框架根据用户临界点来推荐商品,以使成熟阶段与用户临界点相匹配。.
应该注意的是,在其他领域,例如协作标签平台[37],[38],对产生偶然推荐的研究也得到了广泛的研究。Zanardi和Capra[37]开发了一种有效的内容搜索方法,即使用基于标签的推荐系统来命名为“社会排名”,该方法使用用户聚类来提高准确性,而使用标签聚类来提高覆盖率。在[38]中,通过推导最“权威”的标签,开发了一种查询扩展和用户资料丰富的方法,以解决大众分类法中传统的基于内容的(CB)和CF方法所遇到的问题。但是,由于电子商务和大众标签系统之间的本质区别,上述方法不能直接应用于电子商务中产生偶然推荐结果。
第三章 用户调查
为了更好地了解中国的在线购物习惯,我们对用户进行了两个不同的调查:一个从2016年4月4日开始,到2016年4月15日结束,另一个从2017年4月20日开始,2017年到4月27日结束。
在两个调查期内,共收集了570张答题纸,其中59.1%由学生回答,其余40.9%由劳动人民回答。 其中大多数(84.7%)具有一年以上的在线购物经验。 根据图2(a)所示的年龄结构,其中80.5%的年龄在35岁以下,这意味着年轻人构成了大多数在线购买者。 虽然61.9%的受访者仅在有明确需求时才喜欢浏览在线购物网站,但38.1%的受访者表示愿意在业余时间浏览网站。
图2.用户调查的统计图。 (a)受访者的年龄结构。 (b)与网站的一次互动中的时间成本分配。 (c)与网站的一次交互中浏览页面的分布。 (d)影响用户决策的关键因素。
如图2(b)所示,大多数受访者每次在网站上的停留时间均少于1小时(61.4%),并且如图2(c)中所示,(77.7%)仅浏览嵌入式搜索引擎返回的前5页。此外,还要询问了他们在对搜索引擎返回的结果以什么因素进行排序。这是一个选择题,有63.7%的受访者按销量排序,43.9%的受访者按价格排序,38.9%的受访者按排名得分进行排序,以及32.6%的受访者按受欢迎程度进行排序。有趣的是,用户选择对结果进行排序的因素与他们认为是决定购买的最重要因素完全不同。从图2(d)中我们可以看到,将近一半(47.2%)的受访者将信任视为影响其决策的最重要因素,然后排名得分或评论(27.9%),仍然很多(22.6%)的受访者优先考虑价格。.
调查的发现可以概括如下:
1) 大多数使用在线购物服务的用户非常不活跃,因为他们仅在需要购买商品时才与网站互动,因此他们提供的信息相对较少。
2) 用户不太可能每次都在网站上花费太多时间,他们主要依靠内置的搜索引擎提供的排名靠前的结果。
3) 销量(即商品受欢迎程度)是大多数人做出购买决定时的首要因素。
4) 信任,即质量,是用户关心的重要问题。
因此,可以得出一个基础确定的结论,几乎所有用户都想购买高质量的商品,但他们不愿意在寻找此类商品上花费太多时间。而且,以上分析表明,它们中的大多数只能发现排在第一位的热门商品,而其余的大量新商品和落后商品甚至都没有机会被发现。在这种情况下,偶然的推荐系统是帮助用户发现新项目和小众项目的必要条件。但是,我们还应注意,用户对新商品和利基商品的接受度不同,因此我们应该在偶然性和准确性之间取得平衡。
第四章 推荐系统框架
在本节中,基于阿里巴巴集团在“阿里移动推荐算法竞赛”中提供的实验数据集,我们首先定义和分析算法中使用的一些关键概念。 然后详细介绍了所提出的算法和两个组成部分,以实现其目的。
4.1 关键词概念
4.1.1项目受欢迎程度和用
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[235675],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。