使用深度学习从点击流数据预测在线购物行为外文翻译资料

 2022-08-14 15:02:22

英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料


使用深度学习从点击流数据预测在线购物行为

关键词

深度学习 电子商务 递归神经网络 数字营销

摘要

点击流数据是增强用户体验和追求电子商务中业务目标的重要来源。本文使用点击流数据来预测在线购物行为并实时定位营销干预。事实证明,这种由AI驱动的定位可以节省大量的营销成本并增加商店收入。先前的用户行为预测模型依赖于有监督的机器学习(SML)。从概念上讲,SML不太适合,因为它无法说明点击流数据的顺序结构。本文提出了一种方法,该方法能够使用递归神经网络(RNN)的框架来释放点击流数据的全部潜力。基于真实世界电子商务数据的经验评估会系统评估多个RNN分类器,并将其与SML基准进行比较。为此,本文提出了一种衡量目标定位模式对收入的影响的方法。收入影响的估算值以及标准分类器性能指标的结果证明了基于RNN的点击流建模的可行性,并指导了采用深度循环学习者进行广告系列定位。鉴于经验分析表明基于RNN的分类器和常规分类器可以捕获点击流数据中的不同模式,因此,一个具体的建议是将序列分类器和常规分类器组合在一起。本文显示了这样一种整体,其性能始终优于研究中考虑的替代模型。收入影响的估算值以及标准分类器性能指标的结果证明了基于RNN的点击流建模的可行性,并指导了采用深度循环学习者进行广告系列定位。鉴于经验分析表明基于RNN的分类器和常规分类器可以捕获点击流数据中的不同模式,因此,一个具体的建议是将序列分类器和常规分类器组合在一起。本文显示了这样一种整体,其性能始终优于研究中考虑的替代模型。收入影响的估算值以及标准分类器性能指标的结果证明了基于RNN的点击流建模的可行性,并指导了采用深度循环学习者进行广告系列定位。鉴于经验分析表明基于RNN的分类器和常规分类器可以捕获点击流数据中的不同模式,因此,一个具体的建议是将序列分类器和常规分类器组合在一起。本文显示了这样一种整体,其性能始终优于研究中考虑的替代模型。

1 介绍

个性化营销传播和服务产品的能力是数字营销和电子商务的主要优势。与公司网站的每次互动都会留下一个数字足迹,该足迹提供与客户兴趣,偏好和他们访问该网站的环境有关的信息。通过分析相应的数据,营销人员可以主动管理访问者的互动,例如,通过动态更改网站布局和内容,并纳入诸如注册按钮或数字优惠券之类的营销刺激措施(Radcliffe&Surry,2011)。只要目标定位模型能够成功准确地估计客户的响应能力,这种由AI驱动的目标定位可以节省大量的营销成本并提高在线销售量。Lessmann,豪普特,Coussement,与德博克,2019)。本文考虑了以数字优惠券为目标,这是在线购物环境中目标营销的一种流行形式(Reimers&Xie,2019)。一家专门从事数字营销服务的公司为这项研究提供了真实的电子商务数据,并报告说,由于改进了基于模型的电子优惠券定位,其客户已节省了六位数的营销预算。这暗示了声音定向的潜在商业价值。本文重点介绍通过利用点击流数据和有监督的机器学习(SML)开发相应的定位模型的方法。该重点在本文中无处不在。但是,我们希望注意到,我们用于优惠券定位的算法类型同样能够预测其他形式的在线客户行为,包括新闻简报注册,广告点击,产品退货等。

点击流表示描述用户会话导航历史的一系列页面视图。事实证明,这种类型的数据可用于Web使用情况挖掘并生成在线购物行为的实时预测(Bucklin&Sismeiro,2009)。本文还采用了一种常见的方法,就是学习一种决策函数,该函数使用过去的具有已知结果的会话将当前的网站访问者分为几类。相应的模型称为分类器,属于SML算法家族。对于优惠券定位,我们考虑两个组。在当前会话中进行购买的商店访客被标记为买方。如果该会话期间未购买任何商品,我们会将访客标记为非购买者。显然,向实际购买者发放优惠券意味着降低销售利润,因此应避免。

点击流数据按顺序出现,而标准SML算法采用表格数据。如何使用这些算法从点击流数据中预测用户行为尚不明显。以前的工作中普遍采用的方法是在每次单击时进行裁剪和预测(每次单击都进行裁剪)(VanderMeer,Dutta,Datta,Ramamritham和Navanthe,2000年)。将会话的每个页面视图都视为一个实例可以促进SML的使用,但会破坏用户点击流的顺序结构。本文采取了不同的路径,并将用户行为预测任务作为序列分类问题。我们将用户会话作为页面浏览顺序提供给直接预测会话结果的算法。为了实现这一目标,本文探索了一系列称为递归神经网络(RNN)的深度学习算法,这些算法专门针对顺序数据处理引入(Goodfellow,Bengio,Courville和&Bengio,2016年))。我们假设RNN代表了一种更合适的方法来捕获点击流数据的顺序性质,并克服了先前尝试使用SML从点击流数据中得出用户行为预测的一些概念缺陷。第二部分详细阐述了这一主张。

鉴于个性化和针对性营销传播的分析模型对于电子零售商至关重要(Gubela等,2017),假设RNN在点击流分类方面的优越性促使我们在实际的电子商务应用中测试RNN在点击流分类中的适当性。使用数字优惠券针对在线购物者的任务充当了一个试验台,我们在其中系统地比较了不同类型的RNN与已建立的标准SML算法。这种设置使我们可以对文学做出三点贡献。第一个贡献是,在替代点击流建模方法之间建立概念差异,并确定它们各自的优缺点。这种区别很重要,因为现有文献集中于序列分类或标准SML算法,但没有在统一框架中考虑它们。作为结果,

本文还为有关SML的经验文献做出了贡献,以用于营销决策支持和电子商务分析。我们采用不同类型的RNN进行点击流数据建模和将电子商店访问者实时分类为购买者和非购买者。我们还根据已建立的分类模型对RNN进行基准测试。我们的研究结果通过使用现实世界电子商务数据的有效性的经验证据,增强了替代点击流建模框架的概念比较。

本文的第三个也是最后一个贡献来自一种新型框架的开发和应用,该框架可以估算优惠券定向模型的商业价值。鉴于电子优惠券已广泛用作数字营销工具(Gubela,Lessmann和Jaroszewicz,2019年),对目标模型的货币价值的洞察对于企业实践特别有价值,并可在模型维护范围内为决策提供依据例如是修改已部署的模型还是将其替换为挑战者。将新的评估方法应用于我们的经验结果还扩大了比较研究的范围,并从价值的角度评估了基于点击流的替代定位模型。

2 使用点击流数据进行转化分类

本节介绍了转换分类任务以及我们在整篇文章中使用的表示法。随后,我们详细介绍了点击流分类的不同建模方法。

2.1 问题设定

我们将转化分类定义为一项任务,以预测网站访问者是否执行了营销人员努力触发的某些操作。在不失一般性的前提下,我们考虑一个交易型电子商务网站,并假定预期的行为是购买。同样,营销人员可能会对使访问者离开联系数据(潜在客户生成),应用程序等感兴趣。对构成转化的动作的具体定义对点击流分类没有方法论上的意义。

我们陈述点击流分类问题如下。让训练集包含一组用户会话X=(X1个,⋯,Xntilde;) 及其已知的二进制结果或标签 yuml;=(yuml;1个,⋯,yuml;ntilde;)。如果第i次会话导致转换,则标签y i为0,否则为1。此外,让X〜=(X〜1个,⋯,X〜ntilde;〜) 表示新进入的会话,其标签, yuml;〜=(yuml;〜1个,⋯,yuml;〜ntilde;〜),未知。每个会话来自X 和 X〜包括多个页面视图。更具体地说,会话i定义为X一世=(X一世(1个),⋯,X一世(Ť一世)), 哪里 X一世(Ť)isin;[Rd是会话i的t个页面视图,其中包含描述页面视图的d个不同功能。请注意,页面查看的数量(即会话长度T i)在各个会话之间有所不同。因此,X i可以由一个T i times; d矩阵表示,其中第一维的大小是任意的。在此设置下,点击流分类的目标是找到一个函数:(1)F:X→yuml;,可以正确预测新的实时会话的未知标签,即(2)F(X〜一世)=yuml;〜一世应该容纳许多 ntilde;〜即将到来的会话。对于大多数算法,f的输出不是标签,而是指示结果可能性的概率估计yuml;〜一世=1个。为了获得离散的类别预测,我们定义了概率阈值tau;。如果概率结果超过tau;,则预测标签为1;否则为0。否则为0。与标准二进制分类相比,输入数据的特定结构产生了很大的不同。回想一下,会话X i由具有动态第一维度的矩阵表示。因此,会议的集合X 和 X〜没有进一步的假设就不能用矩阵表示。SML算法(例如逻辑回归)需要固定大小尺寸的矩阵作为输入。以下讨论概述了解决此问题的策略。

2.2 会话级别的汇总

可以说,准备有监督分类的点击流数据的最直接的解决方案是在会话级别聚合页面视图的功能。这种方法转换了三维数据结构X 成矩阵 X一种isin;[Rntilde;times;d。然后,通用分类器可使用此矩阵来学习函数f,如等式中所示。(1)。可以通过计算每个会话的摘要统计信息来实现必要的聚合。早期对点击流数据的研究采用了这种方法,例如Van den Poel和Buckinx(2005)或Moe和Fader(2004)。后一篇论文开发了来自电子商务商店的在线访问者的拓扑结构,并得出了一些汇总的功能,包括常规会话描述符(例如,页面浏览量),用户的浏览重点(例如,产品页面浏览量的份额),查看的产品和类别(例如,一个类别中查看的唯一产品的平均数量)和重复查看量度(例如,同一产品页面上的最大观看次数)。除了摘要统计信息外,还引入了更复杂的特征提取方法。示例包括Shapoval和Setzer(2018),他们提出了两种非监督算法来提取会话级特征,或者Suh,Lim,Hwang和Kim(2004)他们探索了关联规则挖掘的使用。在会话级别进行聚合的一个明显缺点是信息丢失。此外,聚合功能的有效性和构造取决于数据,并且需要领域知识。

2.3 每次点击时剪切

另一种处理点击流数据的方法称为每次点击剪切(VanderMeer等,2000)。如下所述,相关研究通常采用这种方法(鲍曼,豪普特,杰伯特,莱瑟曼,2018年,公园,公园,2016年))。与聚合方法类似,每次点击剪切都会将点击流数据的复杂结构转换为标准分类问题的形式。但是,与标记整个会话相反,该转换是通过对每个页面视图单独进行分类来实现的。为此,将所有会话的页面视图串联起来,以使结果是一个二维矩阵。为了在模型训练期间匹配此矩阵的行数,每个页面视图都将接收会话的类标签。在转换分类的特定情况下,这意味着如果会话促成转换,则为该会话的所有页面浏览量分配标签1。否则为标签1。正式地,串联的页面浏览量将转化X 进入矩阵 XC=(X1个(1个),⋯,X1个(Ť1个),X2(1个),⋯,Xntilde;(Ťntilde;)), 其中有 |Ť|=sum;一世=1个ntilde;Ť一世行和d列。每个页面视图的标签也被串联在一起,导致| T |维向量yuml;C=(yuml;1个(1个),⋯,yuml;1个(Ť1个),yuml;2(1个),⋯,yuml;ntilde;(Ťntilde;))。在训练模型之后,学习的决策函数将单页视图(即d维向量)作为预测的输入。因此,获得了标准分类问题,该标准分类问题在训练时需要矩阵作为输入并预测由特征值的矢量表示的新数据点的标签。

转换后,可以使用任何二进制分类算法来处理会话分类任务。但是,与聚合方法相比,每次单击剪切都提供了灵活性,可以预测会话期间任意时间点的结果,因此更适合实时场景。另一方面,通过将每个页面视图视为单个数据点,该表示法违反了数据独立且相同(iid)分布的假设。这是由于在同一用户会话内的页面浏览量之间可能具有自动相关性。对于标准分类器而言,这种非iid属性是一个问题,因为它们无法对时间依赖性进行建模,也无法隔离地对待每个数据点。作为补救措施,通常通过设计功能将来自先前页面视图的会话上下文的信息提供给分类器。设计包含所有相关信息的有意义的功能是一个耗时的过程,并且需要详细的领域知识。剪切每次点击的另一个经常被忽略的问题涉及对结果分类器的评估。在使用标准分类指标评估对保留集的预测能力时,每个页面浏览量的权重均相等。这对于诸如电子优惠券系统之类的用例可能不是理想的,因为最终决定是在会话级别而不是在页面浏览级别上做出的。剪切每次点击的另一个经常被忽略的问题涉及对结果分类器的评估。在使用标准分类指标评估对保留集的预测能力时,每个页面浏览量的权重均相等。这对于诸如电子优惠券系统之类的用例可能不是理想的,因为最终决定是在会话级别而不是在页面浏览级别上做出的。剪切每次点击的另一个经常被忽略的问题涉及对结果分类器的评估。在使用标准分类指标评估对保留集的预测能力时,每个页面浏览量的权重均相等。这对于诸如电子优惠券系统之类的用例可能不是理想的,因为最终决定是在会话级别而不是在页面浏览级别上做出的。

为了说明这个问题,最好看一个极端的例子,其中测试集仅由两个会话组成。让我们假设第一个会话包含99个页面视图,第二个仅包含一个页面视图,即X〜1个isin;[R99times;d 和 X〜2isin;[R1个times;d。现在考虑分类器预测中的每个标签的情况X〜1个 正确,但无法预测页面视图中正确的标签 X〜2。页面浏览级别的分类准确度将为99%,这表明我们有一个很好的分类器。但是,基于这种在电子优惠

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[235434],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。