英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料
基于利润的客户保留模型选择
使用个人客户终身价值
摘要:
通过设计,客户保留活动的目标是增加价值并提高企业的运营效率。对于那些努力将客户保持在饱和(有时是快速移动)市场(如电信和银行业)中的组织来说,实施表现良好且符合业务目标的客户流失预测模型至关重要。通过考虑保留活动的成本和收益并估计其对组织的价值,预期最大利润(EMP)度量针对这个问题进行了调整。不幸的是,该度量假设所有客户的固定和相等客户终身价值(CLV),这已被证明与实际情况不符。在本文中,我们扩展了EMP度量,以考虑客户生命周期价值的可变性,从而基于个人特征。我们演示了当CLV已知时,当其先前分布已知时,以及当两者都不已知时,如何合并CLV的异质性。通过考虑单个CLV,我们提出的衡量模型性能的方法在决定客户保留活动时提供了新的见解。该方法取决于客户群的特征,因为它符合现代业务分析,并适应了在组织中表现出来的数据驱动文化。
关键词:客户流失预测;客户终身价值;模型评估;最大利润度量
引言:
在现代商业分析中,特别关注客户的个人特征,这突出了在组织中表现出来的数据驱动文化。分类问题代表了行业和学术界中存在的商业分析的一种应用。无论是信用评分、客户流失预测还是网站分类,通常的目标是建立性能良好的预测模型,尽可能正确地对多个实例进行分类。错误分类实例的后果并不总是很严重,但是依赖这些模型的公司可能遭受巨大损失的可能性不应被忽视。在为客户流失预测(ccp)设计保留活动时,包括不打算流失的客户不会对公司产生很大影响,而未能确定随后离开公司的潜在流失者,则会造成损失。然而,并非所有客户对公司都有相同的价值,一些客户的保留行动可能根本无法盈利。当公司选择一个客户流失预测模型用于其营销活动时,必须考虑到这些问题,并根据具体情况选择一个模型性能指标。
由于组织关心他们的利润,所以选择一个绩效指标是合理的,它可以最大化潜在保留活动的预期利润。最近提出的最先进的最大利润(MP)3和预期最大利润(EMP)措施就是以此为目标制定的。后一种衡量二元分类器性能的方法已被用于CCP5和信用评分,并已被纳入到分类模型本身的构建和特征选择中。在客户流失的情况下,该措施考虑了客户保留活动的成本和收益,并优化了预期利润,同时给出了应包含在活动中的客户群的一部分,以实现该MP。这些值是使用各种参数计算的,例如客户生命周期值(CLV)、联系客户的成本、保留产品的成本以及包含在活动中的客户接受保留产品的概率。由于最后一个参数通常不为人所知,甚至难以估计,EMP在beta分布后用随机变量对其进行建模。然而,假设其他参数已知。尤其是,CLV被认为是固定的,对所有客户都是平等的。
近年来,CLV一直是一个热门的研究课题。它被定义为客户与一个组织的关系所导致的所有未来现金流的现值,为评估每个客户的财务价值提供了优势,目的是识别利润最高的客户并培养长期关系。然而,正如文献所证明的,CLV的评估并不简单。由于客户关系和交易场合的不同类型,需要在考虑问题设置的同时小心地删除CLV。此外,既有确定性模型,也有随机模型,它们要么纯粹基于历史数据估计CLV,要么利用概率分布对CLV的各个组成部分进行建模。当评估CLV时,通常会做出一个常见且不准确的假设,这与客户群的异质性有关。尽管大多数研究都集中在CLV的点估计上,但文献已经认识到CLV波动性的重要性。估计客户终身价值的差异是很重要的,因为大多数公司的客户基础决不是统一的,而且不同级别的客户有不同的需求,为了恰当地管理客户关系,这些需求应该在一个单独的级别上解决。根据Verbraken等人的建议,EMP测量假设所有客户的CLV都是固定的且相等的。
在本文中,我们引入了一种新的方法,通过允许CLV在主题基础上发生变化,将客户异质性纳入先前引入的EMP度量中。我们演示了当单个CLV可用时如何实现这一点,以及当它们不可用时如何获得估计值。结果是EMP值的分布,我们应用自举技术生成置信区间,以帮助区分好模型和坏模型。我们将我们的技术应用于两个实际数据集和五个基准数据集,使用六种不同的分类技术,并证明我们的方法的实用性,与h标准EMP测量值和ROC(接收器工作特性)曲线(AUC)和顶部十分位提升测量值下的常用面积。由于我们的方法明确考虑了客户群的可变性,因此与传统的EMP度量相比,它具有提供一系列性能的优势,这在为保留活动选择模型时是有益的。
本文的其余部分组织如下。在下一节中,我们将讨论我们工作的理论背景,包括分类器性能的测量和CLV的计算。随后,我们提出了EMP度量的扩展,这是本文的主要贡献。在经验评估部分,我们将所提出的技术应用于数据集的收集,并将结果与其他措施进行比较。最后,我们讨论了我们研究结果的管理含义、我们研究的局限性以及未来研究的机会。
理论背景:
测量模型性能
在比较不同模型和选择最佳模型时,评估二元分类器的性能至关重要。在这里,我们描述了这个过程的基本术语和方法,然后描述了更高级的H度量和EMP度量。
在客户流失的情况下,分类器的目标是正确识别潜在的客户流失者,从而为每个客户分配一个标签作为客户流失者,这里用0表示,而非客户流失者用1.5表示。在对客户流失数据集应用二元分类器(如逻辑回归(LR))后,结果通常是每个客户的得分。MER在[0;1]范围内,可以解释为搅拌的概率。通过确定截止值t 2[0;1],得分高于截止值的每个人将被视为预测的客户流失者,得分低于截止值的每个人将被视为预测的非客户流失者。表1给出了一个由这样一个分类器产生的混淆矩阵,带有一个截止t。在这个矩阵中,
n表示总体大小,p0和p1表示0和1类的先验概率,f0(t)和f1(t)是这两类分数的累积分布函数。然后,在矩阵中,np0f0(t)表示实际流失者的数量,分类器将其分类为流失者,np1f1(t)表示未正确分类为流失者的实际非流失者的数量。这些也分别被称为真阳性和假阳性。当实例被正确或错误分类时,收益和成本可以与分类相关,如矩阵中的b0、b1、c0和c1所示。例如,当分类器错误地将潜在的客户流失者分类为非客户流失者时,此人将不会被包括在保留活动中,因此不可避免地会离开,从而导致公司损失或成本。
为了显示独立于临界点T的分类器性能,经常使用ROC曲线。它以图形方式显示分类器的真阳性率(敏感性)和假阳性率(1-特异性)之间的权衡。相应的AUC定义为
AUC=int;F0(s)f1(s)ds:
AUC是0.5和1之间的数值,用于汇总ROC曲线,并用于比较不同模型的性能。AUC值越高,表示分类器的性能越好。虽然AUC在模型评估中很受欢迎,但它没有考虑错误分类的成本,这在类不平衡的情况下可能是有问题的。此外,有人认为,AUC是聚合分类性能的非相干度量,因为计算AUC时隐式假设的概率密度取决于分类器本身的经验分数分布。然而,它不是不连贯的解释为一种方式,评价分类器性能的类别歧视。
作为替代方案,Hand提出了h-度量,它将分类器的预期损失或函数给出的平均分类损失最小化
Q(t, c, b) = b(cp0(1_F0(t))t(1_c)p1F1(t)),
当b=c0 c1,c=c0为成本比率,公式如下
其中t(c)是最优阈值,ua,b是c的概率密度函数,这里假设为参数a和b的beta;分布。
在建立客户流失预测模型的情况下,公司往往更关心利润而不是损失。因此,Verbeke等人提出了用多点测量法代替损失最小的H测量法。保留活动的利润表达来源于Neslin等人。并且
该方程描述了基于客户从客户群到客户群的流动的保留活动的利润,考虑到客户目标部分(lambda;)内的流失者(eta;)、联系他们(f)并向他们提供保留提议(d)的成本、接受该提议的潜在流失者的比例(gamma;)。以及由此产生的CLV增益。保留提议产生负面影响的可能性可以忽略不计。最后,N是客户总数和A的固定管理成本。将该方程与分类器的平均分类利润结合起来,得到一个分类阈值函数。
假设eta;和lambda;依赖于t,它们可以表示为
而忽略a则导致客户流失分类器的平均分类利润
然后可以选择分类的阈值,以便最大化利润
Verbraken等人假设所有的参数都可以估计,除了c,它被认为是一个随机变量后贝塔分布与参数a和b,导致以下方程
EMP的值可以用经验凸壳计算。最后,根据这些计算结果,得出了客户流失的预期利润最大化率如下:
并表示在实现EMP的活动中应针对的客户群的最佳部分。分数是EMP度量的一个有利的副产品,因为临界值不需要明确确定,我们将MP度量称为标准EMP。
我们在评估模型时应用的最后一个性能度量是上十分之一的提升。它通常用于客户流失模型,因为它将预测概率最高的10%客户的流失率与实际客户群中的流失率进行比较。因此,它表示与随机的客户样本相比,预测模型在识别客户流失方面的优势有多大。
客户终身价值
CLV,定义为与客户关系相关的现金流净现值,是一个热门的研究课题,在行业中也很重要。CLV文献的第一个一般综述确定了CLV研究方向的三类,即计算CLV的模型开发、客户基础分析模型和规范的CLV模型,这些模型主要用于理解CLV的问题。大多数研究主要区分确定性模型和概率模型,指出前者更适合单独计算,后者更适合在队列级别估计CLV,因为它们考虑了整体客户群的异质性。
除了建模方法外,客户群通常被视为具有两个维度,即合同类型和交易场合。第一个维度描述了与客户的关系,这是契约性的或非契约性的。第一个例子是在银行有账户的客户或有固定合同的电信客户。例如,非契约关系是超市的顾客。第二个维度是购买时间,可以是离散的,也可以是连续的。这用表中给出的示例加以说明。每个设置都需要不同的建模方法。
计算和使用CLV有许多挑战,其中有许多问题和影响这些问题的各种组件。11计算CLV时,通常假定客户群是同质的,这已被证明是无效的。尽管大多数的研究都集中在估计CLV的平均值上,但文献中普遍认为CLV的方差更为重要。为此,McCarthy等人提出了一种结合随机模型推导、预测和验证CLV方差的新方法。
如果客户一旦终止与公司的关系就被认为是永久性的损失,则应用程序被称为“永久性损失”。或者,“始终共享”方案假定客户通常与多个组织开展业务,但在一定程度上始终与公司保持联系。古普塔等。提出了一个通用表达式,用以计算时间t时顾客支付的价格pt、时间t时为顾客服务的成本ct、贴现率r、时间t时顾客活着的概率r t、购置成本ac和时间范围t
此表达式可用于计算两种类型的关系和事务场合的CLV,其组件可使用确定性和随机方法建模。存在多个派生,其中表达式被简化,不同的组件以不同的方式计算。然而,在实践中,计算CLV最常用的方法是通过最近频率货币(RFM)变量。我们在本研究中考虑的客户群类型是契约型和连续型的,并且关系被进一步视为“永远的损失”。因此,在本文的经验评估中,CLV的计算方式与Glady等人9采用确定性方法的计算方式类似。其中,t时客户i的clv定义为现金流cf的总和。
其中r是折现系数,h是计算clv的时间范围,q是贡献最终价值的产品数量,以及j产品在t时的净现金流量CFi,j,t是由下式得出的:
其中PJ是产品J、XI、J、T产品使用单位的边际利润。这是一种灵活的方法,它提供了定义时间范围以及考虑各种产品的可能性。此外,由于它是基于RFM变量的,所以计算起来就不那么复杂了。在这项研究中,我们决定使用这个简单的方法来计算CLV,因为它的建模不是我们的主要目标。
建模变量EMP
将CLV的异质性纳入EMP
在EMP度量中,c表示接受保留报价的客户的比例,但也可以解释为每个客户接受保留报价的概率。我们利用后一种对参数c的理解来推导EMP值的分布。
令是一个向量的一个给定的customers终身价值的公司。它们可以是通过CLV建模获得的实际值,也可以是从代表客户群CLV的分布中取样的值。重写方程以计算clv的每个值,我们得到
和以前一样,我们忽略了A,并使用相同的替换来获得平均分类利润
其中PCI对应于与CLVI相关的利润。我们为每个人定义EMPI
其中t是最佳阈值。注意,在常数clv的情况下,和CLV的向量一样,我们得到了EMP值的向量。每个单独的值都没有意义,因为EMP是一个测量分类器的整体性能,但为了进一步了解分类器的性能,我们可以研究EMP值的分布。
因此,我们继续为CLV向量中的每个实例计算单独的EMP值。EMP向量的汇总统计数据可以用来深入了解客户群。在下面的分析中,我们计算EMP向量的平均值和中值来估计模型性能。我们将此版本称为EMP向量。
估计EMP分布
每次需要评估客户流失预测模型时估计CLV可能不可行。然而,一旦计算了一次这些值,就可以在EMP的后续计算中利用它们的分布。为此,我们假设每个CLV都是一个随机变量,遵循第二种类型的beta分布,即b*。分布是正实线上绝对连续的概率分布,有两个形状参数a和b,使其可定制。此外,它可以是长尾巴,使其代表了CLV的行为。或者,也可以使用其他分布,如pareto或gamma。
当已知CLV的先验分布时,可使用极大似然法或矩量法计算分布的参数。26由于B分布的最大似然方程没有闭合形式,因此很难计算其参数。因此,我们使用力矩法,假设agt;1和
全文共16428字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[3024]
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。