英语原文共 14 页
保险公司(TIC)数据集中的客户细分
摘要
客户细分是设计营销活动以改善业务和增加收入的重要概念。聚类算法可以帮助营销专家实现这一目标。高维数据库和数据仓库(如客户关系管理(CRM))的快速增长强调了对高级数据分析技术的需求。在本文中,我们使用TIC CRM数据集研究了不同的数据分析算法,特别是K-Means和SOM。虽然K-Means已经显示出有希望的聚类结果,但SOM在速度,聚类质量和可视化方面表现优异。我们还讨论了两种技术分割分析如何有助于研究客户的兴趣。本文的目的是提供关于如何在客户细分中使用大数据分析的概念证明(基于小数据的公开)。
关键词:数据挖掘;数据分析;大数据;聚类;客户关系管理;分割
介绍
如今的公司正在不断努力提高竞争力。客户关系管理(CRM)和数据仓库的大数据的可用性,以及高维度,使用数据挖掘先进技术的需求已经显着增加。数据挖掘算法的使用可能有助于企业在其客户数据中找到有趣的知识,包括人口统计和行为,然后是营销专家有责任利用这些见解设计公司营销活动以满足客户的利益。
我们在本文中挖掘的保险公司数据集(TIC)用于COIL 2000挑战。挑战的目标是预测对大篷车保险政策感兴趣的客户。我们研究的主要目标是回答以下研究问题:我们能否使用应用于高维TIC CRM数据的不同聚类分析技术发现有意义的聚类?我们试图通过探索聚类分析来回答这个问题。我们确定了保险公司营销专家可以使用的一些有趣模式。特别是,我们研究了两种不同的数据挖掘技术:臭名昭著的K-means聚类算法与SOM技术相结合(基于ANN)。使用此解决方案已经在聚类CRM数据集和可视化方面展示了有希望的结果。高维数据集的聚类和可视化将用于识别CRM数据中客户的特征,以设计以客户为中心的营销计划。
本文的其余部分组织如下。第2节回顾了与在不同领域的CRM数据中使用数据挖掘任务和技术相关的其他研究,显示了其他高质量pa-pers的优势和兴趣点。第3节是本研究中使用的方法和技术。第4节提出了我们的解决方案,作为使用数据挖掘技术的实验评估,显示了在TIC CRM数据集上应用这些技术的结果。最后,第5节总结了本研究,并对提出的解决方案和未来可以完成的工作进行了一般性讨论。
文献评论
最近,开发了一个结构化框架来应用新进度,频率和货币(RFM),客户的终身价值(LTV)模型[1]。该框架使用客户的人口统计数据来划分银行客户并设计营销策略。分析研究包括两个主要阶段:在第一阶段,CRM数据用于聚集客户。在第二阶段,通过SOM技术选择的人口统计数据变量(年龄,教育和职业)用于重新聚类来自第一步的结果片段。这两个步骤都是使用K-Means聚类技术完成的。客户价值比较使用LTV而不是内/集群间距离,以最大化客户的价值,这是本研究的目标之一。
最近的工作提出了一个基于客户LTV的银行客户细分框架[2]。根据客户的要求或偏好来研究客户群是很常见的。但是这项研究一直在使用客户的生命周期价值处理不同的方法,这可能更有效和实用。研究人员已经准备了一个框架来细分客户,计算每个细分生命周期价值,并估计每个细分市场的未来价值。在客户交易的大数据集上实施了两个级别的聚类。交易记录包括存款类型,交易日期,交易前余额,交易金额等。实现了K均值和两步聚类算法[2]。客户的终身价值是使用RFM模型计算的,RFM模型是最简单和最强大的客户的LTV近似模型。最后,该研究使用时间序列方法(乘法季节ARIMA回归)来预测每个细分的未来值[2]。
在[3]中,进行了另一项分析研究,根据银行客户的行为对银行客户进行细分,以帮助银行制定保留策略并获得新客户。[3]中的数据集是三个表的集成。首先,客户的人口统计数据表包括年龄,性别,婚姻状况等。其次,交易表包含客户的交易。第三,卡表包括银行卡的数据。在本研究中考虑了许多重要信息,并将其属性与其他客户的属性相结合,例如:交易类型,交易频率,服务类型,银行类型和渠道类型(ATM,Web和终端)。作者使用ANN将这些因素基于其盈利能力进行了分类。
在[4]中研究了识别大数据集中潜在客户的问题。该研究遵循以下方法:首先,为了准确性,使用半监督技术自动建立客户行为建模。其次,作者使用神经网络技术来可视化数据。对于半监督提出的技术,使用具有反向传播的多层感知器神经网络。每次使用标记数据子集对分类器进行重新训练,然后将其用于对测试数据进行分类,将最自信的未标记记录及其预测类别添加到训练集中以重新训练分类器(引导)。所提出的技术在对CRM中的客户进行分类时,优于许多其他传统技术,如神经网络,SVM和Naiuml;veBayes,以增强其流程,例如识别有价值的客户以保留或吸引他们。
在[5]中,对人寿保险公司CRM数据进行了一项研究,以分析客户的数据并避免客户流失。作者认为,解决了具有多类问题的大数据,以分类客户是否愿意继续。本研究中使用的数据集是从运营数据库中提取的,与其他保险政策类型不同,人寿保险协议平均应发布18 - 20年,因此建立一个有效的模型,作者需要挖掘数据重要的(大)时间段。在[5]论文中,作者对使用性别,年龄,职业等人口统计数据感兴趣。还使用了政策,保额,保费,代理等术语作为政策细节。作者通过可视化属性来开始本研究,以研究依赖性和相关性,以选择相关属性或要组合的属性。除了可视化基于相关的特征选择(CFS)之外,还使用了信息增益技术。ROC图技术用于评估不同的分类器准确度。ROC对类别分布的变化无动于衷,这种变化在诸如客户流失这样的主要市场中是常见的,而数据的分布则朝向一个类别标签(最常见)。
用于预测类的分类器是:J48决策树和使用BP的标准多层感知器的ANN。除了分类器的评估之外,还解决了许多问题,例如数据集中的大量属性,可以使用有效的特征选择技术(可能是概率的技术)来解决这个问题。此外,在研究的不同阶段仍然需要人为干扰。
在[6]的研究中,围绕Medoids聚类算法K-Mediods的划分是在存储在Teradata环境中的Telecom CRM售后数据集上实现的,目的是在销售新产品时分割客户的行为。K-Medoids使用集群中最中心的对象来表示集群,而不是集群可能不长的均值(K-Means)。这使得K-Medoids比K-Means更强大,K-Means比大量的Ks表现更好。客户的偏好(例如:年龄,合同类型,销售数量,使用的媒体,客户区域重要性,部门和账单历史记录)用于定义细分市场。研究结果表明,K-Medoids聚类算法在大型数据集(如CRM)中非常有效。
在最近的一篇论文[7]中,作者试图通过实证比较数据挖掘方法:决策树和逻辑回归来构建客户流失模型。作者发现决策树的表现优于逻辑回归。该分析使用来自英国运营商移动电信数据的两个不同客户的数据集(15,519和19,919个客户)构建。该数据集具有十七个变量或维度,包括人口统计数据,使用的服务,服务使用,服务成本和营销数据。使用三种不同的决策树算法(CART,C5.0和CHAID),准确率约为70%,以预测客户是否会继续。
虽然[8]一直在使用客户电信大数据来构建一个框架,不仅针对重要客户,而且针对潜在的流失客户。首先,作者使用新近度频率货币(RFM)分析技术来生成客户细分。根据每个客户群的共同特征,设计有针对性的营销活动。使用的数据集是结构化和非结构化数据的组合。结构数据包括人口统计数据,分钟数或消息数,互联网使用情况等。非结构化数据包括客户反馈,社交媒体内容,位置,下载的应用程序,在线购买数据......等。
在[9]中,作者一直使用twitter文本(推文)作为大数据的来源。在这段时间里,作者成功地发现了许多关于迪拜的当地活动和热门话题。作者收集了四个月的推文(136,000条推文)来创建语料库。然后使用具有聚类技术的文本挖掘来进行实验。
在接下来的部分中,我们将使用聚类数据挖掘技术探索保险公司数据集。我们将首先研究数据集的特征及其聚类趋势,然后使用不同的条件实现两个不同的聚类实验。
数据集
在这项研究中,我们一直在使用这个保险公司(TIC)的2000数据集。这个真实的数据集由Peter van der Putten出版,由阿姆斯特丹荷兰数据采矿公司Sentient Machine Research拥有。
该数据构成了CoIL Challenge 2000数据挖掘竞赛。TIC数据集是从现实世界的客户关系管理(CRM)数据中收集的,包括9,822个客户记录,5,822个培训记录和剩余的测试记录。每条记录有86个属性,前43个属性代表客户的人口统计,其余43个代表客户的行为或产品所有权。所有特征都具有名义值,最后一个(COIL 2000的目标属性)是二项式[10]。
背景
-
- 确定数据的聚类趋势
在开始实验并在此数据集上应用任何聚类技术之前,我们必须研究数据在对象之间具有聚类或相似性的趋势。在大数据集中,例如我们具有高维度的数据集,维度的诅咒可能对相似性度量产生关键影响。为了揭示数据聚集的趋势,我们绘制了数据集中所有对象的成对距离的直方图。如果结果图包含两个峰,则表示数据集包含簇。其中一个峰值代表群集中物体之间的距离,第二个峰值代表物体之间的平均距离,如图1所示。(a)[11]。我们的数据集的直方图如图1(b)所示,表明数据具有聚类倾向。
图1.(a)根据[11]改编的有和没有集群的数据的点间距离图;(b)分析COIL 2000数据集的聚类趋势 - 距离直方图。
-
- K-Means算法
K-Means是一种分区聚类算法,其中每个聚类与质心或中心点(点的平均值)连接。在训练期间,使用分配给具有最接近的质心的簇的每个对象,通常是欧几里德距离。簇的数量K应该在开始时定义,初始质心是随机定义的。K-means算法如图2所示[12]。
图2 K-means聚类算法,改编自[12]。
要定义我们遵循弯头技术的最佳K数,如下一节所述。
-
- 弯头方法选择簇数(K)
弯头标准是一种定义K均值聚类技术中最佳K的方法。和Elbow技术一样,为了定义最好的K,我们用不同数量的聚类重复实验10次,并且每次我们都在绘制每个K的质心距离内的平均值,然后我们选择图中的K一个角落,后面是一个下降,然后没有变化。此角度是此数据集的最佳K或簇数。对于第一次聚类实验,最佳K为5,而对于第二次聚类实验,其为6,如图3所示(a)和(b)(数据科学实验室,2013)。
图3.(a)用于确定Ks-第一实验的否的弯头方法;(b)没有Ks第二次实验
-
- 自组织地图(SOM)
对于高维数据集,可视化具有挑战性。为了简化演示并探索有意义的关系,我们一直在使用自组织地图(SOM)或Kohonen地图。SOM是神经网络,它将多维数据转换为表示数据对象之间关系的二维数据。地图上节点的位置表示与特征空间中的邻居的相似性(顺序)。因此,通过减少地图的高维度,可视化变得容易和有吸引力,同时将类似数据分组在一起是聚类的一种手段[13]。
SOM是一种特殊类型的神经网络,它使用竞争性学习来响应样本。对于样本向量,随机定义来自相同大小的输出网络(节点数)的权重,然后应计算样本和权重之间的欧几里德距离(常用)。具有最小距离的节点是赢家,该获胜者被认为代表类似对象或邻域的集群。接下来是适应阶段,其中应调整所有邻域节点的权重。“学习率应该下降训练时代的功能“[13]。适应将导致权重向输入属性值移动,所以它变得更适合于聚类类似的记录。
从红色到深蓝色的颜色方案的变化显示了相邻节点之间的平均欧几里德距离。图4所示的网络称为SOM网格或地图,该网格可用于理解或读取数据集分布。在该图形表示中,红色区域表示不相似性(对象之间的大欧几里德距离)。而深蓝色区域代表相似性(物体之间的小欧几里德距离)。然后颜色在橙色到蓝色之间降低,表明节点之间的距离减小。我们还可以使用此颜色方案来显示每个要素或属性,因此这些颜色将表示每个单独属性的值(深蓝色表示低值,红色表示高值)。使用此着色模式表示各个属性将生成一个称为特征平面的网格,如图26至35(附录部分)所示。
图4
在以下两节中,我们将使用两种不同的技术执行两个不同的实验。我们将显示每个实验的执行细节,评估,我们将分析结果。
实验1:通过K-means进行聚类
要执行的第一个实验是使用K-Means算法。
-
- 执行
为了运行这个实验,我们一直在使用目标属性(大篷车政策)的最多21个信息属性,然后我们在简化数据集上应用了聚类(K-means)运算符,如图5所示。从表中可以看出对于图6中的质心,簇0和簇2彼此非常接近。因此,他们可以分享许多特征,我们将在下一节中看到。
图5. Rapidminer过程
图6.质心表
-
- 评估
第一个实验的结果,K-means在简化数据集上,显示了以下结果。Davies Bouldin的值非常小,意味着距离(同一簇中的点之间)非常小,并且间距(簇之间)非常大,这显示出良好的聚类。在我们的实验中,Davies Bouldin的值是1.632,K = 5时最小。
-
- 分析
为了读取聚类,我们将聚类,属性和目标类可视化为最具信息性的10个属性的散点图。所有这些散点图都显示在附录部分中。我们分析了结果情节,并认识到以下有趣的结
资料编号:[5878]
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。