英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料
在汽车保险客户市场分割中应用SOM的案例研究
瓦希德 古尔马
计算机工程系,
内沙布尔分校,伊斯兰阿扎德大学,内沙布尔,伊朗
摘要
在过去十年中,已经可以观察到,汽车保险公司正在承担新的挑战,其特征在于竞争加剧,对于汽车保险质量的要求提高,以及对上市时间的日益重视。 此外,关于客户在想什么,他们想要什么以及如何服务于他们的知识,对于希望在竞争性市场中产生合适策略的保险组织是非常有用的。
关键词:数据挖掘,自组织地图(SOM),客户关系管理(CRM),客户细分,汽车保险
- 介绍
现在,如何制定营销策略已成为汽车保险业的一个重要问题[1]。 汽车保险旨在涵盖交通事故造成的不同类型的索赔,加入世界贸易组织后,保险业迅速增长。 在过去十年中,已经观察到,汽车保险公司正在承担新的挑战,其特征在于竞争加剧,对汽车保险质量的要求提高,以及对上市时间的日益重视。 此外,关于客户想要什么,他们想要什么以及如何服务他们的知识对于希望在竞争性市场中产生合适策略的保险组织是非常有用的。 由于不同的愿望,兴趣和需求,获得对客户的全面了解是困难的。 因为一个组织通常不能在市场上为所有客户服务[2]。
客户的偏好和需求的多样性是保险公司通过提供各种有吸引力,个性化和令人满意的服务来管理客户的挑战[3]。 因此,客户细分可以提高归档到营销目的。 客户细分将客户分为组,每个组的成员具有类似的需求,特性或行为。 分段还代表客户关系管理中客户识别的关键因素。在细分客户之后,组织可以使用诸如客户吸引力的进一步策略来维持与客户的关系并从中获得更多利润,一对一营销,以及检验和预测客户行为的变化。
因此,本文调查了伊朗汽车保险业务的以下研究问题:客户的“需求”和“想要”汽车保险的原因究竟是什么? 如何帮助保险公司个性化其营销活动? 新开发的保险服务的特点是根据客户的认知增加利润的吗? 客户的认知可以转化为推荐系统或补货系统吗?
数据挖掘工具是一种流行的分析手段,以期获得对每个客户行为的更深入的理解。从数据挖掘结果中提取的知识被视为知识模式和规则,以便向汽车保险公司提出建议和解决方案。 在过去的十年中,自组织地图(SOM)已经成为一个有价值的数据挖掘工具,用于通过过程/反应监测和无监督分类目的提取知识模式和规则[4-8]。 在本文中,试图将无监督的自组织地图应用于基于他们的行为和需求的保险服务的客户的分类。
本文的其余部分安排如下。 第2节讨论了数据挖掘方法的背景,包括聚类分析,客户分段和自组织图(SOM)过程。第3节介绍了我们的系统框架和客户分段实施,客户分析,第6节提出了一个简短的结论。
- 研究方法
提出一种竞争性学习方法,用于一对一营销,检测和预测客户行为的变化。这种方法背后的想法是提供机制,以改进汽车保险组织的客户关系管理,通过提供一对一的营销和各种有吸引力,个性化和令人满意的服务,基于他们的需求和行为。为了分析开发的一对一营销,有必要简要回顾一下数据挖掘,SOM,客户细分及其框架。
-
- 数据挖掘
由于信息技术的提高和互联网的发展,企业能够收集和存储大量的数据。这些海量数据库通常包含大量重要数据,传统的分析方法无法转化为相关知识。具体来说,有意义的知识往往是隐藏的和意想不到的,假设驱动的方法,如在线分析处理(OLAP)和大多数统计方法,通常不能发现这样的知识。 因此,直接从数据中学习而没有先验假设的感性方法一点会被用于揭示隐藏的模式和知识[9]。
图1.数据挖掘过程的阶段
数据库的爆炸性增长强制学术界和工业界使用数据挖掘技术来提取可能传递重要信息的频繁结构模式。 因此,数据挖掘技术已经成为越来越受欢迎的领域,从不同领域的数据库中提取信息,因为它在任何类型的数据库工作的灵活性,以及由于令人惊讶的结果[7,10]。 数据挖掘是一个跨学科领域,结合了人工智能,数据库管理,数据可视化,机器学习,数学算法和统计学[11]。
数据挖掘项目的生命周期包括六个阶段。 图1显示了数据挖掘过程的各个阶段。 相的顺序不是刚性的。 总是需要在不同阶段之间来回移动。 这取决于每个阶段的结果,阶段或阶段的哪个特定任务必须接下来执行。 箭头指示阶段之间最重要和频繁的依赖关系。 我们在以下部分提供这六个阶段的简要说明。
-
-
- 业务理解
-
这个初始阶段的重点是从业务角度理解项目目标和需求,然后将这些知识转换为数据挖掘问题定义和旨在实现目标的初步计划。
-
-
- 数据理解
-
数据理解阶段从初始数据收集开始,并进行活动以便熟悉数据,识别数据质量问题,发现对数据的第一见解或检测感兴趣的子集以形成隐藏信息的假设。
-
-
- 数据准备
-
数据准备阶段涵盖从初始原始数据到构建最终数据集(数据将被输入到建模工具中)的所有活动。 数据准备任务可能多次执行,并且不会按照任何规定的顺序执行。数据准备阶段的基本任务如下[5]:
数据表和记录:首先定位,访问和集成数据源。接下来,将选择的数据放入表格格式中,其中实例和变量分别在行和列中发生。
数据清理涉及到填充缺失值,平滑噪声,处理异常值,检测和删除冗余数据的技术。
数据集成和转换:有时,将数据转换为新格式以提取其他信息很有用。能够总结大量数据集并在高概念水平上呈现是很有用的。日期是您可能希望以特殊方式处理的数据的一个很好的示例。任何日期或时间都可以表示为自固定时间点起的天数或秒数,从而允许对它们进行映射。在数据矩阵中,使用年份来代替日期,以此检测季节性知识[12]。
数据缩减和投影:这包括找到表示数据的有用特征(取决于任务的目标)和使用降维,特征离散化和特征提取(或变换)方法。数据压缩原理的应用可以在数据简化中起重要作用,这是未来发展的一个可能的领域,特别是在多媒体数据集的知识发现领域[13]。离散化:这是一种数据简化形式,通过用高级概念收集和替换低级概念来减少属性的级别数。
真实世界数据往往是脏的,不完整的和不一致的。数据预处理技术可以提高数据的质量,从而有助于提高后续挖掘过程的准确性和效率。因此,数据预处理是知识发现过程中的一个重要步骤,因为质量决策必须基于质量数据。检测数据异常,及早纠正数据异常,减少要分析的数据,可以为决策提供巨大的回报[13]。
-
-
- 造型
-
在软件工程中,建模是通过使用数据建模技术来描述形式数据模型来创建数据模型的过程[9]。在该阶段中,选择和应用各种建模技术,并且将它们的参数校准到最佳值。通常,存在若干技术用于相同数据挖掘问题类型。根据“知识挖掘类型”(DM功能)的数据挖掘技术可以分类为聚类,关联,分类等,以实现描述性/预测性数据挖掘任务[5]。一些技术对数据的形式有特定的要求。因此,经常需要回到数据准备阶段。
数据挖掘建模是开发业务应用程序的关键部分。 建模的目标是将业务问题制定为数据挖掘任务。建模技术可以为数据分析提供定量方法,使用归纳逻辑编程或算法来表示或获取专家知识,所以AI,认知科学和其他研究领域为DMT的发展提供更广泛的平台[7] 。
2.1.5. 评价
在项目的这个阶段,您已经构建了从数据分析角度来看具有高质量的一个或多个模型。 在进行模型的最终部署之前,重要的是更彻底地评估模型并审查执行的步骤以构造模型以确定其适当地实现业务目标。一个关键目标的确定是否有一些重要的商业问题没有得到充分考虑。在这一阶段结束时,应当就使用数据挖掘结果做出决定。
2.2使用自组织映射的客户分段
聚类和分割基本上将客户聚集成具有类似特征(例如人口统计,地理或行为特征)的群组,并将它们作为一个群组进行营销。数据挖掘技术已经广泛应用于不同的领域。随着组织的事务变得大得多,可以使用数据挖掘技术,特别是聚类技术,基于这些客户中的一些相似性将所有客户分成适当数量的集群。面对不同需求的市场,应用市场细分策略可以提高预期收益。许多营销研究重点研究如何使用诸如人口统计学和社会经济地位等变量来预测消费和品牌忠诚度的差异。分割问题应该被认为是两种不同的情况已知的字符参数和未知的字符参数。字符参数是已知的,这意味着分割分析可以处理具有存储在企业数据库中的事务或行为记录的客户,分析参数是预定义的,并且源自分析器兴趣[9]。
其中一种可能使用的聚类方法是竞争学习。给定对象的训练集,竞争性学习找到最类似于某一群集的对象的人工对象(代表)。竞争性学习的常用应用是科荷伦在1982年描述的科荷伦自组织映射(SOM)[14]。SOM是一种流行的无人监管神经网络方法,用于聚类,用于涉及诸如聚类,可视化和抽象以及市场筛选等任务的问题解决。与诸如K-means算法的传统聚类技术相比,SOM具有以下优点。SOM受人类大脑皮层的启发,其中的信息可以在2D或3D网格的结构中表示,其理论通过观察大脑的操作来激发[6]。SOM由无监督的竞争学习算法训练并且可以自动检测大数据集中的强特征。虽然SOM在相同集群内模式具有最大的相似度,并在不同集群的模式具有最小的相似性,但它可以在多维空间中产生神经元的二维排列[6,15]。
形式上,SOM是一种类型的人工神经网络[11],具有两个完全互连的神经元层,输入层和输出或科荷伦层(如图2所示)。科荷伦学习的第一步是竞争。在网络输入和权重向量上给定在科荷伦层的每个神经元的的训练向量,具有在权重和输入向量之间的最小(通常是欧几里得)距离的神经元被激励或被选择作为竞争的赢家。第二步是适应。科荷伦层的神经元被组织成一维,二维或三维网格,反映其生物灵感。在科荷伦层上定义拓扑邻居影响函数,将学习过程中的参与程度分配给与获胜神经元相邻的神经元。在每个学习步骤中,调整获胜神经元及其邻居的权重向量以更靠近输入训练向量。科荷伦提出的用于形成特征图的训练算法如下[4,6,8]:
步骤(1)初始化:为初始权重选择随机值。
步骤(2)获胜者发现:使用最小欧几里得距离标准在时间t找到获胜神经元c,其中表示时间t的输入向量,是神经元的总数,表示欧几里得范数。
(1)
其中,表示在时刻t的输入向量,M是神经元的总数,表示欧几里得范数。
步骤(3)权重更新:调整赢家和邻居的权重,使用以下规则:
(2)
(3)
图2.自组织映射(SOM)
其中,表示在时间内的输入数据,是在时间内的赢家神经元的拓扑邻域函数,是被称为“learningrate因子”正的常数,和分别是节点c和i节点的位置向量。定义内核的宽度。和这两者和将随时间而减少。应当强调的是,图像形成的成功主要取决于主要参数(即,和),权重向量的初始值和迭代的预先规定的数目的值。
在离散数据集和固定邻域内核的情况下,SOM的平方误差的和可以定义如下:
(4)
其中是训练样本的数量,是图形单元的数量。邻域内核以为中心,这是输入向量的最佳匹配单位,并对单位进行求值。
- 研究应用
为了在竞争性市场中制定经营战略,保险公司必须首先根据客户的期望了解客户的特点和需求,然后避免无效的策略,节省金钱和时间。因此,客户细分对于保险组织来说是重要的,以识别客户,解决他们的问题,增加他们的满意度和增强他们的忠诚度。
-
- 伊朗汽车保险
迄今为止,共有23家保险公司,他们都是在伊朗积极营运的本地公司,因为第一家保险机构是78年前开始的。2011年,根据瑞士保险公司的数据,伊朗在全球排名第46位,总保费收入为700万美元。这表明伊朗的保险市场已经扩展到国际保险领域的重要地位。
-
- 数据源
保险人受私人数据保护法规的约束,不允许向其他方披露其客户的任何信息,这限制了对基于相关数据库的现有汽车保险单购买数据的全面研究。因此,本研究通过问卷收集这些数据。
这些项目是关于汽车保险消费者的。此外,调查问卷旨在调查受试者以前的购买经验以及保险公司向他们提供的服务。通过调查表收集的信息会用于建立数据库。调查问卷中的项目一般可分为四个部分:
第一部分。基本数据包括七个问题:性别,年龄,教育,职业,居住,婚姻状况和年收入。
第二部分。汽车特性包括五个问题:汽车类型,汽车应用,汽车的财务价值,生产年份和制造商的县。
第三部分。汽车保险信息包括五个问题:以前的保险公司组织,没有任何意外的年数,从保险期间的过去的日子和汽车保险公司希望购买它作为未来的汽车保险。
第四部分。在选择汽车保险中的重要性的有效因素包括五个问题:保险成本,折扣,对推迟持有新保险的处罚的赦免,对以前的保险公司组织的满意度,保险公司的品牌和保险公司的
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[138424],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。