英语原文共 15 页,剩余内容已隐藏,支付完成后下载完整资料
数据挖掘技术
概述。支持向量机通常用于数据挖掘。在这种情况下,支持向量机是一个复杂过程的一部分。这一章描述了一个通用的数据挖掘策略以及支持向量在这个过程中的作用。在这一章中也简要的概述了数据挖掘中与支持向量机类似的一些工具。
先决条件。了解第1章中介绍的svm的基本知识。
支持向量机和其他基于技术治疗的专著有两个主要应用领域:机器的风险最小化学习和数据挖掘。在这一章,我们描述了数据挖掘的过程,并解释在这一过程中支持向量机的作用。
在标准统计机器学习领域的目标是经验风险最小化。提取内部结构的数据集这不是最重要的知识,只要经验风险是最小化。一个典型的例子是作为“没有垃圾邮件”或者“垃圾邮件”的自动分类的电子邮件。其他的例子是信用卡的欺诈检测和手写数字的自动识别。支持向量机通常是被成功地应用在这种情况下,虽然数据分析师通常没有或者只有模糊的先验概率分布P的信息所生成的数据集。在本专著的前几章,我们做了一个 为什么支持向量机的理论基础的基础上适当选择的损失功能和使用合适的内核和hyperparameters能够学习, 这使得支持向量机对酒店尤其有价值的。
另一个成功的领域是ap -支持向量机和相关内核方法在数据挖掘项目中的应用,这些方法是整个过程仅有的基础。数据挖掘项目的主要目标通常是在大型复杂的数据集中提取模型包含的以前未知的信息。在不了解一般的数据挖掘过程的情况下将支持向量机成功的应用于数据挖掘中,这似乎是不切实际的希望。因此,本章简要地概述一下数据挖掘以及在该项目中的主要阶段。
在12.1节中,我们给出了一个数据挖掘的定义并解释了为什么数据挖掘是非常重要的。在12.2节中,我们描述了一个通用的数据挖掘,该策略称为CRISP-DM,由查普曼在2000年提出。CRISP-DM是跨行业数据挖掘的标准过程的缩写。在12.3节中,我们解释了svm在数据挖掘过程中所扮演的角色。12.4节提到一些进行数据挖掘的软件工具。12.5节包含进一步的文献信息,12.6给出了这一章的总结。
12.1介绍
Hand曾在2001年用以下方法定义了数据挖掘:数据挖掘的分析(通常是大型的)观测数据集以发现未知的关系,对数据的所有者来说,总结数据集中的数据这都是可以理解的和有用的方法。
这个定义包含几个关键词。包含有观测数据集的数据挖掘,这意味着该数据集通常不仅收集用于数据挖掘项目的目的。此外,观测数据一般不随机样本,但往往相当大,许多情况下,10的5次方到10的7次方之间是不寻常的。这样的数据的所有者有时设置大约有数据或数据生成过程,我们的目标是从现有的信息数据中提取新的信息。那种信息所需的数据挖掘项目之间非常不同。实例是一个模型具有低预测误差,识别,高风险亚群或检测属性之间的依赖关系。数据挖掘的结果不仅是新的信息的提取,也必须适用于实践。因此所获得的信息应总结在从业务提供高解释性两者的方式和数学的角度来看。因此,我们可以说,数据挖掘比建模技术更适用,无论是从参数统计,半参数统计,或非参数统计机器学习理论到大型数据集。数据挖掘项目的一些例子是:
bull;客户关系管理(CRM):客户获取,消费者评估,以及客户流失分析
bull;电子商务:销售预测和检测因消费者和产品之间的关联
bull;文本挖掘和Web挖掘
bull;信用风险评分:银行
bull;保险关税和高危险人群的识别
bull;基因表达数据分析:微阵列实验
在下一节中,我们描述了数据挖掘的一个特定的策略。
12.2 CRISP-DM战略
在CRISP-DM项目(Chapman等,2000)开发了一个业界与工具无关的数据挖掘过程模型。 CRISP-DM是数据挖掘跨行业标准过程的英文缩写,由戴姆勒 - 克莱斯勒(德国)开发,Teradata的是NCR系的细分TEMS工程哥本哈根(美国和丹麦),OHRA Verzekeringen恩银行Groep的B.V.(荷兰),和统计软件公司SPSSR (美国)。该项目部分由欧洲委员会资助下ESPRIT程序。从知识发现的过程开始
在当今工业中使用,并直接响应用户的需求,这项目定义和验证一个数据挖掘的过程,适用于二诗行业。 CRISP-DM的目标是使大数据挖掘项目更快,更便宜,更可靠,更容易管理的。
在CRISP-DM战略由图12.1中所示的六个主要阶段和在本节的剩余部分描述。
图12.1。根据CRISP-DM的策略数据挖掘的主要阶段。
第1阶段:商业理解
在这个阶段的目的是从一个商业观点得出一个目标。通常客户有几个竞争目标和必须平衡约束。分析师有揭露的目标能影响结局的结果很重要,但未知因素。说明通常目前使用的问题作出的任何用他们的优点和缺点的列表在一起。另外,商业成功标准为成功或至少有用的结果到项目从一个角度应用点来确定。对这些标准的一些例子有以下几种:
bull;估计给定列表的事件(例如,遗传缺陷)的概率输入。
bull;确定保险关税的风险降至最低(即预期的损失)。
bull;给客户提供有益的见解,去哪家生产能获得最便宜的保险公司的理赔。
bull;至少提高直接营销活动的5个百分比。
bull;确定的具有特定类型的癌症患者从一个新的药物获得的最高利益。
在数据挖掘项目的早期阶段,一是评估当前情况,考虑所有资源,约束和假设应该是
在数据分析的目标的决心和项目考虑计划。每个人都应该考虑到现有的或必要的人员,类型
的数据文件,计算资源,可用的数据挖掘的软件工具,并其他相关软件。包括计划项目的所有要求,完成后,可理解,结果的质量或精确的日期被列出。当然,人们应该确保访问数据文件是从技术上看允许和可能。所有项目的具体假设要上市,无论他们是否可以检查数据挖掘过程。假设为精密制作的估计。该项目提出的约束上市(例如,缺资源开展时限内某些任务或法律或道德约束)。另外一个方面是下限的确定上所需的样本大小,使得结论可以与所希望的进行精确。外部因素对所有假设,如竞争力的产品或技术进步应列出。决定应作出是否最终模式应该是在企业解释的术语或不是因为这很容易影响建模技术的选择。结果例如,支持向量机往往很难从商业的角度来解释比参数模型,如广义线性模型;见表12.2。此外,起点和该项目的终点列出与根据数据或数据的大小可能的风险质量。
一个成本与用于数据挖掘项目效益分析准备了数据挖掘项目的成本与潜在利益的比较
商业。当然,数据挖掘项目一般只有当完成潜在的好处占主导地位的成本。
然后,数据挖掘成功标准在统计上确定的。所有的业务问题转化为数据挖掘目标。例如,一个直接营销活动需要客户的细分,以德吉代是谁在竞选接近,而且还应该指定的大小的段。在这个阶段,需要指定数据挖掘概率的类型LEM;例如,分类(见第5和8)或回归(见第9章)。为模型评估附加标准规定,如模型的准确性,性能,和复杂性。此外,基准评测标准确定。一个例子是预测准确性的水平:
50%-70%为数据准备阶段;
15%-25%为数据理解阶段;
10%-20%为商业理解,建模和评价阶段;
5%-10%部署阶段。
第2阶段:数据理解
在这一阶段的第一个任务是在项目列出初始数据的收集资源。因此,必要的数据集的列表或数据库以及它们的类型构造。此外,该软件工具和方法,以获得这些被列出。如果遇到问题,他们也应该被列出。一个数据描述报告是由描述的主要性能的数据,包括
bull;数据(数量D:变量或属性,正数:病例数或记录);
bull;数据格式;
bull;编码,百分比和缺失值的模式;
bull;需要合并来自不同数据库或数据标识符变量表;
bull;一段时间收集数据时。
然后一个数据探索报告是由描述的分布关键属性(S);例如,主要反应变量(或目标属性)
预测问题。可能的值的列表和应急桌鉴于分类变量。对于连续变量,一些描述性列;例如,最小和最大值,平均和标准偏差,或者其强大的吊坠,如中位数和中位数绝对值(MAD)。 此外,低维关系和依赖性对或小数目的属性之间被计算以鳞属性考虑的(名义,有序,持续)。这份报告还描述了进一步检查感兴趣的亚群的特性;例如,按性别,年龄或地理区域分层。 此外,数据质量报告列举数据质量的结果验证。它还提到对质量的情况下,可能的解决方案概率LEMS。这些解决方案往往取决于业务的深入了解和数据本身。许多学者认为,数据质量是至关重要的在数据挖掘项目的成功;见,例如,希普等。 (2001)。
第3阶段:数据准备
这个阶段的目标是获得干净的数据集或数据库,可以是在建模阶段使用。首先,数据选择由决定哪些AT-完成悼念会包含或排除在接下来的阶段。选择套属性(列)的选择和例(行)的选择。 对于决定BLE标准是相关的数据挖掘目标,缺失值的百分比,和数据质量。
然后一个数据清洗报告作出描述的操作,以增加数据质量。该报告描述了采取行动以克服
数据质量问题。如果缺失值诋毁甲取代消耗臭氧层物质或其他战略(见鲁宾,1987年),该报告应说明哪些被使用的方法,以及如何被修改许多数据点。
干净的数据集建设内容包括数据准备操作系统蒸发散如打字错误校正和现有的改造属(通过使用对数,平方根,箱Cox变换,变量等)以及通过定义派生属性。举个例子,我们提到的身体质量指数(BMI)为成年人,其定义为,由以下度量公式计算:
BMI =身高(米)/重量(公斤)的平方。
这些的BMI值通常分类成组,例如“轻”:BMI低于18.5; “正常”:BMI 18.5和24.9之间;等存在着指明分数公式计算BMI为儿童和青少年,以性别和年龄考虑在内。派生属性的诸如身体质量指数的目标是双重的:维数的减少和便于解释。
数据准备阶段的下一个步骤是数据的整合。这通常是必需的,因为从多个表或数据集的数据有被合并在一起,或新的病例必须对同一对象被创建或人。有时合并的数据也包括那些业务聚合总结从多个案例或表的信息。作为一个例子,我们何况分析保险数据数据挖掘项目。假设有三个表部分是由于数据的安全性:
bull;表A,具有唯一索引变量,比如ID,以及个人和人口统计学关于客户的图形信息;
bull;表B,将含有ID变量,权利要求书的数量,要求量本年度,和可能的解释变量(输入);
bull;表C,包含ID变量,覆盖最后的索赔历史十年。
这里需要该ID变量合并属于单个客户数据连成一个大表。在本实施例中的有用聚合步骤是
建设多年的总和新变量没有索赔,总每年索赔数和每年为每个平均理赔金额顾客。
在这个阶段的最后一步是格式化的数据,这通常是由建模工具需要并增加结果的可读性。
它经常是有用的格式化分类属性,使得的值首选参考类是第一类或最后一堂课。它可以是有帮助的文本转换成属性修剪大写后的空白。
第4阶段:建模
首先,人们必须选择建模技术(多个),取数据挖掘的目标,该数据的属性,以及模型假设的合理性考虑。内核的方法,包括支持向量机的一个优点是,这些非参数方法,只需要在比较相当薄弱的假设与参数方法。支持向量机是当然只有一个类建模技术在数据挖掘项目中,我们希望提三强的竞争对手:广义线性模型,广义加模型,以及基于树的方法。这些方法在实施几个数据挖掘工具。
广义线性模型
广义线性模型(GLIM)是具有参数回归模型三部分组成:一个随机分量,线性预测器,和一个链接函数化;看到内尔德和韦德伯恩(1972),与McCullagh和内尔德(1989),和
Fahrmeir和考夫曼(1985)。随机分量假定(D 1)维随机变量(X I,Y I)中,i = 1,...,N,是随机独立和Y的条件分布我给出X I = X i是一个一个指数族元素(见(A.17))。线性预测描述该向量x仅通过线性combina-影响Y中的假设化eta;=times;T的theta;。的双射连接函数g连接线性预测以条件期望mu;(theta;)=市盈率的theta;(Y | X)通过G(mu;(theta;))=eta;。 GLIMS使隐式硬额外的假设,即,有一个功能通过一些固定的方差函数V指定的关系,R→[0,infin;)BE-吐温条件期望和Y给出x的条件方差。表12.1列出y所x的条件分布,链接功能,
和特殊GLIMS的方差函数。注意,方差函数是在这些情况下的多项式。期望之间的简单关系和响应变量方差可以在实践中受到严重侵犯,请参阅Christmann(2005),用于从保险公司的数据组。
theta;isin;R D所古典估计是最大似然(ML)估mator,它具有很好的性能(一致性概率或几乎可以肯定,ntilde;-1/2,渐近效率和渐近正态性的收敛速度)如果广义线性模型的假设条件都满足;看到Fahrmeir和考夫曼(1985,1986)。在ML估计这些渐近性质允许渐近最优假设检验和置信建设置信地区的beta;。但是,这种估计可以有两个严重的缺点。它可能不存在对某些数据集;看到阿尔贝和安德森(1984)和Santner和达菲(1986)。此外,最大似然估计
在一些特殊情况下,非稳健,其中包括线性回归和后勤回归。在一个相当非正式的方式,可以描述由稳健的方法物业小违反模型假设应该只有一个对结果小的,有限的影响;详情参见第10章。 强大的提出了例如替代的最大似然估计由Rousseeuw(1984)和Rousseeuw和Yohai(1984),用于线性回归,和Kuuml;nsch等。 (1989年)和广义线性Christmann(1994年,1998年)楷模;参见第10章。
表12.1。 GLIMS重要的特殊情况。在这里,Lambda;和
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[29689],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。