利用学生的定性数据分析决策树算法的性能外文翻译资料

 2022-08-26 16:17:39

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


利用学生的定性数据分析决策树算法的性能

摘要

决策树是应用最广泛的监督分类技术。决策树归纳的学习和分类步骤简单、快速,适用于任何领域。本研究从教育数据挖掘中提取学生的定性数据,并对决策树算法ID3、C4.5和CART的性能分析进行了比较。比较结果表明,CART的基尼指数影响ID3和C4.5的信息增益比。与ID3和C4.5相比,CART的分类精度更高。然而,不同的决策树算法在分类精度上的差异并不大。决策树的实验结果表明,学生的学习成绩也受定性因素的影响。

关键词 索引项决策树算法;ID3; C4.5; CART;学生的定性数据

第1章 引言

由于分类算法的重要性,数据挖掘应用得到了广泛的关注。分类算法的比较是一个复杂的、开放的问题。首先,性能的概念可以用多种方式定义:准确性、速度、成本、可靠性等等。其次,需要一个适当的工具来量化这种性能。

给定数据集的最佳分类算法的选择是一个非常普遍的问题。从这个意义上说,它需要作出几个方法上的选择。其中,本研究的重点是分类方法中的决策树算法,用于评估分类性能,寻找获得定性学生数据的最佳算法。

决策树算法是一种非常有用的分类方法。它的优点是易于理解创建和显示结果[1]的过程。给定一组属性及其类的数据集,决策树生成一系列规则,这些规则可用于识别用于决策的类。决策树方法因其对数据集的分类精度高而得到广泛的应用 [2]。构建决策树最常用的算法是ID3、C4.5和CART。

本研究发现CART算法在分类精度上优于ID3和C4.5算法。CART算法的优点是查看所有属性的所有可能分割。一旦找到最佳分割,CART就会对每个节点重复搜索过程,继续递归,直到无法或停止进一步的分割,因为CART算法已经用于提高数据分类的准确性。

教育数据挖掘是一个新兴的可以应用于教育领域的领域,它关注的是从教育环境产生的数据中发现知识的开发方法[3]。决策树算法可以应用于教育领域,了解学生学习成绩[4]。

在教育环境中,获得学生成绩的能力是非常重要的。学生学业成绩受父母资格、居住地、经济状况、家庭关系支持等诸多定性因素的影响。教育数据挖掘利用决策树、神经网络、朴素贝叶斯、K近邻等多种技术。通过应用这些分类技术,可以发现关于学生成绩中的有用的隐藏知识[5]。

发现的知识可以用来发现学生在某门特定课程中的表现,对传统课堂教学模式的异化,检测在线考试中使用的不公平手段,检测学生成绩表中的异常值,预测学生的成绩等等。本研究的目的在于发现决策树算法的性能以及定性因素对学生成绩的影响。

论文的其余部分组织如下,第2节介绍了利用数据挖掘技术对学生成绩进行的文献调查。第3节介绍了决策树算法、定性参数和用于决策树计算,第4节介绍了实验设计,第5节介绍讨论结果,第6节总结了本文工作和未来工作。

第2章 文献调查

本文主要研究基于学生数据的分类算法的性能。利用分类算法的精度分析了各算法的工作过程。研究了各种数据挖掘技术在学生学习成绩发现中的应用。

(Aman和Suruchi, 2007) 在WEKA环境下,对学生数据集分别使用ID3、C4.5、Simple CART和交替决策树四种算法进行实验,并对四种算法进行分类准确率的比较。仿真结果表明,C4.5分类器在分类精度[6]方面优于ID3、CART和AD树。

(Nguyen et al., 2007)对越南大型国立大学Can Tho University (CTU)和泰国小型国际研究生院Asian Institute of Technology (AIT)这两所截然不同的学术机构的本科生和研究生的学习成绩进行了准确预测分析。他们使用不同的数据挖掘工具从贝叶斯网络和决策树中寻找分类精度。他们取得了最好的预测精度,这是用来发现学生的表现。这项研究的结果对于寻找表现最好的学生获得奖学金非常有用。研究结果表明,决策树的准确率始终比贝叶斯网络[7]高3-12%。

(Sukonthip and Anorgnart, 2011)提出了他们的研究,使用数据挖掘技术来识别职业教育中学生的不良行为,并用Navie Bayes Classifier Bayesian Network、C4.5和Ripper等算法进行分类。然后利用10倍交叉验证对分类算法的性能进行了测试。结果表明,该混合模型的C4.5算法的精度最高为82.52%。但是当用F-measure进行测量时,发现C4.5算法并不适用于所有的数据类型,而是贝叶斯置信网络算法,其准确率为82.4%[8]。

(Brijesh and Saurabh, 2011) 提出了利用数据挖掘技术预测学生学业成绩的分析方法。本研究使用的数据集是采用2009-2010届BCA课程计算机应用系五所不同学院的抽样方法得到的。运用贝叶斯分类方法及其17个属性,发现学生的中考成绩、居住位置、教学媒介等因素与学生的学习成绩呈高度相关。他们已经确定了需要特别关注的学生,以减少失败率,这有助于在正确的时间采取适当的行动[9]。

(al - radaideh et al., 2006)使用决策树模型预测了2005年约旦yarmouk大学C 课程学生的最终成绩。采用ID3、C4.5和NavieBayes三种不同的分类方法。结果表明,决策树模型相比其他模型[10]具有较好的预测效果。

(Brijesh和Saurabh, 2006)从2007年至2010年的课程MCA计算机应用系(Master of computer application)计算机应用系的VBS Purvanchal university, Janpur(Uttar Pradesh),选取50名学生作为样本,对学生的表现进行了研究。他们研究了决策树学习算法ID3,并收集了学生的出勤率、课堂测试、研讨会和作业分数等信息来预测学期末的表现。在这个实验中,他们发现ID3的熵主要用于准确分类数据[11]。

(Bresfelean, 2007)对克卢日-纳波卡市经济与工商管理学院大四本科生的调查数据进行了研究。运用WEKA工具中的决策树算法、ID3算法和J48算法对有可能继续攻读研究生学位的学生进行预测。该模型应用于两个不同专业学生的数据,C4.5[12]的准确率分别为88.68%和71.74%。

(Kov, 2010)提出了一个关于教育数据挖掘的案例研究,以确定招生数据在多大程度上可以用来预测学生的成功。将CHAID和CART算法应用于信息系统的招生数据,新西兰开放理工学院的学生使用两棵决策树对成功和不成功的学生进行分类。CHAID算法和CART法的准确度分别为59.4和60.5[13]。

(Abdeighani and Urthan, 2006)提出了利用数据挖掘技术预测学生存活率的分析。他们研究了三种数据挖掘技术:NavieBayes、反向传播神经网络和C4.5决策树算法,发现C4.5的预测精度相对于其他两种算法[14]要高。

在以往的研究中,许多学者比较了决策树和贝叶斯网络算法预测学生学习成绩的准确性,最终发现决策树始终比贝叶斯网络更准确。他们大多在WEKA环境下进行实验,使用不同的分类算法,即ID3、J48、Simple CART、交替决策树、ZeroR、NavieBayes分类算法,大部分数据集为课程推荐数据集和学生定量数据集。比较了这些分类算法的分类精度、分类效率和分类正确率。

通过文献调查,利用分类算法对学生的定性数据进行分析,了解学生的学习成绩。但基于学生定量数据的分类算法性能比较研究较少,决策树算法与学生定性数据的比较研究也较少。本研究的重点是基于学生定性数据的决策树算法在分类精度方面的比较。本研究还分析了质性参数对学生学习成绩的影响。

在本研究中,利用学生的定性数据,比较了ID3、C4.5和CART三种决策树算法。本研究亦旨在建构规则集,以质性资料预测学生的表现。

第3章 决策树算法

决策树是一种树形结构,其中每个分支节点表示多个备选项之间的选择,每个叶子节点表示一个决策[15]。决策树是一种常用的获取信息的决策树。决策树从一个根节点开始,根节点用于用户执行操作。在此节点上,用户根据决策树学习算法对每个节点进行递归分割。最后的结果是一个决策树,其中每个分支表示一个可能的决策场景及其结果。目前应用最广泛的三种决策树学习算法是:ID3、C4.5和CART。表I描述了这些算法中使用的各种参数。

本研究定义了一些变量的域值,如下所示。ParQua–获得了家长的学历。这里指定了学生的父母学历,不论他们是否受过教育。

LivLoc–获得了居住地。居住地点分为两类:Rural-学生来自农村地区,Urban-学生来自城市地区。

Eco-获得了经济状况。声明学生的家庭收入状况,被分为三个类。Low-低于25000/年,Middle-高于50000/年且低于10万/年,High-高于10万/年。

FRSup-获得了家庭和亲属的支持(了解学生学习是否得到家庭和亲属的精神支持)。家庭和亲属的支持被分为三类:Low-学生没有得到任何人的支持;Middle-学生有时得到支持;High-学生得到了父母和亲属的全力支持。

Res-获得了资源(Internet/Library途径)(检查学生是否能够访问Internet和Library)。资源分为三个类别。Low-他们没有访问互联网和图书馆的途径,中-他们有时能访问资源,高-他们经常访问互联网和图书馆。

Att-学生出席率。至少70%的学生必须参加学期考试;任何正当的理由都要考虑特殊情况。出席率分为三个类:Low -低于50%,Middle- gt;79%和lt;69%,高- gt;80%和lt;100%。

Result-得到结果,并将其声明为响应变量。它被分为四类:Fail-低于40%,Second- gt;60%和lt;69%,Third- gt;59%和lt;50%和First-高于70%。

表一:学生定性数据及其变量

变量

描述

可能值

ParQua

父母的学历

{Educated,Uneducated}

Livloc

居住地

{Urban,Rural}

Eco

经济状况

{High,Middle,Low}

FRSupp

朋友和亲属的支持

{High,Middle,Low}

Res

资源途径

{High,Middle,Low}

Att

出席率

{High,Middle,Low}

Result

结果

{First,Second,Third,Fail}

3.1 ID3决策树

ID3是由Ross Quinlan[16]开发的一种简单的决策树学习算法。ID3算法的基本思想是通过对给定集合进行自顶向下的贪心搜索来构造决策树,在每个树节点上测试每个属性,从而选择对给定集合分类最有用的属性。一个称为信息增益的统计特性用来被度量属性的价值。

3.1.1 度量不纯性

给定一个包含属性和属性类的数据表,我们可以基于类度量表的同质性(或异构性)。如果一个表是纯的或同质的,那么它只包含一个类。如果数据表包含多个类,则说明该表是不纯的或异构的。为了测量不纯性或熵的程度,

纯度表(由单个类组成)的熵为零,因为概率为1,而log(1)=0。当表中所有类的概率相等时,熵达到最大值。

为了计算出A相对于S的信息增益,首先需要计算S的熵。这里S是一组120个实例,其中70个是“First”,19个是“Second”,15个是“Third”,16个是“Fail”。

- - - - - -

3.1.2 Entropy(S) = 1.6372

为了确定树中特定节点的最佳属性,应用了信息增益。属性A的增益(S,A),相对于示例集合S的信息增益

计算所有属性的信息增益。表二描述了定性参数的所有属性的信息增益。

表二: 学生定性参数信息增益值

Gain

Values

Gain(S,ParQua)

0.1668

Gain(S,LivLoc)

0.4988

Gain(S,Eco)

0.0920

Gain(S,FRSup)

0.0672<!--

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[441147],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。