英语原文共 17 页,剩余内容已隐藏,支付完成后下载完整资料
教育数据挖掘应用和任务:最近十年的调查
摘要:
教育数据挖掘(EDM)是数据挖掘技术在教育环境中的应用领域。EDM中存在各种方法和应用,这些方法和应用既可以满足提高学习质量等应用研究目标,又可以满足提高我们对学习过程理解的单纯研究目标。在本研究中,我们研究了EDM领域中存在的各种任务和应用,并根据其用途对其进行了分类。我们将我们的研究与其他有关EDM的调查进行了比较,将任务分类做了报告。
关键词:教育数据挖掘、调查、应用分类
- 简介
教育数据挖掘(EDM)是数据挖掘技术在教育环境中的应用领域。当前,有许多基于计算机的学习系统,它们收集大量的使用数据,例如学习管理系统(LMS),大规模在线公开课程(MOOC)和智能辅导系统(ITS)。Stone等人将LMS定义为一个集中式的基于Web的信息系统,用来管理学习内容并组织学习活动。LMS是一个更通用的术语,它表示支持正式和非正式学习过程的所有方面,包括学习管理,内容管理,课程管理等(Wang 2014)。它在一个平台中整合了许多功能,包括“个人交流(电子邮件和即时消息),小组通信(聊天和论坛),内容发布(教学大纲,论文,演示文稿,课程摘要),绩效评估(问题和答案库,自我评估测试,作业,测验和考试)和教学管理(消息和成绩发布,调查和在线办公时间)”(Naveh等,2012),同时也作为整个网络的出发点。LMS收集的数据为我们提供了使用数据挖掘的机会。
EDM中存在多种方法和应用。这些应用既可以遵循例如提高学习质量之类的研究目标,又可以遵循纯粹的研究目标,这有助于提高我们对学习过程的理解。除了基于目标的应用分类(这是本研究的重点)之外,EDM应用程序也可以根据目标将最终用户进行分类。EDM的应用可以针对教育系统中涉及的任何相关者,例如学生,教学人员,管理人员和研究人员本身。提供反馈,个性化设置和相关推荐可以改善学生的学习过程。支持做出发现和提供决策的系统可以通过提高教学绩效和做出决策来帮助教学人员,这个系统为管理人员提供了决策和组织机构的资源和工具。此外,教育领域的发现可以帮助研究人员更好地了解教育结构和评估学习效果。
在本文中,我们将探讨EDM各种可能的应用,以及能够用来满足这些需求的相关方法。我们关注这些应用的最终目标,并试图将具有相似目的的应用分组。尽管我们试图在不同类别的应用之间划清界限,但应注意,在某些情况下,应用之间没有明确的界限。有些研究可能不仅仅属于这些类别中的某一个,在其他一些情况下,一个应用可以被用作到达另一个应用的工具。有很多这样的例子:例如,为教育工作者创建学生的预期表现报告。在这种情况下,最终目标是提供需要一些可视化技术的报告。然而,预测学生的表现可以被描述为EDM中的另一个应用,这在提供报告之前是必需的。
本文的目的是介绍EDM所提供的新的可能性同步图景。在过去的几年中,该领域取得了长足的进步,但最初的目标受众,即教育工作者,却知之甚少。本文旨在改变这种情况。这是一个评估EDM当前状态和评估其范围的机会。很多文章过去已经发表过类似的综述(请参见下面的文献综述),但是鉴于该领域的发展速度,有必要重新审视、提出和更新当前实践的分类。因为本文也适用于希望熟悉EDM的教育工作者阅读,所以首先简要介绍一下EDM的历史概要是有意义的,该概要概述了该领域的当前状况。然后,我们讨论了EDM的许多方法和应用,以期将它们组织成连贯的活动集。最后,为了突出本文的贡献,我们对EDM的主要著作进行了文献综述。
1.1简短的历史概要
EDM在两个学科之间架起了桥梁:一方面是教育,另一方面是计算机科学,其中数据挖掘和机器学习都是计算机科学的焦点领域。在EDM中,这两个领域多年来相互交织,因此,关注这两个领域迄今为止在教育研究和学习/教学方面的进步是非常重要的。但是,仅在教育理论不了解的情况下,计算机科学和数据既不会进步很多,也不能推动社会科学的素质教育。为此,保持两者的同步发展至关重要,这也是EDM对教育的最重要贡献之一。
在教育中使用计算机和计算机科学绝不是最近才发生的事情。它的历史可以追溯到20世纪中叶。在那之后,计算机直接被当作是一种工具,直接以基于训练的方式进行教学(Bates,2015年)。当然,这是在行为主义的巅峰时期,计算机很容易采用这种方法。正如贝茨所说:
“基于行为主义理论,B.F. Skinner于1954年开始对教学机器进行实验。本质上,程序化学习可以构建信息,向学习者提供即时反馈,并测试学习情况。这种基于行为主义方法的机器的使用被称为计算机辅助学习(CAL)或基于计算机的培训(CBT),但在20世纪80年代已经过时,主要是因为它不能很好地处理更高层次的学习,如大学所需的批判性思维、分析和综合,尽管CBT仍然用于工作场所的培训。(Bates 2015,第9页)
计算机在教育中的最初使用的关键词也许是“训练”,因为它强调了布鲁姆认知领域分类法的前三个层次所针对的重复性机械方式:即知识、理解和应用。当时,没有针对更高层次的思维技能。然而,CBT至今仍在使用,并且当目的是培训个人以完成特定任务时,它会继续获得成功。
20世纪70年代后半期,Murray Turoff和Roxanne Hiltz首次尝试使用在线论坛(Bates,2015年)。他们创造了“计算机介导的通信”一词。到20世纪80年代末,世界各地的许多学者都尝试在教育中使用计算机,该方法可以分为两类:要么着重于使用计算机“用于自动或程序化学习”,要么使用计算机在学生与教师之间或者在学生之间进行交流(同上)。
到目前为止,还在使用独立的计算机。收集,生成和分析数据是一项非常艰巨的任务。 1991年之后,随着万维网的正式启动,一场革命发生了。第一个学习管理系统开发于1995年(WebCT)。在线教学和电子学习环境已成为现实。加载和搜索材料的耗时大大减少了。我们开始了更复杂,更细致的计算机学习方式,而不仅仅是单纯的“培训”。
首次使用“教育数据挖掘”一词可追溯到2005年(Romero和Ventura 2007)。这是在美国匹兹堡人工智能促进协会的(AAAI05)2005年年会上,在一次有关教育数据挖掘的研讨会上发生的事情(Romero和Ventura 2007)。
从本次研讨会上发表的论文来看,有两点引人注目。首先,它完全是关于收集和分析数据的技术方面。其次,重点是计算机教育和计算机科学培训。2009年,建立了有关EDM的期刊和国际会议(Baker和Yacef论文)。从那时起,该领域开始腾飞。在第一次研讨会的10年后,我们重新审视了这一领域,并对EDM在高等教育教学和研究中的应用和进展进行了调查。
- 方法与应用
EDM的方法通常与数据挖掘领域的方法相同。在各种应用中, 有多种方法可用于EDM。在这些方法中,最常用的是(1)分类和回归,(2)聚类,(3)关联规则挖掘,(4)模型发现,(5)离群值检测,(6)社交网络分析,(7)文本挖掘,(8)顺序模式挖掘,(9)可视化技术,也称为数据提取,以供人工判断。根据Romero和Ventura在2009年所做的研究(Romero和Ventura 2010),最常用的数据挖掘任务是回归,聚类,分类和关联规则挖掘。
我们可以根据不同的属性对EDM中的应用和任务进行分类。和EDM相关的有很多种研究,其中列出了EDM的可能应用。我们将在文献综述部分更详细地研究这些调查。考虑到这些调查和他们提供的研究示例,以及最近发表在教育数据挖掘期刊上研究,我们提出了一个新的教育数据挖掘类别表。在此表中,我们试图考虑到先前调查和文献中提到的所有类别,以及我们认为需要添加的新类别。这些新的应用类别可以用人们对EDM的兴趣增长来解释。在以前的研究中,EDM的可能应用有时没有具体的顺序介绍,有时是根据每一类的研究论文数量介绍的。我们尝试根据其最终目标将EDM的可能应用分组,将不同的应用尽可能地组合在一起,以更好地突出他们的相同点和不同点。
我们已经确定了13种应用类别,如图1所示,形成了专门为EDM量身定制的新分类,从而将EDM设置为数据挖掘的特定子领域。四个应用归类于“学生建模”,六个应用归类于“决策支持系统”,最后三个归类为“其他”,因为它们与其他应用不同。
在本节的其余部分,我们将借助与每种应用类别相关的研究示例来描述和说明这些应用,以便更加清晰。
- 学生建模
学生建模是一个致力于表现学生活动的认知方面的过程,例如分析学生的表现或行为,消除潜在的误解,代表学生的目标和计划,识别先验知识和获得的知识,维持情景记忆并描述人格特征等(Self n.d.; Chrysafiadi and Virvou 2013)。
我们已将此定义用作对EDM中某些应用进行分类的指南。此类别中的所有应用都提供一个描述试图达到目标的学生的模型。根据2013年的文献综述(Chrysafiadi和Virvou 2013),学生建模具有不同的特征,即(1)知识和技能,(2)错误和误解,(3)学习方式和偏好,(4)情感和认知因素,(5)元认知因素。模拟学生的活动和行为可以用来预测代表学生的价值观(上述特征)或发现描述学生的结构。因此,学生建模中有两个子类别:预测和结构发现。在预测中,我们通常知道我们希望预测的特定属性,而在结构发现中,我们可能不知道该特定属性,或者仅将其定义为结构,而不是单个属性。还必须指出的是,在所有情况下,这两个子类别之间可能没有明确的界限;但是,由于这两组的目标存在足够的差异,因此最好将它们区分开。
3.1预测学生的表现、学习成果或特征
在这套应用/任务中,目标是估计一个描述学生的值或变量。该值可以显示学生的表现、学习成果的成就或特征。现有的大多数文章都侧重于预测学生的学业成绩,但研究还应着眼于学生的特点,如与其他学生的合作。预测学生成绩和特征的最广泛使用的方法是回归和分类,但是还使用了其他技术,例如聚类和特征选择。Miller等人已经使用套索特征选择来识别影响学习的学生特征。他们将数据挖掘方法与其他模型进行比较,并检查所选特征是否可用于预测学生的表现(Miller等人,2015年)。 Zimmermann等人引入了一种基于模型的方法,使用本科水平的表现指标来预测研究生水平的表现,这项研究使用了特征选择和预测技术(Zimmermann等,2015)。Galyardt和Goldin使用最近的学生使用情况数据来提高ITS中系统的预测准确性(Galyardt和Goldin 2015)。Waters等人的研究使用了贝叶斯分类法来识别学生在在线课程中的协作(Waters等,2014)。 Sabourin等人开发了一种模型,该模型可根据学生在教育软件中的任务外行为来识别他们的参与度,该模型调查任务外行为是否可以自我调节也值得研究(Sabourin等,2013)。 Cocea和Weibelzahl使用了决策树估计学习者的动机水平(Cocea和Weibelzahl 2006)。
3.2检测学生的不良行为
这套应用/任务类似于对学生表现和特征的预测,但是在这一类别中,重点主要在于检测学生的不良行为,例如动机低下、行为错误、作弊、辍学、学习失败等。应用中使用的主要数据挖掘方法是分类和聚类,但其他技术也适用,例如特征选择和离群值检测。Bravo和Ortigosa所做的研究就是这类应用的一个例子,他们在研究中提出了一种使用生产式规则来检测电子学习中潜在的低绩效症状的方法(Bravo和Ortigosa 2009)。在另一项研究中,Dekker等人使用了一个决策树分类器来预测学生在电气工程课程中的学习离线(Dekker等,2009)。 Lykourentzou等人运用了多种机器学习技术,例如支持向量模型和神经网络,用来进行学生辍学预测(Lykourentzou等人,2009年)。
3.3对学生进行分析和分组
正如该类别的标题所暗示的那样,这套应用/任务的目的是根据不同的变量(例如特征和知识)对学生进行分析,或者使用这些信息将学生分组,以达到各种目的。可以根据档案信息的各种属性对学生进行分组。此任务通常不同于将相似的学生聚在一起,以便彼此互补。同样,在对学生进行聚类时,人们会寻找聚类之间最大的差异,但是在对任务进行分组时,情况可能并非如此。当使用分组任务来组建一个课程项目中的团队时,人们更喜欢有相似的小组,同时又由不同学生组成,可以相互补充。与其他类别的应用类似,可以将不同的数据挖掘方法用于这些任务,例如特征选择和聚类。例如,Azarnoush等人提出了一种基于随机森林的差异性测度的学习者分割方法(Azarnoush et al,2013);Kinnebrew等人使用序列挖掘技术来识别区分不同学生群体的学习行为模式(Kinnebrew et al,2013)。Harley等人研究了基于学习者与智能辅导系统交互的聚类和分析任务(Harley等,2013)。
3.4社交网络分析
在此类应用中,目的是获得一个图形形式的学生模型,以显示他们之间可能存在的不同关系。在建模的其他应用中,重点主要放在个人上,但是在社会网络分析(SNA)中,重点是个人之间的关系。举例来说,协作是分配给个人之间关系的一种属性,要研究它,必须对个体和个体之间的关系进行建模。Rallo等人使用数据挖掘和社交网络分析来模拟教育在线社区的动态和结构模型(Rallo等,1999)。 Reffay和Chanier使用社交网络分析来衡量协作远程学习环境中的凝聚力(Reffay和Chanier 200
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[239542],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。