数据挖掘:通过语言建模识别跨领域内容相关的MOOC讨论主题线程外文翻译资料

 2022-05-01 21:52:55

数据挖掘:通过语言建模识别跨领域内容相关的MOOC讨论主题线程

【摘要】本研究针对MOOC讨论中的负载和混沌问题,开发了一种基于课程内容的模型,利用这种模型对线程进行分类。本次研究建立了一种统计在线课程人工编码起始位置的语言模型,并对统计学、心理学、生理学课程进行了测试。该模型显示了统计学和心理学中所有起始位置以及回复位置具有良好可靠性(准确度在0.80到0.85之间)。在生理学上起始位置的可靠度较低,但仍有相当好的预测能力(准确度为0.73)。分类模型在课程的所有时间段都是有用的,但所接收到的视图和投票线程的数量是没有帮助的。

绪论

大量的开放式在线课程(MOOCs)是在线学习环境,任何人都可以免费使用网络(DeBoer,Ho,Stump,&Breslow,2014)。 一般不收取参与费用和不设先决条件,课程通常会吸引数千甚至数十万的注册。 在过去的几年中,MOOC在参与机构数量,课程数量和学习者数量方面都有了显著增长。 到2015年,500多所高等教育机构提供了4000多个MOOCs,学员人数达到3500万,比去年增加了一倍(Shah,2015)。

这些大规模的在线环境为全球范围内的人们提供令人兴奋的,可访问的学习机会。 此外,MOOC提供收集有关学习过程的细粒度数据(Reich,2015)和以前所未有的方式个性化开展学习体验的机会(Paquette,Marintilde;o,Rogozan和Leacute;onard,2015; Williams等,2014)。 然而,MOOC学习者在背景,动机,学习目标和行为模式方面高度多元化,这给传统教学法带来了挑战(Ferguson&Clow,2015; Kizilcec,Piech,&Schneider,2013)。 此外,导师与学员的比例极低,需要特别关注学习支持(Hew&Cheung,2014)

与其他学生和教师的互动是向学生提供学习支持的一种有效方式。 互动也是一般在线学习质量(Trentin,2000)和MOOCs(Khalil&Ebner,2013)的关键要素。 虽然网上许多不同形式的互动在理论上是可能的,但实际上,在线讨论论坛现在是MOOCs中事实上互动的主要场所。 讨论论坛被教师视为理解和干预学习活动的重要工具(Jiang,Zhang,Liu,&Li,2015; Stephens-Martinez,Hearst,&Fox,2014),而学习者使用它们为他们在学习中遇到的挑战寻求帮助(Breslow等,2013; Stump,DeBoer,Whittinghill,&Breslow,2013)。

为了使这些活动有效地发生,教师和学习者需要能够找到与其目的相关的信息。然而,由于MOOC参与者众多,讨论论坛常常受到信息超载和混乱的困扰(Brinton et al。,2014; McGuire,2013)。除此之外,大部分MOOC职位与课程没有直接关系(Brinton等,2014)。作为结论,论坛变得令人难以置信,让用户无法浏览(Hollands&Tirthali,2014)。这是十多年来传统讨论论坛中出现的同样问题的恶化(Dringus&Ellis,2005; Herring,1999; Peters&Hewitt,2010),使MOOCs的规模变得更加挑战。这些问题可能会导致低水平的反应(Huang,Dasgupta,Ghosh,Manning,&Sanders,2014),这意味着理想,干预,帮助和帮助获得的活动并非如预期那样发生(Guuml;tl,Rizzardini,Chang,&Morales,2014)。

目前,在MOOC讨论论坛中解决超负荷和无序问题的手段非常有限。一个常用的策略是为不同目的设置子论坛。然而,错位的职位在MOOCs中很常见(Rossi&Gnawali,2014),表明这种策略并不是很成功。另一种方法是要求学习者标记他们的帖子,使其他人更容易识别不同类型的帖子。但就像分论坛一样,学习者不会以准确和一致的方式标记帖子。此外,许多MOOC论坛允许学习者根据其他用户提供的观点和投票数排序帖子。然而,由于定位效应(Lerman&Hogg,2014)以及早期支持的不成比例的影响(“富有更丰富的现象”),这种形式的同行建议存在偏见。更重要的是,由于这些特征仅仅表明消息的​​普遍“流行性”,因此它们在区分不同类型的信息职位时的价值可能是值得怀疑的(Cui&Wise,2015)。这表明需要新颖的工具,可以更有效地协助教师和学习者浏览MOOC讨论论坛的复杂景观。

在这项研究中,我们通过开发一种模型来自动将课程分类与课程资料相关联,从而解决MOOC讨论论坛中的超负荷问题。在接下来的部分中,我们首先回顾了之前在一般在线讨论论坛和MOOC论坛中解决超载问题的努力。然后,我们证明为什么帮助教师和学习者轻松区分内容相关和非内容相关的帖子是对这个问题空间的有用和新颖的贡献。在此之后,我们描述了我们运用“内容相关性”概念的方法,以手动编写来自三个MOOC讨论文件中的主题起始帖子,这些文章包括统计学,心理学和生理学中的一个,以及来自统计MOOCs。随后,我们报告了基于提取语言特征的分类模型的开发和测试,以自动识别与内容相关的线索和与内容相关的答复。通过这项工作,我们的目标是建立一个工具的基础,这些工具可以帮助MOOC讲师和学习者找到论坛主题,以更轻松地学习课程材料。

文献综述

2.1研究和努力解决在线讨论中的超载问题

在线讨论论坛的超载,混乱和由此导致的缺乏响应性的问题已存在超过15年(Herring,1999; Thomas,2002)。 研究表明,即使在MOOC之前,学生们也常常被传统在线讨论中的消息数量所压倒(Dringus&Ellis,2005; Peters&Hewitt,2010),并报告说他们发现了几个有用的指标来帮助他们导航(Wise,Marbouti,Hsiao,&Hausknecht,2012)。 因此,学生经常采用非学习导向的策略,例如阅读帖子,因为他们出现在论坛的顶部或底部(Wise et al。,2012),或者仅仅因为他们是最近制作的而回复帖子( Chan,Hew,&Cheung,2009; Hewitt,2003)。

虽然大量的研究已经研究了如何构建和编写传统在线讨论的脚本,以便学生创建期望的职位,但对于支持其他人的职位(Wise,Speer,Marbouti, Hsiao,2013)。 那些已经做出的尝试分为三个类别。 第一类方法尝试将学生推荐功能(例如,观看和投票)作为支持讨论论坛导航的工具。 例如,Makos,Lee和Zingaro(2014)发现,在传统的在线讨论论坛中,学生建议可以用来识别认知复杂度较高的帖子。 然而,由于推荐与岗位质量之间的关系并不那么强烈,这种方法似乎并没有很好地适应MOOC的情况(Cui&Wise,2015)。

此外,MOOC论坛中推荐技术的普遍纳入并未阻止超负荷和混乱的问题。支持论坛导航的第二类方法是使用可视化技术使讨论结构显着。例如,Marbouti和Wise(2016)构建了Starburst,这是一个图形化的在线讨论界面,可以将帖子之间的关系以及动态双曲线之间的关系可视化,以支持学习者与连接的思想链接合。同样,Rafaeli和Kent(2015)设计了Ligilo,这是一个灵活的平台,用于以网络形式制作和展示帖子之间的网络连接。虽然这些方法在传统的在线讨论中很有前景,但迄今为止它们的设计目的是支持相关博客文章的导航,而不是跨越各种可能不相关的主题。对于需要解决的讨论而言,如果这些方法应用于MOOC中(Marbouti&Wise,2016),还会产生一系列可视化挑战。支持传统讨论论坛导航的最后一类方法试图根据各种功能自动对帖子进行分类。在一个例子中,Lin,Hsieh和Chuang(2009)使用文本分类技术根据后期流派对讨论帖进行分类,例如公告,问题和冲突。另外,Kim和Kang(2014)使用言语行为分析和自然语言处理方法来检测言语模式,并在在线讨论中找出未解答的问题/未解决的问题。基于语言和结构特征的讨论帖的分类似乎是一种有效和稳健的方法,可以解决在线讨论中超载问题,可以有效扩展到MOOC等大规模学习环境。以下讨论MOOC中的分类工作。

2.2研究和努力在MOOC讨论中对帖子进行分类

为解决MOOC讨论论坛使用职位分类技术造成的超载问题,研究工作采用两种一般方式。第一种是面向机器的解决方案,它使用自动工具来诊断学习者的帖子,并酌情提供规定的帮助或资源。这些努力并不寻求在讨论论坛中支持互动,而是寻找替代方案。例如,Agrawal,Venkatraman,Leonard和Paepcke(2015年)针对MOOC论坛中缺乏责任感的问题提出了一种自动工具,可以检测帖子的混淆,并向相关的问题学习者推荐相关的视频剪辑。这种方法有助于为需要简单回答直接问题的学习者提供即时帮助;然而,学习者的复杂或特殊的需求可能无法通过先前存在的材料充分解决,并指出学习者已经看过的视频可能会令人沮丧,从而为学习创造一个负面的情感状态(D#39;Mello&Graesser,2012)。在这种情况下,敏感的人际互动可能是支持和学习的更有用的资源(Moore,1989)。此外,通过减少人机交互的需求和机会,自动化解决方案可能会加剧MOOC中社区的不足,这是一个与学习困难和辍学有关的突出问题(Khalil&Ebner,2014)。

在MOOC讨论论坛中使用邮政分类的第二种方法是解决无序问题,即支持人际互动。这种努力通常是以教师为导向或以学习者为导向。教师导向的方法旨在帮助教师在讨论论坛中进行高效和有效的干预。例如,Chandrasekaran,Kan,Tan和Ragupathi(2015)以及Chaturvedi,Goldwasser和Daumeacute;(2014)都旨在通过使用系统优化教师干预决策。他们根据教师的干预历史建立模型,并测试模型如何确定教师选择介入的位置。虽然这样的模型可以让教师在未来更有效地复制当前的干预模式,但这种方法忽略了现有模式是否时首先需要的重要问题。鉴于典型的教师可能没有在决定干预的位置之前审查现有的职位,并且这些决定中的主观性和随意性决定是常见的现象(Chandrasekaran等,2015),仅基于事先干预组织的模型可能不足(甚至有害)以达到确定应该发生干预的职位的目标。

Rossi和Gnawali(2014)采用不同的方法来支持教师干预,其目的是利用现有的讨论论坛结构来为教员的阅读决策提供信息。他们认为在同一个子论坛中的主题通常涉及相同类型的交互,因此具有可帮助识别错位的主题的共同特征。使用子论坛标题(例如讲座,作业和聚会)作为标签,他们提取了五种与语言无关的线程特征:线程结构(例如长度和宽度),基础社交网络(例如,线索内用户的数量和密度),流行度(例如观看次数和投票数),时间动态性(例如消息速率)和内容(例如文本和超链接的数量)。研究人员使用这个特性建立了一个模型,以确定每个分论坛中错位的线索。他们的研究结果表明,这些非语言特征可能有助于识别“小谈话”线索(其中大部分发现在Meetups中),但在区分其他职位类别方面的作用有限。最后,江等人(2015)从社交网络的角度阐述了干预者的干预决策。他们不是根据内容分类和过滤帖子,而是旨在确定小组突出的学习者,以扩大(固有数量有限的)教师干预的效果。他们将MOOC论坛建模为社交网络,并开发了一种算法来确定最有影响力的学习者。基本假设是,通过对这些学习者的职位做出回应,教师干预的效果将传播给其他大量的学习者(尽管这一逻辑在该研究中未经过测试)。如果有效,这种方法有可能以最小的干预成本广泛传播教师的影响;然而,它忽略了不太重要或网络化学习者的具体学习需求。此外,最有影响力的学习者可能不是那些最需要教师帮助的人。

与以教师为导向的方法相比,这些方法寻求普遍的,高影响力的干预方式,而面向学习者的方法更侧重于解决特定学习者的需求并促进个性化交互。例如,Yang,Piergallini,Howley和Roseacute;(2014)旨在帮助学习者的阅读选择,并开发出一种模型,该模型推荐符合学习者兴趣的讨论线索,这些线索反映了他们以前的活动。同样,Yang,Adamson和Roseacute;(2014)建立了一个问题推荐系统,分析学习者的智力和行为特征,并建议人们回答与他们兴趣,智力挑战水平和预期工作量相关的问题。这些方法为学习者提供个性化的互动,并有效地利用学习者参与讨论的方式进行参与;因此它们是一条有效的解决途径。然而,根据历史学习行为对帖子进行排序和推荐会造成自我强化的视野范围缩小,这可能不足以反映学习者不断变化的兴趣和需求,并且不支持他们探索多元化的学习机会。因此,仅基于先前的活动和兴趣进行建模可能不适合作为唯一的解决方案策略。另一种可以帮助解决学习者需求的方法是基于主题的分类后分类,它可以帮助学习者浏览更有组织的职位,以找到可能会影响他们或使他们受益的职位。基于主题的分类是以前几项研究工作的目标;但是,这些主题的范围尚未明确或一致定义。 Brinton等人(2014年)将职位分类为“与课程相关”(包括针对课程的讨论和课程后勤)与“小谈话”(针对社会目的)。他们根据这两个类别的主题特征建立了一个模型,根据其与课程的相关性对帖子进行分类和排名。虽然对于其既定目的有效,但它们的分类并没有区分与学习课程材料有关的问题和与后勤和技术问题有很大差异的问题。 Stump等人(2013年)在MOOC论坛上对帖子主题的框架做出了这样的区分,但是这个初步研究并没有超出界定类别来创建识别这些帖子的模型。总而言之,与学习内容相关的MOOC职位的原则确定仍然是一项正在进行但尚未完全实现的研究项目。

研究现状

在目前的研究中,我们扩展了这些先前研究的工作,以解决MOOC讨论论坛中的信息超载问题,提供了一种明确且合理的方式将帖子分类为内容相关与否,并基于此分类建立分类模型。我们的方法旨在解决教师和学习者寻找相关职位的需求,重点在于确定与课程材料内容实质性相关的内容。虽然学生和教师肯定

全文共38116字,剩余内容已隐藏,支付完成后下载完整资料


英语原文共 18 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[12860],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。