汉语主观问题的常见语义评分方法外文翻译资料

 2022-08-11 10:27:41

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


汉语主观问题的常见语义评分方法

摘要:随着计算机技术和人工智能的飞速发展,智能辅导系统越来越多地应用于我们的日常生活。本文提出了一种基于依存度,修饰语和知网的汉语主观问题常用语义评分方法。首先,我们使用依存关系来构造问题分类谓词公式,以确定问题类型并获取问题中的特征词。然后,我们使用依存关系链根据问题类型提取答案中的多个得分点,并根据问题句子中的特征词来优化答案的得分点。最后,我们使用通用语义词典知网来计算学生答案和标准答案中具有相同依赖关系的分数点之间的相似度,并结合答案句中的修饰语计算主观题的最终分数。实验结果表明,本文提出的方法具有快速,准确,高效的优点,并且优于许多优秀的主观问题评分方法。

关键词:自动评分;依赖性;修饰语;主观题;问题分类;核心谓词

一、 引言

近年来,随着计算机技术的飞速发展,人工智能越来越多地应用到我们的日常生活中。计算机辅助教学以其方便、快捷、智能等优点越来越受到人们的青睐。传统的手工评分方法存在很多问题。一方面,它给教师带来了巨大的工作量,占用了教师大量的时间。另一方面,手工批改主观题具有很强的主观性和不公平性[1]。

目前,在线学习、在线考试等相关技术越来越成熟。如何使教师从繁重的评分和纠错疲劳中解脱出来,成为一个亟待解决的问题。通过专家学者的不断努力,它已经能够对诸如选择题,判断题和填空题等客观问题进行准确的自动估计[2]。然而,作文、分析题等主观题的自动评分准确性不高,因为它们的答案都是自然语言文本[3]。近年来,由于智能辅导系统的广泛覆盖和快速更新,越来越多的研究人员(4-11)花费大量的时间和精力去研究它。目前主观题的自动评分方法有两种:一种是基于潜在语义分析的统计方法[12-13]。它利用课程脚本(文本)形成的向量空间(又称语义空间)模型,计算学生的回答与标准答案的相似度,从而给出学生对主观题的回答的评价结论。LSA解决了文本领域模型中没有本体的主观题自动评分问题,但由于缺乏语义支持,其准确性不高。另一种是基于领域本体的语义方法[14]。它利用领域本体中的语义关系和概念来提取和标注学生答案的核心语义,然后利用基于领域本体的语义相似度来评价学生的答案。虽然它通过语义在一定程度上提高了LSA方法的准确性,但它仍存在两个缺陷:(1)由于需要为不同的学科建立不同的领域本体,它的通用性不强;(2)由于它在语义标注过程中没有运用句法知识,导致学生答题文本中标注的语义较浅,可能导致不同的句子成分被比较,导致评分的准确性下降。

为了克服上述问题,本文提出了一种更通用、更准确的主观题语义评分方法[1]。本文的主要贡献概括如下:

(1) 根据疑问句中疑问副词和疑问代词的成分和依存关系,我们提出了七种主观疑问句定义和分类的谓词公式。通过这些谓词公式,可以更准确地获得问句的关键语义信息,明确问句的主要考点,优化答案的得分。

(2) 我们提出了一个精确的解决方案来处理基于依赖链的答案。根据问题句的类型,确定抽取学生答案和标准答案时所使用的有效依存度,然后根据有效依存链的目标和答案的核心词确定答案的得分。

(3) 提出了一种结合知网和修饰语的相似度计算方法。使用语义词典知网代替本体,使我们提出的方法更加通用。结合修饰语,使标准答案与学生答案的语义相似度更高。

二、基于依赖性的主观题分类与得分点提取

法国语言学家L.Tesiniere首先提出了依赖的概念。他认为谓语是句子的中心,它所控制的任何成分都是以几个特定的关系分布在句子中的。依存关系可以通过特定的结构表达为中心词和依存词之间的语义关系[15]。依存关系的句法分析[16]可以反映句子中成分的语义依存关系。它不受构件物理位置的影响,并且可以准确地分析异构结构句子的相同语义。

本文利用哈尔滨理工大学自然语言处理实验室开发的依存句法分析器,获取句子中单词之间的依存信息。依赖分析器处理的句子是一个带有依赖注释的图。

A.主观题分类与特征提取

主观题的分析和预处理是自动评分的第一步。其目的是准确获取问题的语义信息,了解问题的主要考点,确定问题的类型。

本文根据疑问句中的疑问副词和疑问代词以及句子成分之间的依存关系,将疑问句分为七类。我们使用谓词逻辑和依赖关系来描述这七种问题类型,并给出相应结构和特征组件的提取规则。

假设x,y是两个词,SUB是主语,VERB是谓语,OBJ是宾语,ATT是定语,ADV是副词,COM是补语,COO是平行词,CMP是介词宾语,KVERB是核心谓语。ROOT(x,y)表示核心依存关系,SBV(x,y)表示词与词之间的主谓关系,VOB(x,y)表示词与词之间的动宾关系,ATT(x,y)表示词与词之间的定中关系,POB(x,y)表示词与词之间的介宾关系,ADV(x,y)表示词与词之间的状中关系,COO(x,y)表示词与词之间的平行关系,CMP(x,y)表示词与词之间的动补关系,R(x,y)表示词与词之间的任何有效依存关系,S是一组句子。DR表示一组有效的依存关系:DR={“主谓关系”、“动宾关系”、“定中关系”、“状中关系”、“平行关系”、“宾语间关系”、“介宾关系”、“被采访宾语关系”},LINK表示任何一个有效的依赖链,得到的单词用三元组表示,即lt;x,r,ygt;表示x,y构成依赖关系r,在三元组lt;x,r,ygt;中,只提取前一个单词x,其余单词只作为依赖链组件信息存储,我们定义了以下七种问题类型:

(1) 什么是X?:疑问词集合定义为interrogators={“什么”}。在第一种问句中,疑问词是问句的主语,例如“计算机的输入设备是什么?”,并满足谓词公式1.1:

(2) X是什么?:疑问词集合定义为interrogators={“什么”,“多少”}。在第二类疑问句中,疑问词是疑问句的宾语,如“防火墙的定义是什么?”,并满足谓词公式1.2:

(3)简述:疑问词集合的定义是:疑问词={“简述”,“简要说明”,“简答”。在第三类疑问句中,疑问词是疑问句的谓语,如“简要说明VLEN的意思”,满足谓语式1.3:

(4) 其中:疑问词集合的定义是:询问者={“哪)”,“哪个”,“哪几”}。在第四类疑问句中,疑问词是疑问句的谓语,如“除了字长,计算机的主要技术指标是什么?”,并满足谓词公式1.4:

(5) 为什么:疑问词集合被定义为interrogators={“为什么”}。在第五种问句类型中,疑问词是问句的副词,例如“为什么设备管理器使用缓冲?”,并满足谓词公式1.5:

(6) 如何:疑问词集合定义为interrogators={“如何”,“怎”,“怎样”}。在第六类疑问句中,疑问词是疑问句的副词,如“如何设置计算机屏幕保护程序?”,并满足谓词公式1.6:

(7) 哪里:疑问词集合被定义为疑问词={“哪”,“哪里”“在哪”,“在什么”}。在第七种问句类型中,疑问词是问句的补语,例如“计算机硬盘安装在哪里?”,并满足谓词公式1.7:

如果我们想给主观问题打分,首先需要确定给定的问题是这七种类型中的哪一种。根据上述定义,对于给定的中文主观题,我们设计了以下自动分类和问题特征提取步骤:

第一步:提取问题的核心谓词v。

第二步:判断核心谓语v是否为介词。如果条件得到满足,那就是问题

公式1.1˖

公式1.2:

公式1.3˖

公式1.4˖

公式1.5˖

公式1.6˖

公式1.7˖

类型3和分类结束。否则继续执行步骤3。

第三步:判断问题的依存关系中是否有一个词可以与核心谓语构成主谓结构。如果满足条件,则执行步骤4。否则,执行步骤8。

第四步:在问题的主谓关系中判断主语是否为疑问词,如果满足条件,则为问题类型1,结束分类。否则,执行步骤5。

第五步:判断问题依存关系中是否有疑问词可以与核心谓语v构成动宾结构,如果满足条件,则为问题类型2,结束分类。否则,执行步骤6。

第六步:判断问题依存关系中是否存在疑问词,可以与宾语构成定中结构。如果条件满足,则为问题类型4,分类结束。否则,执行步骤7。

第七步:判断问题依存关系中是否存在疑问词,可以与补语构成任何带补语的有效的依存链。如果条件满足,则为问题类型7,分类结束。否则,执行步骤8。

第八步:如果问题中没有词可以与核心谓语v构成主谓结构,那么判断问题依存关系中是否有疑问词可以与核心谓语v构成状中结构,如果条件满足,则为问题类型5。否则,它是问题类型6。

为了帮助您更好地理解,我们解释了公式1.1,其解释如下:

(1) 与依存关系的根节点形成核心依存关系的动词是问句的谓语。

(2) 必须在问题中出现的与确定的谓语形成主谓关系的单词是疑问句的主语,即疑问句的疑问词。

(3) 与确定的谓语构成动宾关系的词是疑问句的宾语,是疑问句的特征词。

(4) 所有与确定宾语形成有效依存关系的词都是疑问句的特征词。

接下来,结合实例进行更好的解释。

示例:“计算机的输入设备是什么?”

在分析依赖关系之后,我们可以根据依赖关系注释得到一个句子,如图1所示。

图1.依存关系分析

通过依赖关系和确定的规则,我们可以得到:特征词:lt;设备,VOB,输入gt;,lt;输入,VOB,是gt;,lt;计算机,ATT,输入gt;;谓语:lt;root,ROOT,是gt;;疑问词:lt;什么,SBV,是gt;。

B.基于依赖链的得分点提取过程

1.基于依赖链的得分点提取与优化规则

通过对A部分问题的分类,可以根据不同的问题类型确定答案中基于不同有效依赖链的得分。本文设置了以下规则来提取一组得分点:

规则1:不同问题类型的答案的有效依赖性是不同的。

(1) 由类型1、类型3、类型5、类型6中的答案定义的有效依存关系为DR={“主谓关系”、“动宾关系”、“定中关系”、“状中关系”、“平行关系”、“宾语间关系”、“介词宾语”,“介宾关系”}。

(2) 在类型2中,类型4,如果答案只有一个核心谓词,则答案定义的有效依存关系为DR={“动宾关系”,“平行关系”},如果答案有多个核心谓词,则答案定义的有效依存关系为DR={“主谓关系”,“动宾关系”,“定中关系”、“状中关系”、“平行关系”}。

(3) 由类型7的答案所定义的有效依存关系是DR={“定中关系”,“状中关系”,“平行关系”,“介宾关系”}。

规则2:如果它与核心谓词形成一个并行结构,则将其写入得分集时的依存关系定义为根,并且与根节点构成核心谓词关系。

规则3:如果它与宾语形成平行结构,则将其写入记分集时的依存关系定义为动宾关系,其核心谓词构成动宾关系。

规则4:不同题型的特征词的某些成分可以在答案的得分集中删除。

(1) 类型1中的特征词是一个宾语或一个与该宾语构成任何有效依存关系的词。

(2) 类型3中的特征词是宾语或定语。

(3)类型 5的答案的得分点中存在“原因”一词,而问题中含有“原因”的特征词构成了定中结构。

(4) 在类型2,类型4,类型6,类型7中,答案中形成的所有有效依存关系都是与问题中的谓词和特征词具有相同有效依存关系的单词的特征词和谓词。

规则5:与特征词形成任意有效关系的第一个动词是答案的核心谓词。如果没有特征词或核心谓词,则与依存关系的根节点形成根关系的词是核心词,并将该关系设置为与根形成动宾关系。

规则6:在依存关系分析中,标注为C(连词)、E(感叹词)、G(形态词)、H(前缀)、K(后缀)、P(拟声词)、U(补充词)的词类均为辅助词。在分析答案时,这些词与上述词类的依存性可以忽略不计。

2.基于依赖链的得分集合抽取过程

假设Score[][]是二维数组的一组分数点,第一个维度表示答案的分数,第二个维度由三元组lt; x,r,y gt;形式表示,其中x,y表示单词,r表示x和y之间的有效依存关系,并且得分点提取只提取三元组的第一个单词x,后一个信息作为依赖链存储。

第一步:提取答案句的核心词。如果核心词是名词或介词,那么答案可以是名词短语或介词短语。然后将与核心词构成有效依存关系的词放入得分集中,然后结束。否则转到步骤2。

第二步:根据规则5提取答案句核心谓词KVERB,生成第一个得分点集Score[1],将核心谓词作为第一个元素放入第一个得分点集:score[1][1]=lt;root,ROOT,KVERBgt;

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[237622],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。