基于自然语言处理的文本难易度自动评分系统的设计与实现外文翻译资料

 2022-08-06 09:32:42

英语原文共 4 页,剩余内容已隐藏,支付完成后下载完整资料


摘要-——文章的可读性表明其总体阅读理解水平。 可读性评估是一个衡量一段文本阅读水平的过程,这可以帮助找到适合读者的阅读材料。 在本文中,我们旨在评估针对第二语言 (L2) 学习者的汉语教材的可读性。 我们将神经网络模型首次引入可读性评估任务。 为了捕获用于可读性评估的上下文信息,我们使用卷积神经网络 (CNN) 来捕获隐藏的局部特征。 然后我们使用双向长短期记忆网络 (bi-lstm) 神经网络将过去和未来的信息结合在一起。 实验结果表明,我们的模型达到了竞争性能。

关键词-可读性评估,卷积神经网络,长短期记忆网络

  1. 简介

什么样的第二语言学习材料适合第二语言学习者阅读? 找到合适的阅读材料,以培训语言学习者的专业水平是一项艰巨而耗时的任务,无论是教师还是读者自己。 在上个世纪,已经采取了一些系统的方法 [1] 来理解与文本差异相关的主观和客观因素。 也有一些作品 [1] [2] [3] 关于如何最好地支持读者寻求理解更多的复杂文本,以及找到正确困难等级的文本。 他们的所有作品都可以描述为可读性评估。 这是一项旨在评估阅读难度和理解文本文档的易用性的任务。 对于教育工作者来说,选择适合学生阅读/年级水平的课文是有帮助的。

对于英语,已经有一些针对此任务的作品,例如Lexile [4],它是用户找到适合他们阅读的书籍的框架。 但是对于汉语学习者来说,这项研究仍处于起步阶段。 随着中国的高度发展,我们可以看到中国留学市场的巨大需求。 尽管学习者可以从互联网上获得足够的中文文本,但他们无法区分哪一种适合他们学习。 因此,迫切需要建立一个可用于评估中文文本可读性的评估系统。

文本可读性是文本材料中所有元素的总和,它影响理解、阅读

读者的速度和兴趣水平 [5]。 它由多个变量所影响。 这些可能包括写作风格,格式和组织,读者背景,兴趣和文本的各种上下文维度,例如其词汇和句法复杂性,概念熟悉程度,逻辑复杂性等。

在我们看来,选择衡量标准-确定的可读性通常取决于目标读者的需求和特征。 到目前为止,大多数研究 [1] [6] [7] [8] [9] [4] 已经评估了由母语人士判断的文本差异,尽管第二语言学习者可以非常不同地感知文本的可理解性。 对于L2学习者,由于语言习得速度的差异,可读性度量的重点通常与本地读者不同。 例如,与本地人相比,词义的概念歧义通常对第二语言学习者的文本理解贡献更大。

因此,考虑到以上结论,我们提出了基于神经网络的中文可读性评估系统,该系统考虑了上下文信息,从而更好地理解了材料的含义。 首先,与以前的作品 [1] [6] [7] [8] [9] [4] 相比,我们确实尝试使用神经网络来进行可读性评估,而不需要手工创建大量特征。 其次,为了考虑周围的单词,我们使用CNN提取隐藏的局部特征,然后使用bi-lstm考虑过去和未来的信息。

  1. 相关工作

先前有关文本可读性评估的许多研究都使用基于机器学习的方法,这些方法可以研究更广泛的语言特征。[3] 和 [5] 是统计可读性评估的早期工作之一。 他们应用unigram语言模型和朴素贝叶斯分类来估计给定文本的等级。 实验表明,语言模型方法在准确性方面比传统的可读性公式 (例如Flesch-Kincaid分数) 产生更好的结果。[1] 和 [10] 将该方法扩展到多种语言模型。 他们将传统的阅读指标与统计语言模型以及一些基本的解析树特征相结合,然后应用SVM 分类器。[11] 扩展功能集,以包括某些

978-1-5386-1981-0/17/31.00美元c 2017 IEEE 66

从解析树中提取的词汇和语法特征,同时使用线性回归模型来预测等级。[12] 观察特征选择和机器学习框架选择对性能的影响,并且发现改变框架所带来的改进比改变特征所带来的改进要小。 虽然自动可读性评估的大部分工作都是针对英语的,但对其他语言的研究,包括法语 [13] 、葡萄牙语 [14],也正在兴起。 这些研究通常使用出版商和语言讲师指定的可读性水平的教科书材料。 并且也有基于机器学习的方法被提出用于访问中文可读性 [15] [16],但仍处于早期阶段。

  1. 中文可读性评估系统

如图1所示,我们的中文可读性评估系统由一个嵌入层,一个具有隐藏特征的卷积层和k-最大池,一个具有远程依赖性的双LSTM层和一个Softmax层组成。

隐藏状态hrminus;1在每个时间段。 但是,随着两个时间步骤之间的差距变大,标准RNN变得无法学习长期依赖性。 为了解决这个问题,LSTM在 [17] 中首次引入,并重新成为一个成功的体系结构,因为 [18] 在统计机器翻译中获得了卓越的表现 。 LSTM体系结构每个时间段都有一系列模块,如标准RNN所示。 在每个时间段,模块的输出由一组Rd门控制,作为旧隐藏状态的函数ht minus;1和当前时间步骤xt处的输入函数: 忘记之门ft,输入门it,和输出门ot。 这些门共同决定如何更新当前的存储单元ct和当前的隐藏状态ht。 我们使用d表示LSTM中的内存维度,并且此体系结构中的所有向量共享相同的维度。 LSTM转换函数的定义如下:

it=sigma;(Wi · [ht, xt] bi) (3)

ft = sigma;(Wf · [ht, xt] bf ) (4)

t

f

t

t

f

  1. 卷积神经网络

CNN模型的结构如下: 在该模型中,第一层是嵌入层,该层的输入是单词序列: [x1,x2xmaxlen],单词由分布向量xisin;Rd表示,其中maxlen是序列的长度。 下一个层是卷积层,它使用多个滤波器大小对嵌入的词向量执行卷积。 让k是滤波器长度,矩阵的长度misin;RK times; d是卷积运算的信号。 对于在序列中的每个位置j,我们有一个窗口矩阵wj与k连续词向量,表示为:

isin;

·

wj= [xj,xj 1· xj K minus;1] (1)

过滤器m与窗口向量的卷积(k-grams) 以有效的方式在每个位置生成特征图cisin;RL minus; k 1; 每个元素cj的特征图窗口

矢量wj制作如下:

cj=f (wjoplus;m b) (2)

乘法,bisin;R是一个偏差项,并且f是乙状结肠变换函数。

我们在特征映射上提出了一个k-max池。k-max最大池需要k-max中的最大值ci作为c-th字节处与该滤波器对应的特征,它减少了CNN网络的输出参数,并减轻了过度 装配的风险。 池化的非线性有助于CNN网络提取发散特征表示。

  1. 长短期记忆网络

递归神经网络 (RNN) 能够通过链状神经网络体系结构传播历史信息。 在处理顺序数据时,它查看当前输入xt以及之前的输出的

Qt = tanh(Wq · [ht, xt] bq) (5)

ot = sigma;(Wo · [ht, xt] bo) (6)

ct = ft ⊙ ctminus;1 it ⊙ qt (7)

ht = ot ⊙tanh (ct) (8)

Ⓢ Ⓢ

在这里,是在 [0,1] 中具有输出的逻辑 sigmoid 函数,tanh表示在 [-1,1] 中具有输出的双曲正切函数,并表示逐元素乘法。 了解架构背后的机制,我们可以查看ft作为控制从旧存储单元中丢弃多少信息的功能,it控制当前存储单元中要存储多少新信息,以及ot根据存储单元ct控制输出什么。 LSTM是为时间序列数据明确设计的,用于学习长期依赖关系,因此我们选择卷积层上的LSTM来学习这样的

更高级别的特征序列中的依赖关系。

为了降低我们模型的复杂性,如前所述,CNN和LSTM之间涉及一个k-max池。 池化减少了LSTM的输入参数。

  1. 实验
  2. 数据集

我们使用的语料库是从对外汉语教学教科书中选择的,称为发展汉语。 语料库由345篇文章组成。 语料库的统计数据如表1所示。

在这里,numa表示文章的数量,numw表示单词的总数,nums表示句子总数,averw表示单词的平均数量,avers表示平均数的句子。

我们使用年级水平来表示完全理解文本所需的理解能力,作为

2017亚洲语言处理国际会议 (IALP)67

图1: 网络体系结构表I: 语料库的统计

Numa

numw

nums

averw

avers

初级

79

11583

539

146

7

中间

122

43069

1302

353

10

先进

144

70031

1357

486

9

总计

345

124683

3198

361

9

阅读难度。 我们研究中的语料库由标有1至3年级等级的文本组成,包括:初级,中间和先进。 我们将这些文章分为3个部分: 列车组269个,开发组40个,测试组36个。 我们将可读性评估视为一项分类任务,并根据训练的预测精度进行评估。

  1. 超参数设置

我们使用maxlen表示训练集中句子的最大长度。 由于我们模型中的卷积层需要固定长度的输入,因此我们填充每个长度小于maxlen并在末尾带有特殊符号lt;agt;表示未知单词的。 但是对于长度超过malen我们只是在这些句子的末尾剪切多余的单词,以达到maxlen。

我们用公开可用的word2vec初始化单词向量这些向量是通过中文维基百科数据集1预先训练的。 词向量的维数是300。 我们还从均匀分布 [- 0.25,0.25] 初始化未知单词的单词向量。 然后,我们在训练 期间对单词向量以及其他模型参数进行调整培训。

神经网络的超参数设置可能取决于所使用的数据集。 根据先前的研究 [19][20],我们选择一组常用的超参数。 此外,我们将随机梯度下降的学习率设置为0.01,在3种类型的过滤器大小中,每个过滤器的数量为500。

对于我们的任务,我们将bi-lstm最后一个时间步的隐藏状态的平均输出视为文档

1 https://dumps.wikimedia.org/zhwiki/latest/

表二: 上述五模型的结果。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[260428],资料为PDF文档或Word文档,PDF文档可免费转换为Word

模型

SVM

精度

83.8%

CNN

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。