使用RNN编码器 – 解码器学习短语表示以进行统计机器翻译外文翻译资料

 2021-12-21 22:05:52

英语原文共 15 页

使用RNN编码器 - 解码器学习短语表示以进行统计机器翻译

引言

本文提出了一种新的神经网络模型RNN编码器-解码器,它由两个递归神经网络(RNN)组成。一个递归神经网络将符号序列编码为固定长度的矢量表示,另一个递归神经将符号序列解码为另一个符号序列。该模型的编码器和解码器联合训练,使给定源序列的目标序列条件概率最大化。通过将递归神经网络编码器-解码器计算出的短语对的条件概率作为一个条件概率,实际证明统计机器翻译系统的性能有所提高。

1 简介

深度神经网络已经在诸如目标识别(参见(Krizhevsky,2012))和语音识别(参见(Dahl,2012))等各种应用中显示出巨大的成功。此外,许多最近的工作表明神经网络可以成功地用于自然语言处理中的许多任务。这些任务包括但不限于语言建模(参见(Bengio,2003)),释义检测(参见( Socher,2011))和单词嵌入提取(参见(Mikolov,2013))。 在统计机器翻译(SMT)领域,深度神经网络已经开始显示出有希望的结果。(Schwenk,2012)总结了在基于短语的SMT系统框架中成功使用前馈神经网络。

通过对SMT使用神经网络的这一研究,本文重点研究了一种新的可以作为传统的基于短语的SMT系统的一部分的神经网络结构。这种神经网络结构,由两个递归神经网络(RNN)组成,我们将其称为 RNN编码器 - 解码器,它们充当编码器和解码器对。 编码器将可变长度源序列映射到固定长度矢量,解码器将矢量表示映射回可变长度目标序列。 联合训练两个网络以最大化给定源序列的目标序列的条件概率。 此外,我们建议使用相当复杂的隐藏单元,以提高内存容量和培训的便利性。

这个具有新颖隐藏单元的RNN编码器 - 解码器在从英语到法语的翻译任务中进行了实证评估。 我们以学习英语短语的翻译概率到相应的法语短语训练模型。 然后,通过对短语表中的每个短语对进行评分,将该模型用作基于标准短语的SMT系统的一部分。 经评估表明,这种使用RNN编码器 - 解码器对短语对进行评分的方法提高了翻译性能。

我们通过将其短语分数与现有翻译模型给出的短语分数进行比较,定性分析训练好的RNN编码器 - 解码器。定性分析表明,RNN编码器 - 解码器更好地捕捉短语表中的语言规律,间接解释了整体翻译性能的定量改进。 对模型的进一步分析表明,RNN编码器 - 解码器学习了一个短语的连续空间表示,该短语保留了短语的语义和句法结构。

2 RNN编码器 - 解码器

2.1初步:回归神经网络

递归神经网络(RNN)是一种由隐藏状态h和在可变长度序列x =(x1,...,xT)上操作后的可选输出y组成神经网络。在每一次步骤t中,RNN的隐藏状态h(t)随着

其中,f是非线性激活函数。f可以像元素逻辑sigmoid函数一样简单,也可以像长短期记忆(LSTM)单元一样复杂(Hochreiter和Schmidhuber,1997)。

RNN可以通过训练来预测序列中的下一个符号在学习序列上的概率分布。 在这种情况下,每一次t的输出是条件分布。 例如,可以使用softmax激活函数输出多项分布(1-of-K编码)。

对于所有可能的符号j = 1 ,.。。 ,K,其中wj是权重矩阵W的行。通过组合这些概率,我们计算序列x的概率通过

从这个学习的分布中,通过在每个时间步迭代地对符号进行采样,可以直接采样新的序列。

2.2 RNN编码器-解码器

在本文中,我们提出了一种新颖的神经网络体系结构,该体系结构学习将可变长度序列编码为固定长度的矢量表示,并将给定的固定长度矢量表示解码回可变长度序列。从概率的角度来看,这个新模型是学习在另一个可变长度序列上的可变长度序列的条件分布的一般方法,例如p(y1,...,yTrsquo;|x1,...,xT),其中应注意输入和输出序列长度T和Trsquo;可能不同。

图1:拟议RNN编码器-解码器的示意图。
编码器是一个顺序地读取输入序列x的每个符号的RNN。当它读取每个符号时,RNN的隐藏状态根据等式1而变化。(1)在读取序列的结尾(由序列结束符号标记)之后,RNN的隐藏状态是整个输入序列的摘要c。
这个模型的解码器是另一个被训练以通过在给定隐藏状态h(t)的情况下预测下一个符号y(t)来生成输出序列RNN。但是,与第二节中描述的RNN不同。 2.1,y(t)和h(t)也都取决于输入序列的摘要c上的yt与 nd。因此,通过计算解码器在时间t的隐藏状态,

类似地,下一个符号的条件分布是

或给定激活函数f和g(后者必须产生有效概率,例如具有软最大值)

有关所提出的模型体系结构的图形描述,请参见图1.所提出的RNN编码器编码器的两个组件经过联合训练,以最大化条件对数

其中,theta;是模型参数的集合,每个(xn,yn)是来自训练集的(输入序列,输出序列)对。 在我们的例子中,作为解码器的输出,从输入开始,是不同的,我们可以使用基于梯度的算法来估计模型参数。
一旦训练了RNN编码器编码器,就可以以两种方式使用该模型。 一种方法是使用该模型在给定输入序列的情况下生成目标序列。 另一方面,该模型可用于对给定的输入和输出序列对进行评分,其中得分仅为来自Eqs的概率ptheta;(y | x)。(3)和(4)。

2.3 自适应记忆和遗忘的隐藏单位

除了新颖的模型体系结构外,我们还提出了一种新型的隐藏单元(方程(1)中的f),该单元由LSTM单元驱动,但计算和实现起来要简单得多.1图2显示了图形 拟议的隐藏单位的描述。

让我们描述如何计算第j个隐藏单元的激活。 首先,通过计算复位门rj

其中sigma;是逻辑sigmoid函数,[。] j表示向量的第j个元素。 x和ht-1分别是输入和先前的隐藏状态。 Wr和Ur是学习的权重矩阵。

类似地,计算更新门zj

然后通过计算所提出的单位hj的实际激活

在该公式中,当复位门接近0时,隐藏状态被迫忽略先前的隐藏状态并仅用当前输入复位。 这有效地允许隐藏状态丢弃在将来稍后发现不相关的任何信息,从而允许更紧凑的表示。

图2:提议的隐藏激活功能的图示

另一方面,更新门控制来自先前隐藏状态的多少信息将转移到当前隐藏状态。 这类似于LSTM网络中的存储器单元,并帮助RNN记住长期信息。 此外,这可以被认为是泄漏整合单元的自适应变体(Bengio et al。,2013)。

由于每个隐藏单元具有单独的重置和向上日期门,每个隐藏单元将学习捕获不同时间尺度上的依赖性。 学习捕获短期依赖关系的那些单元将倾向于重置经常活动的门,但那些捕获长期依赖关系的那些将具有主要是活动的更新门。

在我们的初步实验中,我们发现使用带有浇口装置的新装置至关重要。 我们无法通过经常使用的tanh装置获得有意义的结果而没有任何门控。

3统计机器翻译

在常用的统计机器翻译系统(SMT)中,系统(解码器,具体地)的目标是在给定源句子e的情况下找到翻译f,其最大化

右手边的第一个术语称为翻译模型,后一个语言模型称为(例如,(Koehn,2005))。 然而,在实践中,大多数SMT系统将log p(f | e)建模为具有附加特征和相应权重的对数线性模型:

其中fn和wn分别是第n个特征和权重。 Z(e)是不依赖于权重的归一化常数。 通常对权重进行优化以最大化开发集上的BLEU分数。

在(Koehn et al。,2003)和。(Koehn et al。,2003)中引入的基于短语的SMT框架中(Marcu和Wong,2002),将翻译模型log p(e | f)分解为源语句和目标语句中匹配短语的翻译概率。这些概率再次被认为是对数线性模型中的附加特征( 见式(9))并加权因此,最大化BLEU得分。

由于神经网络语言模型是在(Bengio,2003)中提出的,因此神经网络已广泛用于SMT系统。 在许多情况下,神经网络已被用于重新构建翻译假设(n-最佳列表)(参见,例如,(Schwenk,2006))。 然而,最近,有兴趣训练神经网络使用源句子的表示作为附加输入来对翻译的句子(或短语对)进行评分。 参见(Schwenk,2012),(Son,2012)和(Zou,2013)。

3.1使用RNN编码器解码器评分短语对

在这里,我们建议在短语对表上训练RNN编码器的解码器(参见2.2节),并将其得分作为等式中对数线性模型的附加特征(9)调谐SMT解码器时。

当我们训练RNN编码器编码器时,我们忽略原始语料库中每个短语对的(标准化的)频率。 采取这种措施(1)以减少根据归一化频率从大短语表中随机选择短语对的计算开销,以及(2)确保RNN编码器编码器不仅仅学习对短语进行排名。 根据它们的出现次数进行配对。这种选择的一个潜在原因是短语表中的现有翻译概率已经反映了原始语料库中短语对的频率。 利用RNN编码器编码器的固定容量,我们尝试确保模型的大部分容量专注于学习语言规则,即区分合理和难以置信的翻译,或学习“manifold”(区域) 概率翻译的概率能力集中度。

一旦训练了RNN编码器 - 解码器,我们就为现有短语表添加每个短语对的新分数。 这允许新分数进入现有调整算法,而计算中的额外开销最小。

正如Schwenk在(Schwenk,2012)中指出的那样,可以用提出的RNN编码器 - 解码器完全替换现有的短语表。 在这种情况下,对于给定的源短语,RNN编码器 - 解码器将需要生成(好的)目标短语的列表。 然而,这需要重复执行昂贵的采样程序。 因此,在本文中,我们只考虑在短语表中重新分配短语对。

3.2 相关方法:神经网络机器翻译

在介绍实证结果之前,我们讨论了一些最近提出的在SMT背景下使用神经网络的工作。

Schwenk(Schwenk,2012)提出了一种类似的评分短语对的方法。 他没有使用基于RNN的神经网络,而是使用具有固定大小输入的前馈神经网络(在他的情况下为7个字,对于较短的短语使用零填充)和固定大小的输出(目标语言中的7个字)。 当它专门用于SMT系统的评分短语时,通常选择最大短语长度较小。 然而,随着短语的长度增加或者当我们将神经网络应用于其他可变长度序列数据时,神经网络可以处理可变长度的输入和输出是很重要的。 专业的RNN编码器编码器非常适合这些应用。

类似于(Schwenk,2012),Devlin(Devlin,2014)提出使用用于病房神经网络的饲料来建模翻译模型,然而,通过一次预测目标短语中的一个单词。 他们报告了一个令人印象深刻的改进,但他们的方法仍然要求输入短语(或上下文单词)的最大长度先验地固定。

虽然它并不完全是他们训练的神经网络,但是(Zou,2013)的作者提出要学习单词/短语的双语嵌入。他们使用学习的嵌入来计算使用的一对短语之间的距离作为SMT系统中短语对的附加分数。

在(Chandar,2014)中,训练前馈神经网络以学习从输入短语的词袋表示到输出短语的映射。 这与提议的RNN编码器编码器和(Schwenk,2012)中提出的模型密切相关,除了它们的短语表示是一个词袋。使用袋子的类似方法。 (Gao ,2013)也提出了单词表示。 早些时候,在(Socher,2011)中提出了类似的编码器 - 使用两个递归神经网络的编码器模型,但是他们的模型被限制为单语设置,即模型重建输入句子。 最近,在(Auli,2013)中提出了另一种编码器使用RNN的编码器模型,其中编码器以源句子或源上下文的表示为条件。

提出的RNN编码器编码器和(Zou,2013)和(Chandar,2014)中的方法之间的一个重要区别是,源和焦油中的单词的顺序被考虑在内。RNN编码器编码器自然地区分具有相同字但序列不同的序列,而上述方法有效地忽略了订单信息。

与提出的RNN编码器编码器相关的最接近的方法是(Kalchbrenner和Blunsom,2013)中提出的循环连续转换模型(模型2)。在他们的pa per中,他们提出了一个由编码器和解码器组成的类似模型。与我们的模型的不同之处在于它们使用卷积n-grammodel(CGM)用于编码器,并且使用逆CGM和用于解码器的递归神经网络的混合。 然而,他们评估了他们的模型,重新评估了传统SMT系统提出的n-最佳列表,并计算了金标准翻译的错误。

4实验

我们评估了WMT14研讨会英语/法语翻译任务的方法。

4.1数据和基线系统

在WMT#39;14翻译任务的框架内,可以利用大量资源建立英语/法语SMT系统。 双语语料库包括Europarl(61M字),新闻评论(5.5M),UN(421M)和两个分别为90M和780M字的爬行语料库。 最后两个语料库非常嘈杂。 为了训练法语模型,除了比特的目标侧之外,还有大约712M字的爬行报纸材料。 所有单词计数在标记化之后引用法语单词。

人们普遍认为,在所有这些数据的串联上训练统计模型不一定会导致最佳性能,并且导致难以处理的极大的mod。 相反,应该关注给定任务的最相关数据子集。 我们通过应用(Moore和Lewis,2010)中提出的数据选择方法及其对双文本的扩展(Axelrod,2011)来实现。 通过这些方法,我们选择了超过2G字的418M字的子集用于语言建模,并且从850M字中选择348M的子集用于训练RNN编码器编码器。 我们使用测试集newstes

资料编号:[4087]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。