英语原文共 37 页,剩余内容已隐藏,支付完成后下载完整资料
第六章
机器翻译中的深度学习
Yang Liu and Jiajun Zhang
摘要 机器翻译(MT)是一项重要的自然语言处理任务,调查使用计算机自动翻译人类语言。 近年来,基于深度学习的方法取得了重大进展,并迅速成为学术界和工业界新的MT模式。 本章介绍两大类基于深度学习的MT方法:
(1)针对机器翻译的组件式深度学习,利用深度学习提高SMT主要组件的能力,如翻译模型,重新排序模型和语言模型; (2)机器翻译的端到端深度学习,它使用神经网络基于编码器 - 解码器框架在源语言和目标语言之间直接映射。 本章最后讨论了深度学习型机器人的挑战和未来发展方向。
介绍
机器翻译旨在自动翻译自然语言,这是自然语言处理中的一项重要任务。由于并行语料库的可用性日益增加,自20世纪90年代以来,数据驱动的机器翻译已成为MT社区的主流方法。考虑到句子对齐的双语训练数据,数据驱动的MT的目标是从数据中自动获取翻译知识,然后用它翻译看不见的源语言句子。统计机器翻译(SMT)是一种代表性的数据驱动方法,主张使用概率模型来描述翻译过程。虽然早期的SMT侧重于将词语作为基本单元的生成模型(Brown et al。1993),但自2002年起,使用在短语和解析中定义的特征的区分模型(Och amp;Ney 2002)已广为人知(Koehn et al。2003; Chiang 2007)。然而,歧视性SMT模型面临严峻的挑战:数据稀疏。使用离散符号表示法,SMT很容易在低计数事件中学习模型参数的较差估计。另外,由于自然语言的多样性和复杂性,很难手动设计特征来捕捉所有翻译规则。
近年来,MT在深度学习应用方面取得了显着的成功。在领先的国际MT评估活动中超越SMT,基于深度学习的MT已迅速成为商业在线MT服务的新事实范例。本章介绍两大类基于深度学习的MT方法:(1)用于机器翻译的组件式深度学习(Devlin et al。2014),利用深度学习提高SMT主要组件的能力,如翻译模型,重新排序模型和语言模型; (2)机器翻译的端到端深度学习(Sutskever et al。2014; Bahdanau et al。2015),它使用神经网络基于编码器 - 解码器框架在源语言和目标语言之间直接映射。
本章安排如下。我们将首先介绍SMT(Sect。6.2.1)的基本概念,并讨论基于字符串匹配的SMT(Sect。6.2.2)的现有问题。然后,我们将详细回顾深入学习在SMT中的应用(Sects。6.3.1-6.3.5)。 6.4节致力于端到端的神经机器翻译,涵盖标准的编码器 - 解码器框架(章节6.4.1),注意机制(章节6.4.2)和最近的进展(章节6.4)。 3-6.4.6)。本章以总结(第6.5节)结束。
统计机器翻译及其挑战
基础
设x为源语言句子,y为目标语言句子,theta;为模型参数集合,,P(y|x; theta; )为给定x的y的平移概率。 机器翻译的目标是找到具有最高概率ycirc;的翻译:
ycirc; = argmax .P(y|x; theta; )Sigma;. (6.1)
y
Brown等人 (1993)使用贝叶斯定理重写方程式中的决策规则。 (6.1)等同于:
ycirc; = argmax . P(y; theta;lm )P(x|y; theta; tm ) Sigma;, (6.2)
y
P(x)
= argmax .P(y; theta; lm ) P(x|y; theta; tm )Sigma;. (6.3)
y
其中P(x|y; theta; tm )被称为翻译模型并且P(y; theta; lm )被称为语言模型。 theta;tm和theta;lm分别是平移和语言模型参数。
翻译模型P(x ytheta;tm)通常被定义为一个生成模型,它通过潜在结构进一步分解(Brown et al。1993):
P(x|y; theta; tm ) = . P(x, z|y; theta; tm ), (6.4)
z
其中z表示潜在的结构,如词对齐,表示源语言和目标语言中单词之间的对应关系。
然而,潜变量生成翻译模型的一个关键限制是由于子模型之间错综复杂的依赖关系,它们很难扩展。 因此,Och和Ney(2002)主张使用对数线性模型来进行统计机器翻译,以结合任意的知识来源:
exp(theta; phi;(x, y, z))
. ·zP(y|x; theta; ) =
.yj .zj exp(theta; · phi;(xj, y, zj))
, (6.5)
其中phi;(x,y,z)是一组描述翻译过程的特征,theta;是一组相应的特征权重。请注意,Eq。中的潜变量生成模型(6.4)是对数线性模型的一个特例,因为翻译和语言模型都可以看作是特征。
基于短语的翻译模型(Koehn et al。2003)由于其简单性和有效性,是学术界和工业界最广泛使用的SMT方法。基于短语的翻译的基本思想是使用短语来记忆对本地语境敏感的单词选择和重新排序,使其在处理单词插入和省略,短语成语和自由翻译方面非常有效。
如图6.1所示,基于短语的SMT的翻译过程可分为三个步骤:(1)将源语句分割成短语序列,
将每个源短语转换为目标短语,以及(3)按照目标语言的顺序重新排列目标短语。目标短语的连接形成目标句子。因此,基于短语的翻译模型通常由三个子模型组成:短语分段,短语重新排序和短语翻译。这些子模型作为对数线性模型框架的主要特征。
翻译规则表或双语短语表的中心特征是基于短语的翻译模式。图6.2说明了基于短语的SMT的翻译规则提取。给定一个平行句对,单词对齐首先运行以找出源句子和目标句子中单词之间的对应关系。然后,从词对齐的句对中提取满足在词对齐(Och和Ney 2002)上定义的启发式约束的双语短语(即,翻译规则)。然后,可以从训练数据中估计双语短语的概率和词汇权重。请注意,短语重新排序模型也可以在词对齐平行语料库上进行训练。
Fig. 6.1 基于短语的SMT的翻译过程。 它涉及三个步骤:短语分词,短语翻译和短语重新排序
在潜变量对数 - 线性平移模型中,潜在结构z通常被称为推导,它描述了翻译是如何生成的。 在解码期间,以最高概率搜索翻译需要考虑所有可能的推导:
Fig. 6.2 基于短语SMT的翻译规
全文共6829字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[11844],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。