英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料
中文的神经分词学习
蔡邓,赵海lowast;
计算机科学与工程系
上海市教委重点实验室
上海交通大学智能交互与认知工程研究中心
thisisjcykcd@gmail.com, zhaohai@cs.sjtu.edu.cn
摘要
大多数先前的中文分词方法将这个问题形式化为基于字符的序列标记任务,以便仅捕获固定尺寸的本地窗口中的上下文信息以及相邻标签之间的简单交互。 在本文中,我们提出了一种新的神经框架,彻底消除上下文窗口,并可以利用完整的分割历史。 我们的模型采用门控字符组合神经网络来产生候选单词的分布式表示,然后将其分配给长期短期记忆(LSTM)语言评分模型。 基准数据集上的实验表明,如果没有特征工程作为大多数现有方法的帮助,我们的模型可以通过先前的先进方法实现具有竞争力或更好的性能。
1 介绍
大多数东亚语言包括中国人都是没有明确的单词分隔符编写,因此,分词对于处理这些语言是初级阶段。自Xue(2003)以来,大多数方法将中文分词(CWS)形式化为带有字符位置标签的序列标签问题,可以用监督学习方法例如最大熵(Berger 等人,1996; Low 等人,2005)和条件随机场Conditional Random Fields(Lafferty等人,2001; Peng等人,2004; Zhao等人,2006a)来处理。但是,这些方法在很大程度上取决于手工功能的选择。最近,神经模型已被广泛用于NLP任务,因为它们能够最大限度地减少特征工程的工作量。对于CWS的任务,Zheng等人(2013)对(Collobert等人,2011)中提出的序列标签的一般神经网络架构进行了修改,并将字符嵌入用作双层网络的输入。Pei等人(2014)通过明确地建模本地上下文和先前标签之间的交互作用而改进(Zheng等人,2013)。 陈等人。(2015a)提出了一个门控递归神经网络来模拟上下文字符的特征组合。 陈等人。(2015b)使用LSTM架构来捕获潜在的长距离依赖关系,这减轻了上下文窗口大小的限制,但为隐藏状态引入了另一个窗口。
尽管存在差异,但所有这些模型都旨在通过将标签依次分配给序列中的字符来解决CWS。在每个时间推理步骤中,这些模型基于(i)固定大小的本地窗口内的上下文特征和(ii)前一个标签的历史记录来计算字符的标签分数。
尽管如此,标签到标签的转换不足以模拟以前分段决策的复杂影响,尽管它有时可能是后续分段决策的关键线索。这些方法在特征工程中广泛采用的固定上下文窗口大小也限制了对不同距离进行建模的灵活性。此外,字级信息是更大的粒度单元,正如所建议的那样,仍然没有工作。
表1:不同型号的功能窗口。 我(j)索引当前正在评分的字符(单词)。
为了缓解先前方法中的缺点并释放诸如固定大小的上下文窗口之类的不便约束,本文最近尝试将CWS重新形式化为直接分割学习任务。我们的方法不会对单个字符做出标记决定,而是直接评估不同分词句子的相对可能性,然后搜索分数最高的分词。为了表征分段句子,生成一系列分布向量表示(Ben-gio et al。,2003)以表征相应的候选词。这种表示设置使得解码与以前的方法完全不同,并且确实更具挑战性,然而,可以捕获更多的区分性特征。
虽然矢量建筑是以字为中心的,但我们提出的评分模型涵盖了从字符,单词到句子的所有三个处理级别。首先,分布式表示从字符嵌入开始,就像在分词的上下文中那样,n元数据稀疏性问题使得立即使用字向量是不切实际的。 其次,由于候选词表示是从其字符中导出的,所以内部字符结构也将被编码,因此可以用它来确定单词可能性它自己的。第三,评估如何分段句子通过词语交互是有意义的,使用LSTM(Hochreiter and Schmidhuber,1997)递增地将候选词链接在一起并在每个解码步骤构造部分分段句子的表示,以便下一个词候选者和先前分段历史记录之间的一致性可以被描绘。
就我们所知,我们提出的CWS方法是第一次明确地模拟分段器状态的全部内容的尝试,包括分段决策和输入字符的完整历史。比较表1中显示了不同模型中使用的特征窗口的特征。与过去的序列标签方案和基于单词的模型相比,我们的模型彻底消除了上下文窗口,并可以捕获分割决策的完整历史记录,有效和准确地建模分割上下文。
图1:我们的框架
2 概观
我们将CWS问题制定为寻找从输入字符序列x到单词序列y的映射,并且输出句子ylowast;满足:
其中n是y中候选单词的数量,GEN(x)表示输入序列x的可能分段集合。与以前的所有作品不同,我们的评分功能对部分分段句子的完整内容很敏感。
如图1所示,为了以这种方式求解CWS,设计了神经网络评分模型来评估分段句子的可能性。基于所提出的模型,开发解码器以找到分数最高的分数句子。 同时,利用最大余量方法通过比较来执行训练解码器输出与黄金分割的结构性差异。 以下部分将详细介绍每个组件。
图2:我们提出的神经网络评分模型的体系结构,其中ci表示第i个输入字符,yj表示第j个候选词的学习表示,pk表示对(k 1)个词候选者,并且u是用于对单个候选词的可能性进行评分的可训练参数向量
3 神经网络评分模型
通过首先将分割句子的分数映射到单词候选向量序列中来计算分数句子的分数,然后评分模型将该向量序列作为输入,从两个角度对每个候选单词评分:(1)候选单词本身可能有多大可能被认为是一个法律词汇;(2)候选单词立即遵循先前分段历史的链接的合理性如何。 之后,将候选词附加到分段历史记录,更新评分系统的状态以用于随后的判断。图2显示了整个评分神经网络。
3.1 文字分数
字符嵌入。虽然分数是在单词级别上决定的,但是使用词嵌入(Bengio等,2003; Wang等,2016)从而导致一个显着的问题,即罕见的词汇和词汇之外的词汇估计不足(Kim等,2015)。另外,n-gram内的字符级信息可以帮助判断它是否是真正的单词。因此,字符嵌入的查找表被用作底层。
在形式上,我们有一个字符D的字典大小为|D|。然后将每个字符cisin;D表示为实值向量(字符嵌入)cisin;Rd,其中d是矢量空间的维数。字符嵌入然后堆叠成嵌入矩阵Misin;Rdtimes;| d |。
对于一个字符cisin;D,其字符嵌入cisin;Rd由嵌入层根据其指数取得。
门控组合神经网络。
为了通过其字符获得单词表示,在最简单的策略中,使用在具有相同长度L的所有单词之间共享的权重矩阵W(L)将字符矢量集成到它们的单词表示中,随后是非线性函数G(.)。 具体而言,ci(1le;ile;L)分别是d维的字符矢量表示,相应的单词矢量w也将是d维的:
其中W(L)isin;Rdtimes;Ld和像上面提到的一样g是非线性函数。
尽管上面的机制似乎工作得很好,但它还不能在实践中对复杂的组合特征进行充分建模。
图3:门控组合神经网络。
根据(Chen等人,2015a; Chung等人,2014; Cho等人,2014),神经网络中的门控结构可用于混合特征提取,我们因此提出了一种门控组合神经网络(GCNN),特别是对于包含两种类型的门,即重置门和更新门的字符组合。直觉上,复位门决定字符矢量的哪一部分应该被混合,而更新门决定在组合字符信息时要保留什么。具体而言,对于长度为L的单词,
单词向量wisin;Rd计算如下:
其中zN,zi(1le;ile;L)分别是新激活w和受控字符的更新门,⊙表示元素乘法。
新的激活w计算如下:
其中W(L)isin;Rdtimes;Ld的和riisin;Rd(1le;ile;L)分别为受控字符的重置门,可以形式化为:
其中R(L)isin;R^(LDtimes;LD)是复位门的系数矩阵,sigma;表示S形函数。
更新门可以形式化为:
其中U(L)isin;R^((L 1)dtimes;(L 1)d)是更新门的系数矩阵,Zisin;R^d矢量化。
其中0le;k lt;d。
根据归一化条件,更新门限受以下因素限制:
门控机制能够捕获字符和字符交互特征,以提供有效的字表示(参见第6.节)。
文字分数。 用[y1,y2,,yn]表示学习过的向量表示一段句子y,其中n是句
子中候选词的数量。 单词得分会由矢量yi(1le;ile;n)和一个可训练参数向量uisin;Rd计算得到。
它表明候选单词本身可能成为真正的单词的可能性很大。
3.2 链接分数
受循环神经网络语言模型(RNN-LM)(Mikolov等人,2010; Sunder-meyer等人,2012)的启发,我们利用LSTM系统捕捉分段句子中的一致性。
长期的短期记忆网络。 该LSTM神经网络(Hochreiter and Schmidhuber,1997)是递归神经网络(RNN)的扩展,它是一种有效的工具用于序列建模任务使用其隐藏状态来保存历史信息。在每个时间步t,一个RNN采用输入Xt并更新它经常隐藏状态ht通过
其中g是一个非线性函数。
图4:链接评分(虚线)。
尽管RNN原则上能够处理任意长度的序列,但它可能很困难训练RNN学习由于梯度消失而引起的远距离依赖。LSTM强调这个问题通过引入一个存储器单元来长时间保存状态,并通过三种类型的门控制隐藏状态和存储器单元的更新,即输入门,忘记门和输出门。具体来说,每一步的LSTM需要输入Xt,h(tminus;1),c(tminus;1)并产生ht,ct通过以下计算:
it,ft,Ot,ct分别是输入门,忘记门,输出门和存储单元激活向量,其中sigma;,⊙分别是元素方式S形函数和乘法,时间t,所有这些都与隐藏状态矢量具有相同的大小htisin;RH。
链接分数。已经证明LSTM在许多NLP任务上优于RNN,特别是语言建模(Sundermeyer等人,2012)。
在我们的模型中,LSTM被用来以一种从左到右,递增的方式将候选词链接在一起。在时间步t处,预测pt 1isin;R^d关于下一个字y(t 1)是基于隐藏状态ht:
然后计算下一个字yt 1的链接分数为:
由于LSTM的结构,预测向量pt 1携带从整个分割历史中检测到的有用信息,包括先前的分割决定。通过这种方式,我们的模型获得了序列级别判别而非局部优化的能力。
3.3 句子评分
通过总结单词评分(2)和链接评分(3)来计算具有n个候选单词的分段句子y的句子评分如下:
其中theta;是我们模型中使用的参数集。
4 解码
可能的分段句子的总数随着字符序列的长度呈指数增长,这使得计算每个可能分段的分数变得不切实际。为了得到准确的推论,大多数序列标签系统通过维特比搜索来解决这个问题,该方法利用了他们的假设,即标签交互只存在于相邻字符内(马尔可夫假设)。但是,由于我们的模型旨在捕获分段决策的完整历史,所以在这种情况下不能采用这种动态编程算法。
为了使我们的模型在实际使用中有效,我们提出了一种具有动态编程动机的波束搜索算法,如算法1所示。主要想法是任何细分的首个i可以将字符分为两部分,第一部分由索引从0到j的字符组成,表示为y,其余部分是由c [j 1:i]组成的字。来自先前分割y的影响可以表示为三元组(y.score,y.h,y.c),其中y.score,y.h,y.c分别指示当前分数,当前隐藏状态向量和当前存储器单元向量。 波束搜索确保分割n个字符句子的总时间为w╳k╳n,其中w,k分别为最大字长和波束大小。
5 训练
我们使用最大利润标准(Taskar等人,2005)来训练我们的模型。正如(Kummerfeld等人,2015)所报道的,保证利润方法通常优于可能性和感知方法。对于给定的字符序列x^(i),将x^(i)的正确分段句子表示为y^(i)。 我们定义了用于预测分段句子y的结构化边际损失Delta;(y^(i),y):
其中m是序列x(i)的长度,mu;是折扣参数。 边际损失的计算可以被视为对错误分割的字符的数量进行计数,然后将其与用于平滑的固定折扣参数相乘。 因此,损失与错误分割字符的数量成正比。
给定一组训练集Omega;,正则化目标函数为包含pound;2范数项的损失函数J(theta;):
其中函数s(.)是等式(4)中定义的句子分数。
由于铰链损失,目标函数是不可微分的,所以我们使用梯度方法(Ratliff等,2007)计算梯度方向。以下(Socher等人,2013),我们使用AdaGrad的对角变体(Duchi 等人,2011)和小批次来最小化客观性。
表2:超参数设置
时间步t的第i个参数的更新如下:
其中alpha;是初始学习率,gtau;,iisin;R|theta;1 |是参数theta;i的时间步tau;的次梯度。
6 实验
6.1 数据集
为了评估所提出的分割器,我们使用来自第二个国际中文分词竞赛的两个流行数据集PKU和MSR,(Emerson,2005)。这些数据集通常被以前的先
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[466748],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。