Recursive Deep Learning for Natural Language Processing and Computer thesis.
As the amount of unstructured text data that humanity produces overall and on the Internet grows, so does the need to intelligently process it and extract different types of knowledge from it. My research goal in this thesis is to develop learning models that can automatically induce representations of human language, in particular its structure and meaning in order to solve multiple higher level language tasks.
There has been great progress in delivering technologies in natural language processing (NLP) such as extracting information from big unstructured data on the web, sentiment analysis in social networks or grammatical analysis for essay grading. One of the goals of NLP is the development of general and scalable algorithms that can jointly solve these tasks and learn the necessary intermediate representations of the linguistic units involved. However, standard approaches towards this goal have two common shortcomings.
1. Simplifying Language Assumptions: In NLP and machine learning, we often develop an algorithm and then force the data into a format that is compatible with this algorithm. For instance, a common first step in text classification or clustering is to ignore word order and grammatical structure and represent texts in terms of unordered lists of words, so called bag of words. This leads to obvious problems when trying to understand a sentence. Take for instance the two sentences: “Unlike the surreal Leon, this movie is weird but likeable.” and “Unlike the surreal but likeable Leon, this movie is weird.” The overall sentiment expressed in the first sentence is positive. My model learns that while the words compose a positive sentiment about Leon in the second sentence, the overall sentiment is negative, despite both sentences having exactly the same words. This is in contrast to the above mentioned bag of words approaches that cannot distinguish between the two sentences. Another common simplification for labeling words with, for example, their part of speech tag is to consider only the previous words tag or a fixed sized neighborhood around each word. My models do not make these simplifying assumptions and are still tractable.
2. Feature Representations: While a lot of time is spent on models and inference, a well-known secret is that the performance of most learning systems depends crucially on the feature representations of the input. For instance, instead of relying only on word counts to classify a text, state of the art systems use part-of-speech tags, special labels for each location, person or organization (so called named entities), parse tree features or the relationship of words in a large taxonomy such as WordNet. Each of these features has taken a long time to develop and integrating them for each new task slows down both the development and runtime of the final algorithm.
The models in this thesis address these two shortcomings. They provide effective and general representations for sentences without assuming word order independence. Furthermore, they provide state of the art performance with no, or few manually designed features. Inspiration for these new models comes from combining ideas from the fields of natural language processing and deep learning. I will introduce the important basic concepts and ideas of deep learning in the second chapter. Generally, deep learning is a subfield of machine learning which tackles the second challenge by automatically learning feature representations from raw input. These representations can then be readily used for prediction tasks.
There has been great success using deep learning techniques in image classification (Krizhevsky et al., 2012) and speech recognition (Hinton et al., 2012). However, an import aspect of language and the visual world that has not been accounted for in deep learning is the pervasiveness of recursive or hierarchical structure. This is why deep learning so far has not been able to tackle the first of the two main shortcomings. This thesis describes new deep models that extend the ideas of deep learning to structured inputs and outputs, thereby providing a solution to the first shortcoming mentioned above. In other words, while the methods implemented here are based on deep learning they extend general deep learning ideas beyond classifying fixed sized inputs and introduce recursion and computing representations for grammatical language structures.
The new model family introduced in this thesis is summarized under the term Recursive Deep Learning. The models in this family are variations and extensions of unsupervised and supervised recursive neural networks. These networks parse natural language. This enables them to find the grammatical structure of a sentence and align the neural network architecture accordingly. The recursion comes applying the same neural network at every node of the grammatical structure. Grammatical structures help, for instance, to accurately solve the so called prepositional attachment problem illustrated in the parse of Fig 1.1. In this example, the “with” phrase in “eating spaghetti with a spoon” specifies a way of eating whereas in “eating spaghetti with some pesto” specifies a dish. The recursive model captures that the difference is due to the semantic content of the word following the preposition “with.” This content is captured in the distributional word and phrase representations. These representations capture that utensils are semantically similar or that pesto, sauce and tomatoes are all food related.
Recursive deep models do not only predict these linguistically plausible phrase structures but further learn how words compose the meaning of longer phrases inside such structures. They address the fundamental issue of learning feature vector representations for variable sized inputs without ignoring structure or word
剩余内容已隐藏,支付完成后下载完整资料
自然语言处理和计算机的递归深度学习
随着人们在互联网上产生的非结构化文本数据的大量增长,人们需要智能地处理这些数据,并从中提取不同类型的知识信息。本文的研究目标是开发能够自动归纳人类语言表征的学习模型,特别是它的结构和意义,以解决多个高级语言任务。
在自然语言处理(NLP)中,从网络上的大的非结构化数据中提取信息、在社交网络中进行情感分析或在作文评分中进行语法分析等技术已经取得了很大的进展。NLP的目标之一是开发通用和可伸缩的算法,这些算法可以共同解决这些任务,并学习所涉及语言单元的必要中间表示。然而,实现这一目标的标准方法有两个共同的缺点。
简化语言假设:在NLP和机器学习中,我们开发了一种算法,然后将数据强制转换成与该算法兼容的格式。例如,在文本分类或聚类中,通常的第一步是忽略单词顺序和语法结构,用无序的单词列表(即所谓的单词包)来表示文本。这会导致在试图理解一个句子时出现明显的问题。举两句话为例:“与超现实的莱昂不同,这部电影很怪异但很可爱。”与“与超现实但很可爱的莱昂不同,这部电影很怪异。”第一句话所表达的整体意思是积极的。我的模型发现,虽然在第二句话中,这些词构成了对Leon的正面情绪,但总体情绪是负面的,尽管两个句子的词完全相同。这与上述无法区分这两个句子的“词汇袋”方法形成对比。另一个常用的简化方法是,例如,用词性标记来标记单词,只考虑前一个单词的标记或每个单词周围的固定大小的邻域。我的模型并没有做出这些简化的假设,而仍然可以处理。
特征表示:虽然在模型和参考上花费了大量时间,但一个众所周知的秘密是,大多数学习系统的性能在很大程度上取决于输入的特征表示。例如,与仅依赖字数对文本进行分类不同,最先进的系统使用部分语音标记、每个位置、个人或组织(所谓命名实体)的特殊标签、解析树特征或大型分类法(如WordNet)中的字词关系。这些特性中的每一个都花了很长时间来开发,并且为每个新任务集成它们会减慢最终算法的开发和运行速度。
本文中的模型解决了这两个缺点。它们为句子提供了有效和一般的表示,而不假定词序独立。此外,他们提供最先进的性能,没有或很少手动设计的功能。这些新模式的灵感来自于自然语言处理和深度学习领域的结合。第二章介绍了深度学习的重要基本概念和思想。一般来说,深度学习是机器学习的一个分支,它通过从原始输入中自动学习特征表示来解决第二个挑战。这些表示可以很容易地用于预测任务。
在图像分类(Krizhevsky et al.,2012)和语音识别(Hinton et al.,2012)中,使用深度学习技术取得了巨大成功。但是语言和视觉世界的重要方面是递归或层次结构的普遍性,而这一点在深度学习中尚未被考虑。这就是为什么到目前为止,深度学习还不能解决两个主要缺点中的第一个。本文描述了新的深度模型,将深度学习的思想扩展到结构化输入和输出,从而解决了上述第一个缺点。换言之,虽然这里实现的方法是基于深度学习的,但是它们扩展了一般的深度学习思想,不仅仅是对固定大小的输入进行分类,还为语法语言结构引入递归和计算表示。
本文引入的新模型族是在递归深度学习下总结出来的。这类模型是无监督和有监督递归神经网络的变种和扩展。这些网络解析自然语言。这使他们能够找到句子的语法结构,并相应地调整神经网络结构。递归是在语法结构的每个节点应用相同的神经网络。例如,语法结构有助于准确解决图1.1中所示的所谓介词附加问题。在本例中,“用勺子吃意大利面”中的“with”一词指定了一种吃法,而“用香蒜酱吃意大利面”中的“with”一词指定了一道菜。递归模型捕捉到这种差异是由于介词“with”后面的单词的语义内容造成的。这种内容是在分布的单词和短语表示中捕捉到的。这些表现捕捉到器皿在语义上是相似的,或者说香蒜酱、沙司和西红柿都与食物有关。
递归深层模型不仅可以预测这些语言上看似合理的短语结构,还可以进一步了解单词如何在此类结构中组合较长短语的意义。它们解决了在不忽略结构或词序的情况下学习可变大小输入的特征向量表示的基本问题。发现这种结构有助于我们描述句子或图像的单位,以及它们是如何构成一个有意义的整体的。这是一个完整而合理的语言模型的先决条件。此外,模型可以学习复合语义,通常仅从训练数据中学习,而无需手动描述对预测任务非常重要的特征。
大部分的深度学习工作都集中在对图像等固定大小的平面输入进行纯分类上。相比之下,本文提出的递归深度模型可以预测潜在的层次结构,学习任意长度语言单元的相似空间,并对短语标签和输入之间的关系进行分类。这构成了深度学习对结构化预测的重要推广,使这些模型适合于自然语言处理。
众所周知,自然语言的句法规则是递归的,名词短语包含相对分句,而相对分句本身也包含名词短语,例如Socher等人的《有漂亮窗户的教堂》。(2011b),我介绍了一个基于递归神经网络(RNN)的最大裕度结构预测框架,用于在多种模式下发现层次结构。这种情况下的递归是指同一个神经网络被反复应用于句子的不同成分。由于这个模型对语言和图像理解都有很大的希望,所以我决定进一步研究递归深度学习模型的空间。在这篇论文中,我探索了三个主要轴上的模型变化,以便深入了解层次特征学习、快速、实用、最先进的NLP系统和语义组成,这是自然语言的重要品质,使说话者能够根据它的文字和用来组合它们的规则(弗雷格,1892)。本文的RNN模型在释义检测、情感分析、关系分类、句法分析、图像句子映射和知识库完成等方面取得了最新的成果。
第二章是介绍一般神经网络的介绍性章节。它大致遵循了我在2012年美国公民自由联盟(ACL)上与Chris Manning和Yoshua Bengio一起提供的一个教程。接下来的三章概述了RNN的主要变化:目标函数、合成函数和树结构。最后的结论部分总结了研究结果,并讨论了不足、优势和未来可能的方向。
我研究的第一个建模选择是总体目标函数,它至关重要地指导RNN需要捕获什么。本文探讨了利用重建错误进行单词和句子向量的无监督学习。无监督的深度学习模型可以学习捕捉单个单词的分布信息(Huang等人,2012)或使用形态学分析来描述罕见或不可见的单词(Luong等人,2013)。递归重建错误可用于训练合成模型,以保留句子向量中的信息,这对于释义检测非常有用(Socher等人,2011a)。与这些无监督函数相比,我的解析工作使用简单的线性评分函数,情感和关系分类使用softmax分类器预测树中每个节点和短语的标签(Socher等人,2011c,2012b,2013d)。本章基于以下论文(按顺序):Socher等人。(2011b,c,a),各为一节的基础。
构图函数根据短语中的单词计算较长短语的向量。标准的RNN合成函数基于一个神经网络层,它以两个短语或词向量作为输入,并在解析树中的每个节点使用相同的权重集来计算高阶短语向量。虽然这类构图函数获得了用于释义检测(Socher et al.,2011a)和情感分类(Socher et al.,2011c)的最新性能,但它的表现力不足以捕捉所有类型的构图。因此,我研究了组合函数的几种变体。第一个变体以意义向量和运算符矩阵的形式表示每个单词和短语(Socher等人,2012b)。每个单词的矩阵充当一个函数,修改另一个单词向量的含义,类似于lambda微积分函数的思想。在这个模型中,合成函数完全依赖于输入。这是一个非常通用的函数式,提高了识别名词之间关系(如消息主题或内容容器)的技术水平。但它也为每个单词引入了许多参数。因此,我们开发了两个备选方案,第一个条件是组合短语的句法类别上的复合函数(Socher等人,2013a)。这改进了广泛使用的Stanford解析器,并学习了头词的软版本。换言之,该模型学习了哪些词在语义上对较长短语的表示更为重要。最新和最具表现力的合成函数基于一种新型的神经网络层,称为递归神经张量网络(Socher等人,2013d)。它允许向量之间的加法和中介乘法交互,并且能够学习语言中的几个重要的组合情感效应,如否定及其范围和对比连词,如but。本章基于以下论文(按顺序):Socher等人。(2013a、2012b、2013d),每一个都是一个部分的基础。
第三个主要的探索维度是树结构本身。我从事过选区分析,其目标是学习句子的正确语法分析并生成树结构(Socher等人,2013a)。另一种方法允许实际任务(如情绪预测或重建误差)确定树结构(Socher等人,2011c)。在我最近的工作中,我假设树结构已经由解析器提供了。这使得RNN模型只关注句子的语义内容和预测任务(Socher等人,2013d)。我探索了依赖树作为底层结构,它允许最后的表示集中在句子的主要动作(动词)上。通过将句子映射到一个联合句子图像向量空间,这对于建立语义基础特别有效(Socher等人,2014)。最后一节中的模型表示每个输入的树结构都是相同的。这在三维物体分类中是有效的。本章基于以下论文(按顺序):Socher等人。(2014年,2012年a),各为一节的基础。
下一章将介绍神经网络及其训练的必要数学背景,以及为什么这些方法是合理探索的一些动机。
由于人类设计的描述和输入特性,目前大多数机器学习方法都能很好地工作。当机器学习仅应用于输入特征时,它就变得仅仅是优化权重以做出最佳的最终预测。深度学习可以看作是将表征学习和机器学习结合起来。它试图在不断增加的复杂性和抽象性以及最终的预测的多个层次上,共同学习好的特性。
在本章中,我将回顾基于神经网络的深层模型死灰复燃的原因,定义神经网络的最基本形式,解释深层学习方法如何表示单个单词。然后将简单的神经网络和这些单词表示结合到基于单窗口的单词标记任务方法中。在本章的结尾,我将简要比较常用的优化方法。本章的流程大致遵循了我在2012年美国公民自由联盟(ACL)上与Chris Manning和Yoshua Bengio一起提供的一个教程。
手工制作功能非常耗时,而且功能经常过于指定和不完整。此外,还必须对每种形态(图像、文本、数据库)、任务甚至领域和语言重新进行研究。如果机器学习能够自动学习特征,那么整个学习过程就可以更容易地自动化,并且可以解决更多的任务。深度学习提供了一种自动特征学习的方法。
自然语言处理中的许多模型,如PCFGs(Manning和Schutze,1999)都是基于单词计数的。当测试过程中的特定单词不在训练集中时,这会影响泛化性能。这个问题的另一个特征是所谓的“维数诅咒”,因为一个大词汇表上的索引向量非常稀疏,模型很容易与训练数据过度拟合。这个问题的经典解决方案涉及到上述人工特征工程,或者使用线性模型中非常简单的目标函数。语言的深度学习模型通常使用分布的词向量表示,而不是离散的词计数。我将在第2.4节中描述一个学习此类词向量的模型。虽然有许多新的、更快的学习词向量模型(Collobert等人,2011;Huang等人,2012;Mikolov等人,2013;Luong等人,2013;Pennington等人,2014),但该模型为理解神经网络奠定了良好的基础,可用于其他简单的词分类任务。由此产生的向量捕获单个单词之间的相似性,使模型更加健壮。它们可以以无监督的方式学习,以捕获分布相似性,并以有监督的方式进行微调。第2.3节和第2.4节将对其进行更详细的描述。
深层学习模型,如卷积神经网络(LeCun等人,1998年),在图像上训练,学习与人脑相似的表达水平。第一层学习简单的边缘过滤器,第二层捕捉原始的形状和更高的层次结合起来形成对象。在本论文中,我不打算对神经科学产生强烈的联系,而是从神经科学的研究中为多层结构的形成提供动力。我将展示如何在各种自然语言处理任务中同时使用有监督、半监督和无监督的中间表示。特别是,我将说明,正如huegrave;mans可以将句子处理为单词和短语的组合一样,递归深度学习体系结构也可以通过组合处理和组合有意义的表示。
神经网络已经存在了几十年(Rumelhart等人,1986年;Hinton,1990年)。然而,直到2006年,深度的、完全连接的神经网络通常被使用特征工程的浅层架构所超越。然而,在那一年,Hinton和Salakhutdinov(2006)引入了一种新的方法来预训练深层神经网络。这个想法是使用受限的Boltzmann机器一次初始化一层权重。这个贪婪的过程初始化了吸引盆地中的全神经网络的权值,从而得到更好的局部最优(Erhan等人,2010)。后来,文森特等人。(2008)表明,使用自动编码器也可以获得类似的效果。这些模型试图训练非常简单的函数f(x)=x。仔细观察这个函数,会发现f(x)=g2(g(x))=x的一种常见形式,其中g1引入了一个信息瓶颈,迫使这个函数学习有用的基础,以重建数据。虽然这引发了对深度模型的新一波热情,但现在已经被计算机视觉中的大型、纯监督神经网络模型所取代(Krizhevsky等人,2012)。
在自然语言处理中,三行工作在社区中引起了人们的兴奋。首先,利用深层结构获得了一系列语音识别的最新成果(Dahl等人,2010)。有关深层语音处理的概述,请参见Hinton等人。(2012年)。其次,Collobert和Weston(2008)表明,单一的神经网络模型可以在多个语言任务(如词性标注和命名实体识别)上获得最新的结果。
由于它们的体系结构非常简单,我们将对其进行更详细的描述,并在第2.4节中说明其反向传播算法。最后,基于神经网络的语言模型(Bengio等人,2003年;Mikolov和Zweig,2012年)已经超过了传统的基于计数的语言模型。
最近,三个额外的原因帮助深层架构获得了最先进的性能:大数据集、更快的并行计算机和对稀疏性、正则化和优化的大量机器学习见解。因为深度学习模型从原始输入学习,而没有手动的特征工程,所以需要更多的数据。在这个“大数据”和众包的时代,许多研究人员和机构可以轻松而廉价地收集大量数据集,这些数据集可以用来训练具有许多参数的深层模型。正如我们将在下一节中看到的,神经网络需要大量的矩阵乘法,这些矩阵乘法在当前的多核CPU和GPU计算架构上很容易并行化。在第2.6节中,我将给
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[410045],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。