英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料
基于区域CNN-LSTM模型的情感维度分析
Jin Wang1,3,4,Liang-Chih Yu2,4,K.Robert Lai3,4和张学杰1
1信息科学与工程学院,云南大学,云南,中国
2信息管理学院,元智大学,台湾
3计算机科学与工程学院,元智大学,台湾
4大数据与数字融合中心,元智大学,台湾
联系方式:lcyu@saturn.yzu.edu.tw
摘要
情感维度分析的目标是在多个维度中识别连续的数值,如效价-觉醒(VA)空间。相比起侧重于情感分类的分类方法,如二值分类(即:积极的和消极的),维度方法可以提供更细粒度的情感分析。本研究提出一种区域CNN-LSTM模型,由两部分组成:区域CNN和LSTM,用来预测文本的VA评级。与将整个文本作为输入的传统CNN不同,提出的区域CNN使用单个句子作为一个区域,将一个输入文本划分为几个区域, 这样就可以提取各个区域的有用的情感信息,并根据它们对VA预测的贡献进行加权。这些区域信息是通过使用LSTM进行VA预测的跨区域顺序集成的。通过结合区域CNN和LSTM,可以在预测过程中考虑句子中的局部(区域)信息和句子之间的远程依赖关系。实验结果表明,该方法优于在过去研究中提出的基于词典、基于回归和基于NN的方法。
1 介绍
情感分析在客户评论和公众意见分析的在线应用程序开发中非常有用(Pang和Lee 2008;Calvo和D#39;Mello 2010;Liu 2012;Feldman 2013)。在情感表达中,分类方法将情绪状态表示为几个离散的类,二值(即:积极的和消极的)或多个类别,如Ekman(1992)的六种基本的情绪(愤怒、幸福、恐惧、悲伤、厌恶和惊讶)。然后,分类算法就可以用来识别文本中的情绪类别。
而维度方法则将情绪状态表示为多个维度中的连续数值,如效价-觉醒(VA)空间(Russell,1980)。“效价”的维度是指积极和消极情绪的程度,而“觉醒”的维度则指的是冷静和兴奋的程度。这两个维度的范围从1(高度消极或平静)到9(高度积极或兴奋)基于曼尼金(SAM)标注规范(Bradley等人,1994)进行自我评估。例如,以下段落由三句话组成,它的效价-觉醒评级为(2.5,7.8),表现出高度的消极和兴奋。
(r1)几天前,我入住了一家特许经营酒店。
(r2)前台服务很糟糕,他们对当地的景点了解甚少。
(r3)我不会推荐这家旅馆给朋友。
这种高激发性的消极(或高激发性的积极)的文本通常是人们感兴趣的,可以在产品评论系统中优先考虑。维度情感分析可以通过识别文本的VA评级并对其进行排名来实现这一点,从而提供更智能更细粒度的情感应用程序。
关于维度情感分析的研究已经在词级(Wei等人,2011;Malandrakis 等人,2011年;Yu等人,2015)和句子级(Paltoglou等人,2013;Malandrakis 等人,2013)达成VA识别。在单词级别上,Wei等人(2011)使用线性回归将VA的评级从英文情感词汇转换成中文词汇。Malandrakis等人(2011)在VA预测中使用一个内核函数将单词之间的相似性结合在一起。Yu等人(2015)使用加权图模型来反复确定情感词汇的VA评级。在句子级别上,Paltoglou 等人(2013)采用一种基于词典的方法来计算文本的VA评级,使用加权算术/几何平均数来计算文本中情感词汇的VA评级的平均值。Malandrakis等人(2013)提出了一种回归方法,提取n克的情感评分作为特征,用来预测文本的VA值。
近期,词嵌入(Mikolov等人,2013a;Mikolov等人,2013b)和深度神经网络(NN),如卷积神经网络(CNN)(Kim,2014;Kalchbrenner等人,2014),循环神经网络(RNN)(Graves,2012;Irsoy和Cardie,2014)和长短期记忆网络(LSTM)(Wang等人,2015; Liu等人,2015)已被成功应用于情感分类分析。一般来说,CNN能够提取局部信息,但可能无法获取长距离的依赖关系。而LSTM可以通过在文本的句子之间按顺序建模来解决这个限制。对于维度情感分析,还没有研究很好地探索过这种基于NN和词嵌入的方法。
本研究提出了一个区域CNN-LSTM模型,该模型由两个部分组成,即区域CNN和LSTM,用以预测文本的VA评级。我们首先用词嵌入来构造词汇的词向量。然后,区域CNN被用来为给定的文本构建文本向量,这些文本是基于词向量来预测的。与传统的CNN把整个文本视为输入不同,提出的区域CNN使用单个句子作为区域,将输入文本分为几个区域,这样就可以提取不同区域中的有用的情感信息,并根据它们对VA预测的贡献进行加权。例如,在前面提到的示例文本中,对系统强调两个句子/区域(r2)和(r3)包含负面的情感信息是很有用的。最后,这些区域信息是通过使用LSTM进行VA预测的跨区域顺序集成的。通过结合区域CNN和LSTM,可以在预测过程中考虑到句子中的局部(区域)信息和句子之间的长距离依赖性。
这篇论文余下部分按如下方式组织。第2部分描述提出的区域CNN-LSTM模型。第3部分报告提出的方法对比基于词典、基于回归和基于NN的方法的最终结果。最后在第4部分得出结论。
图1:提出的区域CNN-LSTM模型的系统架构
2 区域CNN-LSTM模型
图1显示了区域CNN-LSTM模型的总体框架。首先,词汇的词向量是使用word2vec工
具包从大型语料库中训练出来的。对每个给定的文本,区域CNN模型将一个句子作为一个区域,把给定的文本划分为个区域,即,hellip;,,,,hellip;,。在每个区域中,一旦词向量顺序地穿过一个卷积层和最大池化层,就可以提取出有用的情感特征。这样的局部(区域)特征将在使用LSTM的区域中顺序地集成,从而为VA预测构建一个文本向量。
2.1 卷积层
在每个区域中,首先使用一个卷积层来提取局部的克特征。所有的词嵌入都堆放在一个区域矩阵中,这里的是一个区域的词汇量,是词向量的维数。例如,在图1中,区域={,,hellip;,},={,,hellip;,}和={,,hellip;,}里的词向量组合为区域矩阵,和。在每个区域,我们使用卷积滤波器来学习局部的克特征。在一个有个单词的窗口中,一个过滤器如下所列生成特征映射,
(1)
这里的是一个卷积运算符,和分别表示了权重矩阵和偏差,是过滤器的长度,是词向量的维度,是RelU函数。当过滤器逐渐从遍历到,我们就能得到过滤器的输出特征映射。由于这些区域的文本长度各不相同,所有对于不同的文本,可能有不同的维度。因此,我们定义了语料库中CNN输入的最大长度为维度。如果输入长度小于,那么将会自动增补几个统一分布的随机向量。
2.2 最大池化层
最大池化的子样本是卷积层的输出。最常用的池化方法是对每个过滤器的结果取最大值。在这里使用最大池化层有两个原因。第一,通过消除非最大值的值,可以减少上层的计算。第二,可以提取不同区域内的局部依赖关系,从而保留最重要的信息。而得到的区域向量会被传送至序列层。
2.3 序列层
为了捕获跨区域的远程依赖关系,序列层按顺序地将各个区域向量集成到一个文本向量中。由于在RNN的梯度消失或爆炸(Bengio等人,1994)的问题,LSTM被引入到序列层,用于向量构造。在LSTM记忆单元按顺序遍历所有区域后,序列层的最后一个隐藏状态会被认为是VA预测的文本表示。
2.4 线性解码器
由于效价和觉醒维度上的值是连续的,所以VA预测任务需要回归分析。在输出层中使用的是线性激活函数(也称为线性解码器),而不是使用softmax分类器,它被定义为,
(2)
这里的是从序列层学习的文本矢量,是目标文本的效价或觉醒程度,而和分别表示与线性解码器相关的权重和偏差。
区域CNN-LSTM模型是通过最小化预测的和实际的之间的均方误差来训练的。给定一个文本矩阵训练集,它们的VA评级集为,则损失函数定义为
(3)
在训练阶段,使用随机梯度下降(SGD)的反向传播(BP)算法来学习模型参数。BP算法的细节可参见(LeCun等人,2012)。
3 实验
本节将对提出的区域CNN-LSTM模型方法对比基于词典,基于回归和基于NN的方法的性能进行评估。
数据集。这个实验用了两个情感语料库。i)斯坦福情感树集(SST)(Socher等人,2013)包含8544个训练文本,2210个测试文本,和1101个验证文本。每个文本在(0,1)范围内进行单维度(效价)评级。ii)中文效价-觉醒文本(简称“CVAT”)(Yu 等人,2016)由2009条来自社会论坛的文本组成,在(1,9)范围内使用SAM标注规范(Bradley等人,1994)人工对效价和觉醒维度进行评级。英文和中文的单词向量则分别使用谷歌新闻和中文维基转储(zhwiki)的数据集进行了训练。这两种词向量的维数都是300。
实验设置。用两种基于词典的方法进行比较:加权算术平均(wAM)和加权几何平均值(wGM)(Paltoglou等人,2013),以及两种基于回归的方法:平均值回归(AVR)和最大值回归(MVR)(Malandrakis等人,2013)。英文和中文词汇的效价评级分别取自Extended ANEW(Warriner等人,2013)和中文效价-觉醒词汇(CVAW)词典 (Yu等人,2016)。传统的CNN,RNN和LSTM也进行了比较。
SST (English) |
|||
Valence |
RMSE |
MAE |
r |
Lexicon-wAM |
2.018 |
1.709 |
0.350 |
Lexicon-wGM |
1.985 |
1.692 |
0.385 |
Regression-AVR |
1.856 |
1.542 |
0.455 |
Regression-MVR |
1.868 |
1.551 |
0.448 |
CNN |
1.489 |
1.184 |
0.706 |
RNN |
1.976 |
1.715 |
0.401 |
LSTM |
1.444 |
1.151 |
0.717 |
Regional CNN-LSTM |
1.341* |
0.987* |
0.778* |
CVAT (Chinese) |
|||
Valence |
RMSE |
MAE |
r |
Lexicon - wAM |
1.884 |
1.632 |
0.406 |
Lexicon - wGM |
1.843 |
1.597 |
0.418 |
Regression-AVR 全文共9249字,剩余内容已隐藏,支付完成后下载完整资料 资料编号:[12916],资料为PDF文档或Word文档,PDF文档可免费转换为Word |
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。