英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料
社交媒体文本的情感分析
摘要
微博服务(如Twitter)在信息发布和传播方面非常受欢迎。分析大规模微博信息中的情绪对于感知公众对各种主题的意见很有用,在学术界和工业界都有广泛的应用。然而,微博情绪分析是一项具有挑战性的任务,因为微博信息简短嘈杂,并且包含大量用户发明的首字母缩略词和非正式单词。手动注释有效样本以训练准确和鲁棒的微博情绪分类器是昂贵和耗时的。幸运的是,未标记的微博消息可以提供很多有用的情感含义。例如,表情符号经常用于微博消息中,通常表示情绪取向。在本文中,我们提出从大量未标记的消息中提取有用的情感含义,以增强微博情绪分类。探索了三种情感含义,即语境相似性含义,词情含义和语境极性含义。我们提出了一个统一的框架,将异质情绪含义纳入到微博情绪分类学习中。
引入基于ADMM的有效优化方法来解决我们框架的模型,并提出了一种加速算法来解决最耗时的步骤。对三个基准的Twitter数据集进行了大量实验。实验结果表明,我们的方法可以有效地提高微博情绪分类的性能。
- 引入
微博服务,如Twitte和微博,在信息发布和传播方面非常受欢迎。大量用户每天在这些平台上发布数亿个短信息。分析这些大规模微博信息的情绪,有助于感受到公众对产品,公司,政治事件,灾难,名人和日常生活等各个方面的意见。它在学术界和工业领域都有广泛的应用[28,44]。例如,客户可以根据其他用户的意见,就购买产品或服务做出更明智的决定。政治家和政府可以通过在微博平台上收集公众的意见来制定更好的政策。微博情绪分析已被证明在个性化推荐,社会广告,客户关系管理和危机管理中都有用[28,43]。此外,研究人员还发现,在大规模微博信息中确定情绪和意见有可能预测股市价格,原油价格和总统选举结果[4,24,36]。此外,微博情绪分析提供了大量研究心理学和社会科学等其他学科的科学问题的机会[19,30]。因此,微博情绪分析是近年来的热点研究课题[15,40,43]。
机器学习方法,特别是有监督学习方法的工作已成为主流情绪分类方法[20,25]。它们广泛应用于微博情绪分类[3,11,43]。这些方法的基本思想是在标签的情感数据集上训练情感分类。然后,这个分类器被应用于分配情感标签以看不见微博消息。然而,由于微博消息非常短暂,嘈杂,微博用户经常使用大量首字母缩略词和非正式单词(如“tnx”和“coooool”)在其消息中表达情感,微博情绪分类是一项具有挑战性的任务[ 15,21]。标记的训练数据通常不足以训练鲁棒的情感分类器,以准确地预测这些首字母缩略词和非正式词汇的情感极性[21]。手动注释有效的样品是劳动密集型和耗时的。另一方面,由于每天发布数亿个微博消息,所以未标记的微博数据通常易于大规模收集。虽然这些未标记的微博消息与准确的情绪标签无关,但仍然可以提供许多有用的情绪线索。例如,大量的微博消息在其文本内容中包含情绪,许多表情符号如“:)”和“:(”)表示清晰的情感极性[11],此外,与每一个频繁共同出现的情绪词另外通常还会传达类似的观点[37],另外通过对未标记的消息进行句法解析,我们可以推断出一对单词之间的语境情感极性关系[16],例如微博消息可能是“iPhone 6是sexy的coooool!“由于”sexy“和”coooool“都用于描述”iPhone 6“在同一个消息中,一个人对同一个目标的意见通常在短时间内保持一致[1],这两个词可能传达另一个例子是“一个美好的一天,累了,但快乐!”既然“累”与“快乐”结合在同一个上下文中的“而”,我们可以推断他们有一个很高的可能性传达相反的情绪取向。许多研究人员,如Hatzivassiloglou和McKeown [12]发现,与“和”相关联的形容词倾向于传达相同的情感,而在相同语境中通过“但”连接的词通常表达相反的情绪。因此,从大量未标记的微博消息挖掘有用的情绪含义有可能减少对标签数据的依赖,并有助于训练具有更高覆盖和准确性的微博情绪分类器[18,21,43]。
针对上述情况,本文提出了一种新的微博情绪分类方法。在这些观察的驱动下,本文提出了一种新的微博情绪分类方法。我们的方法可以纳入从非标签消息中提取的异质情绪含义,以学习更准确和更强大的微博情绪分类。更具体地说,我们从大规模未标记的微博消息中提取三种情感含义,即语境相似性含义,词情感知含义和语境极性含义。从单词“共同出现的模式”中提取语境相似度含义。它代表一对单词之间的上下文相似性。词语情感含义是从词和表情符号之间的关联中提取出来的。这种含义可以表示微博情景中使用的正式和非正式词汇的情绪分数。上下文极性含义表示一对单词在相同语境中是否传达相同或相反的极性。它根据几个手动定义的规则从未标记的微博消息中提取。这三种情感含义在我们的方法中被形成为情感分类模型的正则化条件。我们提出了基于ADMM的有效优化方法[5]来解决相应的优化问题。此外,我们提出了一种基于FISTA [2]的加速算法来解决优化过程中耗时最多的组件。我们通过对三个基准Twitter数据集进行广泛的实验来验证我们的方法。实验结果表明,我们的方法可以有效,高效地提高微博情绪分类的性能,并且一贯优于基线方法。
本文的主要贡献如下:
bull;我们提出从大量未标记的信息中提取三种情感知识,即语境相似性知识,单词情感知识和语境极性知识,以改善微博情绪分类。
bull;我们提出了一个统一的框架,可以结合异质情绪知识来培养更准确和更强大的微博情绪分类。
bull;我们引入基于ADMM的有效优化算法[5]来解决我们框架的模型,并提出基于FISTA [2]的加速方法来解决最耗时的步骤。
bull;我们对三个基准Twitter数据集进行广泛的实验,以评估我们的方法。 实验结果验证了我们的方法的有效性和有效性。
本文是一个扩展和改进版本,我们以前的工作[ 43 ]。在比较[ 43 ],在本文中,我们将一种新的情感知识,即上下文的极性知识,到我们的框架。我们的框架和优化算法的模型重新改写。我们验证这个新知识的实用性和贡献的性能改进我们的方法,使用大量的实验。此外,我们还给出了我们的模型在本文中的凸性分析。此外,我们比较我们的方法与国家的最先进的基线方法,提出了最近,为了更好地验证我们的方法的有效性和优势。本文介绍了更多的实验,探索我们的方法的性能,根据不同的训练数据的大小和参数设置。我们也给出了更详细的讨论的实验结果。此外,我们增加了一个新的部分介绍了一些有代表性的作品,我们的方法。因此,与[ 43 ]相比,大量的新的内容已被添加到本文。
本文的其余部分安排如下。 在第2节中,我们介绍几个相关的作品。 在第3节中,我们讨论如何从未标记的微博消息中提取各种情感知识,以改善微博情绪分类。 在第4节中,我们详细介绍了我们的微博情感分类方法和优化算法。 在第5节中,我们报告了实验结果。 在第6节,我们得出结论。
- 相关工作
微博情绪分类是近年来受欢迎的研究课题[3,11,15,22,32]。研究人员发现,微博情绪分类在各种学术和行业领域都是有用的。例如,OConnor等人[24]发现,分析微博消息(如微博)的情绪有可能替代或补充传统的投票,这是昂贵和耗时的。 Tumasjan等人 [36]发现使用他们的推文识别选民的意见可以帮助预测选举结果。此外,Bollen等人[4]发现社会媒体对公众情绪的变化与股市价格和原油价格的波动有着密切的关系。吴等[44]发现Twitter情绪分析可以用于客户关系管理。社会媒体情绪分析也用于大规模地研究社会科学和心理学等其他学科的科学问题[19,30]。
机器学习方法,特别是监督学习方法,被广泛应用于微博情绪分类[3,15,22,42]。例如,Bermingham和Smeaton [3]应用了两种监督学习方法,即支持向量机与线性核和多项朴素贝叶斯,以分类鸣叫的情绪。在他们的方法中使用了二元特征。胡等[15]提出使用稀疏学习方法,即带有拉索正则化的最小二乘回归,用于Twitter情感分类。此外,他们将社会情境信息纳入到培训过程中,通过约束具有社会关系的信息被分配类似的情绪评分。吴等[42]提出对这一任务使用Logistic回归,并通过并入各种社会背景,将微博情绪分类模型化为结构化预测问题。然而,所有这些方法都严重依赖于标记的数据集,并且大量未标记的消息中的有用情绪知识不被利用。由于微博消息含有大量用来表达情绪的非正式单词,因此对有限标签数据进行训练的情绪分类器完全覆盖这些非正式单词并准确地预测他们的情绪是非常不利的[21]。手动注释有效的样品是劳动密集型和耗时的。
许多研究人员探讨了在非标签信息中使用情绪信息进行微博情绪分类[11,14]。例如,Go等人[11]提出了一种遥远的监督方法。在这种方法中,使用几个手动选择的表情符号,如“:)”和“:(”,被用作对应的微博消息的情感标签,然后在这个自动注释的数据集上训练了不同的分类器,如SVM和朴素贝叶斯。 [14]提出了一种无监督的微博情绪分类方法,将各种情绪信号(如表情符号)融入到矩阵分解框架中,这些方法的主要优点是不依赖任何手动标注的数据集,但是由于表情符号当用作情感标签时,噪声较大,这些方法的准确性有限[14]。
许多其他研究人员探索将标记数据与从非标记数据提取的情感知识结合起来,用于微博情感分类[18,21,34],这与我们的方法最相关。其中一些人提出使用未标记的消息构建微博特定情感词汇,然后根据这些词汇提取情感分类的情感特征[18,34]。例如,Kiritchenko等[18]分别基于与表情符号和情感词标题符号(例如#joy)的关联词来构建两个特写的情感词典。然后,提取词汇相关特征,例如消息中的正数和负数项,以扩展原始的n-gram特征。他们的系统在SemEval-2013比赛中赢得了第一名3。唐等[34]提出使用字嵌入技术来学习英语n-gram的分布式表示。然后,他们使用SVM将这些n-gram分类为正或负,并构建了一个特定的特定情绪词典。这个词典也被用来提取情感特征。 Liu 等人 [21]提出了一种表情符号平滑语言模型。他们线性组合了两种语言模型,一种是经过标注的数据集训练,另一种是用表情符号训练的消息,形成了最终的情感分类器。然而,只有表情符号表示的情绪信息才被用于这些方法,而没有表情符号的大规模消息中的有用情绪知识也没有被利用。此外,这些方法只考虑一种情绪知识,即词汇知识。与这些方法不同,我们的方法可以包含各种情感知识,用于学习微博情绪分类器。在我们的方法中使用的情感知识不仅来自具有表情符号的消息,而且来自没有表情符号的消息。由于没有表情符号的信息远不止表情符号信息,所以在我们的方法中使用的情绪知识对微博平台的情绪表达的覆盖率要高于以前的方法[18,21,34]。
- 情绪知识提取
在本节中,我们介绍如何从未标记的微博消息中提取三种情感知识,即语境相似性知识,词情感知知识和语境极性知识。
3.1情境相似性知识
这种知识的假设是,如果两个词在同一个消息中频繁地共同出现,则它们可能传达类似的语义和情感信息[1,37,38]。例如,推特可能是“爱我的iPhone 6! Sooooo美丽!“我们可以找到更多的“爱”和“美”共同出现的案例。因此,我们可以推断,如果他们出现在一个新的微博消息中,他们可能会有类似的情绪。我们按照规则计算共现频率。如果一条消息包含诸如“但”和“否”的交替连词,则该微博消息将根据诸如句点,感叹号和问号的标点符号被分割成不同的句子。另外,含有对话连词的句子进一步分为不同的条款,每个条款都被视为一个独立的句子。以这种方式,我们试图确保每一句话传达一贯的观点。如果一条消息不包含任何对手的连接,那么我们将整个消息视为一个“句子”,因为在这种情况下,该消息中表达的情绪通常是一致的。如果两个词都出现在句子中,则它们的同现频率增加1。正式地,我们使用点互信息(PMI)作为一对单词之间的语境相似度的度量:
|
其中p(word1,word2)表示word1与word2共存的概率。 p(word1)和p(word2)是word1和word2的边际概率。 PMI得分衡量这两个词之间的统计依赖度。 它被用于各种情感分析任务,如情绪词汇构建[16,18]和无监督情绪分类的推文[14]。 与他们不同,这里我们不考虑表情符号,但只计算字级相关性。 这使我们能够找到更多可能分享类似情绪的单词,即使没有表情符号表示情绪。
我们使用符号M来表示上下文相似性知识,其中D是词汇的大小,是词i和j之间的上下文相似性得分。 注意,根据公式 (1)可以为负。 在这里,我们只保留M中的正值并滤除负值,因为我们专注于相似性而不是不相似性。
-
- 单词情感知识
微博平台中的一个有趣的现象是用户经常使用表情符号来表达自己的微博信息。 这些表情符号可以提供有用的暗示。 例如,“:)”和“;”)这样的表情符号通常表示积极的情绪,而“:(”的表情则倾向于表示消极的情绪,因此,表情符号可以被用作嘈杂的情绪标签,被称为遥远的监督[11] 事实上,有几位研究人员已经尝试过这种方法来训练情感分类器并获得了一定的准确性[11,21]。在上述观察的基础上,本文提出通过远程监督推断正规和非正式词汇的情绪分数, 多元朴素贝叶斯的框架,定理3.1中概述了词情评分的表达。
定理3.1多元朴素贝叶斯训练过程推断的词i的情绪评分定义为:
|
其中,和分别是分别出现在具有积极和消极情绪正和负表情符号的消息中出现的单词i的频率。 D是词汇的长度,gt; 0是平滑因子。
证明 在多项朴素贝叶斯[17,29]中,二进制分类规则可以表示为:
lt;
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[136917],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。