英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料
基于中国草根博客文本情感分析的主观幸福感测量
摘要
在这项研究中,我们提出来一个衡量中国人的主观幸福感(SWB)的新方法。基于在心理学中的经典框架,我们的模型通过应用文本情感分析,构建一个在积极和消极影响中累计加权的情感系统。为了研究在中国背景下的SWB,我们还建立和补充了我们的一个带有新的词库的模型,Ren-CECps-SWB 2.0。在7年的对Sina.com草根博客的数据测试表明了我们模型的有效性。运用相同的数据,我们发现基于每周和每月中国人的主观幸福感的有趣模式。
关键词:主观幸福感;社交媒体;中文文本;情感分析;文本挖掘
1.引言
虽然自我报告量表是在心理研究中来测量SWB的最流行的手段,但是自我报告量表有缺点,如有限的样品,他们可以评估,但其成本高,而且它们对参与者的存储器的敏感性,这使得它很难提出受访者的实时状态。随着在线社交网络服务(SNS)的快速发展,越来越多的人的快速发正在创造互联网上的用户生成内容(UGC),以表达自己的情绪。由于UGC丰富的信息,学者们试图通过UGC来衡量主观幸福感.例如,多兹和丹福斯用情感规范进行英语词汇(ANEW)来衡量SWB。在2009年,Facebook发布了Facebook Gross National Happiness (FGNH)来衡量幸福感的总体水平。博伦和他的同事采用了类似的方法,用FGNH计算SWB。多兹和丹福斯的方法是基于经济效用理论,并使用价值来预测主观幸福感。FGNH应用消极和积极的话语二元分类来计算SWB。尽管以前的研究产生的见解,但据我们所知,从文本情感分析的主观幸福感测量很少按照心理学的建立方法。没有收获心理学的研究SWB累计见解,我们可能不能够站在巨人的肩膀上正在调查获得的现象新的理解。此外,为什么有些情绪入选SWB测量和别人不现存的研究并没有提供足够的理由。在这项研究中,我们试图通过以下基础上,通过文本分析,多情多加权情绪的主观幸福感建立的心理测量来克服这些局限性的研究。
此外,虽然使用情感分析来衡量在讲英语的环境SWB的研究势头很猛,但到今天为止一直没有专注于中国的文字来衡量中国人的幸福感的研究。然而,中国的语义分析和英文语义分析有显着的差异。从应用的英语环境中情绪分析的结果来衡量中国的主观幸福感可能会因为英语和中国的文化和语言之间的巨大差异使得中国人真正的幸福感测量变得很盲目。第四,中国不存在语料库可以直接用来建立一个主观幸福感测量模型。因此,我们打算填补了中国SWB测量当前研究的空白,在中国文本中运用情绪分析技术。我们选择了积极情感和消极心理学影响附表(PANAS)来构造我们的主观幸福感的模型。在仁CECps的基础上,我们构建了Ren-CECps-SWB 2.0中国词汇。集成中的中国本地化和PANAS Ren-CECps-SWB 2.0中,我们为中国背景建立了一个主观幸福感测量模型。我们使用来自博客Sina.com收集2008至2013年的数据验证了我们的模型。
我们选择Sina.com为SWB测量的三个主要理由。首先,Sina.com有所有中国博客平台服务中用户数量最多的。 Sina.com拥有注册用户超过1000万,而其每日页面浏览量超过3亿。其次,Sina.com拥有中国最长的运行历史。对于大多数发生在中国近年来的主要事件,在Sina.com平台上有可搜索和访问的相应博客。数据可用性促进了我们的分析和测试。第三,Sina.com博客具有明确的类别,如娱乐明星博客,知识博客名人,和草根博客等。草根博客在他们的博客中正常表达自己的感受和情绪。他们关心身边的人和事。因此,草根博客反映UPS在中国老百姓中的起伏。因此,在本研究中,我们选择了草根博主的博客作为我们的数据源。
这项研究对主观幸福感研究做出了三大贡献。首先,我们建立一个基于从多个PANAS情绪加权的一种新的SWB计量模型。其次,我们构建了一个词库,Ren-CECps-SWB 2.0,专门用于测量基于Ren-CECps-SWB 2.0语料由中国文字表明的主观幸福感。第三,我们提供了一个主观幸福感测量模型,包括中国的五个基本情感。
本文的其余部分安排如下。我们首先提供一个文献综述。然后,我们开发了基于PANAS的主观幸福感测量模型。第三,我们修改Ren-CECps主体,构建中文词库Ren-CECps-SWB 2.0。第四,我们建立了中国一个新的主观幸福感测量模型和验证我们的计量模型。最后,我们绘制了研究和实践意义。
2.文献综述
2.1.SWB的定义
虽然SWB已经得到很好的研究,但是对于它没有统一的定义。在这项研究中,按照埃德迪纳,在SWB领域的主要研究人员之一,我们定义SWB作为一个人评价他/她自己的生活的方式,包括针对具体事件和认知评估快乐与痛苦的情感体验一个人认为一个良好的生活是什么。根据这一定义,SWB由认知幸福和情感幸福组成。在本文中,仅仅是由于数据的可用性,我们限制我们对主观幸福感调查去影响幸福感。 (截至今天,我们没有有效的方法测量从文本情感分析的认知幸福)。本研究设想特定类型的愉快经验(即愉快的心情),因为比别人更有价值,比如,“短暂的快感”。在我们的研究中,因此,主观幸福感是个体在日常生活和工作中,既包括积极的情感,如爱情和幸福,和消极情绪,比如悲伤和焦虑的连续事件的情感经验总结。
2.2.通过文本情感分析,对主观幸福感测量的前期研究
已经提出了几种方法,通过文本情感分析衡量幸福感。一种方法是被Facebook使用来建立其Facebook Gross National Happiness (FGNH)指标。当构造这个指标时,该公司首先使用的正(负)的话在用户的状态更新的代理阳性/阴性的数量,并且FGNH指数是阳性和阴性之间的标准化的差。另一种方法是通过多兹和丹福思提出的。他们用英语词汇(ANEW)进行情感规范,通过估算文本的总比分价来衡量隐含的SWB。尽管两种基本方法有其优点,它们也有局限性。例如,在FGNH,只有遗传积极情绪和消极情绪都参与。在SWB一般积极情绪和消极情绪的二元分类和权重相等超过简化。多兹和丹福斯整合好不好(价),但心理学家坚持认为,好的和坏的情绪是SWB独立量表。此外,SWB涉及情感的多个维度,每个情绪可能会作出对SWB不同的贡献。为了克服现有方法的局限在文本情感分析的主观幸福感测量,如在下一节讨论,本文构建使用自动化UGC情绪分析的新方法SWB。我们的方法是基于情绪的一个更细腻的分类,和每种情感具有在SWB分析指定重量。
3.主观幸福感测量模型及其在中文文本中的规范
在本节中,我们提出具体到基于UGC中国的背景下新的SWB模式。我们的模型通过构建并测量其关键部件,积极情感和消极影响,使用在线UGC和文本情感分析技术扩展了PANAS框架。要立足于中国UGC构建幸福感,我们还通过扩展Ren-CECps词库引入一个新的情感词库。
3.1.基于PANAS的主观幸福感测量模型
积极和消极情感附表(PANAS)是用来衡量心情或情绪的使用最广泛的量表之一。这个简短的规模是由20个项目,即10个测量积极影响(PA,例如,兴奋,启发)和其他10来衡量消极情绪(NA,例如,心烦,害怕),来组成的。每个项目被评为五点李克特量表。 PANAS提供了一个PA和NA的分类。Schmukle等提供坚实的证据,表明PA和NA无关,这表明它们可被用作独立的指标来测量SWB。
我们提出了一种基于PANAS的主观幸福感测量模型。我们的模型和PANAS量表之间的主要区别在于, PANAS,PA和NA是由自我报告调查测定。然而,在我们的模型中,我们使用网络草根博客进行文本情感分析来衡量PA,NA,和SWB。在我们的模型,我们首先计算出每个词的情绪在文本的比例。在一个在线文字交谈中词出现的越频繁,在这个交谈中这个词就越有代表性,而且在测量SWB中这个词将被分配到更多的权重。然后,我们通过总结在文本中每个情感词语的情感向量来计算在文本中从PA和NA的每个情感载体的值。最后,我们得到衡量幸福感在这个文本的文本所有的情感载体的加权和。当我们平均从这些博客所有SWB在一段时间内,我们得到在这一段时间的合计SWB。在此基础上,我们计算在线对话文本的基本情绪。我们的模型规范可以写为如下: (1) (2) (3) (4)
这里:
是文本中词的频率与所有情感词汇的数量的比值;
是文本中词的频率;
是文本中情感词汇的总数;
是文本中情感向量的值;
是情感词库中词的的情感向量;
是包含在文本中的情感幸福;
是在SWB测量中使用的情感数量;
是在SWB中情感的权重;
是在时间内的总SWB;
是文本的释放时间;
是在时间内的文本总数。
方程(1)-(4)表明,中国的背景下通过文本情感分析衡量幸福感,我们需要构建一个中国词库,并确定参数和。
3.2.中国词库Ren-CECps-SWB 2.0
此前的研究表明,衡量主观幸福感,一个适合于描述情感情绪词库必须要构造。例如,多兹和丹福斯用英语词库的情绪(ANEW)来衡量幸福感。因此,研究在中国背景下的SWB,构建一个可行的中国情绪词库是我们研究的关键。在这项研究中,我们提出通过扩展中国流行语料库一个新的词库,Ren-CECps。
3.2.1.中国语料库的比较
许多中国语料已经被提出。在流行的是NTUSD,知网,和Ren-CECps,每一种都有其优点和缺点。表1给出了三个中国语料的简要的比较。
由于这三个语料库被广泛用于中国的情绪分析,我们决定选择其中一个作为我们的词库建设的基础。理想的情况下,所选择的语料库应该具有大的体积。它也应该包含多种情感类别,这些类别应完全符合邱等人研制的中国本地化PANAS。虽然这三个语料没有明显的区分,字量而言,Ren-CECps包括四个积极的情绪和四个负面情绪,这是与中国本地化PANAS高度一致的。相比之下,知网和NTUSD只有两个感慨尺寸:正面和负面的。此外,Ren-CECps使用在线博客服务,如Sina.com,Baidu.com,Tencent.com和Qzone作为数据源。因此,它包括许多因特网单词和新出现的词语。因此,Ren-CECps在处理文本博客中有一定的优势。因此,我们选择了Ren-CECps作为我们的基本语料库。
Ren-CECps是基于相对细粒度注释计划在三个层次,语句,文档,和段落,来建造的。在句子层面,注释包括情感类别(期待,欢乐,友爱,惊讶,焦虑,悲伤,愤怒和仇恨),情感强度,情感的关键字/词,程度词,否定词,连词,修辞,标点符号,客观/主观和情感极性。在文档和段落水平,情感类,情感强度,主题词和主题句进行注释。构建这种情感语料的主要目的是支持情感分析系统的开发和评估中国。在Ren-CECps,每个字的情绪是由一种情绪向量表示的:
(5)
这里的是包含在一个字中的基本感情组。的值范围在0.0到1.0,表示八个基本情绪(期待,欢乐,友爱,惊讶,焦虑,悲伤,愤怒和仇恨)中的一个的强度。比如,对于词“like”, 。那就是说,词“like”表现出微弱的欢乐和强烈的友爱。
3.2.2.用于测量SWB的中文词汇
Ren-CECps语料库不能在主观幸福感测量中直接使用。主要有两个原因。首先,Ren-CECps仅仅是一个语料库,如图1。它不是一个词库,但是我们需要一个词库来构建我们的主观幸福感测量模型。其次,如果我们从中提取Ren-CECps所有的情感的话,我们不能立刻使用它,因为我们必须选择最有效的话来构造一个特殊的词库,用于测量幸福感。因此,我们修改和扩展它,这样我们就可以用它来衡量中国的主观幸福感。
我们提取了95612条带有来自Ren-CECps主体情感的载体和部分的语音(POS)标签的记录。删除重复的记录后,20814句话的52631条记录被保留。在其中注明语料库,Ren-CECps考虑了使用环境和语法结构,使得相同的话可能具有相同的POS标记,但是不同的情感载体。例如,在表2中的“爱国”s都是形容词,但他们表示不同的情绪。
为了尽量保留一个字的所有含义,我们计算包含具有相同POS标签同样的话是这个非常POS标签的字的情感矢量值的记录情感向量的平均值。对于表2中的词“爱国”,爱的平均强度为0.643,与欢乐的平均强度为0.086;其他的情绪在这句话中没有表现(见表3)。
一方面,通过计算平均值,就可以保留特定的POS标签下由字指示的所有可能的情绪。另一方面,我们测量SWB通过分析大量的文本,并且该方法不会导致显著偏差。当延伸ANEW时,多兹和他的
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[146152],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。