微博内容的舆论分析外文翻译资料

 2021-12-29 22:28:33

英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料


微博内容的舆论分析

Lu Yonghe

School of Information Management, SUN YAT-SEN University, GuangZhou, China

Chen Jianhua

School of Information Management, SUN YAT-SEN University, GuangZhou, China

摘要:本文建立了一个舆情分析系统。它包括用于检索在线微博内容的爬虫和用于区分感情内容的文本分类器。 该系统用于识别针对某些主题的公众意见。 微博根据其情绪倾向分为三类,即“积极”,“消极”和“客观”,然后根据这些类别对微博进行分类。 分类起是采用支持向量机算法构造的,分类精度超过90%。

关键词:舆论分析; 情感分析; 文字分类; 网络蜘蛛;微博

一,导言

微博提供了一种有效的表现,可以与朋友互动并自由分享他们的观点。 它正在获得越来越多的用户。 挖掘用户在社交网络上的情绪倾向可以提供有用的信息。 并且该主题已被广泛研究。 Li和Tsung-Ying [1]对推文进行了分类,以检测用户对产品的看法。 通过这样做,他们获得了决策的市场信息。 为了比较产品,Bing Liu [2]通过在论坛和博客上进行评论的极性分类,建立了声誉可视化系统。 奥康纳等[3] 发现从推文中挖掘出的情感倾向与人们对政策问题的信心和支持的调查结果有很强的相关性,并提出挖掘推文是研究人们情绪倾向的一种新的社会研究方法。博伦等[4]对推文进行分类,研究情绪倾向与美国股市波动的关系。结果表明,通过分析Twitter用户的情感,发现它们之间存在强相关性,而且可以用来预测股票市场。

本文采用SVM文本分类对微博进行分类。这样做是有两个原因的。首先,微博具有与日常口头和书面用法不同的独特表达。他们中的许多人都有明确的情绪,例如用来表示悲伤的“::gt; _ lt;::”和用来表示愤怒的“╰_╯”。机器学习方法可以通过大型和最新的训练集来确定它们的趋势。其次,机器学习方法是通用的。根据定制标准从训练集中学习确定情绪倾向的方法。 SVM分类算法是目前最成熟的方法之一。由于新浪微博是中国人中使用的主要微博平台,本文试图构建一个基于新浪微博平台的可定制舆情分析模型,实时分析某个主题的情感倾向。本文已经分析了每个核心模块的模型,并进行了“钓鱼岛”主题的实验。

二,公众意见分析模型的描述

在本节中,我们将描述模型的框架。系统分为四个模块,包括数据收集,语料库处理,情感分析和数据管理。如图1所示。

Figure 1 系统的框架

A.数据收集模块

该模块包含三个部分:蜘蛛提取,数据过滤和训练集标签。

1,蜘蛛提取

由于微博信息只在登录后向公众开放。除了使用开放式API访问之外,还有另一种允许爬虫模拟用户登录行为进入新浪微博页面的方式,以获取微博信息。 与使用除了开放式API相比,爬虫具有更少的限制并且更接近用户的搜索行为。 在本文中,使用开源htmlunit.jar作为爬虫的网页分析工具。 爬虫工具模拟人们在浏览器上的行为,并登录到微博的主页。 爬虫工具根据关键字,时间,用户和其他属性搜索和提取微博数据。 参数如下:

Figure 2 spider的参数

2,数据过滤

来自爬虫的数据不仅包含所需的文本信息,还包含非相关的信息,例如用户名; 功能文字; 互动文字; 客户档案; 位置。这些信息会被设计的正则表达式自动识别和删除。

3,训练集标签

系统具有机器学习的能力,因此可以通过制定分类标准和标记训练集来广泛应用于实际需求。

B.语料库处理模块和情感分析模块

系统识别未知的微博情绪倾向并通过学习训练集进行分类。有四个步骤。

1,中文分词

与英语句子不同,汉语句子在单词之间没有空格。为了将来的需要,微博句子是分段的。

2,功能词选择

系统模型的情感特征的词提取算法是卡方(Chi)。

公式中的参数如表1所示。

Table 1类中的术语“t”的频率

包含“t“

不包含“t“

总数

在class “c”里面

A

B

A B

不在class “c”里面

C

D

C D

总数

A C

B D

N

3,文字分类

选择特征词后,计算其权重,然后使用向量空间模型表示每个微博进行分类。最后,分类器将自动处理微博。

4,情绪分析

为了评估分类结果,我们需要进一步探索正面和负面信息,包括正面和负面舆论的比例以及正面和负面信息的特征,然后分析用户对特定主题的看法。

C.数据管理模块

数据按时间或情绪倾向排序。分类结果将以可视化的形式呈现。决策者将评估结果,以了解公众对主题的看法。对系统确定的负面消息,内容分析和词频将被计算以找出问题的根源,并根据负面信息的严重程度,管理或决策机构确定警告级别并采取适当的应对策略。

对于每个分类,将错误分类的微博文本进行校正以更新训练集。

三,实验程序和结果分析

A. 实验简介

我们选择政治热点——“钓鱼岛”事件作为实验主体。根据人们的倾向,我们将微博分为三类:(1)客观态度(2)积极态度:这种微博支持中国的立场。例如,“钓鱼岛自古以来就是中国的领土,我们将捍卫钓鱼岛。“[5](3)消极态度:这种微博表现出对中国的不满。例如,”人类悲剧,甚至婴儿奶在这么大的国家变坏了,他能管理钓鱼岛吗?“[6]

实验数据来自新浪微博。我们选择了1331个微博,其中包含关键字“钓鱼岛”。 他们作为训练集。 470个项目标记为客观,388个项目标记为积极,473个标记为消极。 正类的索引为“1”; 否定类的索引为“2”; 并且目标类的索引为“3”。 然后我们随机选择另外218项微博进行测试,以评估不同期限权重算法下的准确性。 详见表2。

Table 2 训练集和测试集的数量

目录

训练集

测试集

客观

470

74

积极

388

72

消极

473

72

B.实验过程

在实验中,开源分词包IKAnalyzer用于将句子分段为术语列表。 根据卡方的权重,我们选择前500个术语作为特征词,然后程序以矢量空间模型(VSM)的格式计算每个微博的特征词权重。

选择三种特征加权算法进行测试。 它们是传统术语频率 - 逆文档频率(TF-IDF)和两种最高利用率的改进算法。 这两种算法增加了区分类的能力:一种是“log(m) TF * IDF”[7],另一种是“logCHI * TF * IDF”[8],其中m是特征数术语“t”的数量,CHI是卡方值。 为了评估分类结果,实验使用最常用的评估方法:准确率P(精确度)。 一些描述如表3所示。

Table 3不同特征加权算法的精度率

TF*IDF

log(m) TF*IDF

logCHI* TF*IDF

客观

71.60%

79.70%

93.40%

消极

88.90%

100%

86.10%

积极

25%

77.80%

94.40%

全部

61.90%

85.80%

91.30%

从上表3可以看出,logCHI * TF * IDF权重计算算法具有最高的精度。 因此,系统使用logCHI * TF * IDF特征词算法。

另外,系统从2013年3月1日到2013年3月15日抓取包含关键词“钓鱼岛”的微博,并对其进行分类。 通过了解每个类别的比例,我们可以预测情绪倾向。 每个类的比例如图3所示。

Figure 3从2013年3月1日到3月15日的三个情感类别的比例

从图3可以看出,除了3月9日的74%,积极情绪的比例超过80%。

从2013年3月1日至3月15日,该系统对钓鱼岛主题的微博进行了抓取和分类14697项。 12767项微博被列为积极类别,763项为消极,客观态度为1167项。 我们可以了解到,87%的微博占据了中方的积极地位。 在此基础上,我们推测绝大多数新浪微博(http://weibo.com)用户在“钓鱼岛”问题上都是站在中国这一边。 如图4所示。

Figure 4从2013年3月1日到3月15日的三个情感类别的比例

有5%的少数民族微博,其情绪倾向不满中方的表现。 通过负面微博的一小部分的词频统计,最频率的术语包括腐败官员,政府,房价,老百姓,婴儿,毒奶粉和房。 我们可以知道这些词与民生问题有很大关系。 通过对负面微博的内容分析,人们主要表达了对中国政府或社会的不满,包括奶粉等食品安全问题,高房价等民生问题。 这些人渴望政府建立粮食安全信贷,加强环境保护,更加关注民生,而不是争取钓鱼岛。

有5%的少数民族微博,其情绪倾向不满中方的表现。通过负面微博的一小部分的词频统计,最频率的术语包括贪官(腐败官员),政府(政府),房价(房价),老百姓(公共),婴儿(婴儿),毒奶粉(有毒牛奶)粉)和房(房)。我们可以知道这些词与民生问题有很大关系。通过对负面微博的内容分析,人们主要表达了对中国政府或社会的不满,包括奶粉等食品安全问题,高房价等民生问题。这些人渴望政府建立粮食安全信贷,加强环境保护,更加关注民生,而不是争取钓鱼岛。

四,结论

在本文中,我们构建了一个公共选项分析模型,适用于在不同的微博主题上实时分析人们的情绪倾向。该模型包含四个模块:数据采集模块,语料库处理模块,情感分析模块和数据管理模块。系统中的蜘蛛可以根据我们设置的具体时间和主题,从“weibo.com”中提取微博。通过使用SVM分类算法,情感分析模块可以根据分类标准自动识别和分类特定主题微博。从分类结果我们可以实时预测特定主题的舆论倾向。

致谢

这项工作部分得到了国家自然科学基金(NSFC Grant No:71373291)的支持。 这项工作还得到了中国国家高技术研究发展计划(863计划)的资助,项目编号为2012AA101701。

参考文献

[1] Li, Y. M., amp; Li, T. Y. (2013). Deriving market intelligence from microblogs. Decision Support Systems, 55, 206-217.

[2] Liu, B., Hu, M., amp; Cheng, J. (2005, May). Opinion observer: analyzing and comparing opinions on the web. In Proceedings of the 14th international conference on World Wide Web (pp. 342-351). ACM.

[3] O#39;Connor, B., Balasubramanyan, R., Routledge, B. R., amp; Smith, N. A. (2010). From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series. ICWSM, 11, 122-129.

[4] Bollen, J., Mao, H., amp;

全文共5168字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[3033]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。