英语原文共 17 页,剩余内容已隐藏,支付完成后下载完整资料
公共政策的“社会面”:在政策周期内监控网络舆论及其煽动
安德里亚·塞龙 费德拉·内格里
摘要:本文讨论了社交媒体分析在促进政客、官僚和公民之间的互动方面所发挥的潜在作用。本文证明在一个“大数据”的世界里,社交媒体用户在网上发布的评论可以有效地用来提取有意义的信息,从而支持政策制定者在政策周期中的行动。笔者使用监督聚合情绪分析技术对Twitter数据进行分析。我们开发了两个与2014-2015年意大利伦齐内阁制定并实施的“就业法案”劳动力市场改革和“labuonascuola”学校改革相关的案例研究。研究结果表明,社交媒体数据可以帮助政策制定者根据公民在公共政策制定阶段的偏好,对可用的政策选择进行评级;也可以协助他们在执行阶段监察市民的意见,并捕获利益相关者的动员和解除动员过程。我们认为,虽然社交媒体分析不能取代其他研究方法,但它提供了一种快速、廉价的信息流,可以补充传统分析,提高响应能力和制度学习。
关键词:社交媒体分析,情感分析,电子政务,响应性,网络集群行为
引言
社会媒体在促进政府透明度和加强公民与公共行政部门之间的互动方面的作用已得到广泛分析。然而,在这一领域的贡献也应该帮助从业者设计有效的社交媒体策略来接触他们的受众群体,并利用公民在网上发表评论的信息价值。
虽然公共行政部门和公民在社交媒体上交流的自上而下的一面一直是最近研究的对象,有一些例子表明,政府官员应该使用可操作的工具,最大限度地增加查看和参与其内容的用户数量(Goncalves et al,2015),但这一信息流的自下而上的一面在很大程度上被忽视了。本文旨在弥合知识与实践之间的鸿沟,就社交媒体上可用的信息如何支持政客和官僚在政策周期中的行动提供见解。我们将展示如何使用监督聚合情绪分析技术,从社交媒体用户在网上发表的未经请求的评论中提取有关公共服务、项目和政策的有意义的信息。这种技术特别适合于分析发布在社交网站(SNS)上的文本,比如推特,因为它被设计用来处理谣言和讽刺言论。
我们运用SASA技术(面向功能的软件开发方法),分析了2014年至2015年意大利马泰奥·伦齐领导的内阁在两项主要公共政策上的公民意见。第一个案例研究涉及劳动力市场改革,也就是众所周知的“就业法案”。2014年3月至2015年6月期间,作者通过SASA每周对Twitter上发表的关于这个问题的意见进行监测。该分析显示了网络舆论对政策制定过程中讨论的不同政策选择的反应。本案例研究还表明,对言论的分析可以揭示网络舆情在改革开始产生初步效果的实施阶段的演变过程。
第二个案例研究与学校改革有关,被称为“labuonascuola”(“好学校”),由伦齐内阁推动。尤其是我们的情绪分析得出的结果已与调查数据和意大利政府推动的公众咨询结果进行了比较。所有这三个数据来源都提供了有用的见解,值得注意的是,它们往往描述了一个类似的故事。更重要的是,社交媒体的分析让我们能够监控改革所涉及的竞争利益相关者的动员和去动员过程,以调整政府通过的修正案。本文结构如下:下一节总结了该技术的现状,然后描述了SASA的情感分析技术,接下来介绍两个案例研究,最后一部分是结论。
社交媒体和公共政策
社交媒体在改变政客、官僚和公民之间的权力关系方面的潜在贡献,一直是一场激动人心的辩论的目标,辩论的参与者包括政治学家和哲学家、公共政策学者、信息和通信技术专家,以及专注于众所周知的电子政务概念的实践者。有学者指出,社交媒体为提高政府透明度,加强公民与公共行政部门之间的互动提供了机会,而这反过来又会对政治机构的信任产生积极的影响。
在透明度方面,学者们强调,社交媒体为政客和官僚们提供了机会,让他们在公民喜欢的平台上解释自己的行为,尤其是公共实体可以传播有关其活动的信息,使公民能够监测公共开支并对公共服务作出判断。此外,社交媒体的传播也促进了政客和官僚与公民和外部利益相关者的互动。事实上,学者们已经强调了网络公民对政府和公民对公民之间的互动如何有利于社会和政治问题的辩论,并积极影响公民对政治进程的兴趣,如选举、政策议程设置和政策执行。
另一个文学流派关注的是公共政策的“共同生产”这一吸引人的问题,包括政治家、官僚和公民通过互联网应用程序参与其中。尽管公共行政部门越来越多地使用社交媒体,但政客和官僚们经常因为缺乏数字知识、过时的政策结构、以及无法使用安排帖子等工具来针对受众而受到批评。
政策制定者,尤其是政客们,一直对了解公民的偏好、衡量他们的满意度以及接收他们活动的反馈很感兴趣。自上世纪60年代末商业民调行业扩张以来,学者们一直试图衡量“政策情绪”。因此,政治学家广泛使用调查数据来估计政府活动、公民满意度与投票行为之间的关系。例如,Bartle、Dellepiane Avellaneda和Stimson利用1950年到2005年在英国收集的民意数据,通过分析市民的偏好来估计政治中心的位置(即政治中心的位置)。他们的研究还表明,政治重心随着政府活动的变化而转移。
尽管调查有很多优点,但也存在一定的局限性。首先,它们的可靠性取决于正在研究的人群中代表性样本的构建。然而,近年来民意调查者已经面临越来越多的问题在构建代表性样本由于覆盖和响应率下降,也使调查投票更昂贵。其次,民意很少能被连续衡量:调查不是提供一系列有关政策情绪的数据,而是以固定的、相对较宽的时间间隔提供公众意见的快照。因此,调查限制了我们将公众舆论的演变与公共政策的制定和执行有关的日常事件联系起来的能力。第三,传统的调查提出征求意见的问题(夸大战略答案的风险),而答案受到问卷的限制,问卷很少或没有空间让受访者发表自己的意见,这可能进一步限制我们对具体政策问题的公众舆论情绪的评估。
接下来的部分描述的SASA技术可以克服这些限制,允许研究人员和从业者分析公民在社交媒体上自由发表的未经请求的评论。因此,这一技术可以成为研究政策情绪的一个有价值的工具。社交媒体文献已经证明,社交媒体分析对政策制定者是有用的,因为它提供了对政策周期不同阶段的见解。这些数据主要用于开发综合指标,这些指标可以作为“警示”,能够放大和传播公众舆论认为相关问题的令人担忧的信号。
通过Twitter这样的指标,主要测量数据,与各种各样的话题,如健康、种族主义和不容忍,经济预期[1],主观幸福感,幸福,以及政治互信。例如,Signorini等人使用嵌入在Twitter中的内容来跟踪公众对H1N1病毒和猪流感的情绪,建立了一个衡量健康相关事件的“公众关注”的指标。同样,Lampos和Cristianini使用Twitter数据预测了流感在英国的传播。Stephens利用Twitter创建了一个“仇恨地图”,它可以确定美国不同国家的种族主义和不宽容程度,这一工具可能有助于调整教育政策,防止跨种族暴力事件的发生。Burnap和Williams对网络仇恨言论进行了更深入的分析,通过监控和机器学习文本分类器和集成分类器,成功预测了网络仇恨在Twitter上的传播。Curini等人通过对比分析意大利文章来监测每日的幸福水平,结果显示,意大利文章不仅受到气象因素的影响,还受到德国和意大利债券之间利差的影响。最后,Ceron提供了一个政治信任度指标,记录了意大利互联网用户在关于政党公共资金改革的辩论中,在Twitter上表达的反政治情绪的比例。通过对比调查数据和监督情绪分析的结果,本研究强调了公民精英分化的存在。
社交媒体(下文将介绍)也是研究集体行动和政策变化之间关系的重要信息来源,因为它们在促进激进主义和抗议方面发挥了作用。的确,社交媒体增强了公民协调和动员的能力,并扩大了运动的“争论范围”,这些运动可以利用轰炸式电子邮件、分布式拒绝服务攻击和电子请愿等新策略。
情绪分析的聚合技术
在“大数据”世界里,社交媒体提供了大量的信息,可以影响现实生活。当决策者所能获得的信息超过他们的能力来处理它,这导致信息过载,从而损害决策过程。为了避免这种风险,我们应该小心地把信号和干扰分开。
到目前为止,社交媒体的分析都是通过传统的情感分析技术来进行的,这些技术依赖于本体词典或自然语言处理(NLP)来解释网上发表的评论。不幸的是,这种方法存在一些缺陷。首先,社交媒体用户使用的自然语言是不断发展的,对讨论的话题(政治、体育、电影等)和评论它的作者群体(如性别、年龄、职业、教育)都很敏感。其次,这些方法通常无法检测反讽句,无法捕捉语言的所有细微差别,也无法处理谣言和垃圾邮件。第三,传统的情绪分析通过对每条评论进行分类,并对结果进行总结,来估计总体情绪。然而,这种策略可能会导致对总体分布的有偏差估计,因为它可以对错误进行总结,这种错误是算法做出的每个概率分类选择所附加潜在的误分类。
相比之下,Hopkins和King引入Ceron等人改进的SASA方法成功地解决了这些问题,将手工编码的准确性与高度自动化分析的优点结合起来。为此,该方法采用了一种基于两阶段过程的聚合机器学习。在第一步中,程序员读取并编码从网页上下载文本的子样本,以创建“训练集”,他们在捕捉语言[2]的细微差别方面比本体词典更有效。在第二步中,算法利用编码人员提供的信息进行自动统计分析,将手工编码的准确性扩展到整个文本种群。然后,通过分析,可以对收集到的所有文本中意见的总体分布做出准确的估计,估计的平均绝对误差约为1 - 3%,明显低于传统的情绪分析。
此外,Ceron等人指出,这种技术是专门为分析发布在SNS(如Twitter)上的文本而设计的。在SNS中,谣言问题是一个明显相关的问题,传统的机器学习不能解决这个问题。相反,SASA非常适合处理谣言,事实上,SASA甚至在分析推文或短评论时,也比传统的情绪分析做得更好。
SASA技术的工作原理如下。为了估计不同的意见,将数据集中的单个单元(如tweets)分解为各自的单个单词。这个标记化过程是使用“单词包”方法[3]实现的。删除停止字、标点符号、空格和HTML代码,词干提取算法用于将单词转换成它们的“词干”。每一个单位都由所使用的二进制向量表示。这样一个向量称为“词根概要”,由0和1组成:当一个词没有出现在单元中(但在其他一些单元中使用)时,我们找到一个0;当一个词出现在单元中时,设为一个1。为了处理这种稀疏性,5%最稀有的分支被移除。
该方法的假设前提如下。让我们用S表示文本单元中使用的单词概况,用D表示文本中表达的一组离散的意见类别。估计的目标是P(D),即发表意见的频率分布在整个发帖人群中。标准统计方法是将P(D)分解为:
P(D)= P(D|S)P(S) (1)
P(S)是所有文本中出现的2K可能的词的概率。注意,由于K通常非常大,2K比任何标准计算机都要大得多。P(D|S)是D类文件中出现的2K可能词干概要文件的每一个的概率;利用任意标准分类器(多项式回归、分类树、随机森林、支持向量机等),从训练集中估计为PT(D|S),即训练集中“词根概要”的条件频率分布。通过这种方法,“测试集”中每个职位的单独分类被分配到某个具有一定概率的类别Di中。然后,将语料库中所有文本的意见P(D)进行汇总,得到意见P(D)在语料库中的分布情况。因此,单个分类错误不会因为聚合而消失,而是很容易传播,在许多包含数千或数百万文本的应用程序中,可以看到错误率上升到15%至20%。
SASA方法颠倒了这种方法:它不是估计个人意见以在以后汇总它们,而是汇总所有的词的概况并直接估计意见的汇总分布,从而提高了估计的准确性。
更详细地说,P(S)项的频率分布可以表示为:
P(S)= P(S|D)P(D) (2)
频率分布P(S)可以通过将所有发布的文本制表来计算,它只需要一些计算机时间,没有任何有争议的假设。条件分布P(S|D)不能被观测到,必须通过对训练集的手工编码来估计。实际上,训练文本的手工编码允许计算PT(S|D),即训练集中单词概要文件的条件频率分布。假设训练集的文本与整个数据集是同质的,即来自同一个“世界”,我们可以假设:
PT(S|D)= P(S|D) (3)
如果是这样,则可以一致地估计意见的频率分布,因为P(S)和PT(S|D)都是可见的。因此,由式(2)可知,PT(S|D)和P(S|D)均为矩阵,则有:
P(D)=P(S|D)-1P(S)= PT(S|D)-1P(S) (4)
其中PT(S|D)-1是PT(S|D)的逆矩阵,类似于P(S|D)-1, 值得指出的是,该集合并不一定满足任何统计性质。特别的是,只要训练集中的语言使用与整个数据集中的语言使用是一致的(这是一种合理的假设),训练集就不必是文本总体的代表性样本。
在下一节中,我们将应用最新的SASA算法调查网络民意。
劳动力市场与校园改革:情绪分析在公共政策领域的两个应用
我们在此调查两个案例研究,涉及伦齐内阁在过去两年在意大利制定和执行的两项政策改革。首先,我们将监测《就业法案》的制定、采纳和实施阶段,即劳
全文共12850字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[2838]
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。