用于股票走势预测的社交媒体情感分析外文翻译资料

 2022-08-14 15:22:15

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


用于股票走势预测的社交媒体情感分析

Thien Hai Nguyen, Kiyoaki Shirai, Julien Velcin

摘要:

这项研究的目的是使用社交媒体的情绪建立一个模型来预测股价的波动。 与以前考虑整体情绪或观点的方法不同,将公司特定主题的情感纳入股票预测模型。通过使用我们提出的方法以及现有的主题模型,可以从留言板上的文本中自动提取主题和相关情感。 此外,本文展示了通过大规模实验评估情绪分析在股票预测任务中的有效性。 比较一年交易中18只股票的平均准确性,我们的方法比仅使用历史价格的模型的性能高出2.07%。而且,当仅与难以预测的股票比较时,我们的方法比历史价格方法多精确9.83%,比人类情感方法多精确3.03%。

关键词:情感分析,观点挖掘,分类,预测,股票,社交媒体,留言板

一、介绍

股票价格预测在商业活动的计划中非常重要。但是,建立一个精准的股票预测模型仍旧是一个具有挑战性的问题。除了历史价格外,当前的股票市场还受到社会情绪的影响。特定公司的社交情绪可能是影响该公司取票价格的重要变量之一。如今,在线社交网络的出现使得大量的情绪数据变得可用。因此,将来自社交媒体的信息与历史价格相结合可以提高模型的预测能力。

我们研究的目标是建立一个模型,用来使用社交媒体(留言板)提供的信息来预测股票价格的波动(价格会上涨还是下跌)。 在我们提出的方法中,将使用有监督的机器学习来训练一个模型,该模型使用从t-1和t-2处的信息得出的特征来预测t处的股票价值,其中t代表交易日期。 除情绪信息外,股价还受许多因素影响,例如微观经济和宏观经济因素。 但是,本研究仅关注如何使用社交媒体中的情绪信息来预测股票价格。我们的主要目的是通过对社交媒体数据的情感分析来提取情绪信息。然后,将这些情绪整合到模型中以预测股票。为了实现这一目标,在大量的社交媒体中发现话题和观点对于获得投资者的意见非常重要。但是,很难在社交媒体上进行情感分析。被用来分析的文本通常简短,包含许多拼写错误,不常见的语法构造等。此外,文献显示在用于股市预测的情绪分析中,结果相互矛盾。一些研究人员报告说,社交媒体的情绪没有预测能力(Antweiler和Frank,2004; Tumarkin和Whitelaw,2001),而其他研究人员则报告了其有或强或弱的预测能力(Bollen,Mao和Zeng,2011)。因此,如何利用社交媒体中的观点进行股价预测仍然是一个悬而未决的问题。

本文的一项贡献是,我们提出了一种新颖的功能“主题情绪”,以提高股票市场预测的绩效。认识到社交媒体中讨论了哪些主题以及人们对这些主题的看法是重要的。“主题情绪”功能代表了公司特定主题(产品,服务,股息等)的情绪,用于预测股价走势。可以通过两种方式获得此功能:通过使用称为联合情感/主题模型(JST)的现有主题模型以及我们自己提出的方法。 在前一种方法中提取的主题和情感是隐藏的(潜在的),而在后一种方法中则不是隐藏的。据我们所知,这是第一项试图同时提取主题和情绪并将其用于股票市场预测的研究。 另一个贡献是大规模评估。由于在先前的工作中,使用相对较小的数据进行评估,所以社交媒体中情绪对股票市场预测的有效性仍不确定。本文研究了社交媒体上的情绪是否真的对包含许多股票和交易日期的测试数据有用。

本文的其余部分安排如下:第2节介绍了一些之前用于股票预测的情绪分析方法。第3节介绍了我们的数据集。第4节介绍了我们提出的方法。我们还根据主题和与之相关的情绪提出了一种用于股票预测的新颖功能。第5节评估了实验结果。最后,第6节总结了我们的贡献。

二、相关工作

股市预测是学术以及现实生活中最吸引人的主题之一。 许多研究试图解决股市是否可以预测的问题。 一些研究基于随机游走理论和有效市场假说(EMH)。 根据EMH(Fama,1991; Fama,Fisher,Jensen和Roll,1969),当前的股票市场完全反映了所有可用信息。 因此,价格变化仅仅是由于新的信息或新闻。 由于自然界中的新闻是随机发生的,并且在当前是未知的,因此,股票价格应遵循随机行走的方式,下一个价格的最佳选择是当前价格。 因此,无法以超过约50%的准确度预测它们(Walczak,2001年)。另一方面,各种研究都指出,股票市场的价格不会遵循随机游走模式,并且可以在一定程度上进行预测(Bollen等,2011; Qian和Rasheed,2007;Vu,Chang,Ha和Collier,2012)。 预测中命中率达到56%时的方向准确度通常被认为是令人满意的股票预测结果(Schumaker和Chen,2009; Si,Mukherjee,Liu,Li,Li,&Deng,2013; Tsibouris和Zeidenberg,1995)。

尽管这些先前的方法没有考虑社交媒体上的情绪,但在本文中,我们的工作旨在将其纳入以提高股票市场预测的绩效。大多数研究试图仅预​​测一种股票(Bollen等,2011; Qian&Rasheed,2007; Si等,2013),并且测试集中的实例数量(交易日期)非常低,例如14 或15个实例(Bollen等,2011; Vu等,2012)。 在测试集中只有几个实例,结论可能不够充分。据我们所知,目前还没有任何研究表明在很长一段时间内对由许多股票组成的数据都具有良好的预测结果。我们的研究试图通过预测一年内的18只股票来解决此问题。

2.1使用文本意见进行股市预测

人们发现情感分析在许多应用中都起着重要作用,例如产品评论和餐厅评论(Liu和Zhang,2012; Pang&Lee,2008)。有一些研究者试图在信息源上一个用情感分析以改善股票模型(Nassirtoussi,Aghabozorgi,Wah和Ngo,2014年)。作者将文字内容汇总的信息合并到财务模型中有两个主要来源。过去,主要来源是新闻(Schumaker和Chen,2009,2009)而近年来是社交媒体。然后,将这些情绪整合到预测模型中。一种简单的方法是通过线性回归模型将文本内容与历史价格结合起来。先前的大多数工作主要是将词袋作为并入预测模型中的文本表示形式。Schumaker and Chen(2009)尝试使用不同的文本表示形式,例如金融新闻的词袋,名词短语和命名实体。然后将此信息与线性回归和支持向量机回归整合作为预测模型。新闻发布后20分钟,他们运用模型估算了离散股票价格。结果显示,在模拟交易引擎中,均方误差为0.04261,方向精度为57.1%,收益率为2.06%。但是,文本表示形式只是单词或命名的实体标签,并未充分利用情绪信息。

Antweiler和Frank(2004)使用朴素的贝叶斯方法将来自留言板的消息分为三类:购买,持有和出售。这三个类别中相关消息的数量被汇总为一个看涨指标。他们研究了三种聚合函数作为看涨的多种替代方法。 它们被集成到回归模型中。 但是,他们得出的结论是,他们的模型无法成功预测股票收益。

Zhang,Fuehres和Gloor(2011)每天测量集体的希望和恐惧,并分析这些指数与股市指标之间的相关性。他们使用情绪词来将每条推文标记为恐惧,担忧,希望等。他们得出结论,情绪推文百分比与Down Jones,纳斯达克和标准普尔500指数显着负相关,但与VIX显着正相关。但是,他们没有使用他们的模型来预测股价。

两种情绪跟踪工具OpinionFinder和“情绪状态的Google个人资料”用于分析每日推特的文本内容(Bollen等人,2011年)。前者测量积极和消极情绪。 后者从六个维度(平静,警觉,肯定,重要,善良和快乐)来衡量情绪。他们使用自组织模糊神经网络模型来预测DJIA值。结果显示方向精度为86.7%(上下),平均绝对百分比误差为1.79%。但是,它们的测试期很短(从2008年12月1日到2008年12月19日)。即使他们达到了很高的准确性,他们的测试集中也只有15个交易日期,这可能不能充分的得出他们方法的有效性的结论。

Xie,Passonneau,Wu和Creamer(2013)提出了一种基于语义框架解析器的新颖树表示。他们表示,这种表示方式的效果远胜于单词袋。通过使用Yahoo Finance的股价,他们在交易日期中用标签将所有新闻注释为上升或下降类别。 但是,此假设的缺点是一天中的所有新闻将具有相同的类别。另外,这成为文档分类问题,而不是股票预测。

Rechenthin, Street, and Srinivasan (2013) 把Yahoo Finance的留言板融合进股票预测。他们尝试用各种分类模型来预测股票。他们使用了由带有词袋和元特征的分类模型获得的显式情绪和预测情绪。

Vu等人(2012)提出了一种基于关键词的算法,以将推文的情绪识别为股票预测的正面,中性和负面。他们的模型达到了约75%的准确性。但是,他们的测试期非常短,从2012年9月8日到26日,仅包含14个交易日期。

Si等人(2013年)为Twitter消息开发了一个非参数主题模型来预测股市。 他们提出了一个连续的Dirichlet过程混合(cDPM)模型来学习日常主题集。

然后,基于这些主题建立了一个情感时间序列。这种方法的优点是模型可以估算数据本身固有的主题数。但是,他们的数据集的时间很短,只有三个月。

本小节中讨论的一系列先前工作试图提取文档的整体意见或观点。但是,意见通常是针对主题或方面表达的。对于股票价格的预测,重要的是要知道公司员工对哪些主题有正面或负面的看法。在我们提出的方法中,提取主题或方面的情绪,然后将其合并到股票预测模型中。

下一节将讨论识别面向方面情感的一些相关工作。

2.2基于方面的情感分析

有一些研究试图提取其他领域的主题和情感,例如在线产品评论,餐厅评论和电影评论数据集(Dermouche,Kouas,Velcin和Loudcher,2015)。Jo和Oh(2011)提出了ASUM模型,用于提取在线产品评论数据集的方面和情感。 该模型假定句子中的所有单词都是从一个主题生成的。

联合情感/主题模型(JST)的提出是为了来同时检测电影评论数据集的情感和主题(Lin&He,2009)。该模型假定每个单词都是从联合主题和情感分布中生成的。因为此模型可以同时提取主题和情感,所以我们将使用它来提取主题情感特征。

Lakkaraju,Bhattacharyya,Bhattacharya和Merugu(2011)提出了FACTS,CFACTS,FACTS-R和CFACTS-R模型来对产品评论数据进行情感分析。这些模型假设一个词分为三类:构面词,情感词或其他类别(背景词,停用词,功能词等)。 根据其类别,从相应的构面,情感或背景分布中生成单词。另外,他们引入了一个窗口,它是单词的连续序列。假设一个窗口中的所有构词均来自同一构面主题,所有情感词均来自同一情感主题。

Zhao,Jiang,Yan和Li(2010)提出了MaxEnt-LDA混合模型,以共同在餐厅评论数据集上同时发现方面和方面特定的意见词。除了一般意见词外,他们还考虑了特定于方面的意见词。因此,一个词可分为五类:背景,特定方面,一般方面,特定意见和一般意见。基于这些类别,从相应的分布中生成单词。

以上方法试图提取隐藏的(潜在的)主题情感关联。在我们提出的方法中,通过使用JST主题模型和将分别在第4.5和4.6节中讨论的提议算法来考虑隐藏主题和非隐藏主题的情感。

三、数据集

我们为库存预测模型使用了两个数据集。第一个是历史价格数据集,第二个是情绪信息集。

3.1历史价格

历史价格是从Yahoo Finance中提取的18种股票的价格。表1列出了股票报价和公司名称。对于每个交易日期,都有开盘价,最高价,最低价,收盘价并调整了收盘价。

表1

股票

公司名称

AAPL
AMZN
BA

BAC
CSCO
DELL
EBAY
ETFC
GOOG
IBM

INTC
KO
MSFT

NVDA

ORCL
T
XOM
YHOO

Apple Inc.
Amazon.com Inc.
The Boeing Company

Bank of America Corporation
Cisco Systems Inc.
Dell Inc.
eBay Inc.
E Trade Financial Corporation
Google Inc.
International Business Machines Corporation

Intel Corporation
The Coca-Cola Company
Microsoft Corporation

NVIDIA Corporation

Oracle Corporation
ATamp;T Inc.
Exxon Mobil Corporation
Yahoo! Inc.

调整后的收盘价是针对股息和拆分调整的收盘价。与其他研究一样,调整后的收盘价经常用于股票市场预测(Rechenthin等,2013)。因此,我们选择它作为每个交易日期的股票价格值。

3.2留言板数据集

为了获取股票的情绪信息,我们从Yahoo Fina

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[235321],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。