英语原文共 11 页
专家系统的应用
journalhomepage: WWW。ELS EV IER。COM /定位/ ESWA
评估股票价格走势预测的多分类器
米歇尔Ballings a,德克·范登范德普尔 b,娜塔莉Hespeels b,鲁本Gryp b
- 田纳西州,业务分析和统计系,249斯托克利管理中心,37996诺克斯维尔,TN,美国大学 b 根特大学市场营销系,Tweekerkenstraat 2,9000根特,比利时
文章信息
文章历史:
2015年5月14日
关键词:
集成方法
单分类器
基准
股价走势预测
摘要
股票价格走势预测是金融领域的一个重要问题。即使是预测性能上的微小改进也能带来丰厚的利润,本文的目的是针对单分类器模型对集成方法进行基准测试
(随机森林、AdaBoost和核心工厂) (神经网络、逻辑回归、支持向量机和k最近邻居)。我们收集了5767家欧洲上市公司的数据,并利用接收方经营特征曲线(AUC)下的面积作为业绩衡量指标。我们的预测超前一年。结果表明,随机森林算法是最优算法,其次是支持向量机算法、核工厂算法、AdaBoost算法、神经网络算法、k近邻算法和逻辑回归算法。这项研究对文献的贡献在于,据我们所知,它是第一个做出如此广泛的基准的研究。研究结果清楚地表明,股票价格方向预测领域的新研究应该在其算法集中包含集合。我们广泛的文献综述清楚地表明,目前情况并非如此。
1.简介
预测股价是金融界的一个重要目标(Al-Hmouz, Pedrycz, amp; Balamash, 2015;巴拉克amp; Modarres,2015;(Booth, Gerding, McGroarty, 2014),因为合理准确的预测有可能产生较高的财务收益和对冲市场风险(Kumar amp; Thenmozhi, 2006)。文献中一个重要的讨论点是股票价格行为是否可预测。长期以来,投资者接受有效市场假说(EMH) (Malkiel amp; Fama, 1970)。该假设认为,通过研究股票价格过去行为的演变,不可能获得异常收益(Tsinaslanidis amp; Kugiumtzis, 2014;叶和徐,2014)。然而,在21世纪初,一些经济学家指出,未来的股票价格至少是部分可预测的(Malkiel, 2003)。因此,大量的预测算法得到了探索,表明股票价格行为确实是可以预测的(Huang, Yang, amp; Chuang, 2008;欧和王,2009)。然而,由于金融市场是一个复杂的、进化的、非线性的动态系统,它与政治事件、一般经济条件和交易者的预期相互作用,因此,股票价格的走势仍然难以预测(Huang, Nakamori, amp; Wang, 2005)。
uArr; 通讯作者。
电子邮件地址: Michel.Ballings@utk.edu (M. Ballings), Dirk.VandenPoel @ UGent.be (D. 范登范德普尔) Nathalie.Hespeels@UGent.be (N. Hespeels) 鲁本。 Gryp@UGent.be (R. Gryp)。
http://dx.doi.org/10.1016/j.eswa.2015.05.013
保留0957-4174 / 2015年爱思唯尔有限公司保留所有权利。
不同的技术已经被探索用于股票价格的方向预测。金融世界中表现最好的算法之一似乎是支持向量机(SVM)(Huang et al., 2005;金正日,2003;李,2009)。其他广为人知的技术有神经网络(Kim amp; Chun, 1998)、决策树(Wu, Lin, amp; Lin, 2006)、逻辑回归(Brownstone, 1996)、判别分析(Ou amp; Wang, 2009)和k近邻(Subha amp; Nambi, 2012)。然而,大多数研究在其基准中忽略了集成方法。据我们所知,Kumar和Thenmozhi(2006)、Rodriguez和Rodriguez(2004)、Lunga和Marwala(2006)以及Patel、Shah、Thakkar和Kotecha(2015)是股票价格方向预测领域中仅有的四项使用综合方法的研究。这是文献中一个重要的空白,因为集成方法已被证明在许多其他领域表现最好,如客户流失行为(Ballings amp; Van den Poel, 2012)、社交媒体分析(Ballings amp; Van den Poel, 2015)和无监督词义消歧(WSD) (Brody, Navigli amp; Lampata, 2006)。
因此,在我们的研究中,我们将纳入几种集成的冰毒,如Random Forest (RF) (Breiman, 2001)、AdaBoost (AB)(Freund amp; Shapire, 1995)和Kernel Factory (KF) (Balings amp; Van den Poel, 2013)作为我们的基准。当其他人进行离散分析来预测准确的股票价格时,我们专注于分类模型(Leung, Daouk amp; Chan, 2000)。文献表明,预测方向足以实现盈利的交易溢价(张,Chinn, amp; Pascual, 2005;Pesaran amp; Timmerman, 1995)。因此,我们预测股票价格的走势,而不是绝对的股票价格.研究的主要贡献是
M. Ballings等。/专家系统的应用程序42(2015)7046-7056 |
7047 |
对集成方法(RF、AB和KF)和单分类器模型(神经网络(NN)、逻辑回归(LR)、支持向量机(SVM)、k近邻(KNN))在预测股价走势方面的性能进行了广泛的基准比较。我们假设,由于集成方法在其他领域的优势,集成方法将优于单一分类器方法。
本文的其余部分结构如下。在第2节中,我们将回顾已经用于股票价格方向预测的算法的文献。第3节详细介绍了我们将集成方法与其他算法进行基准测试的方法。第4节讨论了结果。第5节总结了本研究,第6节描述了未来研究的局限性和途径。
2.文献综述
预测算法的使用与金融的基本规则之一有效市场假说(EMH)相矛盾(Malkiel amp; Fama, 1970)。这一假说认为,如果一个人能够从分析过去的回报中获得优势,整个金融市场都会注意到这一优势,因此股票的价格就会得到修正。这意味着,通过考察过去的股价和股票回报,不可能获得异常的回报。虽然EMH被普遍接受,但它最初是基于传统的线性统计算法(Malkiel amp; Fama, 1970)。许多研究人员已经通过使用可以模拟金融系统更复杂动态的算法来否定这一假设(Lo, Mamaysky, amp; Wang, 2000;麦基尔,2003)。由于处理复杂非线性金融市场的方法正产生积极的效果,研究人员仍在努力发明更好的技术。
股票价格行为的预测方法主要有三种:(1)技术分析(2)时间序列预测(3)机器学习和数据挖掘(Hellstrom amp; Holmstromm, 1998)。第一类使用图表和图形作为主要工具。分析师利用这些地块来做出买入或卖出的决定。第二类是通过分析过去股票价格的回报来预测未来的股票价格。常用的方法有自回归法(AR)、移动平均模型(MA)、自回归-移动平均模型(ARMA)和阈值自回归模型(TAR)。第三类,数据挖掘,是“从大数据集或数据库中提取有用信息的科学”(Hand, Manilla amp; Smyth, 2001)。由于预测股票价格走向的主要问题是大量的数据,因此数据挖掘在金融界的流行程度一直在上升。数据集太大,无法用非数据挖掘方法处理,以至于模糊了潜在的含义,无法从中获得有用的信息(Fayyad, Shapiro amp; Smyth, 1996;Widom,1995)。
股票价格方向预测文献中使用了多种算法。简单的技术如单决策树、判别分析和朴素贝叶斯已经被性能更好的算法如随机森林、逻辑回归和神经网络所取代。通用的解决方案,如遗传算法(Kuo, Chen, amp; Hwang, 2001)也被使用过,但通常性能较差,计算成本较高。股票价格走势预测文献主要集中在Logistic回归、神经网络、k近邻和支持向量机等方面。在股票价格走势预测领域,Radom Forest、(random) AdaBoost和Kernel Factory等集成方法的研究还很缺乏。
在表1中,我们概述了文献中用于预测股价走势的算法(我们排除了单决策树、朴素贝叶斯、判别分析和遗传算法,
- 因为它们已经被上面讨论的更新更好的方法所取代)。LR代表Logistic回归,NN代表神经网络,KN代表k近邻,SVM代表支持向量机,RF代表随机森林,AB代表AdaBoost, KF代表Kernel Factory。从表1可以清楚地看出,我们的研究是第一个在一个基准测试中包含所有7种算法的研究。如果我们想从全局上找到最好的算法,这是很重要的。使用次优算法可能会阻碍数据中重要模式的科学进展。
在我们的研究中,我们将针对单个分类器模型对集成方法进行基准测试。上述集成方法都使用一组单独训练的分类器作为基分类器。我们认为整体方法会比单个分类模型,因为它们已被证明是非常成功的在其他领域如人脸识别(Tan,陈、周amp;张,2005),基因选择(Diaz-Uriarte amp;德安德烈斯,2006),蛋白质结构类预测(球磨机amp; Van den Poel,2015)和信用评分(Paleologo、Elisseeff amp; Antonini,2010)。在股价走势预测文献中,支持向量机(SVM)和随机森林(RF)都被证明是表现最好的(Kumar amp; Thenmozhi, 2006;Patel等,2015)。然而Kumar和Thenmozhi(2006)的支持向量机优于RF, Patel等人(2015)的支持向量机优于RF,对于哪种算法是最好的还没有共识。AdaBoost的表现也很好,尽管不如Random Forest (Rodriguez amp; Rodriguez 2004)。为了明确哪种算法是最好的,本研究将对SVM、AB、RF和其他四种算法进行基准测试。
表格1
在文献中用于股价走势预测算法。
预测方法 |
||||||||
LR |
NN |
KN |
SVM |
AB |
RF |
KF |
||
X |
||||||||
X lt;/ |
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。