英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料
时间序列预测:股票价格指数预测
摘 要
时间序列预测在许多领域得到了广泛的应用。本文提出了四种预测股票价格的模型,使用Samp;P 500指数作为输入的时间序列数据。均值(鞅)和普通线性模型在平稳性方面需要最强的假设,我们将其用作基线模型。广义线性模型(GLM)需要较弱的假设条件,但不如鞅的模型更准确。在实证检验中,与其他两种模型相比较,RNN模型表现最好。因为它将通过lstm实时更新输入,但也同样没有击败鞅。此外,我们还介绍了在线批处理(OTB)算法和差异度量,以便读者知晓最先进的预测方法,它不需要任何时间序列数据中平稳性或不混合的假设。 最后,为了将这些预测应用于实际,我们还介绍能够创造双赢和零和局面的基本交易策略。
- 介绍
时间序列预测是许多领域的经典问题,应用范围广、频率高。预测的中心问题是在给定过去观察值Y(1)、...、Y(T)的基础上,预测Y(T 1)的值。[3] 许多类型的模型已经被应用于这个问题。本文将对四种用于股票价格时间序列预测的模型进行比较。
2.模型
2.1基线模型
考虑一个随机变量x(t),它表示股票在时间tge;0处的价格。让我们在离散时间内构造x(t)的序列S={x(0),x(1),hellip;}。在股票分析中,值的序列通常被建模为鞅[1]。我们令假设为真,S构成鞅。根据鞅的一个性质,有 (1)
对于所有状态的下一个值,最好的预测就是我们现在的位置。这可以进一步推广到
E(x(t)|x(a),x(b),...,x(z)) = x(z) : a lt; b lt; ... lt; z lt; t. (2)
对于序列中任何值的最佳猜测,给定一些先前的状态序列,是最临近的我们知道的价值。
因此,如果我们观察到的股票序列S是一个鞅,那么预测下一个值最好的算法,就是运用当前值。另外,作为对比,如果我们能显示模型可以一致地优于鞅模型,那么我们就证明了这里存在着依赖关系, 基于(2)。
股票也可被建模为下述的几何随机游动模型[ 2 ]。关于其最著名的是在的论文1710.05751v2 [ stat.ml ] 2017年10月19日中使用了布莱克-斯科尔斯方程,在方程的制定中使用了模型。这将导致一些优于其他模型的属性,例如由于股票的价值总是积极的,股票价值100美元或1000000美元不影响其行为。
考虑一个随机变量Y(t),表示连续时间tge;0时的股票价值。 让我们假设Y(t)遵循几何随机游走。作为属性,对于所有t 0 lt;t 1le;t2 lt;t 3le;... t n lt;t n 1,随机变量{ , ,hellip;}是相互独立的。 进一步,forall;i,j 遵循对数正态分布。 这意味着,我们的数据是假设的一个几何随机游走,如果我们将数据转换为股票变化百分比序列,那么我们将拥有独立的数据。 我们将进一步利用这种对数正态分布在我们的数据中使用广义线性模型。
连接几何随机行走回鞅,如果对于forall;i,j 的平均值为1,则{Y(t)} 可形成鞅。为了进行分析,我们将使用这个作为我们的基准模型,即没有漂移的几何随机游走。
最后,股票往往被认为具有非平稳的行为。我们的随机变量是从中抽取的,如果一个事件改变了变量相互作用,则将其视为分布的变化。不过,我们所有的模型都假设了某种形式的平稳性,以便我们寻找一种最先进的模型来解决这个问题。
2.2 线性模型
线性模型的制定使得响应变量(y)是a的线性组合,预测变量或多个预测变量。 线性模型假定:(1)响应正常分布式,(2)错误是正态分布和独立的,(3)预测变量是固定,具有不变的方差[5]。 假设股票通过随机行走正确建模,则有如下的结果:
E(x(t) | x(1),x(2),...,x(tminus;1)) = x(tminus;1) b (3)
上式可被描述为线性模型:y(t) = beta;x(t minus; 1) b.
2.3广义线性模型
广义线性模型扩展了线性模型允许对(1)的响应是非线性的,通过链接函数与预测变量的线性组合有关; (2)遵循任何分配指数族(例如,二项式,泊松,正态,伽马等); (3)对其他类型的数据建模(例如,分类,序数等)[5]。预测器权重的最大似然估计为通常使用Newton-Raphson方法找到。GLM假设(1)之间的线性关系响应由链接函数和预测变量的线性组合变换,以及(2)错误是
独立的。没有假设预测变量的方差齐性。
由于股票价格通常以对数正态分布建模,因此具有理想的特性,非负性和非对称性,我们将使用正态分布和日志链接的GLM功能用于此分析。 假设股票通过几何随机游走正确建模,则有:
E(x(t) | x(1),x(2),...,x(tminus;1)) = beta;x(tminus;1) (4)
这种行为由具有日志链接功能的GLM和一个样本的“内存长度”来描述。在统计学建模中经常被使用[6]。
2.4 DFS模型
就股票价格序列的特点而言,它是一个时间序列,因此时间序列分析是可以应用的。股票价格时间序列分析后的特点,即整体趋势的时间顺序,一定的时间段和小的随机波动发现。实际上,内部因素影响三个方面的特点。社会经济的演变在相当长的时间内影响整体趋势,某些周期性反映股价随季节变化而变小,波动可能是由于短期的经济波动和心理因素造成的投资。
为了提高预测的准确性,提出了分解预测综合(DFS)模型。本文在分析股票价格时间序列特征的基础上,建立的单一股票价格预测模型,如时间序列模型,灰色预测模型,神经网络预测模型等。
DFS模型将股票价格时间序列分解为三部分,包括时间趋势分量,准周期分量和随机分量。 对于每个组件,采用一个自适应预测模型进行预测,之后,三要素的合成即为采集股票价格预测序列。
- DFS 模型流程图
- DFS 模型运算法则
为了容易理解所提出的方法,现将五个步骤一步一步介绍如下:
第1步:分离趋势组件。
由于信号的增长趋势往往代表着低频分量,小波分析的应用是能够分解信号的多尺度再从低频系数中获取发展趋势。 首要的原因是随着小波分解的尺度越大,频率分量越高将被过滤掉,从而获得信号的发展趋势。
小波分析应用于分离股票价格序列的趋势分量。 首先,对序列进行五尺度小波分解,然后重建低频系数,小波分解最终选择一个五个量表作为股票走势的组成价格系列。
第2步:预测趋势分量。
股价系列的走势可以进行预测。由于趋势序列是一个平滑的序列,去除了高频信息,丰富合适的预测方法能够预测趋势序列,例如时间序列预测模型,灰色预测模型,回归分析预测方法等。
单一的预测方法可以达到有限的预测精度,更重要的是,不同的方法适合趋势的不同特征的不同阶段。 实现更高的预测的总体精度较高,本文采用组合预测模型。
第3步:分离和预测周期性组件。
取出后取出剩余的成分来自股票价格系列的趋势成分。在休息成分中应用傅里叶变换来获取频率实际上是能量集中的,一定程度上代表了大致的时间周期。然后通过循环拟合拟合其余成分,以获得用于分离和预测周期性组件的准周期拟合方程。
第4步:预测几乎随机的组件。
获得几乎随机的序列主在从其余成分中除去周期性成分后,含有高频成分。自回归移动平均(ARMA)模型几乎用于预测高频随机序列,时间序列预测模型之一。
第5步:三个组分的合成。
目前,趋势分量的预测值是周期性的已经获得了分量和几乎随机的分量。那么综合过程就是综合这个三分量预测值来获取股票价格序列的最终预测值。
第6步:评估DFS模型。
采用均方误差(MSE)和均方系数。
采用变异系数(MCV)作为评价标准。较小的MSE和MCV反映较高预测模型的精度。
2.5 人工神经网络
人工神经网络用于经济和金融问题非常丰富。人工神经网络取决于他们的架构和类型,可用于分类,优化和预测。这种多功能性,包括它们的强大性和处理非线性动力的能力无疑是其成功的一部分。通常,许多商业问题涉及多个变量,具有未知功能(非线性)关系。这种情况增强了数据驱动模型的使用,可以使用人工神经网络进行建模。
Gouml;cken等人。提出一种包含和声搜索或遗传算法的结合人工神经网络的混合模型,以提高对土耳其股市的回报预测能力。 Qiu等人也选择了一种混合方法。他们将ANN与一种遗传算法相结合或模拟退火,以便过滤要在输入层中设置的变量。
除了用于股市预测之外,人工神经网络还用于信用评分。例如[6],使用和混合方法,它将神经网络与优化相结合技术,以便对两个公共数据库的客户进行分类。最近的一项调查[8]发现412篇将ANN应用于商业和经济学的领先学术期刊文章。调查涵盖过去的二十年。应用范围从信用评分到股票预测,再到市场营销。
这是一个积极的研究领域的反映,它应用数据科学为商业增值。
2.6 周期性神经网络
递归神经网络(RNN)是具有某种记忆方式的神经网络,之前的值被输入到它们中,并且基于输入和记忆的输出值。这由三个子进程完成:忘记门,输入门和输出门。让我们假设记忆值是神经网络中的一个向量。忘记门是一个子神经网络,那么,给定s将决定从迭代到迭代的哪些部分要丢弃。更新门是一个子神经网络,给定输入x和s的当前值,将输出s的新值。最后,输出门是一个子神经网络,它将RNN的输出作为函数o(x,s)。
RNN特别擅长预测时间序列数据的原因是它们允许长期使用,依赖关系要在输出中表达,但不需要复杂的体系结构允许可变尺寸输入。此外,如果在我们的时间序列中存在长期相关性,那么就是神经网络给定足够的节点可以从理论上模拟它们。在实践中这是不太现实的。如果一个更简单的模型是神经网络,它可以跟踪损失函数的梯度下降到一个局部最小值,那么模型很可能会陷入最小值。此外,如果RNN是过于复杂,它的训练数据可能会找到一个非常深刻的最小值,但仅仅是因为它已经过拟合。最后,RNN的确假设稳定;因为在训练结束后,训练的权重网络设置。
特别是对于这种分析,我们将使用长期短期记忆递归神经网络(LSTM-RNN)。 LSTM-RNN更进一步将其内存架构纳入其中个别节点。对于我们的体系结构,我们使用连接到一层LSTM节点的输入层,紧接着是一个用于输出的1个节点的密集层。这个架构是基于最初的使用超参数进行测试,并基于我们的数据集大小asymp;4000个条目。
2.7 现状预测方法
来自Courant Institution的Vitaly Kuznetsov教授和Mehryar Mohri教授给出了用于预测非平稳非混合时间序列的误差最小化算法的模型保证[5]。他们需要我们分析的关键技术工具是量化目标和样本分布差异的差异性度量:
其中q =(q 1,...,q T)是任意的权重向量,并且其中是在线算法A可以选择的一组假设序列。他们能够通过首先解决q *的较小凸优化问题来解决这个约束优化问题。那么,如果q *gt; 0,他们可以保证求解一个内核岭回归问题的差异是凸的。导致他们对差异的结论。在线学习场景不需要分配假设。在线学习中,序列每次都会显示一个观察结果,并且通常被认为是以对抗方式产生的。在这种情况下,学习好学习者的目标是实现一种遗憾,那就是所遭受的累积损失与事后最佳专家的累积损失之间的差异,其随时间呈线性增长。
通过使用OTB算法,我们可以将原始模型转换为动态模型,每次接收新数据时都会更新信息,并且我们可以不断调整专家权重以适应最新情况。
- 数据
普通股数据来自AlphaVantage维护的时间序列数据API [4]。历史股票数据有四种时间分辨率:每日,每日,每周和每月。 我们的模型最初是根据标准普尔500指数基金及其成分股的每日收盘价进行测试的,从2000年到现在。 各种其他库存被逐一使用。
值得注意的是,随着时间的推移,股价并不连续 - 美国股市开放时间为:工作日的上午9点至下午4点,不包括周末和10个假期。
-
模型展示
- 基线模型
在测试中,我们发现线性模型从未击败鞅,并且当模型的“记忆”(包括时滞点的数量)增加时表现更差。 RMSE被用作错误度量。 以下测试使用前一天或SPX价格的天数预测SPX股票的价格。
第一次测试使用前一天的SPX值作为预测值,并在前12年的数据(2000 - 2011年,大约70%的数据)上训练模型权重,并测试过去5年的模型预测 数据(2012 - 2017年,大约30%的数据)。 虽然这是一次非常幼稚的测试,但这次训练/测试分组与RNN相匹配,作为比较比较的目的。
图 基线模型
在这个测试中,模型RMSE是15.168,而相应的鞅RMSE是14.867。
第二次测试使用相同的训练/测试分组数据,但是使用了一组不同的SPX值的时间滞后作为响应变量。 在建模周期性趋势可以提高模型准确性的前提下,选择时间滞后以合并1-4天前,1周前,大约1个月前和大约1个季度前的值。
图 具有滞后变量的基线模型
在这个测试中,模型RMSE是15.679,鞅的RMSE是15.141。 (注意,鞅的RMSE与测试1中的不同,因为测试日期从4月开始,以允许在所有测试点使用时间
全文共9778字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[11867],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。