Time Series Analysis
CHAPTER TWO
Autocorrelation Function and Spectrum of Stationary Processes
A central feature in the development of time series models is an assumption of some form of statistical equilibrium. A particular assumption of this kind (an unduly restrictive one, as we shall see later) is that of stationary. Usually, a stationary time series can be usefully described by its mean, variance, and autocorrelation function, or equivalently by its mean, variance, and spectral density function. In this chapter we consider the properties of these functions and, in particular, the properties of the autocorrelation function, which is used extensively in the chapters that follow.
2.1AUTOCORRELATION PROPERTIES OF STATIONARY MODELS
2.1.1 Time Series and Stochastic Processes
Time Series
A time series is a set of observations generated sequentially in time. If the set is continuous, the time series is said to be continuous. If the set is discrete, the time series is said to be discrete. Thus, the observations from a discrete time series made at times,,...,,hellip;, may be denoted by z(),z(),...,z(),hellip;,z().In this book we consider only discrete time series where observations are made at a fixed interval h. When we have N successive values of such a series available for analysis, we write ,,...,,hellip;, to denote observations made at equidistant time intervals , 2,..., ,hellip;, . For many purposes the values of and are unimportant, but if the observation times need to be defined exactly, these two values can be specified. If we adopt as the origin and as the unit of time, we can regard as the observation at time .
Discrete time series may arise in two ways.
- By sampling a continuous time series: For example, in the situation shown in Figure 1.2 where the continuous input and output from a gas furnace was sampled at intervals of 9 seconds.
- By accumulating a variable over a period of time: Examples are rainfall, which is usually accumulated over a period such as a day or a month, and the yoeld from a batch process, which is accumulated over the batch time. For example, Figure 2.1 shows a time series consisting of the yields from 70 consecutive batches of a chemical process.
Deterministic and Statistical Time Series
If future values of a time series are exactly determined by some mathematical function such as
=cos()
the time series is said to be deterministic. If future values can be described only in terms of a probability distribution, the time series is said to be nondeterministic or simply a statistical time series. The batch data of Figure 2.1 provide an example of a statistical time series. Thus, although there is a well-defined high-low pattern in the series, it is impossible to forecast the exact yield for the next batch. It is with such statistical time series that we are concerned in this book.
Stochastic Processes
A statistical phenomenon that evolves in time according to probabilistic laws is called a stochastic process. We shall often refer to it simply as a process, omitting the word “stochastic.” The time series to be analyzed may then be thought of as a particular realization, produced by underlying probability mechanism, of the system under study. In other words, in analyzing a time series we regard it as a realization of a stochastic process.
For example, to analyze the batch data in Figure 2.1, we can imagine other sets of observations (other realizations of the underlying stochastic process), which might have been generated by the same chemical system, in the same N=70batches. Thus, Figure 2.2 shows the yield from batches t=21 to t=30 (thick line), together with other time series that might have been obtained from the population of time series defined by the underlying stochastic process. It follows that we can regard the observation at a given time , say t=25, as a realization of a random variable with probability density function p (). Similarly, the observations at any two times, say =25 and =27, may be regarded as realizations of two random variables and with joint probability density function p (,). For example, Figure 2.3 shows constant density for such a joint distribution, together with the marginal distribution at time . In general, the observations making up an equispaced time series can be described by an N-dimensional random variable (,,hellip;, ) with probability distribution (,,hellip;, ).
FIGURE 2.1 Yields of 70 consecutive batches from a chemical process.
FIGURE 2.2 Observed time series (thick line), with other time series representing realizations of the same stochastic process.
FIGURE 2.3 Contours of constant density of a bivariate probability distribution describing a stochastic process at two times , ,together with the marginal distribution at time .
Stationary Stochastic Process
A very special class of stochastic process, called stationary processes, is based on the assumption that the process is in a particular state of statistical equilibrium. A stochastic process is said to be strictly stationary if its properties are unaffected by a change of time origin, that is, if the joint probability distribution associated with m observations ,,hellip;,,made at any set of times ,,hellip;,,is the same as that associated with m observations ,,hellip;,, made at times k, k,hellip;, k. Thus, for a discrete process to be strictly stationary, the joint distribution of any set of observations must be unaffected by shifting all the times of observation forward or backward by any integer amount k.
Mean and Variance of a Stationary Process
When m=1, the stationary assumption implies that the probability distribution p () is the same for all times t and may be written p (z). Hence the stochastic process has a constant mean
剩余内容已隐藏,支付完成后下载完整资料
时间序列分析
平稳过程的自相关函数和谱
在时间序列模型的发展过程中,一个重要特征就是对统计均衡关系做某种形式的假设,其中一种非常特殊的假设就是平稳性的假设(我们稍后可以看到,这是一种过分苛刻的假设)。通常一个平稳时间序列能够有效地用其均值、方差和自相关函数(或者等价地用其均值、方差和谱密度函数)加以描述。在这一章中,我们要研究这些函数的性质,尤其是自相关函数的性质,这些内容在以后各章将反复用到。
2.1 平稳模型自相关的性质
2.1.1时间序列和随机过程
一个时间序列是依时间顺序生成的观测值的集合,若该集合是连续的,则此时间序列称为连续的。若该集合是离散的,则称时间序列是离散的。因此从一个离散时间序列在时刻,,...,,hellip;,得到的观测值可以记作z(),z(),...,z(),hellip;,z()。在本书中我们只讨论离散时间序列,且观测值按固定的时间间隔采样。为了进行有效的分析,我们得到N个顺次观测值构成的序列,用,,...,,hellip;,记在等时间间隔 , 2,..., ,hellip;, 得到的观测值。在许多场合和的值是无关紧要的,但是假若观测时刻需要确切给出,这两个值就要确定了。如果我们采用作为原点作为原点,为时间单位,通常可以把看作是时间的观测值。
离散时间序列可由一下两种方式产生:
1.对连续时间序列进行采样:例如图1.2中所示,是对一个煤气炉的连续输入和输出以9秒为间隔的采样。
2.每隔一段时间采集某变量的累积量:譬如,雨量通常就是每隔一段时间(每日或每月)采集一次,批量生产的产量也是每隔一段时间累计一次。例如,图2.1给出的时间序列是由一个化工过程在70个顺次时段的产量所组成的。
若一个时间序列的未来值被某一数学函数严格确定,例如:
=cos()
则称该时间序列为确定性的。若一个时间序列的未来值只能用概率分布加以描述则称之为非确定性的,或简称为统计时间序列。图2.1的一组数据给出了统计时间序列的例子。尽管该序列的图形看起来知识上下波动起伏,但仍不可能精确地预报出下一时段。
图2.1 一个化工过程在70个顺次时段的产量
的产量。在本书中我们所关心的正是这种统计时间序列。
随时间顺次发展且遵从概率法则的统计现象称之为随机过程。今后我们常常省略“随机”二字,简称为过程。我们要考查的时间序列可以看作是所研究系统的一个特殊实现,这一实现是由系统依照基本的概率机制而产生的。换言之,在考查一个时间序列时,我们将其视为某个随机过程的一个实现。例如,为了考查图2.1中的这批数据,不难设想,由同一化工系统在同样的N=70个时段上可能产生许多组观测数据(即基本随机过程的其它实现)。图2.2中粗线表示从t=21到t=30各时段的产量,图中还有其它的时间序列,它们都是从基本随机过程所定义的时间序列总体中可能得到的。由此我们可以认为在任一给定时刻t(例如t=25)的观测值可以看作是联合概率密度函数为p (,)的两个随机变量, 的一个实现。作为例子,在图2.3中给出了前文所述两变量联合分布的概率密度等值线,及其在时刻的边际分布。一般地,由等时间间隔的观测值构成的时间序列可以用概率分布为(,,hellip;, )的N-维随机变量,,hellip;, 来描述。也就是说,在任意的个时刻得到观测值,其
图2.2 观测到的时间序列(粗线),以及表示同一随机过程其它实现的时间序列
图2.3 一个随机过程在时刻, 的两变量概率分布密度等值线,
以及时刻的边际分布
联合概率分布与在时刻观测值的相应分布是一样的。
2.1.2平稳随机过程
随机过程中极其特殊的一类我们称之为平稳过程,这是基于假设过程处于特定的统计均衡状态下而得到的一类过程,假若一个描述随机过程在, ,两变量概率分布随机过程的特性不受时间原点改变的影响,我们便称其为严平稳过程。因此,对于一个具有严平稳性质的离散过程,如果把所有观测时刻都向前或向后推移任意整数,那么相应观测值的联合分布不受影响。
当m=1时,平稳性假设蕴含对于任意时刻概率分布是相同的,可以记为,因此平稳过程具有常数均值
(2.1.1)
该式定义了一个平均水准,随机过程围绕其上下波动,平稳过程的方差也是常数
(2.1.2)
该值用来度量过程在时间平均值附近的离散程度,由于在所有时刻概率分布都是相同的,因此通过对已得观测值序列,,hellip;, 构造的直方图,可推断出分布的形状。此外,随机过程的课程设计思路的均值可用该时间序列的样本均值
(2.1.3)
进行估计,随机过程的方差也可用时间序列的样本方差加以估计。
(2.1.4)
平稳性假定也蕴含着:对于具有常值间隔的所有时刻,联合概率分布是相同的。我们按照等时间间隔(或称滞后)挑出时间序列的数据对,并作散点图,利用散点图也可以推断联合分布得性质。对于图2.1中的那组数据我们作出散点图:图2.4(a)是滞后且关于的散点图;图2.4(b)是滞后且之间是正相关。在平稳性假设下,若相应时间间隔为,那么,和之间的协方差对于任意都是相同的,我们称之为滞后的自协方差,其定义如下:
(2.1.5)
类似地,滞后的自相关函数为
图2.4 图2.1中数据组滞后为1和2的散点图
以上结果是因为对平稳过程而言,在时刻和时刻的方差都是相同的,都是。因此,滞后的自相关(即和之间的相关)是
(2.1.6)
这蕴含。
2.1.3正定性和自协方差阵
对一个平稳过程在个顺次时刻进行取样得到的观测值(,,hellip;, ),与其相应的协方差阵为
从上式中看到,协方差阵是对称的,且任一对角线上的元素都相同。称为自协方差阵,相应的阵称为自相关阵。现在考虑随机变量,,hellip;, 的任一线性函数
(2.1.8)
由于对平稳过程而言,cov [,] =,故的方差为
若不全为零,则上式必然大于零。由此得知任何平稳过程的自协方差阵和自相关阵都是正定的。与此对应,如果我们把自协方差函数{}和自相关函数{}都看作是滞后的函数,对于任意正整数和任意不全为零的常数应有,在这种意义下,自协方差函数和自相关函数都是正定函数。
自相关阵(2.1.7)的正定性蕴含该阵的行列式及所有主子式都是大于零的。特别对于,有
因此
即
类似地,对于必然有
这蕴含
等等。由于对所有的, 都必然是正定的,因此平稳过程的自相关函数必须满足许多条件。在2.2.3中我们将会看到,所有这些条件都可以纳入谱的定义中。
给定和系数,对于平稳过程进行(2.1.8)的线性运算得到,由平稳性的定义推出过程也是也是平稳的。对于在第4章中给出有关非平稳时间序列的讨论,上述结果是非常重要的。
若任意一组时间序列的观测值相应的概率分布是多维正态分布,则该过程称为正态过程或Gauss过程。由于多维正态分布能被它的一阶和二阶矩完全刻画,因此,只要对所有的存在确定的均值和协方差阵,就能充分保证Gauss过程的平稳性。
我们已经看到,对于具有严平稳性质的过程,其全部概率结构必须只依赖于时间之差。如果放宽前述限制,就是所谓的阶弱平稳性—该过程直到阶矩都是只依赖于时间之差。例如,存在确定的均值和形如(2.1.7)的自协方差阵就足以保证直到二阶的平稳性。因此,二阶平稳性加上正态性便导致严平稳性。
2.1.4 自协方差和自相关函数
在2.1.2节中我们已经看到,滞后为的自相关系数用来度量时间间隔为的两个值和之间的方差。如果把看作随滞后而变化,就称{}为随机过程的自协方差函数。类似地,把自相关系数看作滞后的函数,就称{}为过程的自相关函数。我们注意到,自相关函数是无量纲的,它不依赖于时间序列的计量单位。由于,若已知自相关函数{}和方差便相当于已知协方差函数{}。
在图2.5中以图形方式显示自相关阵的对角线元,相关函数表现出时间序列中任意两个值之间的相关性是如何随着时间间隔而改变的。由可知自相关函数必然是关于零点对称的,事实上,只需画出该函数的正半部分。图2.6给出了图2.5中自
图2.5 自相关函数及由此生成过程的自相关函数
图2.6 图2.5中自相关函数的正半部分
相关函数的正半部分。因此,今后当我们提到自相关函数时,通常就是指其正半部分。过去,自相关函数有时也称为相关图。
综上所述,一个正态平稳过程能够被其均值和协方差函数{}(或者等价地,均值、方差和自相关函数{})完全刻画。
2.1.5 自协方差函数和自相关函数的估计
到目前为止,我们只考虑理论自相关函数,并用它来描述一个抽象的随机过程。然而在实际中,我们所具有的却是个观测值的有限时间序列,由此只能得到均值和协方差的估计值。均值由(2.1.3)式给出的样本均值来估计。容易看出,因此是的无偏估计。作为的一个估计量,为度量其精度我们有:
在“大样本”情况下,上面的方差表达式可近似表示为,由此,当有,这里假定。在的表达式中我们注意到,第一个因子是由容量为的独立随机样本得到的的方差,这一表达式是我们熟知的,但是由于之间自相关的存在,自相关值会对的精度产生严重的影响。例如,若平稳过程的自相关是,,方差的大样本近似式成为,第二个因子显然不是1。
统计学家们提出了自相关函数的许多估计方法,在[122]中详细讨论了这些估计的性质],并认为步滞后自相关最令人满意的估计是
(2.1.9)
其中
(2.1.10)
是自协方差的估计,是时间序列的样本均值。(2.1.9)式给出的称为样本自相关函数。
为了说明(2.1.10)式,我们利用图2.1中的前10个数据计算。图2.1的数据在表2.1中给出,表中前10个数据的均值,这些数据相对于均值的偏差分别是-4,13,-28,20, -13,13, 4,-10,8和-3。于是
因此=-1497/10=-149.7。类似地,我们求出=189.6。故
对实用而言,自相关保留两位小数足够了。上述计算只是为了进行说明。事实上,为了得到自相关函数的有效估计,至少需要50个观测值,待估计的自相关函数,,其中一般不超过N/4。
对于整个序列(70个观测值)计算了的前15个值,在表2.2中给出了这些值,并在图2.7中绘出图形。这些估计出的相关函数的特点是:相关性政府交替且随滞后增大而衰减。这类自相关函数对于产品数据来说实在是屡见不鲜,可能是由于“滚动”效应引起的,在这个具体例子中,若某次产量高,使得容器中存留一些生成物,因此而影响下一次的产出。
2.1.6 自相关估计的标准差
我们采用第6章中介绍的方法去识别某个时间序列所适合的模型,常常需要对自相关作粗略的检验,看是否超过某一滞后的等效于零。为此可以利用下面的表达式,这是由Bartlett [32] 对正态平稳过程给出的估计自相关系数方差的近似式
(2.1.11)
表2.2 一组数据自相关函数的估计值
图2.7 一组数据自相关函数的估计值
例如,若,那么,自相关函数呈指数衰减,由(2.1.11)得
(2.1.12)
特别有
对任一过程,如果当时所有的自相关都是零,那么当时,在(2.1.11)式中除了前面几项外,其余各项都是零。因此,在计算自相关估计值的方差时,可以认为滞后大于的理论自相关函数“消失”,由Bartlett近似式得到
() (2.1.13)
在实际中使用(2.1.13)时,是用自相关估计值()代替理论自相关,这时我们称(2.1.13)的平房根为大滞后标准差。假定当滞后大于时理论自相关全为零,那么,只要滞后足够大(),大滞后标准差近似等于的标准差。
在[25]中,Bartlett还给出了不同滞后和的自相关估计值和之间协方差的近似式,特别地,大滞后近似式化简为
() (2.1.14)
Bartlett
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[486516],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。