英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料
组稀疏回归模型在气象数据关联性分析中的运用
摘要
气象数据预测模型的设计存在许多挑战,这些挑战由于气象数据可得高维度性以及时空复杂性,这就表明在设计预测模型时,应该避免参数选择过于狭窄。如今,一系列推动结构性稀疏的模型设计的方式得到了发展,有助于解决以上问题。在这篇论文中,我们证明树型结构范数理论上可以运用到数据关联性分析中。我们考虑了一个比较特殊的模型——组稀疏回归模型,来通过海洋地区气候变量预测陆地地区气候。我们的实验结果表明,SGL模型提供比目前最先进的预测性能更好,仍然是气候可解释的,在其变量中是较好的选择。
关键字:组稀疏回归、气象预测、数据关联性
一 介绍
数据挖掘技术在补充和补充科学研究的几个领域取得了成功。 然而,气象科学问题有一些奇怪的挑战,使得科学有意义的预测问题成为一个复杂的过程。 几个气候变量在地球上的多个位置不同场合被观察到,因此创建了一个非常大的数据集。这些变量互相之间互相依赖。 然而,科学的可解释性和简约性要求我们折中处理气象变量之间关系。从物理学的第一个原理中找出这样复杂的依赖是不可行的。而且,数据挖掘发现潜在的气候变化关系对气候科学界可能是巨大的好处。
稀疏组套索(以下简称SGL)是在这方面非常重要。 对于给定位置的目标气候变量,它允许选择其他位置,这些位置可以被一个或多个变量产生影响。稀疏性的概念就包含在这种技术中,只有在重要位置上的重要变量才能从各种空间位置上的多个潜在协变量中选出。
最近在统计建模方面的工作证明了稀疏性在促进数据结构关联性的可取性。 在这方面努力取得的成功促进了稀疏模型的发展,这些模型在模型特征的相互依赖促进了稀疏性。 这些模型已成功应用于许多领域,如信号处理领域[4],生物信息学[10],计算机视觉[26]等。可以通过训练将稀疏度引入统计模型实现模型的复杂性控制。
经典统计模型通过定义一个损失函数来测量其预测与响应变量的观察值之间的差异,从而训练训练数据。优化路径可以为模型获取最优参数集,从而使损失函数最小。通过添加稀疏正则化函数到损耗中并在参数集上优化该组合,并在最优参数集内引进稀疏性。正则化器通常是参数向量的范数函数。这种结构产生了一个具有凸损失函数和凸范数正则化的稀疏统计模型族。[13,23] 在这篇文献的基础上,最近的工作已经显示出通过使用群体和层级范数规范者来强制依赖关系之间的结构的有效性。这些结构可以从一些外部来源学习,例如一些关键领域,并且在获得更可取和可解释的预测模型方面是有用的。来解决这样的估计问题的有效优化算法已经被提出。最近的结果[19,28]证明了在相当温和的条件下,可以保证一类稀疏估计的数据的关联性。
在本文中,利用开发的分析方法,我们已经证明了树结构分级规范正则化模型可以保证类数据的关联性。我们已经运用稀疏模型通过海洋地区气象数据来预测陆地区域的气候。 假设模型是一个线性回归模型,我们使用了一个最近提出的群组结构稀疏方法,称为稀疏组Lasso(SGL)作为预测任务。 我们在本文中的主要贡献如下:
- 我们为一般层次稀疏性诱导规范正则化估计问题提供统一的数据一致性范围。
- 我们证明,SGL提供比气候科学最先进的更好的预测准确性和更可解释的预测模型。
- 我们通过对其正则化路径的实证分析表明,SGL在协变量选择中是很有效的。
我们在第2节从一个正式描述预测问题气候观点。层次稀疏度诱导规范正则化估计的一致性在第3节得到证明。我们在第4节讨论SGL的优化方法。数据集和方法是在第5节中详细描述。第6至8节介绍了使用SGL对气候数据的实验结果。 最后,我们在第9节得出结论。
二 问题阐述
我们考虑使用取自海洋区域的6个气候变量的信息来预测气候变量在“目标”地区的气候。 特别地,我们选择温度和降水作为所选目标区域的响应变量。 [22]在线性回归模型中使用Network Clusters进行了类似的任务。 作者最近还将线性预测模型的性能与许多非线性预测模型进行了比较[21],分析表明它们通常具有相似的性能。我们使用的统计模型是线性的,可以是定义为:
y sim; X (2.1)
其中y是在目标区域一个气候变量的观测值的n维向量,是与所有位置的所有p变量相关系数,,X是协变矩阵,是噪声矢量。 我们的目标是双重的:
- 了解哪些协变量是相关/重要的为了预测目标变量,
- 根据这些相关性建立合适的回归函数变量
假设噪声向量遵循高斯分布,估计向量等于求解“普通最小二乘法”(OLS)问题:
(2.2)
显然,当n lt;p时,系统是无法识别的,我们将获得多个解决方案OLS。 此外,一般来说,OLS的所有系数将不为零,表示“目标”变量对所有海洋上所有变量的统计依赖。 如统计学文献[13]众所周知的,OLS估计具有较大的差异,因此不健全。 此外,由于存在许多虚假依赖性,估计在气候科学方面是不可解释的。
在这种情况下,正则化器r()被添加到平方罚函数中,以便具有更强的估计 [13]。 在许多应用中,如气候,数据之间的关联性通常是稀疏的,意味着大部分系数为是0 [25,24]。 为了在估计中促进稀疏性,通常使用稀疏促进凸规范正则化[23,1]。 这些稀疏方法与传统的特征选择方法相比有了明显的计算优势,统计学已经证明了该模型的可取性[28,1]。
如前所述,我们问题中的协变量是在全球海洋地区测量的6个气候变量。 数据的这种空间结构表示每个海洋地点的变量的自然“分组”。简单的稀疏正则化器,如LASSO模型[23]不遵循数据固有的这种结构。因此,需要有正则化器强化结构化的稀疏性,具有这种空间性质。 我们使用的模型集成了这样一个正则化器,被称为组稀疏套索(SGL)[12]。 下一小节描述了该模型。
SGL及其分级规范:我们促进结构化稀疏性的动机来自于预测目标变量的事实,如果海洋上的特定位置是不相关的,则该位置处的所有6个变量的系数应为零。 此外,如果某个特定位置被视为“相关”,那么我们应该能够选择该位置的“最重要”变量来进行预测。
为了使问题规范化,让T是海洋地点的总数。 因此,我们在回归问题中将p = 6T变量作为协变量。那么,对于罚参数,SGL估计器由以下公式决定:
OLS= (2.3)
其中r是SGL正则化器,由以下公式决定:
r():=r(1,g2,)= (2.4)
其中
其中,g={G1,hellip;GT}是所考虑的T位置的变量组。混合范数惩罚不相关位置的变量组,而L1范数促进在选定位置选择的变量之间的稀疏性。
SGL正则化器属于一般的凸规范正则化r(.)类,它在稀疏性条件下采用树结构的层次结构[17,14]。 这种规范在由指数集合{1,hellip;,p}形成的组之间采用层次结构。 假如有一个带有p个叶子的树,让树的节点表示索引组中的索引组。 树的根表示包含所有p个索引的单个组,而每个叶表示单个索引。 现在,树的任何节点都是受限制的,其中包含的元素(索引)应该是其父节点中包含的元素(索引)的子集。
在下一节中,按照[19]中的分析技术,我们证明,在相当一般的条件下,层次树结构规范正则化估计数据相关性实参数从数据样本本(X,y)从中生成。 我们说明SGL正规者是这种规范的特例并且为SGL的关联性提供明确的界限。
三 组稀疏回归模型的一致性
3.1 公式
令表示根据一些服从P分布得到的n个观察目标,假设我们有兴趣估计P集合中一些参数。令L:Rp*Zn是一些凸损失函数,对于给定的一组观察样本,分配成本L( )到任何参数Rp 。我们假设认为因素R()=独立于n,我们使是群体中风险的最小值。 按统计标准,为了从数据集中排除估计参数矢量,我们得到一个将损失函数与正则化程序相结合的凸程序。 对于正则化函数r:Rp,考虑给出的正则化M估计量:
(3.5)
其中,gt;0是用户定义的正则化惩罚。
为了本文的目的,我们考虑在(2.1)中给出基于协变量对n个观察响应的的线性模型。我们假设噪声向量是零均值,并且具有亚高斯,即:存在常数gt; 0,使得对于任何v ,= 1,我们有:
(3.6)
其中,。
在高斯噪声的特殊情况下,该条件成立;每当噪声矢量由独立的有界随机变量组成时该结论也成立。
3.2正则化和损失函数的假设
在[19]中提到,分析的第一个关键要求是正规者r的属性。这个正规者在定义上是可分解的。
对于,若:,其中是B的正交空间,则有:
(3.7)
定义:,且从而得出:
一些误差范数是给定的。所以,如果L是凸的,我们可以定义一下集合:
(3.8)
对于
详细证明在[19]中给出。
第二个关键要求,如[19]中陈述,L要满足有限的强凸度(Restricted Strong Convexity,简称(RSC))特性。我们定义:,
L符合RSC性质,其曲率gt;0。对于容忍函数,若,有:
(3.9)
此外,[19]对于任何子空间定义关于对的子空间兼容性常数如下:
(3.10)
基于L是凸的和可微分的,规范正则化r是可分解的假设。 对子空间,[19]呈现以下关键结果:
定理1:
如果(3.5)中的凸程序基于严格的正规化常数,即
. (3.11)
则任意最优解满足以下条件:
(3.12)
3.3分层树结构规范分析
我们现在提供第(2)节中描述的分层树结构规范正则化器的数据一致性分析。让树的高度为h 1,叶的高度为0,根的高度为h 1。使组中高度的最大i值为mi。 假设高度i处的节点(组)由表示; j = 1,hellip;ni。 注意,n0=p和m0=1。高度i的群体规范计算为:
(3.13)
对于(i=0,1,2hellip;.h),有:
1.
2.
树状规范器定义为:
(3.14)
我们分析包含三个主要部分:
1. 是可分解的
2.损失函数满足RSC性质
3.的选择需要满足给定的下限
依据[19],我们假设,对k=1,hellip;,p,有:
(3.15)
需要注意的是地重新调整数据来满足该假设,因此不失一般性。 此外,上述假设意味着:
(3.16)
操作范数定义:
3.3.1 规范器的可分解性
我们可以注意到,树中特定高度的群体规范超过不相交的群体。 因此,它分解了每个组跨越的子空间。因此,按照[19]中的定义和参数,树规范器是可分解的。
3.3.2受限的强凸度
如[19]所示,损失函数L的RSC等价于协变量矩阵X上的受限特征值条件。如果X是通过采样每行,即-高斯组合,则L很大程度满足RSC。[29]已经保证该结论可以延伸到子高斯设计。
3.3.3 的界限
定理1表明,应符合应满足以下下限:
(3.17)
上述下限的关键问题在于它是随变化的随机变量。 第二个问题是的共轭矩阵可能无法以封闭(非变化)形式获得。 所以我们先得到的上限为,并选择一个可能性高于满足(3.17)的下限。
通过定义:
(3.18)
其中,(a)服从Jensen不等原理,是的共轭范数。值为:
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[27226],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。