对于估计数据相关结构的模糊经验copula模型外文翻译资料

 2022-11-10 14:33:14

英语原文共 31 页,剩余内容已隐藏,支付完成后下载完整资料


对于估计数据相关结构的模糊经验copula模型

摘要

经验copula是一种评估高维任意分部式数据的相关结构的无参算法。然而,经验copula的计算过程十分耗时,因此不能实施到实时环境下的应用中。在本章中所介绍的模糊经验copula可减少相关结构估计的计算时间。本章先简短地介绍经验copula。接着介绍基于隶属度局部逼近的模糊聚类(FLAME)以一种全新方式将被整合到经验copula。FLAME 算法会被应用到鉴别描述原始数据集的高密度目标,而经验copula被用来评估不相关结构。已经有两项研究可以证实模糊经验copula的性能和效率,这将在最后展示。

1.介绍

现如今,全球信息朝着更加电子化的方向发展。由于近十年来在数据收集和存储方面的技术提高,由此产生的大量数据会给工程学,经济学以及天文学等领域的诸多研究人员带来信息过载【1】的困扰。每次观察时维度数目和采样时间点的增加是造成信息过载的主要原因。在许多情况下,数据集不仅包含有用的信息,还包含大量无价值的维度(属性)和样本。因此如何删除冗余信息并保留重要信息对许多应用而言就显得至关重要。通常有两种重要的途径来解决这个问题,即减少维度和聚类。前者减少冗余属性的同时维持样本数量,而后来在不改变属性数量的情况下消除了冗余样本。

有各种传统和当前先进的通过减少维度以解决上述问题的途径。主元分析(PCA)由卡尔皮尔逊【2】在1901年提出,主要用于通过保留对方差贡献最大的特征来对数据集进行降维。该理论忽略高阶主元,保留低阶主元,而这种低阶主元通常包含最重要的相位。类似于PCA,因素分析(FA)是另一种二阶处理方法。当FA模型中误差具有相同的方差时,FA基本上相当于PCA。这些二阶方法建立在经典矩阵操作和假设数据集都服从高斯分布的基础上。对于非高斯数据集,引入了例如投影追踪(PP)[4]和和独立成分分析(ICA)[5]等高阶降维方式。此外,非线性PCA也能通过非线性目标函数来确定主体的最优权重,以此来处理非高斯数据。其产生的成分依然是原始变量的线性组合,因此它可以被看作是ICA的特例。其它的非线性方法例如主曲线(PC)【7】和自组织映射(SOM)【8由于用非线性向量实值函数代替ICA的线性变化也被认为是非线性ICA【9】。曲线成分分析(CCA)是一种相对较新的非线性映射方法,它是在sammon映射的基础上由Jeanny Heault和Pierre Demartines【10】改进的。它利用一种全新的成本函数来展开强非线性或甚至封闭的结构,以此大大提高了计算速度并以交互的方式帮助用户控制最小化函数。然而更多的参数应该被考虑到,因为大多数这些高阶和非线性降维方法以及它们的性能极大地依赖这些参数的复杂调整,例如CCA中有三个参数:投影空间维度和两个递减参数。

然而,由于相关结构包含属性的所有相互关系和高阶属性这一点是不能被忽视的,降维方法不能被用到估计数据的相关结构。聚类是将对象分为不同类,以此使得同一类中的对象相互之间比不同类中的对象更具有相似性。它能有效地减少数据样本的数量,所以很适合被用来在分析数据相关结构时减少冗余信息。最常用的算法包含K均值算法【11】,、模糊C均值算法【12】以及模糊C均值派生聚类算法例如模糊J均值算法【13】和模糊SOM【14】,这些以对象间的成对距离来创建分类,所以它们无法捕捉非线性关系,因而不能用非线性结构代替数据集。分层聚类是另一种重要的方法,但不足的是缺少鲁棒性、非唯一性和反演问题【15】。高斯混合模型(GMM)基于假设数据集由具有一定概率的混合高斯分布产生。但是这种假设并不总能满足所有的数据集,甚至在经过旨在改善数据分布的正态性【16,17】的各种转换后也不满足。

Copula是一种用统一边缘分布以各种常规的相关类型能被展示到的方式来阐述多元分布的通用方法。多元分布的copula可以被认为是描述相关结构的部分而不是每个边缘【18】的状态。这是一种良好的研究变量间相关性的无标度测量方法,也是一个建立二元分布族系【19】的良好起点。斯科拉的理论【20】解释了多元分布函数能用约束一元范围的copula函数代替。此外,经验copula由Deheuvels在1979年引入并第一次展开研究【21,22】。它可以被用到由潜在未知的分布来研究边际变量的相互关系中。Copula方法有许多优点【23】而且已经被广泛运用到金融【24-27】和计量经济学【28-30】领域。Kolesarova等人【31】定义了一种在单位正方形网格上名为离散copula的新型copula,并且展示了每个离散copula的同时伴随着双随机矩阵。Baets和Meyer【32】也展示了建立copula的一般框架,这些延伸了正交网络建造的对角结构。同时,经验copula最近引起了日渐增长的关注。Dempster等人【33】创立了基于经验copula的债务抵押债券部分定价,并且比在非标准部分定价中占主导地位的相关方法表现出了更好的性能。Ma和Sun【34】在相关测试的基础上提出了一种类似于Chow-Liu的方法,这一方法基于相关测量并通过经验copula仅由二元相关关系来评估最大跨度乘积copula,同时,Morettin等人【35】基于经验copula提出了能被用于独立同分布的时间序列数据的微波估计法。

尽管经验copula在数据相关结构的估计方面表现出了有效的性能,然而众所周知,经验copula的效率非常低。常见的方法是将未处理过的数据集用巨大的存储量表示,在大多数情况下不可能用经验copula来处理这些数据集。为了克服这一难题,我们提出了一种用经验copula来整合模糊聚类的名为模糊经验copula的算法。由隶属度局部逼近的模糊聚类(FLAME)【17】首次扩展到多维空间的领域,接着FLAME 算法被用于减少样本数据的数量并同时在采用数据相关结构估计之前保持相互关系。这章剩余部分内容安排如下:第二节以重点讲述用经验copula来估计相关结构来阐述copula原理。第三节介绍模糊经验copula算法。第四节展示其结论可证实所提出的模糊经验copula的有效性的实验。总结评论和后续工作将会在第五节展开。

2.通过经验copula估计相关结构

作为表示多元分布的一般方法,copula能被用来研究变量间各种一般相关性。其他表示多元分布的方法包含以概念为基础的方法,在这些方法中变量的现实含义被用于说明可能会产生的某种关系。相反地,通过copulas的方法可能会被认为更原始的,但是这种方法相比于通常被调用到概念方法的方法确实允许更一般类型的相关性。内尔森【19】已经证实了这些测量方法例如肯达尔相关系数,斯皮尔曼秩相关系数和基尼伽玛系数只有根据copula才能重新表示。虽然他们的直接运算可能相比于用copulas耗费更少的计算时间,但copula总结所有的相关关系并提供一种简单的研究和测量数据变量间相关的方法。这是一种非常重要的方式,因为copula的特性在潜在随机变量严格增长的转换中是保持不变的。本章会将斯皮尔曼秩相关系数和基尼伽玛系数纳入考虑范围中。在本节中,我们先回到copula和经验copula理论的创立过程,接着介绍运用二元经验copula计算斯皮尔曼秩相关系数和基尼伽玛系数的定理,最后将对计算的时间复杂性稍作分析。

2.1copula

将一个n维copula定义为多元变量在n维单元立方上的联合分布【0,1】n,因而每个边缘分布在区间【0,1】上是均匀分布。

定义2.1.1一个n维copula为用以下特性从In变化为I的函数C

  1. C为接地,即对于In中的每个u,当至少有一个坐标
  2. 如果u中除了一些uj,j=1,hellip;,n,其余所有的坐标都为1,则
  3. 当C中n增加,即对于每个超矩形

(1)

其中,Vc(B)为B所谓得C积。

斯科拉理论【20】不仅是copula原理的核心部分,而且构成了大多数copula应用的基础。它阐释了copula在多元变量分布函数和它们的各自边缘分布的关系中表现出的作用。

斯科拉定理2.1.1 令H是边缘分布Fi(i=1,2hellip;,n)的联合分布函数,那么存在一个copula函数C对实数集Rn中的所有xi满足

H(x1,hellip;,xn)=C(F1(x1),hellip;Fn(xn)) (2)

其中C是一个n维copula,Fi是xi的边缘分布函数。

若Fi(i=1,hellip;,n)连续,则C是唯一确定的。当C是一个n维copula并且Fi(i=1,hellip;,n)是分布函数,由等式2定义的函数H是一个Fi(i=1,hellip;,n)边缘联合分布函数。更多详情参见【19,23】

2.3经验copula和相关估计

经验copula是基于使用顺序统计理论观察到的数据的变量间相关函数的描述,并且它能再现所研究数据中发现的任何模式。当边缘分布正常化时,经验copula即为面向联合分布的经验分布函数。由于计算时间已经优先考虑二元经验copula。原因有两部分:其一,每两个属性中的相互关系是大多数属性中的基本关系,用二元经验copula构造每两个属性相关的完整结构的方式是实践有效的;其二,数据集X的相关结构中包含r种属性,这将会产生种二元相互关系。二元经验copula示例如下:

定义2.2.1令代表从连续二元分布中获得的大小为n的样本。将经验copula设为函数C

(3)

其中x(i),y(j),代表样本中顺序统计量【19】

经验copula的频率cn

(4)

注意Cn和cn通过下面式子相关联

(5)

定理2.2.1令Cn和cn分别代表对于样本的经验copula和经验copula频率函数。若rho;和gamma;分别代表斯皮尔曼秩相关系数和基尼伽玛系数的样本版本,则

(6)

(6)

斯皮尔曼秩相关系数和基尼伽玛相关系数是两种测量两个变量间联系的方法。根据定义和公理,我们能利用经验copula和斯皮尔曼秩相关系数以及基尼伽玛相关系数来评估变量间的相关关系。假设目标数量为n,特性数目为r。当rlt;lt;n时,根据等式3,6和7,斯皮尔曼秩相关系数和基尼伽玛相关系数的时间复杂度为。

3.模糊经验copula

在本节中首先将由隶属度局部逼近的模糊聚类(FLAME)就维度和距离函数方面进行扩展,然后将其整合到经验copula中以提高计算效率。FLAME曾被用于DNA微阵列数据聚类【17】。它在数据集相对密集的区域中定义聚类,并且仅依据对象邻近关系执行聚类给定。FLAME算法的特色之一是模糊隶属度空间中邻近对象的隶属度根据特征空间中邻近对象间的邻近关系来设定。FLAME已经在维度和距离函数方面有所扩展(即FLAME ),扩展后仍包含FLAME算法的三个主要步骤:初始化,趋近和分配。

3.1初始化

第一步,初始化是为了将三类对象分类,这三类分别是聚类满足对象,聚类离群以及其余为正位点的部分。

设X为有n个对象的r维数据集。两个例子间的r维距离为 (8)

其中

d1为曼哈顿距离,d2为常见的欧式距离,与任意维度的最大距离相一致。两个对象间的相似性计算公式为 (9)

相似性是对两个或多个对象相似的度量。有很多不同的计算相似性的方法。因为FLAME聚类算法【17】中有描述当超过距离K最近邻的平均距离时纳入计算每个对象密度,为了使相似性与密度间的关系更加直观简单,在本章中我们选取等式9来计算相似性。

K最近邻(KNNs)对于每个对象定

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[137993],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。