英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料
鲁棒的图正则化非监督特征选择
- 摘要
最近的研究表明,在非监督特征选择(UFS)中,保留局部数据的几何结构至关重要,通常使用研究充分的图拉普拉斯来捕获。通过使用平方,我们观察到常规的图拉普拉斯算子对嘈杂的数据比较敏感,从而导致不令人满意的数据处理性能。为解决此问题,我们通过特征自表示和鲁棒图正则化,提出了一个统一的UFS框架,旨在从以下两个方面降低对异常值的敏感:1)使用表征特征表示残差矩阵;2)采用基于的图拉普拉斯正则化项来保留数据的局部几何结构。通过这种方式,提出的框架能够减少噪声数据对特征选择的影响。此外,提出的基于的图拉普拉斯易于扩展,可以方便地将其集成于其他UFS方法和具有局部几何数据结构的机器学习任务中。通过在十几个具有挑战性的基准数据集上所展示的,我们的算法显着且始终优于文献中最新的UFS方法,表明所提出的UFS框架的有效性。
- 引言
随着数据采集技术的飞速发展,有大量未标记的高维数据需要处理(Chang, Lijuan, Xiao, amp; Minhui, 2017; Dy, Brodley, Kak, Broderick, amp; Aisen, 2003; Guyon amp; Elisseeff, 2003; Javed, Sobral, Bouwmans, amp; Jung, 2015)。这些数据通常包含很多噪音特征,这不利于数据处理。作为一种缓解此问题的典型方法,非监督特征选择(UFS)引起了越来越多的关注。作为改善数据挖掘任务(例如聚类和分类)性能的重要预处理步骤( Song, HaiYan, amp; Jing, 2017; Uysal, 2016 ),UFS的目的是从未标记的高维数据中选择可区分的特征子集并删除其他嘈杂和不重要的特征。
有许多UFS方法已经提出来了,这些方法大致可分为三类:过滤器法(He, Cai, amp; Niyogi, 2005; Zhao amp; Liu, 2007),包装法( Dadaneh, Markid, amp; Zakerolhosseini, 2016; Kohavi amp; John, 1997; Maldonado amp; Weber, 2009; Tabakhi, Moradi, amp; Akhlaghian, 2014 )以及嵌入法( Cai, Zhang, amp; He, 2010; Hou, Nie, Li, amp; Yi, 2014; Li, Liu, Yang, Zhou, amp; Lu, 2014; Nie, Wei, amp; Li, 2016; Wang, Tang, amp; Liu, 2015; Wang, Liu, Nie, amp; Huang, 2015; Li amp; Tang, 2015; Zhao, Wang, Liu et al., 2010; Zhou, Xu, Cheng, Fang, amp; Pedrycz, 2016; Zhu, Zhu, Hu, Zhang, amp; Zuo, 2017 )。嵌入法在许多方面都优于其他方法,并且越来越受关注。最近文献表明,保留全局成对样本相似性和数据的局部几何结构,对于特征选择非常重要。而且,在UFS方面,保留局部几何结构显然比保留全局成对样本相似性更重要( Liu, Wang, Zhang, Yin, amp; Liu, 2014; Nie et al., 2016; Wang, Tang et al., 2015; Zhou et al., 2016; Zhu, Hu, Zhang, amp; Zuo, 2016 )。图拉普拉斯,作为一个经充分研究过的模型,通常用于在UFS和其他机器学习任务中捕获局部几何结构。
尽管在各种实际应用中显示出不错的性能,但我们已经发现,对于以前的图正则化UFS方法,至少存在两个问题。首先,通过使用平方,我们观察到常规图拉普拉斯算子对嘈杂的数据敏感。由于现实数据通常包含很多噪声样本和特征,基于的图拉普拉斯将导致数据处理性能不令人满意。其次,Frobenius规范已经广泛应用于许多方法中去规范特征表示项( Liu et al., 2014; Wang, Tang et al., 2015; Zhou et al., 2016 ),这使得传统的方法对数据异常值敏感,最终导致特征选择性能不理想。
为解决上述两个问题,我们通过特征自表示和鲁棒的图正则化,提出了一个统一的UFS框架,并且该框架对于嘈杂的数据和离群值是鲁棒的。使用所选择的特征,在十个具有挑战的基准数据集上的聚类性能表明,所提出的框架是有效的。总之,本文的主要贡献如下:
- 我们提出了一个统一的、鲁棒的,正则化UFS模型,该模型可以很好地保留数据的全局结构和局部结构。
- 分别使用和来规范化特征自我表示项和图拉普拉斯项,这使我们的模型对嘈杂的特征和离群值更加鲁棒。
- 我们提出的基于的图拉普拉斯易于扩展,我们基于乘数交替方向法(ADMM),开发了一种用于求解优化问题的有效求解器( Boyd, Parikh, Chu, Peleato, amp; Eckstein, 2011 )。
- 对十个基准数据集进行了全面的实验,以证明所提出模型的有效性,并证明了其相对于其他最新方法的优势。
本文的其余部分安排如下:与UFS相关的工作介绍于第2节。在第3节中,我们首先提出一种基于传统的图拉普拉斯正则化的鲁棒UFS算法,即基于的图正则化UFS (-UFS)。考虑到易受噪声数据样本和特征的影响,因此我们为UFS引入了基于的图拉普拉斯正则化项,即基于的图正则化UFS (-UFS),更能抵抗噪声。在第4节中,提出了解决模型的优化算法,并给出了收敛性和计算分析。在第5节中解释了我们提出的方法和以前的工作。在第6节中展现了实验结果和参数灵敏度分析。最后在第7节中进行总结。
- 相关工作
由于获取没有标签的数据很容易,而获取有标签的数据通常是昂贵且费时的。因此,开发UFS技术来改善机器学习和数据挖掘任务是非常有需求、有前途的。在UFS中,选择的特征是依据某些标准的,这些标准是通过保持原始数据的某些属性(例如数据分布,特征或局部结构的冗余)的能力来评估特征。由于缺少类标签信息,因此在UFS中广泛使用了作为伪监督信息的结构学习,并且在先前的研究中已经证实了为UFS保留数据几何结构的重要性( Liu et al., 2014 )。
作为常用模型,图拉普拉斯通常旨在捕获UFS和许多其他机器学习任务中的局部几何数据结构。Liu et al. (2014)提出了一种统一的图正则化UFS框架,其模型可用于监督、半监督和非监督特征选择。Zhou et al. (2016)提出了一个全局和局部结构,保留稀疏子空间学习的模型,在该模型中,同时实现了特征选择和子空间学习,并且通过传统拉普拉斯图,保留了局部数据结构。Wang and Wang (2017)将低秩逼近和结构学习结合于UFS。Shang, Zhang, Jiao, Liu, and Li (2016) 通过对偶图正则化,可以同时保留数据空间和特征空间的局部几何信息。为了自适应地确定相似度图矩阵,Nie et al. (2016)提出了一种UFS方法,同时执行特征选择和局部结构学习。之前这些UFS工作的实验结果说明了,图正则化对于保存局部几何结构的作用。
应该注意的是,之前的图正则化UFS工作中,传统的用于测量数据之间的相似性,然而很容易被噪声影响。因此,基于构造的图也是次优的,不一定反映了数据分布的内在几何结构,这会对特征表示学习过程产生不利影响。为了使图正则化对噪声特征更鲁棒,我们提出了一个基于的图来保留数据的局部结构。此外,为了增强对异常数据的鲁棒性,使用来规范化特征自表示项,而不是像以前那样使用Frobenius范数来完成。我们还针对基于ADMM的优化问题开发了一种确保收敛的高效求解器( Boyd et al., 2011 )。
- 拟议框架
4.1 记号
整篇文章中,矩阵均以粗体大写字母表示,向量以粗体小写字母表示。对于一个任意矩阵,表示第(i,j)项,和分别表示M的第i行和第i列。如果M是方阵,则Tr(M)是M的迹,是的转置。表示两矩阵之间的标准内积。表示大小为mtimes;m的单位矩阵(如果大小已知,则用表示)。M的定义为。是著名的Frobenius范数。
4.2 基于自我表示的UFS
自相似性在现实世界中广泛存在,由于物体的一部分与自身的其他部分(例如:树木和树叶( Eloy, 2011 ),海岸线( Mandelbrot, 1967 ),图像( Buades, Coll, amp; Morel, 2005 ))相似,因此可以理解。自相似性也已成功用于数据处理当中,例如图像的恢复和降噪( Buades et al., 2005 ),超分辨率(Freedman amp; Fattal, 2011; Yang, Huang, amp; Yang, 2010 )。自表示,作为数据处理中一种特殊的自相似形式,在机器学习和数据挖掘领域得到了广泛的应用。例如低秩表示模型(LRR)可以视为一种自表示模型,其中数据矩阵用作基础矩阵。在LRR中,每个样本都可以表示为其他样本的线性组合。
自我表示也已用于UFS中。Zhu et al.提出了用于非监督特征选择的正则化自我表示模型(RSR) ( Zhu, Zuo, Zhang, Hu, amp; Shiu, 2015 )。在RSR中,代表数据矩阵,n和d分别为样本数和特征数。X的每一行代表一个样本,每一列代表一维特征。特征选择问题被描述为多输出回归问题:
其中W是特征权重矩阵。是为增强对异常值的鲁棒性(即(1)式的第一项),对重构残差施加行稀疏;第二项是用于指导特征子集的选择,lambda;是一个正的常数用于平衡两项。尽管RSR模型可以有效地识别最具代表的特征,但他忽略了数据的局部几何结构。保留数据的局部几何结构的重要性在以下降维方面最新文献中得以充分认识:( Chen, Ma, amp; Liu, 2013; Gu, Li, amp; Han, 2011; Liu et al., 2014; Saul amp; Roweis, 2003 )。这激励我们提出一个鲁棒的图正则化UFS框架,在该框架中可以很好地保留数据的局部几何结构。
4.3 鲁棒图正则化UFS
在本小节中,我们提出了一个基于特征自表示的统一鲁棒图正则化UFS框架。首先,传统的基于图被用于保留局部几何结构;考虑到基于的图对嘈杂数据的敏感,我们提出了一个鲁棒的基于的图正则化项、
成对相似图通常用于捕获局部数据几何结构( He amp; Niyogi, 2005; Roweis amp; Saul, 20 0 0; Zhang, Yang, Zhao, amp; Ge, 20 07 )并且嵌入到一些UFS工作中( Liu et al., 2014; Wang, Tang et al., 2015 )。受这些工作的启发,我们提出一个统一、鲁棒的,基于特征自表示的,图正则化UFS框架。我们框架的目标函数如下:
其中第一项用于规范化特征的重构误差并捕获数据的整体结构,第二项用于规范化特征重构系数矩阵,第三项G(W)为图正则化项,用于捕获数据的局部几何结构。和是两个参数,用于平衡和图正则项。
4.3.1
传统的基于的图,例如局部线性嵌入(LLE) ( Roweis amp; Saul, 20 0 0 ),线性保留投影(LPP) ( He amp; Niyogi, 2005 )和局部切空间对齐(LTSA) ( Zhang et al., 2007 )可用于对G(W)进行建模。不失一般性,我们使用LPP来制定基于的图正则化项。
在LPP中,根据以下等式来计算数据点的相似度矩阵S:
其中表示xi的n个最近邻的集合,sigma;是宽度参数。LPP通过下列等式优化线性变换W:
等式(4)要求两个点,在原始空间中相似,在变换后的空间里也相似。
我们的基于图正则化UFS模型表示如下:
用一些简单的代数变换,(5)式可以重写为以下紧凑形式:
其中L是拉普拉斯矩阵,L = D - S,D是对角矩阵,其中,S由(3)式计算而来。在下一节中,我们将得出一个迭代的加权最小二乘(IRLS)算法来解(6)式,并讨论其收敛分析。
4.3.2
在等式(5)中,最后一个图正则化项用于保留局部几何结构。但是,众所周知,基于最小二乘的正则化函数很容易被噪声数据样本所干扰。为解决这个问题,我们提出了一个基于的图正则化方法,该方法使正则化项对嘈杂的数据样本和异常值更加鲁棒。
由于在(6)式的拉普拉斯矩阵L是对称矩阵,故可以使用特征分解将其分解为:
然后(6)式的图正则项可以改写为:
其中。可以看出,等式(8)是二次型。为了提高对噪声数据的鲁棒性,我们提出用代替Frobenius范数。由此引出了基于的图正则化项:
最后,我们基于的图正则化UFS模型()表示为:
对于UFS,使用基于的图正则化而不是基于常规的的图正则化的关键优势在于其稀疏性。众所周知,具有收缩性,从而促进稀疏性。但直观而言,在重建数据矩阵中经常存在噪声和离群点,对于那些离群的数据,会变得非常大,导致整个
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[237349],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。