英语原文共 25 页,剩余内容已隐藏,支付完成后下载完整资料
大数据挖掘与分析
ISSN 2096-0654 01/06第83–107页
第1卷,第2期,2018年6月
DOI:10.26599/BDMA.2018.9020003
多视图聚类研究综述
摘要:在大数据时代,数据是从不同的来源产生或从不同的角度观察的。这些数据称为多视图数据。在大数据挖掘和分析中,充分发挥知识在多视图数据中的作用是非常重要的。这就需要在融合这些数据的同时考虑不同视图的多样性的高级技术。多视图聚类(MvC)是近年来引起人们越来越多的关注的一种方法,其目的是利用多个视图之间的互补性和一致性信息。本文总结了大量的多视图聚类算法,并根据所涉及的机制和原理进行了分类,将这些算法分为五类,即协同训练型算法、多核学习算法、多视图图聚类算法、多视图子空间聚类算法和多任务多视图聚类算法集群。其中,多视图图聚类又分为基于图、基于网络和基于谱的方法。多视图子空间聚类又分为基于子空间学习的聚类方法和基于非负矩阵分解的聚类方法。本文不仅介绍了每类方法的机制,还举例说明了如何使用这些技术。此外,它还列出了一些公共可用的多视图数据集。总的来说,本文是多视图聚类的介绍性文本和综述。
关键词:多视图聚类;协同训练;多核学习;图聚类;子空间聚类;子空间学习;非负矩阵分解;多任务学习
1简介
在大数据挖掘和分析的许多实际应用中,数据是从不同领域的不同来源收集或从不同的特征采集器获取的。例如,网站上共享的图片往往有相应的文本标记和描述;特定的新闻由多个新闻机构报道;传感器信号在时间域和频率域分解;相同的语义、含义(例如,hello)用多种语言形式表示;图像由不同类型的特征描述。所有这些都称为多视图数据。这些数据表现出异质性,但具有潜在的联系。换言之,在这些数据中,每个单独的视图对于特定的知识发现任务都有其特定的属性;但是,不同的视图通常包含应加以利用的补充信息。因此,如何利用这些信息,挖掘多视图数据的潜在价值,在大数据研究中具有十分重要的意义。在现实数据分析中的应用也需要能够处理多视图数据对象的先进技术,以将数据挖掘和知识发现推向新的高度。
在过去的十年中,大量的机器学习技术被研究用于处理多视图数据。良好的调查在参考文献中进行了多视角学习。[1-3]。此外,Zheng[4]对多视图(跨域)数据融合的方法进行了综述,并讨论了一些具体的应用。现有的多视角学习技术大致分为有监督学习和无监督学习。本文主要研究一种无监督学习技术,即聚类。聚类已经成为探索数据底层结构的一种强有力的替代学习工具[5,6],特别是在大数据时代[7]。聚类算法的基本思想是根据一定的准则对一组数据对象进行划分,将相似的对象划分为同一个簇,将不同的对象划分为不同的簇。
在过去的几十年中,许多先进的聚类算法已经被研究过。虽然这些聚类算法在一定程度上已经取得了成功,但大多只适用于单视图数据。即使将所有视图连接到单个视图中,然后在此单个视图上采用最新的聚类算法,也可能无法提高聚类性能,因为由于每个视图都有其特定的统计特性,因此这种方法在物理上没有意义。相比之下,多视图聚类(MvC)通过考虑不同视图的多样性和互补性,能够有效地对多视图数据进行聚类。MvC的早期研究,如多类型相关数据的增强聚类[8]、DBSCAN的多视图版本[9]、基于EM和凝聚算法的两视图版本[10]等,大约始于2003年。MvC作为一种先进的聚类模式,近年来受到越来越多的关注。迄今为止,已结合相关国际会议举行了四次研讨会[11-14]和一次小型研讨会[15]。在MvC环境下,所有算法的一个固有问题(也是目标)都必须被仔细地处理,就是找到一种方法来最大化每个视图中的聚类质量,同时考虑到不同视图之间的聚类一致性。此外,不完整的多视图数据也给MvC带来了挑战,其中一些数据对象可能会丢失对一个视图的观察(即丢失的对象),或者只能用于该视图的部分特征(即丢失的特征)。
在本文中,我们回顾了一些有代表性的MvC方法。根据这些方法所依据的机制和原则,我们在参考文献中进行了多视角学习。[1-3]。此外,Zheng[4]对多视图(跨域)数据融合的方法进行了综述,并讨论了一些具体的应用。现有的多视角学习技术大致分为有监督学习和无监督学习。本文主要研究一种无监督学习技术,即聚类。聚类已经成为探索数据底层结构的一种强有力的替代学习工具[5,6],特别是在大数据时代[7]。聚类算法的基本思想是根据一定的准则对一组数据对象进行划分,将相似的对象划分为同一个簇,将不同的对象划分为不同的簇。
符号和定义:我们从描述本文中使用的符号开始。本文中的矩阵和向量分别用大写字母和小写字母书写。表1总结了常用符号和相应的定义
2、MvC的2个原则
本节分析了MvC的两个重要原则,即互补性原则和一致性原则。这两个原则部分地回答了为什么MvC是有效的,基本假设是什么,以及最重要的是MvC应该如何建模和执行。
通过参考文献[16],我们对这两个原则进行了说明。给定具有两个视图的数据对象,该数据对象被映射到如图1所示的潜在数据空间中。从图1可以看出:
(1) 个别观点中存在某些成分(A部分和C部分),如观点1中的A部分和观点2中的C部分,即两种观点的互补性;以及(2)两种观点都认同对象的某些成分(B部分),即两种观点之间的共识。接下来,我们分析这两个原则如下:互补原则
为了更全面、准确地描述数据对象,需要使用多个视图。在在多视图数据的上下文中,每个视图都足以完成特定的知识发现任务。然而,不同的观点往往包含相互补充的信息。例如,在图像处理领域,每个图像都由不同类型的特征描述,如LBP、SIFT和HOG,其中LBP是一种强大的纹理特征,SIFT对图像的光照、噪声和旋转具有鲁棒性,HOG对边缘信息敏感。因此,有必要利用这些相互补充的信息来描述这些数据对象,并为内部聚类提供更深入的见解。
共识原则:这一原则旨在最大限度地提高不同观点之间的一致性。基于可能近似正确的分析,Dasgupta等人[17]提出了一致性原则的泛化误差分析。给定一个多视图数据集X,这个数据集有两个视图X1和X2。在一些温和的假设下,Dasgupta等人[17]分别证明了两种假设在两种观点上的一致性之间的联系。这种联系被表述为以下不等式P .f 1 frasl; f 2/ gt; maxfPerr.f 1/; Perr.f 2/g (1从这一不等式中,我们得出结论:两个独立假设不一致的错误概率是两个假设错误率的上界。因此,最小化两个假设的不一致将导致每个最小化假设的错误率;即,最大化两个假设的一致性(或一致性)将导致每个最小化假设的错误率。这称为最大化一致性策略。协同训练[18]是一项里程碑式的技术,是应用最广泛的多视角学习方案之一。为了使两个未标记数据视图之间的相互一致性最大化,通过学习或相互提供标记数据,交替训练标准协同训练算法。在聚类方面,De Sa[19]开创了两视图谱聚类算法,其灵感来自于最小化分歧(与最大一致性相同的概念)。还有许多共同训练风格的MvC算法(见第3.1节)。
综上所述,互补性原则和共识性原则在解决MvC问题中都发挥着重要作用,要充分利用多视角
3多视图聚类
3.1协同训练式算法
研究了多视角一致下的协同训练算法。这一类方法旨在最大限度地实现所有观点之间的相互同意,并达成最广泛的共识。常规协同训练算法的一般过程如图2所示。根据该过程,通过使用先验信息或相互学习知识,交替训练算法,使两个不同视图的一致性最大化。注意,共同训练的成功主要取决于三个假设:(1)充分性:每个视图都足以独立完成学习任务;(2)相容性:目标函数导出两个视图中高概率共同出现特征的相同预测;(3)条件独立性:所有视图都提供学习标签在有条件的独立中。然而,在实践中,通常很难满足条件独立假设。因此,研究了几个较弱的假设,如弱条件依赖假设[20]、较弱的“扩张”假设[21]和差分假设[22]。此外,还研究了co-EM[23]、co-regulation[24]和co-clustering[25]等co-training的扩展版本。
上述方法大多是针对半监督学习环境下的多视图数据设计的。在无监督学习(即聚类)中,Bickel和Scheffer[10]首先采用协同训练的思想研究了MvC,提出了两种文本数据的MvC算法。一种是在视图之间交替工作的多视图EM算法,另一种是受联合训练算法启发的聚合算法。结果,Bickel和Scheffer[10]得出结论,多视图EM算法明显优于单视图EM算法算法;但是,聚集算法导致了负面的结果。此外,他们还研究了多视图数据分析中用co-EM估计混合模型的问题[26],通过证明co-EM算法是混合模型估计的一个特例,有助于对多视图采用混合模型估计。此外,Tzortzis和Likas[27]提出了一种加权的多视图凸混合模型,该模型通过EM自动为视图分配权重。假设相似的数据对象被分组到同一个簇中,而不考虑视图,Kumar和DaumeIII[28]提出了一种多视图谱聚类的联合训练方法,其中,集群通过使用彼此的补充信息引导到不同的视图。Kumar等人[29]进一步提出了一种多视图谱聚类的联合正则化方法,其中图Laplacians被施加在所有视图上,而正则化则施加在Laplacians的特征向量上,以便一致地引导产生的聚类结构。受Kumar等人[29]工作的启发,Ye等人[30]讨论了MvC的共正则核K-均值。该方法从数据中自动学习不同视图的权重。此外,为了对进程执行(traces)[31]进行聚类,研究了一种具有协同训练策略的多视图感知方法,该方法认为事件日志的跟踪是由多个跟踪配置文件描述的,并将迭代协同训练策略应用于进程挖掘设置。文献[32]提出了MvC的共正则概率潜在语义分析(PLSA)模型。它背后的核心思想是,从一个角度来看,主题空间中的样本相似性应该与另一个角度一致。为了解决视图间部分映射(即不完整视图)的问题,在文献[1]中研究了基于成对约束传播的多视图约束聚类。[33,34]。换句话说,参考文献中提出的方法。[33,34]使用co-EM迭代估计每个视图中的传播,在视图之间传递给定的成对约束,更新聚类模型,最后学习所有视图的统一聚类结果。
研究了基于协同聚类(同时对对象和特征进行聚类)的MvC。例如,Meng等人[35]提出了一种异构数据协同聚类方法,该方法不仅将融合从两个视图扩展到多个视图,而且对多个数据源的特征进行加权。基于矩阵分解,不管视图如何,将一个点分配给同一个簇,就像大多数基于联合训练的MVC方法一样,Kumar和DaumeIII[28]从一个视图进行谱嵌入,以约束另一个视图的相似图。通过迭代执行这个过程,两个视图的集群趋向于彼此。
3.2多核学习
多核学习最初是为了提高线性核、多项式核和高斯核等可能的核函数的搜索空间容量,以实现良好的泛化。由于多核学习中的核自然对应于不同的视图,多核学习在处理多视图数据方面得到了广泛的应用。多核学习方法的一般过程如图4所示,其中不同的预定义核用于处理不同的视图。然后将这些核进行线性或非线性组合以得到统一的核。在MvC环境下,基于多核学习的MvC旨在优化组合一组预定义的核,以提高聚类性能。在这种方法中,一个基本问题是如何选择合适的核函数,并将这些核函数进行最佳组合。
在单视图场景中,基于最大边缘聚类[42],Zhao等人[43]提出了一种多核聚类算法,它可以同时找到最大边缘超平面、最佳聚类和最优核。Du等人[44]在核空间上进行了稳健的K-均值(l2;1-范数)算法,提出了一种多核K-均值算法,能够同时找到最优的聚类标记、聚类隶属度和多核的最优组合。值得强调的是,这种类型的上述算法可用于在图1所示的框架下处理多视图数据。
在多视图场景中,De Sa等人[45]构造了一种基于最小分歧算法的自定义核组合方法[46,47]。明确地不管视图如何,将一个点分配给同一个簇,就像大多数基于联合训练的MVC方法一样,Kumar和DaumeIII[28]从一个视图进行谱嵌入,以约束另一个视图的相似图。通过迭代执行这个过程,两个视图的集群趋向于彼此。
3.2多核学习
多核学习最初是为了提高线性核、多项式核和高斯核等可能的核函数的搜索空间容量,以实现良好的泛化。由于多核学习中的核自然对应于不同的视图,多核学习在处理多视图数据方面得到了广泛的应用。多核学习方法的一般过程如图4所示,其中不同的预定义核用于处理不同的视图。然后将这些核进行线性或非线性组合以得到统一的核。在MvC环境下,基于多核学习的MvC旨在优化组合一组预定义的核,以提高聚类性能。在这种方法中,一个基本问题是如何选择合适的核函数,并将这些核函数进行最佳组合。
在单视图场景中,基于最大边缘聚类[42],Zhao等人[43]提出了一种多核聚类算法,它可以同时找到最大边缘超平面、最佳聚类和最优核。Du等人[44]在核空间上进行了稳健的K-均值(l2;1-范数)算法,提出了一种多核K-均值算法,能够同时找到最优的聚类标记、聚类隶属度和多核的最优组合。值得强调的是,这种类型的上述算法可用于在图1所示的框架下处理多视图数据。
在多视图场景中,De Sa等人[45]构造了一种基于最小分歧算法的自定义核组合方法[46,47]。明确地上述)也说明他们提出的算法可以计算缺少视图的样本仿射度。在没有完全视图的情况下,Shao等人[57]提出了一种集体核学习算法,以推断隐藏样本的相似性。这种方法背后的思想是通过优化这些视图的共享实例的对齐来共同完成不完整视图的核心矩阵。此外,不同于现有的一些方法,先对不完全核进行插补,然后对输入核应用一种可用的多核聚类算法,Liu等人[58]将核插补和聚类集成到不完全MvC的统一学习过程中。
例2:多核学习的一个挑战是选择合适的核函数(如线性核、多项式核和高斯核),它们将原始的低维空间映射到高维空间。多视图数据处理的一般方法是使用多个核函数的线性组合,
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[236386],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。