缩小差距:随机森林的理论和应用外文翻译资料

 2022-11-18 17:09:27

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


缩小差距:随机森林的理论和应用

Misha Denil1 David Matheson2 Nando de Freitas1,2

(1.牛津大学,英国;2.英属哥伦比亚大学,加拿大)

摘要:尽管人们对随机森林有广泛的兴趣也进行了实际应用,但是它的理论特性仍然不是很好理解。 在本文中,我们通过两种方法对理解其特性进行了研究。我们提出了一个新的理论上易操控的随机回归森林的变体,并证明了我们的算法是一致的。 我们还提供了一个经验评估,将我们的算法和其他理论上易操控的随机森林模型与实践中使用的随机森林算法进行比较。我们的实验为那些理论家为了分析而获得易操控的模型而进行的不同简化的相对重要性提供了深刻的洞见。

1.引言

随机森林是一种集合方法,它通过平均几个独立的基底模型的预测结果来进行预测。 自从Breiman(2001)将它公之于众以后,作为一种通用的分类和回归方法,随机森林框架已经非常成功。尽管被广泛使用,随机森林的理论认识和实际使用之间仍存在差距。大量的随机森林算法在文献中出现,并在实践上取得了很大的成功。然而,这些算法很难分析,甚至原始变量的基本数学特性也不能被很好地理解(Biau,2012)。

这种事态导致了在文献中随机森林的理论和经验出现两极分化。以经验为重点的论文描述了对基本随机森林框架的详细扩展,增加了具体的细节来推动了现有技术的发展,但没有得到保证(Schroff等,2008; Shotton等,2011 ; Montillo等,2011; Xiong等,2012; Zikic等,2012)。相反,理论的文章注重于简化随机森林的标准框架以更易分析。在这方面值得注意的贡献是Biau(2008)和Biau(2012)等人最近的论文。

在本文中,我们在易处理的理论基础上提出了一个新的随机回归森林变种,这降低了以前工作中的两个关键简化假设的比重。我们还提供了标准随机森林与已被理论界分析的几个模型之间的经验比较。 我们的算法实现了理论上易处理的模型和迄今为止的实用算法之间的最接近的匹配,无论是在算法的相似性还是在经验性能方面。 我们对之前没有出现过在文献中的理论模型的经验比较,为获得易处理的分析而对标准算法进行简化分析的不同简化的相对重要性提供了重要见解

2. 相关工作

随机森林(Breiman,2001)最初被设想为一种使用装袋技术组合(Breiman,1996)的几种CART(Breiman等,1984)样式决策树的方法。 他们的早期发展受Ho(1998)的随机子空间方法,Dietterich(2000)的随机分裂选择方法以及Amit&Geman(1997)关于特征选择的工作的影响。 在随机森林中使用的几个核心思想也出现在Kwokt&Carter(1988)关于决策树集合的早期工作中。

在它们被公之于众的几年间,随机森林已经从单一算法发展到整个模型框架(Criminisi et al。,2011),并且在各种领域得到了很好的应用(Svetnik et al。,2003 ; Prasad等,2006; Cutler等,2007; Shotton等,2011; Criminisi&Shotton,2013)。 尽管随机森林在实践中被广泛地运用,但其成功背后的数学原理并未得到很好的理解。例如,Breiman(2004)的早期理论工作基本上是基于直觉和数学启发式的,直到最近才被严格正式化(Biau,2012)。 对随机森林的理论研究的兴趣主要有两个特性。首先是该算法产生的估计量的一致性,它(粗略地)提出了当数据集增长到无限大时我们是否能保证收敛到最优估计量的疑问。除了一致性之外,我们也对收敛速度感兴趣;但在本文中,我们关注的是一致性。让人讶异地是,即使对于Breiman的原始算法而言,一致性也还没有建立。

理论论文通常关注实践中使用的算法的程式化版本。这方面的一个极端例子是Genuer(2010; 2012)的工作,该工作研究了一维的随机森林模型中的完全随机分裂。研究人员以放弃简化性的代价获得了易处理性,并且这个机智的假设是即使尚未建立正式关系,在简化模型中被证明的原理为他们的更复杂的等价物提供了深刻的理解。随机森林理论的一个重要里程碑是Biau等人的工作 (2008),证明了几个随机集成分类器的一致性。 Biau等人研究的两种模型(2008)是对Breiman(2001)提出的算法的直接简化,其中两种简化是是简单的随机邻域平均,从Lin和Jeon(2006)的角度可以看作随机森林的简化。最近Biau(2012)分析了最初在Breiman(2004)中引入的随机森林变体,它与原始的算法非常相似。 Biau(2012)模型与Breiman(2001)模型的主要区别在于如何选择候选分割点,前者需要第二个独立的数据集来拟合叶子预测因子。

虽然Breiman算法的一致性问题仍然存在,但在一些特殊情况中也被证明可行。特别是,Meinshausen(2006)已经表明,分位数回归的随机森林模型是一致的,Ishwaran&Kogalur(2010)也已经显示了他们的生存森林模型的一致性。 Denil等人(2013年)表明了随机森林在线版本的一致性。

3.随机森林

在本节中,我们简要回顾随机森林框架。如果有对更详细的回顾的需求,我们引荐读者去看Breiman(2001)和Criminisi等人(2011年)的工作。 随机森林是通过结合多棵独立被训练的树的预测而建立起来的,与提升方法(Schapire&Freund,2012)不同。提升方法是基础模型通过复杂的加权方案进行训练和组合,通常树会被独立地进行训练,然后通过平均法森林的预测因子被组合。

构建随机树时有三个主要选择,分别是(1)分裂叶子的方法,(2)每片叶子中使用的预测因子的类型,以及(3)将随机性注入树中的方法。 指定分裂叶子的方法需要选择候选分割的形状以及评估每个候选者质量的方法。这里的典型选择是使用轴对齐的分割,其中数据被输送到子树,取决于它们是否超过选定维度中的阈值;或线性分割,其中特征的线性组合被阈值化以作出决定。任何一种情况下的阈值都可以随机选择,也可以通过优化叶中数据的函数来选择。 为了分割叶子,生成候选分割集合并评估标准以在它们之间进行选择。一个简单的策略是随机均匀地在候选人中进行选择,如Biau等人分析的模型。 (2008年)。

更常见的方法是选择候选分割,以优化将要创建的叶子上的纯度函数。这里的一个典型选择是最大化信息收益(Hastie等,2013)。 每个叶片中预测器的最常见选择是使用落在叶片上的训练点的平均响应。 Criminisi(2011)探讨了几种不同的叶片预测因子在回归和其他任务中的应用,但这些概括不在本文的讨论范围之内。我们在这里只考虑简单的平均预测因子。 将随机性注入到树结构中可能会以多种方式发生。可以随机选择在每个叶子上使用哪些维度作为分割候选者,以及随机组合特征的系数选择。在任何一种情况下,阈值都可以随机选择,也可以通过对叶中某些或全部数据进行优化来选择。 引入随机性的另一种常用方法是使用自举或子采样数据集来构建每棵树。通过这种方式,森林中的每棵树都会根据稍微不同的数据进行训练,从而引入树木之间的差异。

4.算法

在本节中,描述的是我们的随机算法的工作原理。 随机回归森林中的每棵树都是独立构建的。 与Breiman(2001)的随机森林不同,我们不预先在不同的树木之间进行重抽样。

4.1树的构造

树的每个节点对应RD的一个矩形子集,并且在构建的每个步骤中,与树的叶子相关的单元形成RD的一个分区。 树的根对应于所有的RD。 在施工的每一步中,选择树的一片叶子进行扩展。
在每棵树中,我们将数据集随机地分成两部分,每部分在树结构中起着不同的作用。 我们将分配给不同部分的点分别称为结构和估计点。
结构点允许影响树的形状。 它们用于确定树的每个内部节点中的拆分维和拆分点。 但是,结构点不允许影响树叶中的预测。

估算点起到双重作用。 这些点用于拟合树中每个叶的估计量,但对树分区的形状没有影响。
通过以相等的概率将每个点分配给结构或估计部分,数据在每棵树中被随机分割。 需要此分区来确保一致性; 然而,没有理由我们不能有额外的零件。 例如,我们可以将某些点分配给分区的第三个被忽略的部分,以便使每个树适合数据的一个子集。 但是,我们发现子采样通常会损害性能,所以我们不会进一步追求这个想法。
树构造由kn参数化,其给出了必须出现在每个叶中的估计点的最小数量。 下标n对应于训练集的大小,表示最小叶大小取决于训练数据的数量。

4.2叶子扩展

当选择叶子扩展时,我们随机选择min(1 泊松(lambda;),D)不同的候选维度。我们通过在每个候选维度上搜索可能的分割点来为叶子选择一个分割点。

我们的算法和标准随机森林之间的一个主要区别是如何生成一组候选分割点。在一个标准的随机森林中,将点投影到每个候选维中,并将每个可能的分割点评估为候选分割点。在我们的算法中,我们通过首先在叶子中选择m个结构点并仅在由这些点定义的范围内评估候选分割点来限制搜索范围。通过这种方式来重新设定范围,迫使树木(大致)平衡,如图1所示。

对于每个候选分割点S,我们计算平方误差的减少量,

Err(A) =

I(s) = Err(A)-Err()-Err()

其中A是要分裂的叶子,A,Arsquo;rsquo;是通过在S处分裂A而产生的两个孩子。标记表示落入单元A和计算A中结构点的数量。变量Ijisin;{e,s}是指示点(Xj,Yj)是否是结构或估计点的指标。

选择分裂点作为最大化I(S)的候选,而不创建任何少于kn估计点的儿童。如果没有找到这样的候选人,则停止扩展。

4.3预测

森林一旦被训练,就可以用来预测新的未标记数据点。 为了对查询点x做出预测,每棵树都独立地预测

=

而森林平均每棵树的预测

这里表示包含x而表示它包含的估计点的数量。 请注意,每棵树所做的预测仅取决于该树中的估计点; 但是,因为分数是独立分配给结构和估算部分的在每棵树中,一棵树中的结构点有机会将预测作为另一棵树中的估计点。

6.讨论

在本节中,我们将描述文献中先前分析的两种不同的随机森林模型。我们讨论它们与本文模型之间的一些差异,以及三种模型与Breiman原始算法的关系。我们在这里讨论的两个模型最初都是作为分类算法提出的,但将它们适用于回归是很直接的。 我们与自己比较的第一个模型是Biau(2008)等人的尺度不变的随机森林,我们称之为Biau08。该森林中的树是通过如下反复扩展叶节点而构建的:树中的叶子被随机均匀地选择用于扩展。在这个叶子内,随机选择一个维度并根据它们在所选维度上的投影对数据进行排序。最后,如果叶中有N个数据点被展开,则从集合{0,1,...,N}中绘制一个随机索引I,并选择分割点,使得I个最小值落入孩子和其他人在休息。叶展开以这种方式继续,直到达到指定数量的终端节点。

我们比较的第二个模型是在Biau(2012)中分析的算法,我们称之为Biau12。这个森林中的树木假定数据在[0,1] D上得到支持,所以数据必须首先缩放到这个范围内。通过以宽度第一的顺序扩展叶子直到达到指定数量的终端节点为止生长树木。通过选择固定数量的随机候选维度(替换)来扩展此模型中的叶子。对于每个候选维度,有一个候选分割点位于正在展开的单元格的中点。为了在不同候选维度之间进行选择,计算来自每个划分的信息优惠,并选择具有最大信息增益的候选划分点。 Biau12的一个重要特征是拟合模型需要将数据集划分为两部分。其中一个部分用于确定树的结构,另一部分用于拟合叶中的估计器。这个分区的两个部分的作用与我们自己的算法中的结构和估计点相同。 Biau12如何划分数据以及我们如何这样做的主要区别在于,对于Biau12而言,森林中所有树木的分区结构和估计点是相同的,而在我们的算法中,分区是随机独立选择的树。 将我们的算法和Biau中的两个算法与Breiman的原始随机森林算法进行比较,我们发现存在两个关键点:(1)候选分裂点是如何选择的;(2)数据分裂是如何发生的(如果有的话)。 在我们的实验中,我们看看这两个因素的不同选择如何影响随机森林在几个回归问题上的表现。

7.实验

在本节中,我们将经验地将我们的算法与几个数据集上的Biau08和Biau12(在第6节中描述)和Breiman(Breiman(2001)中描述的原始算法)进行比较。

这些实验的目的是提供洞察已经用于获得理论可追溯性的不同简化的相对影响。为此,我们选择评估几个实际任务的不同算法,包括计算机视觉和极具挑战性的联合预测问题。 由于算法每个参数稍有不同,因此不可能为所有算法使用相同的参数。 Breiman和我们自己的算法规定了一个最小叶片大小,我们将其设置为5,遵循Breiman的回归建议(Breiman,2001)。 Biau08和Biau12参数化的是目标叶子数量而不是最小叶子大小。对于这些算法,我们选择叶子的目标数量为n / 5,这意味着树木与Breiman和我们自己的算法生成的树木大小基本相同。 Biau12要求数据位于单位超立方体内。对于这种算法,我们通过将每个特征移动和缩放到这个范围来预处理数据。

7.1 UCI数据集

对于我们的第一组实验,我们使用了来自UCI存储库的四个数据集:糖尿病,葡萄酒质量,年份预测MSD和CT切片。 除糖尿病外,这些数据集是针对其相对较多的实例和功能而选择的。
在本节的所有实验中,我们遵循布莱曼的经验法则,使用总数的三分之一作为候选维度。 本节中的所有结果都是五次交叉验证的五次平均值。
对于我们的算法,我们选择m = 1000个

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[24349],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。