概率机器学习与人工智能外文翻译资料

 2022-09-07 11:51:27

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


概率机器学习与人工智能

zoubin ghahramani1

一台机器怎么能从经验中学习?概率模型提供了一个框架,了解什么是学习,因此成为一个主要的通过经验数据设计机器学习的理论和实践途径。概率框架,它描述了如何表示和操纵模型和预测的不确定性,在科学数据分析、机器学习、机器人学、认知科学和人工智能等领域都有着核心作用。本文介绍了该框架的介绍,并讨论了一些在该领域的国家的最先进的进展,即概率规划,贝叶斯优化,数据压缩和自动模型发现。

机器学习的概率框架背后的关键思想是,学习可以被认为是合理的模型来解释观测到的数据。一台机器可以使用这样的模型来制造对未来数据的预测,并采取合理的决策。不确定性在所有这一切中起着基础性的作用。观察到的数据可以与许多模型是一致的,并且因此,模型是适当的,给定的数据,是不确定的。同样,对未来数据的预测和行动的未来后果是不确定的。概率论为该模型的不确定性提供了一个框架。

本文首先介绍了机器学习和贝叶斯推理的概率方法,然后讨论了在该领域一些国家的最先进的进展。多方面的学习和智力关键在于仔细的概率表示的不确定性。概率的方法,已经成为人工智能,机器人,机器学习的一个主流方法。即使是现在,在这些领域中,有一场争论是多多么重要的,它是完全代表不确定性。例如,利用深层神经网络的进步解决诸如语音识别,图像模式识别问题,并预测文本单词,并不公开表示结构或参数的不确定性神经网络表。然而,我的重点将在这些类型的模式识别问题,通过对大量数据的可用性,但对问题的不确定性是一个真正的关键成分例如,一个决定可能取决于不确定的数量。

我强调在概率的机器学习的前沿五个领域的研究现状,强调领域的科学家在许多领域的广泛关联性:概率规划这是一个通用的框架,表达为计算机程序的概率模型,它可以有重大影响的科学模型;贝叶斯伊恩优化,这是一种方法,该Bally优化未知函数;概率数据压缩;自动化的合理解释的模型发现数据;以及学习许多相关的模型层次模型举例来说,个性化医疗或建议。尽管存在相当大的挑战,但在人工智能和机器学习方面,基于概率框架这十年的发展有很大的进步。

概率建模与不确定性

在最基本的层面,机器学习的目的是发展方法,以提高他们的性能,在某些任务的基础上观测资料。典型的例子,这样的任务可能包括从一个自主的车辆检测行人的图像,通过临床观察从亚型白血病患者分类基因表达模式,或将英语句子翻译成法语。然而,正如我所讨论的,机器学习任务的范围甚至比这些模式分类或映射任务更广泛,包括优化与决策、数据压缩、自动从数据中提取的解释模型。

数据是所有机器学习系统的关键成分。但数据,甚至所谓的大数据,都是无用的,直到一个提取知识或涉及他们的推论。几乎所有的机器学习学习任务可归结为从观测数据对丢失的或潜在的数据进行推论,我会用不同的术语来推断,预测,以参考这项一般性的任务。举例说明的例子,考虑到四个主要亚型的这种疾病的基础上,将每个人的测量基因表达模式的人进行分类。在这里,观测数据的基因表达模式对标记的亚型,和未观察到的或丢失的数据来推断是新患者的亚型。要从观测数据中未观察到的数据推断,学习系统需要做一些假设;综合这些假设构成模型。一个模型可以是非常简单的和刚性的,如经典的统计统计线性回归模型,或复杂的和灵活的,如一个大而深的神经网络,甚至具有无穷多个参数模型。在下一节我回到这一点。一个模型被认为是如果它可以被训练的不可观测的数据观测数据预测或预测的定义(否则,如果模型不能预测也不能是伪造的,在哲学家卡尔波普尔方案评估假设的意义,或为理论物理学家沃尔夫冈泡利说模型是“甚至没有错”)。例如,在分类设置,一个定义明确的模型应该能够提供新的患者的类标签的预测。因为任何明智的模型在预测未知的数据时将不确定,在建模中不确定性起着重要的组成部分。

有许多形式的不确定性模型。在最低的水平,模型的不确定性从测量噪声引入,例如,像素噪声或模糊的图像。在更高的层次,一个模型可以有许多参数,如线性回归的系数,到底哪个参数是预测新数据好些还不确定。最后,在最高水平,有关于模型的一般结构的不确定性,通常是线性回归或神经网络,如果后者,它有多少层,等等。

建模的概率方法使用概率论来表达各种形式的不确定性。概率论是表示和操纵不确定性的数学语言,在大致相同的方式作为微积分是表示和操纵利率变化的语言。幸运的是,建模的概率方法在概念上非常简单:概率分布是用来在一个模型代表所有不确定的未观测到的数量(包括结构,参数和相关的噪声),以及它们是如何与数据相关的。然后概率论的基本规则是用来推断不可观测的给出观测数据的量。从数据学习发生的先验概率分布的转变(观察数据前定义的),为后验分布(观察数据后定义的)。概率论在数据学习中的应用称为贝叶斯学习(1盒)。

1盒

贝叶斯机器学习

有一个简单的规则,依据概率论的总和规则:

和产品规则:

在这里,x和y对应于观察或不确定的数量,在某些设置的值,分别为x和y。例如,在剑桥和伦敦的天气可能与天气有关其他的值在设定的x = y = {雨天,阴天,晴天}。P(times;)对应的概率,这可能是一个陈述的频率,观察一个特定的值,或一个主观的信念。P(x,y)是观察X和Y的联合概率,P(Y | x)的概率是Y条件观察x和规则规定,X的边际变化的价值通过求和(或连续变量的连续变量)的联合,产品规则状态的联合可以被分解为产品的边缘和有条件。贝叶斯规则是一个共同的这两个规则:

我们可以用概率论来取代上述符号机器学习:我们用D取代X 表示所观察到的数据,我们theta;取代Y表示模型的未知参数,我们条件所有方面,我们正在考虑的概率模型的类。为了学习,我们就这样得到:

其中P(D |theta;,M)是参数theta;模型M的可能性,P(theta;| m)是theta;和P的先验概率(theta;| d,m)是后theta;给定数据D.例如,数据可能是一个在剑桥和伦敦时间序列的每小时观测的天气,该模型可能试图捕捉到的联合天气模式,在这两个位置上的顺序时间,在时间和空间上theta;参数建模的相关性。学习是关于P参数先验知识或假设的转变(theta;| m),通过数据,为关于参数的后验知识P(theta;| D,m)。这个后,现在是以前被用于未来的数据。有学问的模型可以用来预测或预测新的看不见的测试数据,Dtest,通过简单的应用和产品的规则来预测:

最后,不同的模型,可以比较通过施加贝叶斯规则的水平:

项P(D | m)是边际似然模型的证据,并实现了一个简单的模型被称为贝叶斯奥卡姆剃刀偏好。

除了简单的概念,有一些吸引人的特性的机器智能概率框架。简单的概率分布在单个或几个变量构成更大、更复杂的模型的构建块。主导范式在过去的二十年里,代表这样的组成的概率模型有图模型,包括有向图(也被称为贝叶斯网络和信念网络),无向图(也被称为马尔可夫网络和随机领域),和混合图的定向和无向边(图1)。讨论之后,概率规划提供了一种优雅的方式将图形模型,允许更丰富的表示模型的元素。概率模型的组合意味着在大模式下这些积木的行为往往是更容易理解,如果说一对夫妻是一个非线性动力系统(例如,一个递归神经网络)到另一个将会发生什么。特别是,对于一个定义良好的概率模型,它总是可以从模型中产生数据;这样的“假想”的数据提供了一个窗口的“思维”的概率模型,帮助我们要了解这两个最初的假设和模型在任何以后的学习。

概率模型也有一些概念上的优势,因为在人工智能系统的学习方面它是一个规范的理论。一个人工智能系统应该如何用数据来表示和更新它的信仰?考克斯公理定义为代表的一些绝对的信仰;这些公理的结果是,“度”,从“不可能”到“绝对肯定”,必须遵循的所有规则的概率论。这证明了使用主观贝叶斯概率表示在人工智能。在人工智能贝叶斯表示英特尔的动机是决策理论的说法是由荷兰书定理给出的。这个论点是基于认为代理人的信念的强度可以通过询问代理人是否愿意接受在不同的赔率投注评估(比例的收益)。荷兰书定理指出,除非一个人工智能系统的(或人的,对于这个问题)的信仰程度是符合概率的规则,它会愿意接受保证赔钱的赌注。由于这些和其他许多的争论在一个原则性的处理不确定性的情报的重要性的力量,贝叶斯概率模型不仅是理论对于理性在人工智能系统的理论基础,也为人类和动物的行为模式的规范(见参考文献19,20),和大量的研究致力于了解神经电路可以实现贝叶斯推理。

虽然概念上很简单,机器学习的全概率方法提出了一系列的计算和建模的挑战。计算,主要的挑战是学习涉及损坏(总结出来的)在模型中除了感兴趣的所有的变量(框1)。这样的高维和积分通常是计算困难的,在这个意义上,对于许多模型没有已知的多项式时间算法,用于执行它们。幸运的是,一些近似积分的算法已经被开发,包括马尔可夫链蒙特卡罗(MCMC)方法,变分近似,期望传播和顺序蒙特卡洛。值得注意的是,计算技术是贝叶斯机器学习不同于许多其他机器学习的领域:贝叶斯研究人员的主要计算问题是整合,而许多其他方法的重点是对模型参数的优化。然而,这种二分法没有看起来那么鲜明:许多基于梯度的优化方法可以通过朗和Hamilton利用Monte Carlo方法变成集成方法,虽然集成问题可以转化为优化问题,通过使用变分近似。我在稍后的部分重新优化。

概率的机器学习的主要造型的挑战是,该模型应该足够灵活,捕捉所需的兴趣预测任务数据的所有属性。为了应对这一挑战的方法之一是建立一个先验分布,包含通过开放式的宇宙模型,能适应复杂的数据。重点统计的基本概念,生长在柔性模型与数据的复杂性是非参数。

图1 |贝叶斯推理。贝叶斯推理在医学诊断问题中的一个简单例子。这里的问题是诊断一种罕见的疾病,使用信息从患者的症状的,潜在的,病人的遗传标记的测量,这表明倾向(Gen PRED)这种疾病。在这个例子中,所有的变量都是二进制的。是的,真的。这个变量之间的关系表示由直接箭头和每个变量的概率,他们直接依赖于其他变量也显示。黄色表示可测量的变量节点的话,而绿色节点表示隐藏的变量。使用总和规则(框1),患者有罕见病的先验概率是:磷(罕见病=吨)=磷(罕见疾病= T | Gen PRED = T)P(Gen PRED = T) P(罕见病= T | Gen PRED = F)P(Gen PRED = F)= 1.1times;10minus;5。应用贝叶斯规则,我们发现,对于一个病人观察有症状的罕见病的概率是:P(罕见病= T |症状= T)= 8.8times;10minus;4,而对于一个病人中观察到的遗传标记(创标记)是P(罕见病=T | Gen标记= T)= 7.9times;10minus;4。假如病人的症状和遗传标记的罕见疾病增加的概率P(罕见病= T |症状= T,Gen标记= T)= 0.06。在这里,我们有固定的,已知的模型参数,即数字theta;=(10minus;4,0.1, 10minus;6,0.8,0.01,0.8,0.01)。然而,这两个参数和模型的结构(存在或不存在的箭头和额外的隐藏变量)可以从一组患者记录使用的方法在1个数据集。

通过非参数的灵活性

一个现代的机器学习的教训是,最好的预测性能往往是高度灵活的学习系统获得的,特别是当从大型数据集学习。灵活的模型可以更好的预测,因为在更大程度上,他们允许数据为自己说话。(但注意到所有的预测包括假设,因此数据是永远不会完全为自己说话),有2中本质上实现灵活性的方法。该模型与数据集相比,有大量的参数(例如,神经网络来实现英语和法语句子的翻译探讨国家的最先进的方法的准确度是一个概率模型,有3亿8400万个参数)改变本身,可采用非参数分量定义。

了解非参数模型的最好的方法是通过参数的比较。在一个参数化模型中,有一个固定的,有限数量的参数,并没有多少训练数据被观察到,所有的数据可以设置这些有限多个参数控制的未来预测。与之相反,非参数的方法有预测增长的复杂性与训练数据的量,无论是通过考虑一个嵌套越来越多的参数序列的参数模型,或由一个具有无穷多个参数的模型开始。例如,在一个分类问题,而一个线性(参数)分类器总是使用线性边界类之间作出预测,非参数分类器可以学习非线性边界的形状与更多的数据变得更加复杂。许多非参数模型可以从参数模型和考虑会发生什么模型长到无穷多的极限参数。显然,有限与无限多参数拟合模型训练数据会导致“过度学习”,在某种意义上,模型的预测可能反映训练数据的怪癖而不是规律,可以推广到测试数据。幸运的是,贝叶斯方法不容易这种过度拟合,因为他们的平均水平,而不是健康,参数(框1)。此外,对于许多应用程序,我们有如此巨大的数据集的主要担忧是过度参数选择的模型,而不是过度拟合。

充分讨论贝叶斯非参数是审查范围之外的(见参考文献9,31,32本),但值得一提的几个关键模型。高斯过程是一个非常灵活的非参数化模型的未知函数,并广泛用于回归,分类,和许多其他应用程序,需要推理的功能。学习函数,考虑与一些化学反应的剂量的生物化学。相反造型这关系,线性参数函数,高斯过程可以用来直接学习非线性函数的非参数与数据一致。最近的一个显著的例子应用高斯过程是GaussianFace,最先进的人脸识别方法优于人类和深度学习方法。狄利克雷在统计数据的一个非参数模型有着悠久历史的过程,用于密度估计,集群、时间序列分析和建模的主题文件。为了说明狄利克雷过程,考虑采用造型的友谊在一个社交网络,其中每个人可以属于许多社区之一。狄利克雷过程可以有一个模型,推断出社区的数量(集群)的人数增长。狄利克雷过程也被用于聚类的基因表达模式。印度自助过程

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[146677],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。