英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
1 引言
1.1机器学习:定义与原因
我们深陷信息之中并且渴望知识。——约翰·奈斯比
我们正处于一个大数据时代。例如,大约有一万亿的网页;每秒有一小时的视频上传到YouTube,相当于每天有十年的内容;上千人的基因组,每个基因组拥有个碱基对,被各种实验室拿来排序;沃尔玛每小时处理超过一百万个交易并且拥有超过2.5千万亿字节()的信息(Cukier 2010),等等。
这巨量的数据要求自动化的数据分析方法,这也是机器学习所提供的。特别地,我们把机器学习定义为一系列可以自动识别数据中的模式,然后运用潜在的模式来预测未来,又或者在不确定的情况下做出其他类别的决定的方法(比如计划如何获取更多数据!)。
这本书采用的观点是解决这类问题最好的方法是运用概率理论这种工具。概率理论可以运用到任何在机器学习中包含不确定的问题之中,并且不确定来自各种形式:对于一些过去的数据,什么是对未来最好的预测?什么是解释一些数据最好的模型?什么是我应该接下来使用的测量方法?等等。这种概率方法之于机器学习和统计学很相似,但它们在强调的重点和术语之处略微有差异。
我们将会描述各种各样适用于不同数据和任务的概率模型,也会展示机器学习中需要用到的算法并且运用这些模型。我们的目标不是编写出一部展现专门技术的烹饪书,而是通过概率建模和推理的视角来呈现一个统一的视野。虽然我们必须要注意计算效率,但如何把这些方法按照比例放大到大量的数据集中在其他书籍里有更好的解释,比如Rajaraman and Ullman 2011; Bekkerman 等. 2011。
然而,需要注意的是,即使一个人有一个很明显的海量数据集,某些感兴趣案例的有效数据点数可能非常小。实际上,在各种各样领域的数据展示了一种名为长尾巴的特质,这意味着很少的情况(例如,单词)是很常见的,但大部分情况是十分罕见的(详见2.4.6章节)。例如,每天有20%的谷歌搜索在以前从来没有被见到过。这意味着我们在书里讨论的核心统计学问题,也就是有关于从相对小的样本中得到的概括在大数据时代也仍然很有意义。
1.1.1机器学习的类别
机器学习常见的有两类。在预测或监督学习的方法中,给定一个标记的输入—输出对,目标是学习从输入到输出的映射。在这里被称为训练集,是训练样本的个数。
在最简单的设置中,每一个训练输入是一个维数字向量,代表一个人的高度和重量,这些被称为特征,属性或协变量。然而,一般来说,可能是一个复杂的结构化对象,如图像,句子,电子邮件,时间序列,分子形状,图形等。
类似地,输出和反应变量在原则上可以是任何量,但大多数方法假设是来自某个有限集合的分类变量或名义变量,(比如男性或者女性),或者是一个实值标量(比如收入水平)。当是分类变量时,问题被称为分类或模式识别,而当是实值时,问题被称为回归。另一种变体,被称为有序回归,发生在当标签空间有一些自然顺序时,比如等级A-F。
第二种主要类别的机器学习方法是描述性或无监督学习方法。此处,我们只有给定的输入,目标是为了发现数据中有趣的模式,这有时也被称为知识发现。这是一个不太明确的问题,因为我们不知道需要寻找什么样的模式,也没有明显的错误度量(不像监督式学习,我们可以比较对给定的的预测值和观测值)。
还有第三种类型的机器学习,称为强化学习,它并没有那么不常用。这在学习当被给予奖励或者惩罚信号的时候应该如何反应是有用的。(比如,想想一个婴儿如何学会走路)不幸的是,虽然我们在第5.7节的确讨论了RL的基础的决策理论,但它超出了本书的范围。可以查看,例如Kaelbling 等. 1996; Sutton and Barto 1998; Russell and Norvig 2010; Szepesvari 2010; Wiering and van Otterlo 2012来获取更多有关RL的信息。
图1.1 左:一些有颜色的被标记的训练样本图形和3个未被标记的测试案例。
右:代表了一个设计矩阵的训练数据。行代表了特征向量。
最后一列是一个标记,,基于 Leslie Kaelbling的图形。
1.2 监督学习
我们通过讨论监督学习开始我们对机器学习的研究,这是机器学习在实践中最广泛使用的形式。
1.2.1分类
在这个部分,我们讨论分类。目标是学习从输入到输出的映射,,是类别的数量。如果=2,这被称为二进制分类(我们经常假定这里的);如果gt;2,这被称为多类别分类。如果类标签不是相互排斥的(例如,有人可能被分类为高和强),我们称之为多标签分类,但这最好被看作是预测多个相关的二元类标签(所谓的多输出模型)。当我们使用术语“分类”时,除非我们另有说明,否则我们将指单一输出的多类分类。将问题形式化的一种方法是函数逼近。 对于某个未知函数f,我们假设,学习的目标是给定一个带标记的训练集来估计函数,然后使用进行预测。 (我们使用帽子符号来表示一个估计。)我们的主要目标是对新颖输入进行预测,这意味着我们以前从未见过的输入(这称为泛化),因为预测训练集上的响应很容易(我们可以只查找答案)。
1.2.1.1 例子
作为一个简单的玩具分类示例,考虑图1.1(a)所示的问题。 我们有两类对象,分别对应于标签0和1,输入是彩色形状。这些都是由一组D属性来描述的,这些属性存储在一个设计矩阵中,如图1.1(b)所示。输入特征可以是离散的,连续的或两者的组合。 除了输入之外,我们还有一个训练标签向量。
在图1.1,测试案例有一个蓝色新月,一个黄色圆圈与安全和一个蓝色箭头,所有这些在之前全部没有被见过。因此,我们需要在训练集之外进行概括。一个合理的猜测是蓝色新月应该是,因为在训练集中所有的蓝色形状都被标记为1。黄色圆圈很难分类,因为有一些黄色事物被标记为,有一些被标记为,然后有一些圆圈被标记为,有一些被标记为。结果,对于黄色圆圈来说,什么才是对的标签是不够明晰的。相似地,蓝色箭头的标记也不够清晰。
1.2.1.2 对概率预测的需要
为了处理不明确的情况,例如上面的黄色圆圈,最好返回一个概率。 假设读者已经对概率中的基本概念有一定的了解。 如果不是,如有必要,请参阅第2章进行复习。
给定输入向量和训练集的,我们将表示可能标签的概率分布。一般地,这代表了一个长度为的向量。(如果一共有两类,返回单个数就足够了,因为)在我们的表示中,我们明确表示概率是以输入和训练集为条件,这些条件被放在调节条|的右侧。我们也隐含地以我们用来做出预测的模型形式为条件。在不同模型之间进行选择时,我们将通过编写来明确这个假设,其中M表示模型。 但是,如果模型从上下文来看很清楚,我们将为了简洁性从我们的符号中删除M。
对于一个给定的概率输出,我们总是可以计算出我们对“真实标签”的“最佳猜测”,使用
(1.1)
这对应于最可能的类标签,称为分布模式; 它也被称为MAP估计(MAP代表最大后验概率)。 使用最可能的标签是非常直观的,但我们将在第5.7节给出更正式的说明。
现在考虑一个例如黄色圆圈的情况,其中根本就不是1.0。 在这种情况下,我们对我们的答案并不十分自信,所以最好说“我不知道”,而不是返回我们并不真正相信的答案。正如我们在第5.7节中解释的那样,这在医药和金融等领域尤为重要,因为我们可能会避免风险。另一个评估风险很重要的应用是在玩电视游戏节目时,如Jeopardy, 在这个游戏中,参赛者必须解决各种单词拼图并回答各种问题等琐事问题,但如果他们回答不正确,他们会赔钱。2011年,IBM公布了一款名为Watson的计算机系统,它击败了人类Jeopardy的头号冠军。Watson使用了各种有趣的技术(Ferrucci 等,2010),但对于我们目前的目的而言,最相关的技术是它包含一个模块,用于估计其答案的自信程度。如果有充分的信心,这个系统只会选择“回应”它的答案。 同样,Google有一个称为SmartASS(广告选择系统)的系统,可根据你的搜索历史记录以及其他用户和广告特定功能(Metz 2010)预测你点击广告的概率。 这个概率被称为点击率或点击率,并可用于最大化预期利润。 我们将在本书后面讨论系统背后的一些基本原则,如SmartASS。
Figure1.2 大小为的20-新租数据的子集。我们为了清晰仅展现1000行。每一行都是一个文档(表示为一个词袋位矢量),每一列都是一个单词。 红线将四个类别分开,这四个类别(按降序排列)comp,rec,sci,talk(这些是USENET组的标题)。 我们可以看到,子集的存在与否在类别中是有指示的。
1.2.1.3 真实世界的应用
分类可能是最广泛使用的机器学习形式,并且已经被用于解决许多有趣且常常困难的现实世界问题。 我们已经提到了一些重要的应用,下面我们再举几个例子。
文档分类和垃圾邮件过滤
在文档分类中,目标是将一个文档,比如一个网页或者邮件信息,归类到类别中的一个,也就是要计算,此处是文本的某种特质代表。这种情况的一个特例是电子邮件垃圾邮件过滤,其中的分类是垃圾邮件或者哈姆。
绝大多数的分类器假定输入向量有一个固定的大小。以特征向量格式表示可变长度文档的常用方法是使用一包词语表示法。这在第3.4.4.1节中有详细说明,但基本思想是如果单词出现在文档中,则定义。如果我们将这种转换应用到数据集中的每个文档中,我们会得到一个二进制文档times;词共生矩阵:示例见图1.2。 本质上,文档分类问题已经被缩减为寻找位模式的微妙变化。例如,我们可能会注意到,大多数垃圾邮件很有可能含有“购买”,“便宜”,“伟哥”等字样。在练习8.1和练习8.2中,你将获得应用各种分类技巧的实践经验到垃圾邮件过滤问题的方法。
图1.3 三种类型的鸢尾花:清风藤,云芝和锦葵。
图1.4 鸢尾花数据的被可视化为成对散点图。对角线绘制了4个特征的边缘直方图,对角线包含所有可能的属性对散点图,红圈=清风藤,绿色钻石=云芝,蓝星=锦葵。
花卉分类
图1.3 给出了另一个分类的例子,它来自于统计学家罗纳德·费舍尔。目的是要学会辨别三种不同种类的鸢尾花:清风藤、云芝和锦葵。幸运的是,植物学家已经提取了4个有用的特征或特征: 萼片长度和宽度,花瓣长度和宽度,而不是直接与图像一起工作。(这种特征提取是一项重要而艰巨的任务,大多数机器学习方法使用一些人为选择的特征,稍后我们将讨论一些可以从数据中学习良好特性的方法。)如果我们画出鸢尾花数据的散点图, 如图1.4 所示, 我们可以看到,只要检查它们的花瓣长度或宽度低于某个阈值,就很容易区分清风藤(红圆圈)和其他两个类。然而,区分锦葵和云芝是稍微困难的,任何决定都必须基于至少两个功能。(在应用机器学习方法之前,执行探索性数据分析(如绘制数据)总是一个好主意。)
图像分类与手写识别
现在考虑直接对图像进行分类的更难的问题,在这里,人类没有对数据进行预处理。我们可能希望将图像分类为一个整体,例如,它是室内还是室外的场景?它是水平的还是垂直的照片?它是否包含一只狗?这称为图像分类。在特殊情况下,图像由独立的手写字母和数字组成,例如,在信件的邮政编码中,我们可以使用分类来执行手写识别。在这个领域使用的标准数据集被称为 MNIST,代表 '修改后的国家标准研究所' 。(使用“修改”一词是因为已预处理图像,以确保数字主要位于图像的中心。)该数据集包含6万个训练图像和1万个数字0到9的测试图像, 由不同的人编写。图像的大小 28times;28, 并有灰度值在范围 0: 255,
图1.5 (a) 9张测试 MNIST 灰度图像。(b)与(a)相同,但其特征排列随机。两个版本的数据的分类性能相同(假定训练数据是排列相同的方式)。
有关某些示例图像,请参见图 1.5 (a)。
许多通用分类方法忽略了输入功能中的任何结构,如空间布局。因此,它们也可以很容易地处理像图 1.5 (b) 这样的数据,这是相同的数据,除非我们随机排列所有特征的顺序。(你将在练习1.1 中验证这一点。)这种灵活性既是一种好处(因为方法有通用目的性),也是一种坏处 (因为方法忽略了明显有用的信息来源)。我们将讨论在本书后面的输入功能中开发结构的方法。
图1.6 人脸检测的例子。(a) 输入图像 (墨菲家庭,2010年8月5日拍摄),经过舍伍德工作室伯纳德迪德里奇的许可后使用。(b) 分类器的输出,在不同姿势下检测到5张面孔。
人脸检测与识别
一个更难的问题是在图像中查找对象,这称为对象检测或对象本地化。其中一个重要的特例是人脸检测。这个问题的一种方法是将图像分成不同位置、尺度和方向的许多小重叠补丁,并根据它是否包含面状纹理来对每个此类补丁进行分类,这被称为滑动窗口探测器。然后,系统返回的位置就是脸会出现的高概率的位置,有关示例见图1.6。这种人脸检测系统内置到大多数现代数码相机,检测到的脸的位置用于确定自动对焦的中心。另一个应用程序是自动模糊在谷歌的街景系统的脸。
找到这些面孔之后,就可以进行人脸识别,这意味着估计此人的身份 (见图1.10(a))。在这种情况下,类标签的数量可能非常大。另外,人们应该使用的特性可能与脸部检测的特性不同:为了识别,像发型这样的面孔之间的细微差别可能对确定身份很重要,但对于检测来说,对这种细节是需要忽略的,也就是只关注面孔和非面孔之间的差异。有关可视化对象检测的详细信息,见Szeliski 2010。
回归
回归就像分类, 除了响应变量是连续的。图1.7 显示一
全文共7102字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[12367],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。