无监督学习外文翻译资料

 2022-08-22 11:01:44

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


外文翻译

无监督学习

14.1简介

前面的章节涉及如股票给定一组输入或预测变量XT预测值一个或多个输出或响应变量。用T =表示的第i示例的输入,使得变成了一个响应测量。基于训练样本先前求解的案例中的,其中所有变量的联合变量都是已知的。这称为监督式学习或“在老师的监督下学习”。在这种比喻下,“学生”对示例样本中的每个给出答案,而监督者或“老师”提供正确答案/或和学生答案相关的错误。者通常以某些损失函数L(y,ycirc;)为特征,例如,L(y,ycirc;)=(y-ycirc;)2

如果假设(X,Y)是联合概率密度Pr(X,Y)表示的随机变量,然后可以将监督学习正式描述为密度估计问题,其中一个问题是确定条件密度的性质Pr(Y | X)。通常有意义的属性是“位置”参数mu;,它可最大程度地减少每个x的预期误差,mu;(x) = argmin theta; EY |XL(Y,theta;).

(14.1)

已知条件之一有,其中Pr(X)是X值的联合边际密度。 在监督学习中,Pr(X)通常不受直接关注。这是条件密度Pr(Y | X)一个有意的性质。 由于Y通常是低维度的(通常是一维),并且仅关注位置mu;(x),这个问题被大大简化了。 正如如前几章所述的内容,有很多方法可以成功解决各种情况的监督式学习。

在本章中,我们将探讨无监督学习或“无老师监督的学习”。 在这种情况下,需要一组N个观测值(x1,x2,...,xN)具有联合密度Pr(X)的随机p向量X。 目的是直接推断这种概率密度的性质无需监管者或老师为每个观察结果提供正确答案或错误率。X的维度有时比监督式学习中的维度高得多,有意义的属性通常比简单位置估计更为复杂。 这些因素在一定程度上缓解了以下事实:X代表所有要考虑的变量; 一个不是必需的推断Pr(X)的特性如何变化,以变化为条件另一组变量的值。

在低维问题(例如ple;3)中,有多种有效的直接估算密度Pr(X)本身的非参数方法所有的X值,并用图形的方式表现出来(如:Silverman,1986年)。 由于维度灾难,这些方法在高维度上并不适用。 我们必须适应估算相当粗略的全局模型,例如混合的高斯模型或各种简单描述性统计量Pr(X)。

通常,这些描述性统计数据是为了表示X值的特征,或其Pr(X)相对较大值的集合。 例如主要组件,多维比例尺,自组织图和主体曲线,这些都试图识别其中的低维流形代表高数据密度的X空间。 这提供了关于变量之间的关联以及它们是否可以是被视为较小的“潜在”变量集的函数的信息。 聚类分析试图找到包含Pr(X)模型的X空间的多个凸区域。 这可以判断Pr(X)是否可以用不同类型或类别观察值的较简单密度的混合物来代表。 混合建模具有相似的目标。 关联规则试图构造描述区域的简单描述(连接规则)来描述高维二元值的特殊情况下的高密度数据。

使用监督学习有明确的衡量成功与否的标准可以用来判断特定情况下的充分性,以及比较各种情况下不同方法的有效性。是否成功可以直接通过联合分布Pr(X,Y)上的预期损失来衡量。 它可以通过多种方式进行估算,包括交叉验证。 在无监督学习的情况下,没有这种直接衡量成功的方法。 从大多数无监督学习算法的输出中我们可以发现,这种算法难以确定推论的有效性。 我们必须使用启发式论证不仅是为了激发算法,就像在监督学习中一样,而且这也是对结果质量的判断。 这种令人不适状况导致繁重的提议方法泛滥,因为有效性是一个无法直接验证问题。

在本章中,我们介绍了在实践中是最常用的那些无监督的学习技术,此外,还有一些受到作者们青睐的东西。

14.2关联规则

关联规则分析已成为挖掘商业数据库的流行工具。 目的是找到最常出现在数据库中的变量的联合值。 最通常应用于被称为“市场篮子”分析的二进制值数据。 在这种情况下,观察结果是销售交易,例如发生在商店结帐柜台的交易。变量代表商店中出售的所有商品。 为了i的观察,每个变量被赋予两个值之一; 如果第j个商品是作为交易的一部分购买的,则;如果没有购买,则。那些被联合一起的变量通常表示经常一起购买的商品。 这些信息对于库存货架,促销中的交叉营销,目录设计以及基于购买模式的消费者划分。

一般来说,关联规则分析的基本目标是找到一个特征向量X的原型X值的集合,例如在每个值处评估的概率密度Pr()相对较大。 在这种通用框架下,问题可以被视为“模式搜寻”或“跳动狩猎”。 如公式所示,这个问题是很难。 每个Pr()的自然估计量是观测值的一部分其中X = 。 对于涉及数量不多变量的问题,每个变量都可以假设多个值,为了进行可靠的估计,X = 的观测值几乎总是较小。 为了解决一个棘手的问题,分析的目的以及所应用数据的一般性必须大大简化。

第一次简化修改了目标。 而不是Pr(x)大的情况下的搜索值x,人们会寻找X空间中相对于其大小或支持率而言具有高概率含量的区域。 令Sj代表所有第j个变量的可能值(其支持),并令成为这些值的子集。 修改后的目标可以说是试图找到变量值的子集,使得每个变量同时假设其各自子集中的值的概率比较大。子集p ()的交集叫称作一个合并规则。 对于定量变量,子集是连续的间隔 ;对于分类变量,将明确地描述子集。需要注意的是 注,如果子集实际上是整个值=的集合,通常在这种情况下,可以说变量没有出现在规则中。

(14.2)

14.2.1市场篮子分析

14.2.5节讨论了一般的求解方法(14.2)。 这些方法在许多应用中可能非常有用。 但是,它们不可行对于非常大的商业数据库(pasymp;10^4,Nasymp;10^8),这些数据通常采用市场篮子分析。 一些进一步简化(14.2)的步骤是必需的。 首先,仅考虑两种类型的子集。 要么sj由单个值Xj组成, ,或者由整个集合组成Xj可以假定=的值的整个集合。 这简化了问题(14.2)寻找整数Jsub;{1,...,p}的子集和对应的值,jisin;J,使得变大。

(14.3)

图14.1说明了这一假设。

我们可以将虚拟变量的技术应用到将(14.3)转换为仅涉及二进制值变量的问题。在这里我们假设对于每个变量,支持Sj是有限的。 具体来说,创建一组新的变量,每个值都有一个这样的变量可用每个原始变量X1,...,Xp表达。虚拟变量K的数量为Xj表示的不同值的数量的| Sj | 。

如果与该虚拟变量相关的每个变量都具有分配给Zk的相应值,则为每个虚拟变量分配,否则Zk = 0。 这转换(14.3)为了找到整数的子集Ksub;{1,...,K}因此

图14.1。

关联规则的简化。这里有两个输入和,分别取四个和六个不同的值。 红场方框表示高密度区域。 为了简化计算,我们假设派生子集对应于输入的单个值或所有值。 通过这个假设我们可以找到中间或右边的模式,但是没有左边的模式。

(14.4)

这是市场篮子问题的标准表述。集合K被称为“项目集合”。 项目集合中的变量的数量称为其“大小”(注意,大小不大于p)。(14.4)的估计值被认为是数据库中观测值的(14.4)一部分中的合取为真的情况:

(14.5)

在这种情况下,是的值。 这称为K项目集T(K)的“支持”或“患病率” 。=1的观察值i据说包含项目集K

在关联规则挖掘中,指定了一个较低的支持范围t,并且我们寻找在数据库的支持下可以由变量形成的所有项目集K1,比用下限更好

(14.6)

14.2.2 Apriori算法

只要调整了阈值t,就可以通过非常大的数据库的可行计算来获得此问题(14.6)的解决方案。(14.6)仅包含所有2K个可能商品集中的一小部分。 “ Apriori”算法(Agrawal等人,1995)利用维数灾难的几个方面以较少的通过次数来求解(14.6)数据。 具体来说,对于给定的支持阈值t:

bull;基数| {K | T(K)gt; t} | 比较小。

bull;由K中项的子集组成的任何项集L必须具有支持大于或等于K,Lsube;KrArr;T(L)ge;T(K)。

数据的第一次传递计算了所有单项集的支持。那些支持率低于阈值的数据将被丢弃。 第二次传递计算所有大小为2的项目集的支持,这些集可以由在第一遍幸存下来的成对的单个项目形成。换句话说,用| K |生成所有频繁项目集= m,我们只需要考虑候选,使得它们的所有m个祖先项集都为m minus; 1是频繁的。那些支持小于阈值的第二个项目集被丢弃。数据的每次连续传递仅考虑那些项可以通过合并之前的那些幸存者形成的集合与从第一遍保留的那些通过。传递数据继续直到前一遍的所有候选规则的支持都小于指定的阈值。 Apriori算法仅需通过一次| K |的每个值的数据,这是至关重要的,因为我们假设数据不能安装在计算机的主存储器中如果数据足够稀疏(或者,如果阈值t足够高),则该过程将终止,即使对于海量数据集也算是合理的时间.

作为该策略的一部分,还有许多技巧可以用来提高速度和收敛性(Agrawal等,1995)。 “ Apriori”算法算法代表了数据挖掘技术的主要进步之一。Apriori算法返回的每个高支持项集K(14.6)转换为一组“关联规则”。 ,kisin;K,被划分分成两个不相交的子集Acup;B = K,并写成

(14.7)

第一个子集A称为“前项”,第二个子集B称为“后项”。关联规则定义为具有多个基于属性数据中前项和后项集的普遍性基础。 规则T(ArArr;B)的“支持”是观察的一部分。在前项目和后项的结合中,这仅仅是支持从中得出它们的项目集K中的一个。 它可以被视为同时观测两个项目的概率的估计值(14.5)在随机选择的购物篮中设置Pr(A和B)。 “置信度”或“可预测性” C(ArArr;B)是其支持度除以前项的支持,可以看作是Pr(B | A)的估计。

(14.8)

符号Pr(A)一组商品A出现在篮子中的概率,是的缩写14.2关联规则491((/kisin;AZk = 1)。 “预期信心”是指结果T(B),它是无条件概率的估计Pr(B)。 最后,规则的“提升”定义为置信度除以

预期的信心这是关联度量Pr(A和B)/ Pr(A)Pr(B)的估计。例如,假设项目集K = {花生酱,果冻,面包}并考虑规则{花生酱,果冻}rArr;{面包}。 支持价值该规则的0.03意味着出现花生酱,果冻和面包占3%的市场份额。 该规则的置信度0.82表示购买花生酱和果冻时,有82%的时间面包也被购买了。 如果面包出现在所有市场购物篮的43%那么规则{花生酱,果冻}rArr;{面包}的升幅为1.95。该分析的目标是生成与两个规则相关的关联规则(14.7)高度的支持和信心(14.8)。 Apriori算法返回由支撑阈值t(14.6)定义的所有具有高支撑的项目集。设置了置信度阈值c,并且可以根据这些规则形成所有规则报告置信度大于此值的项目集(14.6)。对于每个项目,集合K的大小| K | 有2 | K | -1-1条规则形式为ArArr;(K minus; A),Asub;K。 (1995)提出了Apriori算法可以快速确定哪些规则可以保留可从以下所有规则得出的置信度阈值(14.9):解决方案项目集(14.6)。

(14.9)

整个分析的输出是关联规则的集合(14.7)满足约束

这些通常存储在用户可以查询的数据库中。典型的请求可能是按照信心的排序顺序显示规则,提升或支撑。 更具体地说,可能会要求这样的条件列表在前项或后项中的特定项目上。 对于例如,请求可能如下:

显示所有与滑冰有关的交易他们的信心超过80%,支持率超过2%。

这可以提供有关谓词的那些项(先祖项)的信息溜冰鞋的销售。 关注特定的结果会引发问题

进入监督学习的框架。关联规则已成为分析超大型文件与购物篮相关的设置中的商业数据库的流行工具。那时可以以多维列联表的形式强制转换数据。输出形式为很容易理解和解释的合取规则(14.4)。 Apriori算法允许此分析以适用于庞大的数据库,适用于其他类型的更大的数据库分析。 关联规则是数据挖掘最大的成功之一。

除了可以应用它们的数据的限制性形式外,关联规则还具有其他限制。对计算可行性至关重要是支撑阈值(14.6)。 解决方案项集的数量,大小和数据所需的通过次数可以成倍增长通过减小此下限的大小。 因此,规则充满信心或提升,但支撑力较低,将不会被发现。 例如,由于低伏特加rArr;鱼子酱等高置信度规则不会被鱼子酱的销量覆盖。

14.2.3示例:市场篮子分析

我们在中等规模的人口统计数据基础上说明了Apriori的用法。 该数据集由旧金山海湾地区的购物中心客户N=9409的问卷调查(Impact Resources,Inc.,俄亥俄州哥伦布 1987)。 在这里,我们使用与人口统计学有关的前14个问题的答案进行说明。 这些问题列在表中14.1中。 数据被视为包含序数和(无序)的混合类别变量,其中许多具有多个值。有许多缺失值。

由于克里斯蒂安·博格特,我们能够使用了Apriori算法的免费软件实现。 删除具有缺失值的观察值后,每个序数预测变量的中位数被剪切,并由两个虚拟变量进行编码; 每用k个虚拟变量对具有k个类别的分类预测变量进行编码。这样就得到了50个虚拟变量中的6876观测值的6876times;50矩阵。

该算法共找到6288个关联规则,涉及le;5预测指标个,至少10%的支持。 了解这套大规模集合规则本身就是一项具有挑战性的数据分析任务。 我们不会在这里尝试这种方式,但仅在图14.2中说明每个相关频率的虚拟变量数据中的变

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[409438],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。