英语原文共 18 页,剩余内容已隐藏,支付完成后下载完整资料
附录X 译文
强化学习中加权样本迁移
摘要
在强化学习中,我们为了改进给定目标任务的学习过程,考虑经验样本即从一组源任务中收集的元组的转移。大部分相关的方法都集中在为了解决目标任务而选择最相关的源样本,但是之后使用所有迁移的样本都不再考虑任务模型之间的差异。在这篇文章中,我们提出了一种基于模型的技术,可以自动估算每个源样本的相关性(权重)以解决目标任务。在提出的该方法中,所有的样本都通过批量强化学习算法迁移和使用来解决目标任务,但是它们对学习过程的贡献与它们的权重成正比。通过扩展监督学习文章中提供的加权结果,我们开发了一种有限样本分析的批量强化学习算法。此外,我们将所提出的算法与最先进的方法进行了实证比较,结果表明,该算法具有更好的学习性能,并且在某些源任务与目标任务显著不同的情况下,对负迁移也具有很强的鲁棒性。
介绍
强化学习中迁移的目标是通过重用从一组以前学习的任务中获得的知识来加速强化学习算法。直觉告诉我们,学习源任务所获得的经验可能对解决相关但不同的目标任务有帮助。多任务迁移可以以不同的方式实现。现有的方法在传递信息的类型(例如,样本、值函数、参数、策略等)和用于确定这些知识是否有利于解决目标的标准上有所不同。
这项工作的重点是从一组源MDPs中迁移样本,以增加用于学习目标MDP的数据集。为了激发我们的方法,考虑一个经典的学习场景,其中样本获取成本很高。在机器人技术应用程序中,经常会出现这种情况,与真实环境的交互可能会极其耗时,从而减少了可获得的样本数量。由于仿真器与真实环境的差异,采用仿真器的典型补救方法往往会导致次优解。一种更有效的方法是在目标任务中将模拟样本转化为加速学习。
在监督学习社区中,样本迁移已经得到了广泛的研究。尤其是Crammmer等人2008年从理论的角度将问题形式化,并为迁移场景提供了泛化边界。有趣的结果是需要迁移的任务数量和样本总数之间的权衡。在强化学习中,Taylor等人2008年和Lazaric等人几乎同时提出了迁移单个样本的方法。前一种方法侧重于基于模型的方法,后一种方法则提出了将样本迁移到批量强化学习算法(例如Fitted Q-Iteration(Ernst等人2005年提出))的选择性方法。此外,Lazaric等人2008年考虑了一种无模型的方法来计算任务之间的相似度,该方法被用来决定迁移哪些样本。最近,Lazaric和Restelli在2011年从理论的角度分析了批量强化学习算法中样本的迁移,再次证明了样本总数与需要迁移的任务数量之间的权衡。最后,Laroche和Barlier在2017年提出一种迁移所有样本的方法,以增加用于Fitted Q-Iteration的数据集。该方法局限于限制性的假设,即假设所有任务都共享相同的迁移动力,并且只有在奖赏函数上有差异。关于强化学习中迁移文章,我们请读者查阅(Taylor和Stone,2009年;Lazaric,2012年)。
以往许多工作的主要缺点之一是,即使经过详细的选择,在目标任务中使用迁移样本也没有考虑到原始(源)MDP与目标MDP之间的差异,因此即使在渐近情况下也会引入偏差。在这篇文章中,我们提出一种将样本转化为批量强化学习算法的新方法。与其他作品不同的是,除了一个共享的状态动作外,我们不假定任务之间有任何特定的相似性,我们开发了一种新的基于模型的方法来自动选择每个样本的相关性(权重)。现有的迁移算法跨越不同的状态动作空间(例如Taylor等人2007年),可以直接结合到我们的方法中。我们的方法迁移了所有的样本,但是它们在解决目标任务中的影响与它们的权重成正比。为了计算每个样本的权重,我们依赖于MDP结构的非参数估计。特别地,我们采用高斯过程(Rasmussen和Williams,2006年)估计来自样本的源任务和目标任务的奖赏和状态转换模型。然后,我们提出一种健壮的方法来计算两组权重,一组用于奖赏模型,一组用于转换模型。我们引入了一种基于Fitted Q-Iteration的近似值迭代算法,该算法利用这些权值考虑不同MDPs引入的分布转移,从而隐式地根据从目标MDP生成的可能性选择优先级更高的样本。我们提供了一个理论分析,表明我们的方法的渐近正确性和对两个经典强化学习域的实证评估和一个实际任务。
准备工作
在本节中,我们首先介绍我们的数学符号。然后,我们回顾马尔可夫决策过程和近似值迭代的概念。最后,我们正式确定了本工作中考虑的迁移设置。
标记:对于可测量的空间,我们用表示概率测量值超过,用,表示可测量函数的空间大于0的界限,例如 给定概率测量,我们将可测函数的-范数定义为,令为某个空间的值序列。对于,函数的经验范数是。注意,当时,我们得到。每当下标被删除时,我们都会隐含地考虑范数。
马尔可夫决策过程:我们将有折扣马尔可夫决策过程(MDP)定义为元组M = ,其中是可测量的状态空间,是一组有限的动作,是转移概率核心,是奖励概率核心,gamma;isin;[0,1)是折扣因子。我们假设由均匀界定。马尔可夫随机策略将状态映射到动作上的策略为。作为在中采取行动的结果,得到奖赏,并且状态相应地演变为。我们将策略pi;的动作 - 值函数定义为,最优动作 - 值函数为,对所有。请注意,由限制。然后,最优策略是相对于的贪心策略,即,对于所有,。最优动作值函数也是最优Bellman方程,由定义(例如,Puterman,1994年)。
近似解:Fitted Q-Iteration (FQI)(Ernst等,2005年)是批量强化学习算法,属于近似值迭代(AVI)族。 AVI是一个基于价值的方法,通过有限容量的假设空间来表示函数。从初始动作值函数开始,在每次迭代kge;0时,AVI近似于中的最优Bellman方程的应用,使得。形式上,让是一组转换,使得并将经验最优Bellman方程定义为。然后,在每次迭代k时,FQI计算 (1)。
迁移设置:我们考虑一组任务,即MDP,其中表示目标和的来源。我们假设所有任务共享相同的状态-动作空间并且具有潜在差异的变化和奖励。假设,对于,我们可以访问来自第j个MDP的个样本的数据集,其中状态动作对是从公共分布中提取。迁移学习的目标是使用中的样本加速目标任务中的学习过程。
迁移学习的权重
在本节中,我们将介绍我们的样本迁移方法。回想一下,我们的目标是在中充分利用样本,增加FQI用来解决目标任务的数据集,从而加快学习过程。在本文的其余部分,我们利用FQI将RL问题分解为一系列监督学习问题。很容易注意到优化问题是经验风险最小化的一个实例,其中是输入数据,是目标,是平方损失。
如引言中所述,我们的目标是利用所有可用的样本来解决目标任务。假设我们采用一种天真的方法来连接所有的样本,即解决。该方法遭受样本选择偏差(Cortes等,2008年),即从不同的分布或域收集样本。实际上,尽管我们假设状态动作对要从固定的独立任务分布中采样,但目标变量Y根据它们来自哪个MDP进行分配。
用于校正由分布偏移引起的偏差或差异的标准技术是加权重。这种技术包括加权损失函数以强调某些样本的误差并减少其他样本的误差,以纠正分布之间的不匹配(Cortes等,2008年)。点X的权重的定义是,其中是目标的分布,是根据其收集样本的分布。在具体情况下,给定任意样本,其在MDP 下的联合分布是。由表示从MDP 中抽取的第i个样本,然后其重要性权重由给出。
理论分析
我们现在研究IWFQI算法的理论属性。我们分析了我们从一个源任务中获取样本的情况,但是没有来自目标任务的样本是可用的,即且。对来自更多源的目标样本或样本可用的情况的推广是直截了当的,并且它仅使我们的推导复杂化。为了简化我们的符号,我们采用下标“T”和“S”来表示目标和来源。此外,我们要强调的是,本节中提供的结果与估计权重的方式无关。
考虑一系列动作值函数由IWFQI计算。在每次迭代k时,我们在近似最优Bellman方程时产生误差。我们的目标是根据这些误差来约束,即在最优策略的性能与策略贪心的性能之间的分布下的预期误差。这里是用户可以自由选择的上的任意评估分布。在实践中,它可能与采样分布一致。由于IWFQI属于AVI算法系列,我们可以在(Farahmand,2011年)中使用定理3.4。为了完整起见,我们在这里报告了带有范数的版本。
定理1.((Farahmand,2011年)的定理3.4)设K是正整数,。然后,对于任何序列和相应的序列,其中,我们得到:,其中。我们将引导读者引用(Farahmand,2011年)的第3章来定义系数和。
直观地,定理1中给出的界限取决于IWFQI在每次迭代中近似最优Bellman方程时引起的误差。因此,我们的问题缩小到限制这样的错误。 Cortes等人(2010年)已经提供了重要性加权回归的理论分析。然而,他们的结果不能立即适用于我们的情况,因为他们只考虑回归问题,其中目标变量Y是输入X的确定性函数。另一方面,我们有更一般的回归估计问题,其中Y是随机的变量,我们希望得到给定X的条件期望。因此,我们扩展了(Cortes等,2010年)的定理4,以提供对预期的误差的约束,假设返回加权回归量(具有估计权重)和回归函数。以下(Cortes等,2010年),我们用表示实值函数类的伪维数。证据是在附录中。
定理2.设为函数空间。假设我们有一个数据集。样本,根据分布,而是目标分布。假设几乎确定。令,是任何正函数,,,,,其中表示对的经验期望。此外,假设和。然后,对于任何,跟随的概率至少为。请注意,此结果在强化学习领域之外具有实际意义。这里它用于限制误差以便说明以下结果。
定理3.令为假设空间,是在上的分布,是在等式(4)中定义的函数序列,和是目标任务的最佳Bellman方程。假设有一个的数据集。根据联合分布从源任务中抽取样本。设 表示(5)和(3)中定义的理想权重,而表示具有有界第二矩的任意正函数。定义,其中。同样,为过渡模型定义。然后,对于任何,概率至少为。其中是(Farahmand,2011年,定义 5.2)中定义的一步过渡的集中度系数。
正如预期的那样,四个主要误差来源有助于我们的界定:(i)由计算权重引起的偏差(前四项),(ii)近似误差(第五和第六项),(iii)估计误差(第七项)),(iv)传播误差(第八项)。请注意,假设对重要性权重有一致的估计(第5节给出了一个例子),偏差项随着样本N的数量趋于无穷大而消失。此外,估计误差随N减小,因此随着样本数量的增加而消失。因此,在渐近情况下,我们的界限表明唯一的误差源是由于所考虑的功能空间H的有限容量,如在大多数AVI算法中。此外,我们注意到拟合奖励函数并使用它而不是可用样本通过迭代传播误差项,即近似误差。如果我们能够估计使用奖励和转换样本的典型情况的重要性权重,我们就可以摆脱这种错误。然而,由于得到的权重在某种程度上取决于和之间的联合密度,我们期望它们的方差(由测量)要大得多,从而使得结果的界限更大。此外,我们认为,当奖励函数足够简单并且只有有限数量的样本可用时,即使对于普通FQI,单独拟合也可能是有益的。实际上,经验最优Bellman方程的方差可以通过去除由于奖励样本引起的随机性的来源而减少,代价是通过迭代传播小的近似误差。 AVI的界限(例如,Munos&Szepesvari,2008年;Farahmand,2011年;Farahmand&Precup,2012年),可以通过采用类似于定理3证明中描述的程序直接扩展到这种情况。在大多数实际应用中,奖励功能实际上是已知的,因此不需要安装。在这种情况下,可以摆脱定理3中的相应术语,即使任务之间的奖励完全不同,也可以无错误地进行迁移。
计算权重
在本节中,我们将指定如何计算重要性权重。由于和是未知的,我们只能访问分别在(3)和(5)中使用的和的估计。为了获得未知密度的近似值,我们考虑高斯过程(GP),尽管可以使用任何分布匹配技术和概率模型。
高斯过程:我们使用可用的样本来拟合每个任务的两个高斯过程(GP)(Rasmussen和Williams,2006):一个用于过渡模型和一个奖赏模型。为了激励我们的选择,GP已经成功地被用于建模具有高维度和连续性的随机动力系统,许多现有作品中的状态动作空间(例如,Kuss和Rasmussen,2004年;Deisenroth和Rasmussen,2011年;DoshiVelez&Konidaris,2016年;Berkenkamp等,2017年)。为简单起见,我们仅展示如何计算奖励模型的重要性权重。我们的进度直接推广到过渡模型。
给定来自第j个任务的样本,第j个GP在回报均值上返回高斯分布,即,它与目标GP的预测一起,引起重要性权重的分布。在实践中,单个重要性权重的选择可以依赖于这种分布的一些统计(例如,其平均值或模式)。也许并不令人惊讶的是,由于明确表征这种分布非常复杂,并且计算经验统计需要从GP的后代进行昂贵的重复抽样,这一点非常重要。有趣的是,以下定理表明,当奖励模型遵循高斯定律时,这不是必需的,因为未知分布下的预期权重可以用闭合形式计算。
定理4(高斯模型中的奖赏权重).假设每个任务具有未知均值的高斯奖励分布。给定中的可用样本,我们建立奖励分布的估计,使得对于任何MDP 。然后,给出来自第j个MDP的样本,其重要性权重,这里是由GP的预测引起的分布。设和假设。证据在附录A中。在实践中,我们通过考虑(6)中的期望来估计重要性权重,即。直观地,使用预期权重比仅仅采用估计密度的比率更稳健。此外,当GP预测是完美的时,即当和时,在源和目标中,估计的权重会收敛到真实值。与密度比估计的更常见方法相比,这是一个显着的优势(Sugiyama等,2012年),其中通常假设权重函数的参数形式。一个缺点是当时,即当源GP具有大于模型的固有噪声的预测方差时,期望偏离。但请注意,这种情况很少发生,因为从未要求源GP预测在训练期间未见过的样本。此外,由于实际上模型噪声是未知的并且必须进行估计,因此高估是有益的,因为它引入了正则化效应(Mo
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[441428],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。