数据驱动神经最优温度控制水煤气变换反应稳定迭代自适应动态规划外文翻译资料
2022-07-20 15:40:25
英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
数据驱动神经最优温度控制水煤气变换反应稳定迭代自适应动态规划
魏庆来,IEEE会员,刘德荣,IEEE会员
摘要 - 本文提出了一种新型的数据驱动稳定迭代自适应动态规划(ADP)算法来解决水煤气变换(WGS)反应系统的最优温度控制问题。 根据系统数据,分别使用神经网络(NNs)构建WGS系统的动力学并解决参考控制,其中WGS系统的数学模型是不必要的。考虑到神经网络的重构误差以及系统和控制输入的干扰,提出了一种新的稳定迭代ADP算法来获得最优控制律。 卡发了收敛性质来保证迭代性能指标函数收敛到最优性能指标函数的有限邻域。开发稳定性属性是为了保证每个迭代控制律能使跟踪误差一致地最终有界(UUB)。开发神经网络来实现稳定的迭代ADP算法。最后,给出数值结果来说明所开发方法的有效性。
索引术语 - 自适应评论设计,自适应动态规划(ADP),近似动态规划,近似误差,数据驱动控制,神经网络(NN),最优控制,强化学习,水煤气变换(WGS)。
Ⅰ.介绍
水煤气变换(WGS)反应器是煤基化工行业的重要组成部分[1]。 WGS反应器在反应物流中结合一氧化碳(CO)和水(H\O)以产生二氧化碳(CO\)和氢(H\)。正确调节操作温度对于在瞬态过程中实现足够的CO转化至关重要[2]。 因此,对反应温度的最佳控制是WGS反应过程的关键。为了描述WGS反应过程的动力学,许多讨论集中在WGS建模方法上[3],[4]。 不幸的是,已建立的WGS模型通常是很复杂的非线性模型。 这使得传统的线性控制方法[5] - [7]仅在平衡点附近有效。 当所需的工作范围很大时,系统中的非线性不能通过使用线性模型进行适当补偿。 因此,有必要研究原始非线性系统的最优控制方法[1],[2]。 虽然最近几十年来非线性系统的最优控制一直是控制领域的焦点[8] - [16],但WGS反应系统(简称WGS系统)的最优控制器设计仍然具有挑战性,这是由于WGS反应过程。
基于神经网络(NNs)等函数逼近器,由Werbos [17],[18]提出的自适应动态规划(ADP)作为一种解决最优控制问题的方法发挥了重要作用[ 19] - [21]。 主要基于策略和值迭代[22]的迭代方法被广泛应用于ADP中以间接获得Hamilton-Jacobi-Bellman(HJB)方程的解,并受到了很多关注[23] - [29]。 对于大多数以前的ADP算法,它要求系统模型,迭代控制和性能指标函数能精确地近似,这保证了算法的收敛性。在ADP的实际实现中,例如对于WGS系统,由逼近器造成的重构误差以及系统状态和控制的干扰固有地存在。这些使精确的系统模型,迭代控制规律和性能指标函数无法准确获得。尽管在[30]和[31]中,ADP被设计用于设计WGS系统的最佳温度控制器,但未考虑近似误差和干扰的影响。此外,没有讨论收敛性和稳定性。
在本文中,首次发展了一种新的稳定迭代ADP算法,以获得WGS系统的最优控制律,使WGS系统的温度跟踪期望的温度。 通过使用神经网络,建立了WGS系统的动力学和参考控制。 通过系统变换,最优跟踪问题被有效地转化为最优调节问题。 考虑到神经网络的重构误差和扰动,提出了一种新的稳定迭代ADP算法来迭代求解最优控制律。 我们强调收敛和稳定性分析的建立是为了保证性能指标函数收敛于最优性能指标函数的有限邻域,并且每个迭代控制律都会使跟踪误差一致最终有界(UUB)。 提出了稳定迭代ADP算法的NN实现,并分析了权值的收敛性。 最后,给出了数值结果和传统数据驱动方法的比较,说明了所开发的迭代ADP算法的有效性。
Ⅱ.预赛
A.WGS反应
WGS反应将包括CO,CO2,H2和H2O的水煤气输入到WGS反应器中。 WGS反应稍微放热,将CO转化为CO2和H2,如下所示:
WGS反应速率[2]可描述如下:
速率为(kmol/m3/ s)。催化剂密度。 速率常数是kr= 1.32times;109kmol/kg/s。给出了反应平衡系数KT 如[32]中所表示的那样
对于WGS反应(2),我们可以看到反应温度是一个关键参数[1],[2]。
假设表示控制输入(msup3;/s),其中theta;CO,theta;CO2,theta;H2,和theta;H2O分别表示CO,CO2,H2和H2O的给定百分比组成。 一般来说,WGS的水煤气系统来自之前的反应过程,如煤气化[4]。 这意味着WGS系统的混合气体的组成比是不可控制的。 令x(k)表示WGS反应器的温度; 那么,WGS系统可以表示为
其中F(·)是一个未知的系统函数。令和,其中n=1且m=1。令期望状态为tau;。那么,我们的目标是设计一个最佳的状态反馈跟踪控制律,这使得系统状态跟踪期望的状态轨迹。
B.基于数据的建模和属性
引入三层BP神经网络分别构建WGS系统的动力学和参考控制。设L是隐藏的数量的巢穴神经元。设为NN的输入,并设为输出,则BP神经网络的功能可以表示为
是输入隐藏层权重矩阵,是隐藏输出层权重矩阵。 设sigma;是一个S形激活函数[33],[34]。 为了便于分析,在NN修整过程中只有隐藏输出权重W被更新,而输入隐藏权重是固定的[23]。 因此,下面通过表达式来简化NN函数,其中 。
设隐层神经元的数量为Lm。 然后,系统(3)的模型NN可写成
其中和分别表示NN输入和模型NN的理想权重矩阵。 假设,其中是具有合适维度的任意权重矩阵。 令为常数,并让是有界NN重建误差满足其中为常数。 为了训练模型NN,它需要一系列WGS系统和控制数据,如一段时间内的数据。 NN该系统的模型构造为
其中是估计的系统状态向量。 令为理想权重矩阵的估计。 然后,我们定义系统识别错误为
当。假设然后,我们可以获得
权重被调整以最小化以下误差函数:
通过基于梯度的适应规则[33],[34],权重更新为
其中是学习率
定理2.1:使用模型网络(4)来识别WGS系统(3)。 如果存在满足的常数,则系统识别误差渐近稳定,误差矩阵收敛为零,为k→infin;。
证明:考虑下面定义的Lyapunov函数候选
通过考虑Lyapunov函数候选的不同,我们可以得到
通过选择学习率
我们可以得到。证明完成。
接下来,我们将通过NN(网络)简单地解决参考控制问题。 根据(3)中的状态方程,我们给出和来近似表示为的参考控制函数 。 我们注意到求解需要的数据。 因此,它需要采用离线或历史数据来训练网络。设隐层神经元数为。设成为理想的权重矩阵。网络的NN表示可以写做
其中,为NN重构误差,满足的常数。 假设,其中是具有合适维数的任意权重矩阵。
NN参考控制器构造为
其中是估计的参考控制,是估计的权重矩阵。 将识别错误定义为
当,且。调整uf网络的权重以最小化误差函数,即
通过基于渐变的适应规则,权重更新为
其中是学习率。
Ⅲ.神经优化温度控制器的设计
在这里,将开发稳定的迭代ADP算法以获得最优控制律,使WGS系统的温度通过收敛和稳定性分析追踪期望的温度。
A.系统转型
对于WGS系统(3),如果我们让期望的状态为,那么我们可以将跟踪误差定义为
设为对应的期望参考控制(简单控制)达到所需状态tau;。 由于系统功能未知,WGS系统(3)无法直接获得所需的控制。 另一方面,在现实世界的WGS系统中,系统和控制输入的干扰都是不可避免的。 这些使系统转换方法具有准确的系统模型[35]难以实现。 为了克服这些困难,提出了具有NN重建误差和干扰的系统变换。 首先,根据期望的状态tau;,我们可以得到
。 设成为的输出网络。 让是未知的有界控制扰动,其对于常数满足。 那么,我们可以将控制误差定义为
其中。 由于和有界,存在满足的常数。 另一方面,令为模型NN功能。 让是一个未知的有界系统满足为常数。那么跟踪误差系统可以定义为
其中,
,
且。令,并且我们有一个常数满足。令NN的跟踪误差表示为
然后,我们可以得到,其中我们可以定义系统误差为,其中存在一个常数满足。
B.稳定迭代ADP算法的推导
在这里,我们的目标是设计一个最优控制方案,使跟踪误差收敛到零。 假设是效用函数,其中Q和R都是具有合适规格的正定矩阵。 我们将性能指标函数定义为
e
我们让。 最性能指标函数可以定义为。 根据最优性原理,满足离散时间HJB方程如下:
定义最优控制的定律为。 因此,HJB方程(12)可以写成
一般来说,是一个高非线性和非分析的函数,直接求解(13)几乎不可能获得。 为了克服这个困难,开发了一种新的ADP算法来迭代地获得最优控制律。
在开发的稳定迭代ADP算法中,性能指标函数和控制律通过迭代更新,迭代指数i从0增加到无穷大。 首先,令为任意可允许的控制律,令为相应的性能指标函数,满足
令初始性能指标函数。 然后,对于,迭代ADP算法将在两者之间进行迭代
其中和是迭代误差,
从稳定迭代ADP算法(15)和(16)可以看出,迭代性能指标函数用于近似,迭代控制律用于逼近。 所以,当,该算法应该是收敛的,这使得和收敛到最优。 下面,我们将展示开发的迭代ADP算法的属性。
C.具有逼近误差和扰动的稳定迭代ADP算法的性质
从迭代ADP算法(15)和(16)可知,由于系统误差,迭代误差和干扰的存在,精确ADP算法的收敛分析方法是无效的。 在本文中,受到[25]和[36]工作的启发,将开发一种新的“误差界”的收敛和稳定性分析。 首先,我们定义一个新的性能指标函数,即,
那么,我们可以推导出下面的定理。
定理3.1对于,迭代性能指标函数和迭代控制律由(15)和(16)。 设为(17)所示。 那么,存在一个常数使得
统一保持。
证明:对于,如果我们让
那么我们有。 根据(16),我们有
设和。 假设和是常数,并设,
然后,迭代性能指标函数可以表示为
对于和是上限的,如果我们让常数和,,和
其中是有限的。 因此,对于,存在满足(18)的。 证明完成。
根据定理3.1,我们可以看到,对于,那其中必须存在有限的,使得(18)保持一致。 因此,可以被看作是均匀的近似误差。 那么,我们可以推导出下面的定理。
定理3.2:对于,如(18)式所示,其中是一个常数。 令且都是常数且使得
统一保持。 如果(18)中的常数满足
那么迭代性能指标函数收敛于最优性能指标函数的有限邻域。
证明:定理可以分两步来证明。 第一,使用数学归纳法,我们将证明,对于,迭代性能指标函数满足
令,则(26)可以化为。我们可以得出适用于结论。假设(26)适用于和。然后,对于,我们有在页面底部显示的等式,证明了(26)。 数学归纳完成。
其次,根据(25),我们有; 因此,几何级数是像一样有限 。 根据(26),迭代性能指数函数收敛于有限邻域的最佳性能指标函数。
接下来,我们可以导出稳定性属性。
定理3.3:对于,分别由(15)和(16)得到和。 然后,跟踪误差系统(9)是在迭代控制法则下的UUB。
证明:根据(26),对于,让
定义一个新的与类似的迭代性能指数函数,其中如(27)中定义。根据式(25),我们可以得到,这意味着。 令
对于。令常数满足,并且我们可以求出
定义新的状态误差集。由于是一个正定函数,对于,我们有是有限的,其中表示欧几里得规范。 我们可以定义
定义一个新的集合如下:
定义满足以下两个条件的两个标量函数和。
1)如果,那么
2)如果,其中,那么和都是单调递增函数,
对于任意常数,存在
满足。 对于T = 1,2,...,如果和成立,则。因此,对于满足的,满足Tgt; 0
得到。 因此,对于,存在使得保持的T = 1,2,...。 如是任意的,让; 那么我们可以得到。根据[37]中的定义,当达到的上限时,我们有是UUB。
接下来,对于,存在时刻和使得
保持。 选择满足。 那么,存在使得保持不变。根据据(30),我们有
根据(28)和(29)中和的定义,对任意常数zeta;gt;Gamma;,可以得到,这表明是跟踪误差系统(9)的UUB控制律。
推论3.1:对于i = 0,1,...,令和可以
lt;
全文共15996字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[8912],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。