本
在线离散时间LQR控制器设计,通过动作相关的
启发式动态规划,对散装斗轮取料机操作流程采用积分作用
作者: Joseacute; Pinheiro de Moura a,lowast; ,
Patriacute;cia Helena Moraes Rego a ,
Joatilde;o Viana da Fonseca Neto
概要:本文提出了一种适用于斗轮取料机批量回收过程的最优控制系统在线设计的新方法。这种方法是基于强化学习的模式,更具体地说,行动依赖启发式动态规划 (ADHDP),学习在线实时离散线性二次调节器 (DLQR) 具有积分作用的最优控制解。由于堆场的几何不规则和堆场材料的物理化学特性的变化, 斗轮取料机对实体舱壁的流量控制要求采用适合工艺变量不精确程度和环境不确定性的方法。散装固体的恢复是通过将堆栈划分为层进行的,每层是一个四米高12米长的工作台。所提出的控制方法的主要优点是,除了决策规则完全独立于实体模型外,所得到的控制器的参数是可以自由调节的的。控制系统的设计方式是,在工厂的控制中,具有积分作用的基于 ADHDP 的 DLQR 控制器将实时行动, 仅使用沿系统轨迹测量的输入和输出信号和状态。
- 介绍
随着现代工业过程的日益复杂,使用经典控制,现代控制和鲁棒控制方法的控制设计方法已经不足以满足严格的性能要求。通常,由这些方法产生的控制器的设计已被构造成对植物或环境参数值的选定变化具有较低的灵敏度(稳健性)。虽然这些控制器适应某些环境变化(工厂,环境,目标和相关的性能标准),但这是因为控制器设计的余量,而不是设计本身的在线变化。
在许多工业应用中,工厂动力学在运行期间变化如此之大,以至于固定增益的控制器设计变得不充分。自适应控制理论给出了一种有效补偿过程中参数变化的方法,其中控制设计在线执行,实际上不仅基于单个操作点,而且基于不同的操作点。在存在工厂动态变化,建模不确定性和过程扰动的情况下保持系统性能的能力促使更多的研究在自适应控制领域中用于若干实际应用。
具体而言,斗轮回收机(BWR)的大量恢复是处理大型设备的复杂工业过程,这些设备遭受许多外部干扰,例如机械部件的磨损,工艺变量的不精确以及物理和化学特性的变化。要处理的材料。这样的过程包括以堆叠形式收集堆场形式的存储材料并将其放在传送带上以便运输到船舶装载机以便装运。
通过BWR的电流控制由比例和积分(PI)控制器完成,以直接作用于喷枪速度变化。该控制器是根据操作员的专业知识设计的,通过安装用于测量BWR斗轮(BW)电机电流强度的仪器观察,与BWR喷枪上安装的动态秤测量的负载非常相似,这促使了基于植物传感器信号的控制设计的概念。然而,该控制器的主要缺点是增益参数KP和KI由试错法确定。此外,这些参数是常数,在确定后,如果工厂动态变化,控制系统不再适合,则需要确定新的参数KP和KI以满足新的动态。
开发自适应控制技术的目的是使用沿系统轨迹测量的实时数据为具有未知或不确定动态的系统设计控制器。然而,在最优控制环境中定义的最小化成本函数意义上,自适应控制器通常不具有最佳质量的设计。在间接自适应控制的情况下,采用估算技术从系统的输入和状态测量确定工厂模型的参数,并在获得模型后,确定最优设计方程(Hamilton-Jacobi-Bellman) )解决了。众所周知,非线性系统动力学的建模和识别过程通常是一个耗时的迭代过程,需要在每次迭代时进行模型设计,参数识别和模型验证。当系统呈现出在某些操作区域中表现出的非线性动态时,这种方法变得更不可行。
最优控制已成为现代控制系统设计的基本设计理念之一。最优控制策略满足指定的系统性能,同时最小化结构化成本指数,该指数描述了期望性能与可用控制资源之间的平衡。从控制设计的不同角度来看,一些研究人员在文献中提出了基于增强学习(RL)范例和近似/自适应动态规划(ADP)的最优控制和自适应控制的集合概念和方法[。根据Werbos ,ADP都可以看作是自适应控制的延伸,由于隐含的先行,在比较熟知的直接和间接自适应控制形式更弱的条件下实现稳定,但它可以也可以作为一个最优控制部分,寻求非线性随机情况下计算可行的一般方法。
提出的工作讨论了强化学习(Q-learning)作为直接自适应最优控制方法。 Barto,Bradtke和Singh 讨论了基于动态规划的学习方案,以使这些技术更接近实时学习/规划和控制理论(主要是最优控制和自适应控制)。通过ADP对最佳自适应控制理论进行更详细的讨论可以在Bertsekas书中找到。自适应演员评论结构是设计最佳自适应控制器的最流行且最有效的RL方法。然而,自适应演员评论家的基本结构可以在巴托和萨顿的作品中找到。
RL受到基于从环境中获得的奖励和惩罚激励的自然学习机制的启发。 RL意味着行动与奖励或惩罚之间的因果关系。这导致了目标导向的行为,至少在代理人了解奖励与缺乏奖励或惩罚的情况下。构建RL算法的前提是应该通过强化信号记住有效的控制决策,以便它们更有可能第二次使用。 RL方法基于来自环境的实时评估信息,并且可以称为基于动作的学习。因此,学习过程的焦点集中在性能指标上,该性能指数量化了操作中的闭环控制系统与最优性的接近程度,不再具有系统动力学模型作为感兴趣的对象。
在文献中最常见的批评自适应设计的变化是时间差异和Q-学习的方法[37-39]。反过来,这些被Werbos分类为启发式动态规划(HDP)和双启发式编程(DHP)[10]。通过动作依赖(AD)方法,HDP和DHP方案被修改,以便在不知道代表系统动力学的模型的情况下执行控制策略。
在本文中,我们提出了一种基于RL和ADHDP原理的具有积分作用的最优控制设计的新方法,用于根据工厂动态在线自适应调整控制器参数。基于ADHDP的最佳控制系统具有积分作用的主要优点是,除了实现更好的性能外,系统增益的参数还可以在工厂动态后实时自动调节。另一个有趣的优点是,它不依赖于模型,只依赖于直接或间接测量的输入和状态。许多ADP应用可以在各种实际系统中找到,例如导弹控制,汽车控制,飞机着陆控制,自动驾驶直升机转子故障后重新配置,电力系统控制,车辆转向和速度控制。然而,BWR首次提出了批量恢复过程的应用。
本文的结构如下:第二节介绍了矿石的恢复过程和问题特征。第三部分介绍了Q -Learning和函数逼近理论支持的在线优化控制设计框架的基本原理。第四部分重点介绍了基于自适应评论方法的在线最优控制系统设计方法。在本节中,描述了提出的矿石恢复过程控制方案,除了控制器增益可自调,决策策略完全独立于工厂模型。此外,第5节介绍了验证所提方法性能的仿真结果,最后在第6节中,给出了工作结论。
- 矿石恢复过程
收矿过程包括收集堆放的物料并通过传送带运输以便装运。 BWR的标称容量为8000吨/小时,由BWR,输送带(CT)和船舶装载机(SL)组成的运行路线的标称运输能力高达16000吨/小时,因此两个BWR可以同时恢复16000吨/小时的路线或BWR以8000吨/小时的路线恢复。恢复采用大型设备,其结构由两部分组成,一部分是固定的,另一部分是移动的。在固定部件上安装卡车和平移驱动器,并且在移动部件上安装喷枪和配重,在喷枪的尖端上是BW,这使得矿石恢复。如图1所示,左边是BWR,右边是水桶的轮子,突出显示装置攻击堆栈以进行矿石恢复。
工厂运行过程中发生的三个主要事件如图2的框图所示。平移步骤是第一个发生的事件,同时发生BWR喷枪旋转和BW旋转的事件。 BW旋转速度和平移步长的事件不受控制,唯一受控事件是所需流量搜索中BWR喷枪旋转的速度。翻译步骤的事件在0到1米之间变化,并且与其他事件隔离,即在每个阶段的开始时发生。要重新抓取的层需要多个平移步骤,这些平台是阶段,这些阶段首先发生,并且在每个阶段之后,BW旋转和喷枪旋转的事件同时发生。 BW电动机的电流强度产生流量估计,将估计的流量与由标度测量的流量进行比较,并且估计的流量与由标度测量的流量之间的差异是误差。这反过来处理以确保系统的最佳性能。
2.1.问题表征
BWR 的矿石恢复过程非常复杂,因为这些事件以离散的方式发生,即只有当事件的操作发生更改时,事件的行为才会发生更改。矿石回收过程的主要事件是翻译步骤的大小、 BW 的电机电流和喷枪转速。
矿石恢复过程的流程是周期性的,从矿石存储的堆栈中的机器定位开始,定义层的高度,平移步长, 要恢复的喷枪旋转方向和工作台长度。这个完整的流程显示在图 3。控制系统的设计是根据 BWR 喷枪旋转的速度,以便在整个恢复过程中保持所需的负载。这一过程受 BW 电机的平移步长和电流的影响,即根据图 2。
在本文提出的方法的发展,植物模型没有使用。这种方法的构想是基于 ADHDP 方法设计一个最佳的控制律,是在线估计的实时直接从沿系统轨迹观察的数据。该数据集基本上由 BW 电机的电流强度、编码器测量的 BWR 的喷枪转速以及按比例或恢复体积测量的负载组成。
矿石的恢复是做如下: 堆栈分为和层和M站在哪里?LiJ表示图层ITh 和立场JTh,与我=1,hellip;hellip;,和和J=1,hellip;hellip;,M。在图 4提出了一个堆栈i=1,hellip;hellip;,20 和J=1,hellip;hellip;,5,绿线代表传统的流程,从流程开始Q(T) 加载初始,然后到层L11遵循连续序列直到达到堆栈中存储的总负载Q(T)。红线代表流序列的其他可能性,即非常规流。如果不可能遵循常规流程,则确保所作出的任何决策都是最佳的,与以前的决策无关。在这项工作中提出的控制器只基于传感器测量的信号,而不需要工厂的模型。如果堆栈的物理和化学特性有变化,这将直接影响被测信号,并根据这些信息控制器将作出决定。
中的数据表 1参考层的恢复过程的信息L11(突出显示在图 4,由 12 个翻译步骤所示列 1 (S1,hellip;hellip;, S2)。电流强度的平均变化 (A) 的斗轮驱动器显示在列 2.In 列 3 中每个平移步骤的长度 (S) 是说明。列 4 显示了 BWR 枪的旋转速度的平均变化 (G)。剩余的信息是恢复的负载流 (F) 和升压时间 (T) 分别显示在 6 和 7 列中。这些数据被用于获得一个过程模拟器为基础的最优控制设计的目的。在这里,它只呈现为一个层,同样的过程被遵循为其他层。所提出的数据收集过程的十二个阶段拿起一层,采样间隔 0.005 s。该装置采用电流表测量 BW 电机的电流变化,两个编码器,一个测量平移步长,另一个测量 BWR 转速, 一个动态的规模来衡量每小时的矿石流量吨。在控制逻辑中,一个定时器来计算每个阶段的时间被插入。所有上述传感器均在工厂信息管理系统 (PIMS) 注册,以收集在线数据。
获得的数据引用列二和五表 1被用来生成图 5。请注意,BW 发动机电流数据与矿流数据的行为表现出相同的行为。蓝色曲线表示每小时以吨计的矿石流量,红色曲线表示在恢复矿石过程中斗轮电机的电流强度。还观察到,流量变化与 BWR 喷枪转速的变化成正比。考虑到这一点,控制系统被设想为直接对 BWR 喷枪旋转的速度控制。
如果系统中没有提高 BWR 枪或其他故障,你必须选择最好的方式来获取矿石, 使操作性能不受影响,保持所需的流量。
注意栈没有均匀的几何形状和非线性函数,因此数学模型非常复杂。被认为是一种状态,描述 BWR 操作获得的有效速率的函数定义了当前状态和未来状态之间的关系,即状态转换函数。
为了更好地理解本工作中提出的问题,考虑了以下状态和过程变量:A是 BW 驱动电机的电流;S是大小的翻译步骤;G是兰斯的旋转速度;F是每小时吨的负荷流量; 和T是恢复加载 。
表 1
每小时吨 (t/h) 层的流动行为L11在步骤 (S) 1 到 12 (S1到S12)。
<t
</t
英语原文共 17 页
资料编号:[3603]
L11 |
I (A) |
SL(M) |
G (m/S) |
F (t/h) |
T (s) |
S1 |
50 |
1.00 |
4.00 |
5600 |
40 |
S2 |
65 |
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。