基于机器学习的动态过程故障诊断方法研究外文翻译资料

 2022-03-23 20:59:20

英语原文共 59 页,剩余内容已隐藏,支付完成后下载完整资料


文献翻译

--第二章和第七章节选

第2章 过程故障诊断概述

2.1背景

二十一世纪的到来,制造业和加工业面临严峻的挑战,形式为能源成本不断上升,环境法规日益严格以及全球竞争加剧。 如前所述,虽然先进控制被广泛认为对于应对这些挑战至关重要,但实施受到更复杂,更大规模的电路配置,全厂整合倾向的影响,并且在某些情况下缺乏经过培训的人员。 在这些过程操作高度自动化的环境中,检测和分类过程测量异常趋势的算法至关重要。

关于过程故障诊断的文献很多,从光谱一端的第一原理模型到完全基于历史过程数据的数据驱动或统计方法。特别是后者基于历史过程数据,被视为处理复杂系统的最具成本效益的方法,并且在过去几十年里已经看到了爆炸性增长。数据驱动的故障诊断可追溯到20世纪20年代贝尔实验室的Walter Shewhart发明的控制图表,以提高其电话传输系统的可靠性。在这些统计过程控制图中,感兴趣的变量被绘制为统计上限和下限内的时间序列。 Shewhart的方法论,在第六章中有更详细的描述。随后由戴明推广,到20世纪60年代,这些统计概念(如Shewhart控制图表(1931),累积和图表(1954年)和指数加权移动平均图表)已完全建立起来(Venkatasubramanian et al.2003)。

这些单变量控制图不利用过程变量之间可能存在的相关性。 在过程数据的情况下,由于受质量和能量守恒原则的限制以及在基本上相同的过程变量上可能存在大量不同的传感器读数,所以存在互相关。 这些缺点导致多元方法或多变量统计过程控制及相关方法在过去几年中呈指数增长。

Venkatasubramanian等人(2003)已经提出了基于用于从数据构建故障诊断模型的方法的这些方法的分类,从而区分统计方法和神经网络。 这看起来有些武断,因为不同类别的方法之间的界限最好是不恰当的。 查看这些方法的另一种方法是基于过程特征,如图2.1所示。 在该图中,经典线性稳态高斯过程,非线性稳态随机过程以及非稳态或动态过程之间存在区别。 后者将包括批量过程监控,处理具有明确定义的起点和终点的过程,以及处理连续动态过程的系统,类似于为设备状态或结构健康监控设计的系统。

2.2线性稳态高斯过程

如前一节所述,单变量控制图不利用过程变量之间可能存在的相关性,并且当线性,稳态和高斯行为的假设持有时,基于主成分分析的多变量统计过程控制可以 可以非常有效地用于早期检测和分析任何异常的植物行为。 由于主成分分析在这些诊断模型的设计中扮演着重要角色,因此需要对方法进行更深入的讨论。

主成分分析(PCA)由Karl Pearson于1901年提出,由Hotelling于1947年开发(Venkatasubramanian et al。2003),目的是定义一组由原始测量变量的线性组合组成的主成分, 分量考虑数据集中最大的方差,剩余方差中大部分的第二个主要分量等。主成分彼此正交并保持过程变量之间的相关性。 如在Hotelling的统计方法中,主要分量是使用表示正常操作条件(NOC)的过程数据的协方差矩阵的特征分解来计算的。

原始测量可以位于由主要部件跨越的超平面上。 在特征提取的情况下,将过程测量投影到主分量上获得的分数向量可以看作是提取的特征。 用于计算特征的主要成分的数量可以通过调查主要成分所占的累积方差来确定。 图2.2显示了三个变量(,和)在平面(,)上的投影,以显示数据的最大变化。

在两个或三个主要组分占据显着总变化(例如超过80%或90%)的情况下,特征空间可以被可视化,并且过程监控因此可以基于前两个分数的视觉表示或 三个主要部分。 如果需要更多的主要组件,则仍然可以通过诊断分数距离和剩余距离控制图来直观地总结该过程。

得分距离和剩余距离控制图的分离可以解释为异常变化分为两部分, 过程模型变化超出其NOC控制限制和变化意味着NOC过程数据的预期相关性中断(Dunia和Qin 1998)。

PCA得分距离与Hotelling的统计量相似,其中只保留了k lt;lt; m的投影向量。k可以通过检查训练数据的主分量编号的方差分解来确定。 计算两个统计量的基础如图2.3所示,显示统计量(左)作为第i个样本距离主成分平面(图2.2中的,-平面)的距离的指示。 相反,statistic是第i个样本到主分量平面中心的距离(图2.2中的,-平面)。

PCA模型的一个建议优点是获得的得分变量是测量变量的线性组合,并且作为中心极限定理的结果,应该显示比测量变量本身更正态的分布。 从这个推论中,PCA评分应该近似正态分布。 然而,在自相关存在的情况下,这个假设和结论不再有效,因为正态分布假定独立且分布相同的数据(Wise and Gallagher 1996)。

2.2.2用PCA进行多变量统计过程控制

PCA的故障识别依赖于得分距离和剩余距离分解贡献图(Russell et al.2000a),详见章节6,计算这些贡献的容易程度可归因于PCA特征提取的确定性和显性性质。 图2.4显示了基于和Q统计量的典型多变量控制图。 高于两个置信度或控制限值中的任何一个的样本表示失控处理条件。

PCA方法的局限性包括缺乏对自相关的开发(Venkatasubramanian et al。2003)及其线性特征。 对于线性情况,次要主成分通常表示数据的微小变化,但这对于非线性数据的确定性不能说明。 为了自信地表示非线性数据集,必须保留更多主要组件。 这增加了计算要求。 辨别哪些微小成分捕获非线性并且代表微不足道的变化也是困难的(Dong和McAvoy,1996)。

2.2.3控制限制

在基于主成分分析的经典多变量统计过程控制中,自动化过程监控所需的控制限制基于假设数据是正态分布的。 T2 PCA的alpha;上限控制极限是根据基于F分布的n个观测值计算的,即

那么的上限控制是通过分布来计算的:

hellip;hellip;

第7章 动态过程监测

一系列新的传感器和数据采集设备的出现使人们能够从高频率的化学和制造过程或设备中收集数据。应用主成分分析来监控固有的非线性动态系统可能会导致低效和不可靠的过程监控。这就导致了开发用于动态过程监控的主成分分析和其他多元方法的扩展版本,如前2章所述。这些方法的一大类依赖于数据的相空间嵌入。这导致了一个静态的,但往往是高度非线性的,表示的监控系统。在本章中,通过选定的案例研究说明了动态过程监控的一些最先进的方法。

三特征提取和重建方法(奇异谱分析,随机森林特征提取和非线性主成分分析)与相空间分布估计方法(一类支持向量机)和另一个相空间表征的方法,递归定量分析,进行比较。三个案例研究被认为是说明动态过程数据驱动的故障诊断中的应用:Lotka–Volterra捕食者捕食系统(specifically the system considered by Lindfield and Penny 2000),the Belousov–Zhabotinsky反应系统(Zhang et al。1993)和自催化反应系统(Lee and Chang 1996)。

7.1监控动态过程系统

稳态过程变量随时间变化不显著,连续动态系统在变量空间的有界区域内表现出稳定的动态行为或(准)周期行为。稳态过程监测方法不考虑这种行为,可能不适合监测这种系统的异常行为。

基于时间序列变量滑动窗口获得增广数据矩阵的连续动态系统监测

一个稳定(准)周期动力系统的周期行为可以用它在相空间中的吸引子来描述。吸引子代表一个特定动力系统的每一个可能状态。如果动态系统应该改变,例如,由于异常事件,这种异常行为将表现为正常行为吸引子之外的状态。对动态系统的相空间进行监视,以改变其正常工作条件下的吸引子,类似于监测稳态系统的输入空间。

一个动态系统的相空间可以用一个增广数据矩阵来近似,它包含原始数据矩阵中变量的滞后副本,如前2章所述。滞后过程数据的参考窗口(固定或移动)表示正常操作条件,对滞后过程数据的移动测试窗口进行比较(参见图7.1)。本章考虑固定参考窗口的情况。

特征提取方法可以用来描述参考窗口的相空间,使得信息丰富的特征空间捕获正常操作条件吸引子的结构。新的测试数据的特征空间可以直接监视(例如,用一类支持向量机或递归量化分析),或重建到原始相空间的精度可以被监控。如果重建不准确,则可能表明由于异常事件,特征提取过程模型不再有效。

7.2数据驱动过程故障诊断框架:动态过程监测

在稳态过程监控中,在离线训练阶段学习了从过程数据矩阵X到特征矩阵F的映射函数ϗ。在离线阶段还学习了特征矩阵F的特征空间诊断功能以及适当的诊断阈值。此外,解映射/反向映射功能,计算从特征矩阵F的重建过程中,一个数据矩阵,对剩余空间的适当的诊断阈值的离线训练阶段学习。

稳态过程的在线监测的实施阶段,一个新的过程数据矩阵进行映射和映射函数(ϗ和א)离线训练空间中学习,得到新的特征矩阵和(后减)新的残差矩阵。然后计算特征空间和剩余空间诊断,并与适当的阈值进行比较,以确定是否发生了故障。

可以用滞后轨迹矩阵Z代替过程数据矩阵X来适应动态过程监控:映射算法将滞后轨迹矩阵Z映射为信息特征矩阵T,捕捉正常操作条件吸引子的结构。特征矩阵T的反向映射产生重构的滞后轨迹矩阵Ž,通过减法,剩余矩阵E(参见图7.3)。

在这一章中,两种监测方法进行调查,主要集中在特征空间用于诊断目的,一类支持向量机(SVM)和递归定量分析(RQA),和三个监测方法进行调查,主要集中在剩余空间:奇异谱分析(SSA),随机森林(RF)特征提取逆非线性主成分分析(NLPCA)。这些方法都具有共同的相空间的量化,其中与正常操作条件相关联的相空间被比作与一些新的测试数据相关联的相空间或部分。

7.2.1离线训练阶段

一个时间序列X的初始范围被假定为代表正常工作条件(NOC):。模型构建中使用的时间序列的范围称为窗口大小,。这个时间序列的缩放(缩放到)是为了确保实际的、可比较的可变范围。为了捕获NOC数据的动态结构,将时间序列数据嵌入到滞后轨迹矩阵中,表示系统的相空间。嵌入参数是由平均互信息和伪最近邻方法确定的。在适用的情况下,根据技术的性质,对相空间进行量化,从而产生一个诊断统计量。

为了确定诊断统计量的置信阈值,使用正常工作条件的验证数据。在NOC训练步骤中建立的相空间量化模型被应用于时间序列有效部分的X尺寸窗口,。验证诊断统计量的分布允许诊断统计限值的定义,具有所需的预期虚警率。

7.2.2在线应用阶段

鉴于相空间量化模型及其相关的诊断统计极限,可以监视新的时间序列测试数据的变化。移动窗口的大小被认为在每一个时间步长。缩放,嵌入和相空间量化模型(从NOC阶段学到)被应用到每个窗口。如果与特定测试数据窗口相关联的诊断统计数据超出了限制(在验证阶段计算),则会发出警报以表示时间序列中可能发生的更改。

在这个框架中,对NOC模型的训练是一次完成,而不是再次更新:参考窗口是固定的。动态监测的一个变种,所谓的变点检测,不断更新网络模型在移动窗口。Auret和奥德里奇(2010)研究了SSA和RF模型变点检测。虽然这种持续更新有益于避免过时的和不相关的NOC数据,但是更新的计算成本可能是令人望而却步的。在这里考虑的动态监测框架中,假设选择NOC数据是明智的。

7.3特征提取与重构方法:框架

在SSA的情况下,射频和量化是一个嵌入式的重建误差的形式实现(滞后轨迹)矩阵。在映射建模步骤中,学习特征提取模型以从代表正常操作条件的数据的相空间中提取大量显著特征。在映射建模步骤,重建模型,学会了从显著的特点进行相空间重构。重建的成功被量化为重建距离,这基本上是原相空间和重建之间的平方和的平方和。映射和逆映射模型可以应用于测试数据,并测试重建距离或错误相比,重建的距离或错误的正常操作条件下获得的。特征提取和重建方法的一般形式如图7.4所示。

本文讨论了动态监测的三个阶段:特征提取和重建方法:

图7.4动态监测的特征提取和重建方法示意图。标度重建距离作为监测统计量。

7.3.1训练阶段NOC数据

对于带有n个样本的x序列,定义一个监视窗口大小。对时间序列()中的第一个样本进行特征提取和重构模型。首先,将NOC数据按缩放,以保证单位方差和零均值,根据标度参数和:

将扩展的NOC时间序列数据嵌入到具有嵌入参数k(滞后)和m(嵌入维数)的滞后轨迹矩阵中。的第j列,如下:

特征提取,或映射建模,然后应用到滞后轨迹矩阵,和d显著特征保留在特征矩阵T *。为测试数据的特征提取应用而保留映射模型。重建,或映射模型,然后应用到特征矩阵,得到重建的嵌入式数据,。解映射模型保留测试功能重建。特征提取和重构的性质,以及保留的特征数量的选择,取决于所应用的技术。

从滞后轨迹矩阵的真实入口到它的重建,即 重建距离,如下:

的样本们的平均重建距离(由嵌入维度m和样本的

全文共6461字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[15577],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。