英语原文共 9 页
分类和回归树方法对泵故障率的分析
MaurizioBevilacquaa,MarcelloBragliab,*,RobertoMontanari
摘要
在本文中,基于规则归纳的技术被建议作为非参数替代方案,以确定炼油厂中包含的143个离心泵经受不同的操作条件的预期故障率。同时,该程序可以确定影响泵可靠性的关键操作因素。分类和回归树方法用于从工厂的扩展数据库自动生成关于不同设施的故障和操作条件的信息的规则。
前言
多年来,对工业和一些其他领域来说,他们大部分注意产品的生产忽略维护功能,将其视为很大的弊病。在过去的十年中,企业管理者对维护功能的看法逐渐改变。其中一个迫使这种变化最重要的因素是维护部门成为这些组织内的主要成本中心。今天,一般运营成本以总生产成本15%~70%的上升速度增长,维修部门有节约大量成本的潜力值得反省。通过采用某些先进的管理实践,可以节省大量成本。通过应用良好的管理实践,并使用合理的技术能降低20%~35%的成本。
可以评估几种替代维护策略,以节省维护成本。其中在工业工厂最常用的一个是预防性的维护策略。预防性维护的目标是防止故障和缺陷。预防性维护主要目标是为了防止所有设备在实际发生之前发生故障。因此设计保持和提高设备可靠性。日常预防性维护活动包括设备检查,精确测量,在特定时间段内部分或完整的运输,换油,润滑等。此外,工人记录设备恶化,所以他们知道他们之前应该更换或修理磨损的部件他们会引起问题。
预防性能基于组件可靠性特征。这意味着需要高水平的置信度和高质量的设施可靠性数据。太多的计划外停机和频繁的设备故障表明预防性维护计划没有按预期运行。不幸的是,生产系统中设施的故障率可能取决于几个因素,正确识别和量化导致设施故障的自变量是一个困难的问题。
基于(复杂)的统计技术和/或模型数学表达式通常用于根据对失效的敏感性对关键变量进行排序现象。这些方法的示例是将失效率与温度联系起来的Arrhenius指数方程,或建立的复杂数学模型,用于定义作为温度、振动水平湿度等预期操作条件函数的电子元件失效率。
分类和回归树(CART)方法显示出了相对于标准统计技术的明显优势。本文对意大利某重要炼油厂143台离心泵的主要工况失效率进行了辨识。根据CART方法进行分析。采用这种方法,在对历史泵故障数据进行分析后,得到最终决策树。这种树使得识别影响泵故障率的最重要的操作变量成为可能,并代表了支持维护人员决策支持系统实现的简单和强大的工具。目的是预测每个泵的类别,例如故障风险(例如故障率)。基于此决策树,管理层能够定义改进的预防性维护策略。此外,最关键操作条件的确定为公司主管提供了未来对生产工厂设计采取主动维护措施的基础。
2、API炼油厂:简述
该炼油厂是意大利和欧洲炼油行业最重要的工业集团之一,本研究考察了该炼油厂的泵。其活动是以综合方式进行的,管理整个石油化工循环,从石油供应到炼油过程和成品的分配。改造过程由一家炼油厂完成,该炼油厂的加工和服务厂占地约65万平方米,管道长3000公里。炼油厂生产周期属于中高转换类型,通过热过程操作,它具有:
——超过1,500,000m3的储存量;
——每年约3,900万吨石油的生产能力;
——一艘油轮的接收能力高达400,000吨排水量。
该工厂有一个闭环水系统,能够输送高达7000m3h的水,还有一个消防系统,能够供应高达3000m3h的海水。一个287兆瓦功率的综合气化联合循环发电厂实际上正在启动运行。这个工厂燃烧从重油精炼产品气化工厂获得的合成气,其生产能力相当于每天1250吨。该装置具有辅助制氧、洗气、硫磺回收、高效处理和重金属回收等功能。炼油厂的操作如图1所示,它描述了工艺设备的简化循环。每月向一级蒸馏过程(Topping)进料34万吨,包括30万吨石油和4万个一级残渣。炼油厂的主要加工厂由两个最近引进的蒸馏装置组成:一个是常压装置,日产10500吨;另一个是真空装置,日产2500吨。
轻馏分主要由液化石油气(LPG)和汽油组成,提供加氢工艺(Unifinng),用于稳定某些组分和去除不需要的元素,如硫。在加氢过程后,液化石油气可以使用,而汽油经过进一步加工,以提高其辛烷值(异构化,生产不含芳烃的轻质汽油,和平整,以获得非常高的辛烷值)。中间馏分(煤油、轻质油和重质油)采用脱硫工艺(HDS1和HDS2装置),而重质馏分和蒸馏残渣通过裂解装置(热裂解和减粘裂化)进行加工,以提高油转化率,增加轻质产品的产量。近年来,所有主要炼油厂都进行了大幅度的改造。这导致了原油产量的增加和产品质量的改善。
规则归纳和CART方法归纳推理的概述
从一组观察数据中得出其结论,因此,是基于来自经验的观察,而不是预定规则或谓词。它从观察到的案例开始,并最终从这些案例中归纳出构建新规则的方法。这些规则是基于预测的评价体系的自然核心。参数统计技术(例如,回归分析)和非参数分类算法(例如,规则归纳)相似,因为它们均使用由许多病例或示例组成的一组数据,每个病例或示例由许多实验观察结果组成。两种方法均使用诱导法确定这些观察结果之间的关系,可用于预测其中一个变量(目标变量)。两种方法之间的差异可能非常显著。使用统计技术,如线性回归,假设数据是连续的从测量的区间尺度。此外,统计学方法(例如回归分析、判别分析等)通常假设整个测量空间内独立变量和因变量之间存在相同的关系,为了计算结果的显著性检验,假定变量呈正态分布。这些假设在现实中往往难以实现。
分类树是根据预测变量值预测对象类的经验规则。规则归纳技术是分类的,因为因变量是名义的。自变量可以是标称的或区间的,诱导的关系是逻辑的而不是函数的。不要求变量独立或遵循任何特定分布。数据也可能缺乏同质性,即测量空间不同部分的变量之间可能存在不同的关系。对于规则归纳与多元回归分析的完整比较,读者可以参考参考文献。8.这些决定的细节超出了本文的范围,但在CART4的标准参考文件中进行了详细解释。
此处仅报告该方法的一些注释。分类树方法的共同特点是:
1.合并:相对于目标变量,非显著预测分类与显著分类进行分组;
2.拆分:选择拆分点。通过与所有其他人群进行比较,选择变量至分离人群;
3.停止:确定如何扩展节点分裂的规则;
4.修剪:删除对树的预测值几乎没有增加的分支;
5.验证和误差估计:用于评估和比较给定分类器的方法相同,无论使用哪种方法生成。对于文献中采用的主要分类树算法,尤其是CART方法,测量真实误差与表观误差,并使用单独或重新采样数据验证分类器。
CART代表一种以决策树形式预测的计算统计算法。CART过程可以定义为通过从父节点开始的二进制拆分序列将数据分区到终端节点的方法。CART开始将初始训练数据集执行为两个子集,因此每个子集中的用例比原始(单组)集中的用例更均匀。CART为每个子节点重复分区,递归地继续,直到获得所需的通用节点中的同构级别或验证给定的停止标准。通常,以下条件将导致算法终止:
-已达到最大树深度;
-由于所有终端节点均满足以下一个或多个条件,因此无法进行更多拆分:
-没有重要的预测变量来拆分节点;
-终端节点中的用例数小于父节点的最小用例数;
-如果拆分节点,一个或多个子节点中的用例数将小于子节点的最小用例数。
每个节点中的CART拆分算法基于这样的概念,即每个子节点必须比原始父节点更纯粹,其中纯粹是链接到给定变量的值的概念。例如,在一个完全单一的节点中,所有的情况都具有相同的分裂变量值(因此,方差等于零)。有几种算法可用于测量杂质水平。不同杂质指标的示例为基尼系数和二进制指数(针对分类目标变量)或有序二进制指数(针对有序分类变量)。因为在这个应用中,目标变量都是连续的,所以应用最小二乘偏差(LSD)方法作为杂质测量技术。LSD方法所采用的将父节点t拆分为两个子节点t(Left)和t(Right)的函数如下
式中:pL为父节点 t 中归入左注 tL;pR 的病例比例,父节点 t 中归入右注 tR;yi 的病例比例;实验病例 i;y(t)的目标变量值;父节点 t;yetxT 的平均值;子节点 tx;NetxT 的平均值;子节点tx和R2(tx)中归入的病例数;tx 为与子节点 t 相关的加权方差.
最佳拆分(以及相应的因变量)是使函数最大化的函数,表明由于拆分,树的杂质减少。在最佳分割节点上,确定了最重要的变量和该变量的临界值。同一个预测变量可以在树中使用多次。
拆分过程基于一组if-then规则构建树状结构,指导决策者做出更好的决策,因为允许变量采取分层优先级,也允许在不同条件下进行交互并具有不同的差异。可以使用类似的树:
提供关于主要因素(即操作变量)和相互作用的易于理解的信息在预测目标变量(即泵故障率)的关键因素之间;
-将分类决策传达给其他人;
-自动分类或预测新病例。
CART 代表了一种通用方法,因为它可以考虑分类错误的风险。对于连续目标变量(即失效率),分类错误风险的估计可以基于方差节点概念。简言之,总方差等于进入节点的方差(误差)加上节点之间的方差(解释)之和:
由误差引起的方差比例用(百分比)表示:
因此,模型解释方差的比例等于:
它表示用于在下面的部分中估计给定树的性能的参考指数。考虑到其吸引力,CART 和其他分类树算法已广泛应用于不同的研究领域(例如,生产、产品组合管理 、兽医 、冶金学 、医学 ,但就作者所知,从未在可靠性研究中应用过。此外,分类树分析的工业应用的增长现在得到了支持,并受到商业软件工具的青睐。这个工具的一个例子是 AnswerTree,SPSS s 软件模块专门用于分类树分析。它提供了四种强大的算法,使分析员能够为他的数据选择最佳拟合模型:CART 、CHAID 、extinuous CHAID 和 QUEST。AnswerTree 的一些其他功能包括:
-直观地显示模型;
-支持标称分类、序数分类和连续变量;
-允许使用树生成方法:
(a)自动;
(b) 交互;
(c) 生产包括脚本语言,使您能够以批处理模式运行应用程序。
4. 泵故障分析
实验数据集涉及插入 API 精炼厂的 143 台离心泵样本。
对这些泵进行了 18 个月的监测,记录了发生的所有故障、运行时间和设施的总停机时间。即使有些数据不可用,也应考虑并收集各处理泵和溶液的几种操作条件(表 1)。不幸的是,尽管 CART 能够管理以缺少一些数据为特征的变量,但一些操作属性(例如,所需的 NPSH 和泵效率)的不可用数据量太大,这些因素尚未被评估为分类树分析的潜在预测变量。
进行了精确分析,以确定最佳分类树。请注意,适当展开后,推车不是黑盒。例如,输入变量和因变量与多元线性回归或判别分析中使用的数据集相当。可变的选择和规格应该是因果的和合理的,就像传统的统计方法。发现的另一个方面是修剪掉最后一棵树的一些枝条的可能性。CART 生成所谓的最大树,然后检查通过剪除最大树的枝条得到的较小的树,从而生成更健壮的结果。重要的一点是,CART 并没有停止在树木生长过程的中间,因为可能还有更多的信息有待钻进几个层次去发现。因此,树木经常生长得比实际需要的要大,因此必须有选择地修剪,以提高最终决策图的质量(即分类能力)。
基于这些原因,测试了几组变量,并考虑了不同的修剪树。考虑到潜在有趣的变量数量较多(见表 X),我们决定制定进步的分析策略。换句话说,我们发展了一系列的树,这些树的特征是相同的目标变量和越来越多的预测变量。通过这种方式,我们能够评估每个新变量对树的预测能力的影响。由于执行的测试数量较多,为了简洁起见,本文的以下将只报告最有趣的结果。
对于表 X 中列出的变量,报告了以下简要考虑。我们用“设备类型”一词表示使用离心泵(例如,减粘裂化、顶升、真空、热裂化、分离器等)的炼油厂(图 1)。水泵可靠性的一个关键因素是在处理后的液体中是否存在烟尘。烟灰代表存在于液体中的固体碳基颗粒,其对泵密封有破坏作用。对于不同温度下加工的液体,很难获得有关其运动粘度的数据。由于公司未提供这些数据,我们决定使用 ASTM D341-93 标准规范中报告的粘度 c 温度图。
泵密封分为四种不同类型:单密封、双密封、唇密封、串联密封。在不同的操作期间,炼油厂加工的液体可以大大改变其化学结构和物理性质。由于无法确定工厂加工的每种液体的确切成分,我们决定将不同的液体分类,例如:原油、煤油、汽油、柴油、水、热焦油、松节油、Lvgo、DEA、液态丙烷、碳氢化合物、苏打、蒸馏残留物和己烷。很明显,通过这种方式,我们已经引入了一定程度的近似。但在任何情况下,这种近似都是可以容忍的,并且与所采用的模型分析类型相容。最后,考虑到:泵的故障率=故障次数/间隔时间
很明显,当故障率代表因变量时,不会将运行时间作为预测变量进行检验。可以注意到,表 X 中报告的变量通常由连续数据定义。其中只有四个(流体类型、工厂类型、烟尘和密封类型)是名义变量。
4.1. 实验结果
考虑到分析的数据量有限,为了更好地区分最关键的情况,采用了以下决定何时继续或停止分裂节点的规则:
最大层数等于 5(不包括根节点);
-每个父节点的最小事例数等于 3;
-每个子节点的最小事例数等于 1。
树的选择性剪枝将通过全树采用 1-SE规则自动获得。考虑到这一规则通常会产生最佳结果,因此做出了上述选择。
表 2 和表 3 提供了表 1 中报告的 8 个不同目标函数的 CART 实验结果。结果仅与以解释方差的最佳值表征的树有关。正如你所看到的,所有的树都
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。