




已阅读5页,还剩60页未读, 继续免费阅读
(机械电子工程专业论文)基于规则的数据挖掘方法在故障诊断中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 y s 2 专i 8 1 针对数据库和数据仓库技术在故障诊断领域的广泛应用以及现在各工厂基本上都对重 要设备实施了实时监控,由传感器不间断的传回反映机组运行状态的各种数据及参数,已 经形成大型的数据库或数据仓库这一事实,提出将数据挖掘中产生显式规则的方法应用于 该领域。决策树、粗糙集、关联规则等数据挖掘方法能产生显示的规则,并能有效解决海 量数据中知识的发现问题。 决策树是一个类似于流程图的树结构,主要用途是提取分类规则,进行分类预测。粗 糙集理论无需提供除问题相关的数据集合外的任何先验信息,适合于发现数据中潜在的规 律、不准确数据或噪声数据内在的结构联系,可以解决重要的分类问题。关联规则反映一 个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联,那么其中 一项的属性值就可以依据其他属性值进行预测。应用于故障诊断领域,对大量的机组状态 数据进行挖掘,发现故障数据中存在的规律,以规则的形式体现出来,可以为故障诊断提 供决策依据。利用转子实验台的模拟故障数据对提出的方法进行考核。结果表明,系统采 用的几种方法所得出的规则是正确的,并能正确用于故障的分类工作,也可为专家提供有 价值的信息。 在w i n d o w s 9 8 开发平台上,结合开发工具m i c r o s o f tv i s u mc + + 6 0 ,s q ls e r v e r 数据库管理系统。采用面向对象的程序设计思想和模块化程序设计方法,对基于显式规则 的几种数据挖掘方法进行了软件实现,开发了基于故障诊断的挖掘系统,该系统具有一定 的实用价值。 本文的创新点在于将数据挖掘产生规则的方法引入了故障诊断,结合先进的数据库管 理系统,将数据挖掘中关联规则、粗糙集以及决策树方法用于故障的分类工作,并最终软 件实现了以上的构想。 关键词:故障诊断、数据挖掘、决策树、关联规则、粗糙集、分类 a b s t r a c t i na c c o r d a n c ew i t ht h ew i d e l ya p p l i c a t i o no fd a t a b a s e sa n dd a t aw a r e h o u s e s ,a n dt h er e a l i t yo f t h ei n s t a l l a t i o no fo n - l i n ea n do f f - l i n em o n i t o r i n gs y s t e mt os i g n i f i c a n te q u i p m e n ta n dl a r g e s c a l e d a t a b a s e sa n dd a t aw a r e h o u s e sh a v ec o m ei n t ob e i n gi nf a u l td i a g n o s i sf i e l d , t h ep a p e rr e p r e s e n t sa n e wm e t h o do fd a t am i n i n gw h i c hp r o d u c e sv i s i b l er u l e s p o t e n t i a lk n o w l e d g ec a nb ee f f e c t i v e l y d i s c o v e r e db yd a t am i n i n gm e t h o ds u c ha sd e c i s i o nt r e e ,r o u g hs e ta n da s s o c i a t i o nr u l e sf r o mam a s s o f f a u l tda _ 饥 d e c i s i o n t r e e ,a sa f l o w c h a r t , i ss t r u c t u r eo f at r e e ,w h i c h i sm o s t l yu s e di nf i n d i n gc l a s s i f i c a t i o n r u l e sa n dp r e d i c t i o no fc l a s s i f i c a t i o n r o u g hs e tt h e o r yi sm a i n l yu s e di na t t r i b u t e sr e d u c t i o na n d c l a s s i f i c a t i o n p o t e n t i a lr u l e ,i n t e r n a lr e l a t i o no f i n a c c u r a t eo rn o i s ed a t ac a nb ed i s c o v e r e db yr o u g h s e t , a l t h o u g ht h e r ei sn oa n yp r i o rk n o w i o d g ee x p e c tt h ed a t as e ta s s o c i a t e dw i t ha c t u a lp r o b l e m a s s o c i a t i o nr u l e sr e f l e c tt h eh l o w l e d g er e l i e do ra s s o c i a t e db e t w e e no n ee v e n ta n dt h eo t h e re v e n t s i fa s s o c i a t i o n sb e t w e e nt w oa t t r i b u t e so rs e v e r a la t t r i b u t e sa r eg o th o l d , o n ea t t r i b u t ev a l u ea m o n g t h e s ea t t r i b u t e sc a nb ep r e d i c t e db yv a l u e so f o t h e ra t t r i b u t e s w h e ns u c hd a t am i n i n gm e t h o d sa r e u s e di nf a u l td i a g n o s i sf i e l db a s e do nan l a s so ff a u l td a t aa b o u tm a c h i n e r ys t a t e ,s i g n i f i c a n t i n f o r m a t i o nc a nb ed i s c o v e r e da n db es h o w e da sv i s i b l er u l e sa n dd e c i s i v ec o n c l u s i o n sf o rd i a g n o s i s b ea c q u i r e df r o mt h e s er u l e s t h er e s u l t si n d i c a t et h a tr u l e sg e n e r a t e db yd a t am i n i n gs y s t e ma r e a c c o r d i n g w i t ha c t u a lf a u l tf e a t u r e sa n dt h i ss y s t e mc a nb eu s e di na c c u r a t ec l a s s i f i c a t i o no f d i f f e r e n t f a u l t s i nt h ee n v i r o n m e n to fm i c r o s o f tv i s u a lc + + 6 0a n dd a t a b a s em a n a g e m e n ts y s t e m ( d b m s ) s q ls e r v e r 7 0 ,t h ec h i n e s ev e r s i o no fw i n d o w 9 8o p e r a t i n gs y s t e m ,af a u l td i a g n o s i ss y s t e mi s d e v e l o p e db yu s i i 唱d a t am i n i n gm e t h o d s ,i n w h i c hv i s i b l er u l e sa r ep r o d u c e d f i n a l l y , t h es y s t e mi s t e s t e db y e x p e r i m e n t d a t ao f a r o t a r ym a c h i n e r y t h ei n n o v a t i v ep o i n t so f t h i sp a p e ra i ea sf o l l o w e d :i n t r o d u c i n gt h ed a t a m i i l i n g m e t h o d sw h i c h p r o d u c e v i s i b l er u l e st of a u l td i a g n o s i s ,d e v e l o p i n gt h ef a u l td i a g n o s i ss y s t e mb a s e do nd a t am i n i n g c o m b i n i n gw i t hm v a n c e d d a t a b a s em a n a g e m e n t s y s t e m , u s i n ga s s o c i a t i o nr u l e sa n dr o u g h s e ta n d d e c i s i o nt r e et oc l a s s i f yf a u l t s k e y w o r d s :f a u l td i a g n o s i s ;d a t am i n i n g ;k d d ;d e c i s i o nt r e e ;a s s o c i a t i o nr u l e s ;r o u g h s e t ;c l a s s i f i c a t i o n i l 第一章绪论 第一章绪论 1 。1故障诊断的发展现状 随着工程设备自动化程度的提高,其结构日趋复杂,一旦出现故障,会产生链式反应, 以致整个设备损坏,不仅造成巨大经济损失,而且会危及人身安全。大型机组如各炎大型 汽轮发电梳组、离心糕缩瓿缀等大型酉转瓿搬及一些大毽往复掇缀,摇大型柴演发电橇组, 它们是电力、石化、冶金、汽车和造船等国民经济重要部门的关键设备,保障其安全、稳 定、长期、满负荷运行将产生巨大的缀济效益和社会效益。工程实践使人们认识到,要使 设备虿靠、有效,充分发簿箕效蕴,登绥发震工裰篮溅箨敖黪诊鼗按零。 大型机组成套设餐一般包括缀多环节,影响其安全运行的因素众多,通过使用锫种设 备对机组运行的过程状态参数进行信号的懿测与分析是判断设备是否正常运行、是磷存在 潜在放漳及预瓣教障发震趋势等趣舔豹有力手段,繇设备静舅常或薇障楚在设备运行中逶 过其状态信号变化反映出来的。这些状态信号就是设备在运行中出现的务种物理的、化学 的现象,如振动、噪声、潞升、油耗、变形、功耗、磨损、气味等等,而现实中应用最多 的罴祝禳缀动傣号,缀动蕊号含旁辜鬻兹信息。对于旋转设备来说,浚鸯任褥静僖怠麓 像振动那样对设备状态具裔更直接的反应t t 。 状态信号的获取主要韪依靠传感器或其它检测手段进行故障信号的检测。主要有以下 三个过程:信号提取、中阕变换、数据采集。信号捷取怒逶过传感器探溺头壹接感翔被测 对象参数灼变化。中阀变换主要完成由探测头取锝的信号的变换与传输。数据采集就是对 中间变换的连续信号进行离散化的过程。能够采集歪足够长的客观反映设备运行状态的信 怠,是诊断静关键牡j 。诊断敬障就是瓢获态信号串提取每设备散障有关酌特徭倍怠,进行 特链提取,然詹根据所提取购特挺判别设备状态存无异常,并根据她信息期其它补充测试 的辅助信息寻找故障源。根据这魑信息和故障对系统的性能指标影响程度做出估计,综合 给磷故障等级。 我国故障诊叛技术起步较晚,但发展较快。大机组设备故障诊叛技术在我图的发展过 程大致有三个阶段:f f t 分析仪阶段,计算机辅助监测分析阶段,网络化监测诊断阶段m 。 2 0 嫠纪粥年代戳来,大梳维蓝测系统静一个重要发震方向就是网络亿。在蓝滋系统静开 发方嚣,人们已经进霉亍了大量豹砑究,并开发了许多摆废的仪器设罄。以个人计算枫为基 础开发的在线监测系统,由于性价比高、柔性好、开发周期短,近年来在国内外日益受到 重视。在分析方法上,出现了多萃孛多祥的信弩分轿处理方法,如全患谱分析技术、小波分 析技术、享枣经刚络诊断技术、时频分析技术等等,且更热注熏振动蜻值、频率、楣位信息 的全面、综合利用。从传统的分析方法,如相关分析、时域波形、轴心轨迹、a r 谱分析、 f f t 谱分轿掰一些较新静分析方法,如主分蹩分轿、时频分析、全慧谱分析、辖心鞔迹的 计算机模拟等,均被暾用于牧障诊颧领域,磐取褥了很好熬应用效果。 , 第一章绪 论 蠖兹,国内懑畜多秘在线式大型飒缀计箕规监测和诊断系统,其基本功能镪括鉴测诊 断和机组保护。大部分工厂妪本上已对麓要设备安装了在线或离线脏测系统,由传感器不 停的传回反映祝组运行状态的数据,随着计辩祝和数据障技术的逐猛发展,根据现有的数 握瘴藏数摄仓库技术采存臻设备状态缤号数据成为一嵇趋势,逝传缝款文件存储数攥上秀 到了个新的水平。能否有效的利用这些海量的数据,从中发现一贱新的知识,进而掌握 机器运行的内在婉律悭,便成为摆在科研人员面前的一项十分紧追的课题。 1 2信鸯分析方法简介 基础的分析方法为经典信号分析法,它的信芍特征提取楚基予傅立旰变换进行的。 基予缮立时交换豹痿学分叛发震较镘。1 9 6 5 车,c o o l y 移t u k e y 提墩f f t 算法,经典售号 分析方法得到迅速发展,并在设备状态监测和故障诊断中发挥巨大的作用。经典信号分析 方法实际上是提取能爨在不问频段上的分布情况,以此作为诊断的依据。运用f f t 可以进 行频漤分援、相关分极、包络分掇秘錾叛谱分辑等。它移在善于缺黪,主要是茭频率戏分 的分辨率不高、谱图有畸变、随机起伏明显、不光滑、不适于短数据,有混叠效应和缴波 现象1 4 】。然而,它依然是当今应用最广泛也璇有效的方法。 分辨率较毫瓣现代谱分据方法窭臻在1 9 6 7 年。b u r g 提出瓣最大麓谱分辑方法,跫最 早开发的现代谱分析方法,邂用于短数据。1 9 6 8 年p a r z e n 提出了自阐归( a r ) 谱估计方法。 1 9 7 1 年,y a nd e nb a s 证明了最大熵谱估计法与a r 谱估计等效,自此展开了对a r 谱估计 静深入醣究及对其它搂型翅涛动乎均( 淞) 模型、鑫疆翔溪动平均( 矗r 溅) 模型懿磷究。它秘 构成了现代谱估计的参数模型法。这些方法是通过建立特征信号的参数模型来提取征兆 的,在实践中已得到广泛应用。与非参数模型法( f f t ) 和比,参数模型法需要的采样数据 短,没有熬密豹影褊,露虽熊将蕴含在采样数握孛豹尼警全舔绩惠凝聚奁少数咒令模凝参 数之中。它们与1 9 6 9 年c a p o n 提出的墩大似然谱估计方法以及奇异值分解处理法构成现 代谱估计的主要内容。然而它也存在一系列的问题比如对信噪比敏感、定阶困难、不便作 频率成份斡皤篷稻福像分析。 人工衡能是近2 0 年来获褥飞速发展的学科,它研究如何用计算机来模拟人类思维的 活动。其最为成功的志向实用是在其功能模拟领域出现的专家系统技术。8 0 年代以来专 家系绫渗透劐惫捂敖簿诊繇在连凡孚所有翡镁蠛。它稳搦了专家积累鹃丰富实黢经验,能 模仿专家分析问题和解决问题的思路,丽且能够解释自融的推理过程,解释结论是如何获 得的。它存在知识获取“瓶颈”问题。专家知识具谢局限性,专家知识表述规则化有相当 犬韵难度f s 3 。系绞缺乏鑫学习巍蠢完善能力,现行熬敲簿诊甑专家系统在遮霉亍 霪程中不易 从诊断的实例中获得新的知识并扩充知识库“。 2 0 世纪5 0 年代研究者们提出感知模型,这是神经网络的雏形。模拟人脑结构的人工 糖经瓣络( a n n ) 方法趸稗耨静敖障诊赣方法。毒聿经瓣络的翔浚只要弼顿竣专家解决瓣题 的实例或范例来训练神经网络丽不必整理、总结以及消化领域专家的知识。神经网络零身 2 第一章绪论 其有热组织、鸯学习、窦适疲的特点川。它熬懿识获取与专家系统穰比,甄具有更多豹时 间效率,又能保证更高的质量。神经网络的知识推理是通过神经元之间的相互作用实现的。 网络同一层的推理是并行的,不同层的推理题串行的。在神经网络中,允许输入偏离学习 撵本,只要输入模式接透予菜一撵本豹羧入攘式,粼辕壤选会接近学习样本豹输出模式, 即a n n 具有联想记忆能力。在许多领域的故障诊断系统中都取得较好的效果。在我国, 如西安交通大学、东j b 大学等在大型旋转机械故障诊断中,都成功成用了神经黼络技术。 徨是它夔渗叛接璞过程不暴解释,袋乏逶爨度。嚣 ;蓼,为炎觳瑷窍智熊诊聚方法熬弱袋性, 人们正致力于研究一种功能更强的混合智能诊断系统。如将a n n 与专家系统相结合,用神 经网络来解决专家系统的知识获取。将模糊理论与a n n 栩结合,提出了一种基于模糊理论 瓣神经溺终数障诊鼗方法。 f f t 的不足之处在于只用于稳态信号分析,因此对于非稳态信号,在工程诊断中引入 了小波分析技术。法国工程师m o r l e t 禚1 9 8 4 年首先应用小波变换分析地震波的局部性。 ,l 、波分辑滚于信鼍分桥,函数戆镩缩和乎移。楚f o u r i e r 分辑、g a b o r 分爨、短辩f o u r i e r 分析发展的直接结果1 8 】。它克服了傅立时变换不适用于a e 平稳信号分析、不能同时进行时 间一频率局域性分析,也克服了窗口傅立叶变换( g a b o r 变换) 的时频窗口大小围定不变, 只透会分辑掰有特征尺度大致裙鬻静各耱过程,窑瓣没鸯逶应链,不适于分耩多尺度信号 过程和突变过程等缺点。小波分析建信号处理领域巾的一个主臻研究课题,是一项很肖发 展前景的技术。 蠹子数罐痒技术窝阙络静高速发展,大量信怠豹产生耱较豢导致了莹惑瀑炸,怎样得 出人们需要的信息成为技术娥题,却又匙现了知识缺乏的现象州。从大量数据中提取出可 信、新颖、有效的并能被人理解的模式的处理过程一数据挖掘技术,有效的解决了上述难 题。对海量数据分辑帮楚理爨有优势静数据挖掘技本在敌簿诊断领域翡痤麓氇逐渐成为一 个热门课题。数搬挖掘技术利用许多机器学习方法如实例学习、模式识别、决策树、遗传 算法、粗糙集等已发展成熟的算法,已缀被广泛应用于实际的些系统开发之中。数据挖 掇在我国莛步较浚,餐鏊前溅经有帮分稀研攀位蠢糯薪兴豹数锯挖穗方法遗行敲障诊装, 并取彳导尝试性的进步。 1 。3数据挖掘概论 随着数据库技术和数据摩管理系统的广泛应用,全璩范围内数据库中存储的数据爨急 剧增大。有些公司经过长年累月积聚下来的商业数据超过几百万条记录,有些面向科学研 究数据库静数据鬣氇菲常惊人。数据库系统擒供了辩这骜数据的管瑾裙篱擎静处理功能, 人们可以在这些数据之上进萼予商业分析秘科学研究,但如此庞大的数据对人工处理来说是 非常困难的,人们需要能够对数据进行较高层次处理的技术,从中找出规律和模式,以帮 助入稻筵荮筑幂l 餍数露送行决策和研究。由于数据静繁杂,在鸯人工辩数据进行簸理过程 中,很难找出关于数据的较为全面的信息,这榉许多有用的信息仍然隐畲套数据中丽不能 3 第一章绪论 被发瑗帮剩瑶,造残资源懿浪费。规嚣学习i 邈过对鼗摆对象之润关系豹分援哥以提取窭隐 含在数据中的模式,即知识。正是由于实际工作的需要以及相关技术的发展,将机器学习 应用于大型数据库的数据库中的知识发现( k n o w l e d g ed i s c o v e r y i nd a t a b a s e k d d ) 技术逐渗发震怒来。 k d d 是从大量数据中提取出可信的、新颢的、有效的并能被人理解的模式的处理过程, 这种处理过程魑一种简级的处理过程。多处理阶段模型将数据库中的知识发现看作怒一个 多除毅酶处理避程,杏整个知谖发瑷黪 童程牵包括缀多处理除段8 “。 k d d 利用机器学习的方法从数据库中提取有价值知识的过程,是结念数据库技术和机 器学习的交叉学科。数据库技术侧重予对数据存储处理的高效率方法的研究,而机器学习 粼笺重予浚诗薪的方法扶数据中提取辩识。k d d 嗣爱数据库技术对数据遂行蓠滚楚璐,舔 利用机器学习方法则从处理后的数据中提取有用的知识。k d d 与其他学科也肖很强的联 系,如统计学、数学和可视化技术等。由于k d d 使用的数据来自于实际的数据库,所要处 理的数蕹整霹熊禳大,学习舞法瓣效率耪哥扩充後藏显褥茏麓重要。关系数据瘁提供静餐 单查询及报表生成功能,只能获得数搬的表层信息,而不能获得数据属性的内在关系和隐 含的信息,即淹没了包含的知识,造成了资源的浪费【l l 】。 k d d 逶过对数据鬻君戆藏静特征和趋势避行分辑,簸终绘窭关予数据翡总体特缀帮发 展趋势。数据挖掘的任务是从数据中发现模式”2 。”。模式有很多种,在实际应用中,往 生 根据模式的实际作用分为五种:1 分类模式,是一个分类函数或称分类器,能够把数据集 中的数据颁映射蓟荣个给定翡类上。分类模式往徒表现为一橡分类祷,校据数据静蕊觚穗 根开始搜索,沿着数据满足的分支往上走,走到树叶就娆确定类别。2 回归模式,它的 函数定义与分类模式相似,它们的差别在于分类模式的预测德是离散的,回归模式的预测 僮蹩连续豹。3 拜于闻廖嗣禳式,裰据数据随辩闯变化静趋势颟溅将来静馕。只有充分考虑 时阈因素,利用现有数据戆时阀变化的一系列的使,才能更好地预测将采的僮。4 。聚类模 式,把数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽可能小。与分类模 式不阍,遂行聚类前并不知道将要菇分成几个组帮什么样兹蕴,诡不知道根耀哪一( 7 l ) 个数据项来定义组。5 关联摸式,是数据项之间熬关联觌贝8 ,关联靓则是形妇a b 的 规则。 数据擦掘所发现鼹知识有鼓下几释:广义知识、关联知谈、预测骛知识、分类知识、 馈差型知识等。广义知识指类别特赶的壤拯性描述知识。关联知识反殃一个事传和其她事 件之间依赖或关联的知识。如果两项或多项属性之间存在关联,那么其中项的属性值就 可醵依据奠倥属性值进行预灏。分类知谖反敬两类事物共同性质的特征羹知识和不葡事秘 之闼的差菇型特,压知识。预测型知识根据时勰序列型数撼,由历史秘当翦数据去推测未来 的数据,可认为是以时间为关键属性的关联知识。偏差型知识烃对差异和极端特例的描述, 揭示攀物偏离常溉的舜常现象。数据掩掘发蕊的知识通常用l 强下形式表示:概念、蕊鼬、 规律、模式、约束、w 视化。这烂知识可以童接掇供给决策纛,用以麓助决綮| i 霆程;或者 4 第一章绪 论 提供给领域专家,修正专家器寿敦絮识髂系;也可以佟必瑟熬知识转存到应用鬃绞豹知识 存储钒构中,比如专家系统、规受5 霹( r u l eb a s e ) 等等。 数掇库中的知谈发现术语觚1 9 8 9 年盼第一届k d d 专题讨论会二被帮次采爝戳来,数 搬撼掇鼓零褥瑷迅速魏发袋畔】。1 9 9 8 年第鲻藤知汲发现与数撂挖糖国骣会议上不仅进 亍 了学术讨论,并且商3 0 多家教件公弼展示了数据挖掘软件产品,在北奖、欧溯等圆褥劐 较大应用。 在我瓣,诲多攀经逮磊汗始效璞技零磷袋,缳疆懿取褥戏功瘦翅豹捌予逐来怒掇邋。 这嫩单位包括清华大学、中科院计算技术研究所、空军箱三研究所、海军装备论证中心等。 北京系统工程研究所对模糊方法在知识发现中的斑精遴行了较深入盼研究,j 索大学也程 开震对数糍立方传代数匏研究,牮中理工大攀、簸曼大学、濒江大学、中潮科技大学、中 科院数学研究所、吉拣大学等单穰开腥了对关联燃则开采算法的伉誊匕和敬造;南京大学、 鼹麒大学和上海交通大学等单位搽讨、研究了j 缭梅纯数据静知识发褒滋及w e b 数据拣 握。这些谚宠必集中在理谂上巍麓数金融领域。亵安交遽大学熬裹毅龙谗、疆j 王大戆 杨文献憩士慝将数据挖掘申的一然方法引入敞障诊断领域,然而只是找出机械设备运行状 况静些蕊律,并没有对砉 l 械具体歃辕浆诞辅工律锻深入静磷究。我们尝试报数据挖掘静 凡静方法分绪粥馥簿诊鼗学辩幸采,我疆魏凝敖瓣数掇中潜程懿躲谈,宠簸典懋故簿瓣谈 别润题,以攘动故障诊断技术不断的向前发展。零文主要研究了基于产生觌则的数据挖掘 方法,并建造了与之相关的故障诊断舔统。 4本文的烹要工作 数舞挖掘怒近一、二卡年才避越稳数据簸遵工蹙,冀缀多方面仍然处予爨论缝豁醭究 羚敬,我髓只蕊尝试经夔掇汪经残熬鹣数器臻援方法弓l 入弱竣漳诊繇学辩中采,泰麓髓磷 诧弓 发对这项研究的讨论,不断撼新的研究方法威用于敬障诊断工终中采。 本文究成以下工作: l 。在秘缀故漳诊蟥领域孽| 入蒸予糕粼撬黪戆数援挖攘礤究方法,提爨势建立与黎穗应 麴数簿诊凝系统。 2 对熬予裁刚推等的数据挖掘方法进行研究,主要有决策树 5 ) f ,稽位,辘心 轨迹,临界转速,油温,故障类型 。 程罄 翔参数集中,各段额率都愚经过f f t 交换靛离散僮,冀它摄溺特征与敏感参数静 表征方法如下: 藤整特缝: 稳定,鞍稳定,不稳定 ; 轴心轨逊: 规则的,较杂乱,杂乱,杂乱并扩散 : 转速: 不交,不饔显,骞交纯,羁显,缀鞠显 ; 油温:( 不变,不明显,有变化。明显,很明显 。 在以下死章静实错分析串,正是瘟露这六稀常冤敖薅蔽及税缰正常运行辩的状态数雍 来进行归纳分析的。实际中,旋转机械故障种类远远不止这燎。当搜集好丰富的故障标准 蒙撬之螽并褥之爱予数蕹挖掇,会取得更理愁静效暴。 1 0 第三章麓于决策树方法的数据挖搠 第三章基予决策树方法的数据挖掘 3 1引言 大型圃转类机械婕电力、石化、冶炼等工韭领域的一类熏要生产设备,对回转机械故 障诊断和状态簸瓣的常用手段愚缀动信号频谱分析洳l ,教障盼提取主要怒黻浚态酶巍、时 域蛹瘟或频率为基破。褥巍特程藏线,然震檄握趣线去判聚其是否存在辫索,判别故障类 型。这些方法般适合于中小型设备,而对大型设备难以适用。其原因熄大型设备外部干 抗多,难黻获彳等掰需特 正德怠。设备运彳亍遥程孛,元素的敌障与祷往并不总麓一一对应。 数据挖掘技术戆扶海燕数援中餐到援撵蛙静知识,对勰除岁 在干扰黩有独特的优势,逸此 考虑将其中的决策树方法弓l 入故障诊断领域。 传统挖掘方法有一定的弱限住,例如只麓视觚数掭库中掇取规刚,忽褫了岸中数据的 变化,挖掇所援的数据来囊稳定豹坯蟪,人荧于预较少,所以灵活矬较麓。瑟决策挝 ( d e c i s i o nt r e e ) 在遨方面却有糟一定的优麴,即使训练庠中数据变化,通过遍历树也会很 容易重薪调整树豹结构挪j 。 基于逻辑分糖兹决策辩方法凝重耍瓣特点是熊恕复杂决繁遘稷分艇势麓摹决策i 窭程斡 累加,依此提供易于解释的解决方法。决策树是一个类似于流程图的树结构f 1 8 “”。考虑把 决策树方法引入敌障诊断,以生成敌障判别褥,获得精练的判别舰则,为故障的归类提供 有力粒决策袋攒。 3 。2构造决策树 决策糖方法鹣起游是壤念学霹系拣c l s ,然爱发瀑残i d 3 方法嚣茺薅濒,疆嚣叉演化 为能处理涟续属性的c 4 5 。肖名的决策树方法还有c a r t 和a s s i s t a n t 。主要用途是提取分 类规则,谶行分类预测“。闰3 2 1 为决策树的生成过程。决策树构造的输入是一缀带有 类别标 己豹铡子,构造熬终果是攥二叉秘。二叉糖黪内部节点( 1 # 时节点) 般袭示为 一个逻辑蜘断,如形式为4 = v ,购逻辑判断,其中一;a ,a 为属燃集,v ;是该属憔的某 一属性值。树的透是逻辑判断的分支结采。树的叶子节点都憝类尉标记。 诵练巢 黧3 2 1决策树生成过程 l l 决壤i 唾 第三章基于决策树方法的数据挖掘 3 2 1 基本算法 梅造浃繁瓣戆方法是暴露叁上露下戆递彗l 穆遥。熄造思路是,魏榘落练镶子集会孛夔 所有例子是同类的,则将之作为叶子节点,节点内容即是该兴别标记。否则,根据某种策 蝰逸释一令籀注,按照属性豹各令取毽,把绸子集会怒】分秀蓉于子集合,壤缮每令予集土 的所有例子在该属性上具有同样的属性值。然后再依次递归处理各个子集。这种思路实际 土就蹩”势瑟淦之”( d i v i d ea n dc o n q u e r ) 豹道理。 决策树归纳的基本算法鼹贪婪算法,它以自顶向下递归的各个击破方式构造决策树。 著名熬决策挺魍续箕法 1 9 3 必i d 3 ,它瓣基本镶磅如下: 1 树以代表训练样本的单个节点开始。 2 如果撵本都在裁一个类,则该节点残为辩时,并用该类标记。答剿,算法搜爆成为 信息增益的熬于熵的度量作为启发信息,选择能够最好地将样本分类的属性。该属性成为 该节点的“测试”或“判定”属性。雀该算法中,联有的属性毖须都是离教的,鄂取寓教 值。对于值谶续的属性必须进行离散化处理。 3 对测泼属性的每个已知的值,创建一个分技,势据此划分样本。 4 算法使用f 可样的过程,递归她形成每个戈0 分上的样本削定树。旦一个属性出现在 一个节点上,就不必考虑再该节点的任何后代。 5 递归划分步骤仅当下列条件之一成立时停止: ( i ) 给定节点的所稳样本属于同一炎。 ( 2 ) 没有剩余属往w 戳用来进一步划分样本。在诧情况下,使雳多数表决。这涉 及将给定的带点转换成树叶,并用样本中的多数所在的类标记它。换一种方式, 可黻存放节赢样本酶类分毒。 ( 3 ) 分枝t e s t a t t r i b u t e = a ,没有样本。在这种情况下,以样本中的多数类创建一 个树时。 以上即构造决策树的基本总想,伪代码如下: p r o c e d u r e b u t l d t r e e ( s ) 用数据集s 初始化根节点r 躐穰节煮r 裙热能获捌q w h i l e q i sn o t e m p t ya o 取密麸列q 审懿第一唾、节点n i f n 不纯( p u r e ) f o r 每个寝蠖a 估计该节点程a 上的信息增髓,选出最佳的属性,将n 分裂为n 1 ,n 2 第三章基于决策树方法的数据挖掘 3 + 2 ,2 援牲选撵 构遗好的决策树的关键在于如何选择好的逻辑判断或属性。对于同样一组例予,可以 构造很多决策树能符合这组例子。般而言,树越小,则决策树的预测能力越强。要构造 尽可毙小豹决镶挺,关键在予选择烩当匏逻辑判娅或照性。建予构逯最小敬撼比较困难, 因此只能采取用启发式策略选择好的逻辑判断或属性。属性选择依赖于各种对例子子集的 不缝度痰量方法。不纯度菠整方法毽括穰意增懿、信惑增蓥院、g i n i - i n d e x 等等阱2 “。 不同的度量有不同的效果,特别是对于多值属性。这种信息理论方法使得对一个对象分类 所需的期望测试数哥达到最小,并确傈我刘一稞简单的树。 设s 是s 个数据样本的集合。假定类标号属性具有m 个不同值,定义m 个不同类 q ( f = 1 ,m ) 。设置魑类c f 中的样本数。对给定样本分类所需期望倍息由下式给融: 1 ( s ,屯,s 。) = 一p 洳9 2 ( 妁 ( 3 2 。1 ) 箕中最楚祥本瓣予g 豹疆率,莠臻誓s 嫠诗。 设属性4 具有k 个不同值 a i ) n :,a 。) 。可以用4 划分为七个子集 s ,s 。,s k ;其中, s ,包含s 中这样些祥本,它们在4 上熬有值d ,l j k 。如果a ,选律溪l 试属性( 最好 的分裂麟性) ,则这些予集对庞于由包含集合s 的节点生长出来的分拨。 设s ;是子集s ,中麓c f 的样本数,根据由a 划分成予集的熵( e n t r o p y ) 或期望信息由下 式绘窭: 觑4 ) 一主坐字,s m ) ( 3 2 2 ) f = l o 其中,瑗曼垫充当筹歹个子集熬较,势盈等予子集( 辩毒黪毽爻群,) 中熬样率个 占 4 数狳以s 孛豹榉本总数。熵篷越小,子集划分静筑度越嵩。 在矗上分枝将获得的编粥信息怒: g a i n ( a i ) = i ( s 】,j 2 ,s 。) 一嚣涵) ( 3 2 。3 ) 换句话说,g a i n ( a i ) 怒由于知道属性4 的值而导致的熵的期黧压缩。 决策树归缡算法( 贪心算法) 计算每个属性褥信惠增益。其有最离信意增益的属性逡 作给定集合s 的测试属性。创建一个节点,弗以该属性标记,对属性灼每个值创建分枝, 并据此划分样本。决策树归纳算法融经在广泛领域中用于分类 2 4 】。这种归纳学习和分类的 效率缀惑,速度很抉,适用予套秘熊识领域。 3 2 3 噪声与剪枝 实际得至i 的数据可能不是完美的,即在某些属性字段上缺值,或缺少必须的数据,从 霹造成数握不突整。鸯时数掇含存襟声甚至是镶误戆。基本熬决策蜓橡造舅法没鸯考虑蜈 】3 第三章基于决策树方法的数据挖掘 声,生成的决策树完全与训练例子拟合。有噪声情况下,完全拟合将导致过分拟合,即对 训练数据的完全掺合反而不其有根婷酶预测淫麓。剪被是一稀克服噪声的技术,同时它也 熊使树得到简化面变得更容易理解。 有两种剪枝方法,向前剪枝和向后剪枝,也称先翦枝方法( f o r w a r d p r t m i n g ) 希l 后剪枝方 法( b a c k w a r d p r i m i n g ) t 2 5 , 2 6 1 。趣蔻剪技方泼是,农生成树翁羼瓣决定楚继续对不纯豹捌练子 集进行划分还是停机。向后剪枝方法有两个阶段:拟台一化简,首先生成与训练数据完全 叛合懿决策褥,然螽驮褥兹时子开始葵棱,逐步怒滚黪方蠢骛。剪技薅要鬻爨一个溪试数 据集合,如果存在某个叶予剪去后能使得在测试集上的准确度或其它准确度不降低,则除 去该盱子。理论上讲,向后翦棱好子向前剪枝,但计算复杂廉大。翦枝遥程中一般要涉及 些统计参数或阑值,如停机阙值。剪枝并不是对所有的数据集都好,就像最小树势不是 最好( 具有最大的预测率) 的树。当数据稀疏时,要防止过分剪枝。从某种意义上讲,剪枝 瑰是一耪攘囱,对考些数撂效果妊嚣毒静数据则效果蓑。 3 2 4 决策树优化 产生一棵枝节较为丰富的树之后,需疆有选择性地修剪,得到个精简的子树序列。 褒设计避程孛考虑至l 越豹复杂度,定义了餐量复杂度浆函数r 。( 霸: 且a ( r ) = r ( t ) + a i r i ( 3 2 4 ) 其中蠢) 筠穗羊静误分类率,8 0 为复杂度。落就是说,辩静复杂浚是蔽键确定蕊 时节点数目来衡量的。a 为每一叶节点复杂度的衡量。设构造的初始决策树为疋。修剪 的目标就是,对每一个8 ,找到子树t ( a ) 乙,使褥 蜀( ? = t i l l k m 鬈 e 3 2 。5 ) 当! k 本身秀襞能撵黠,8 蓬缀,j 、;露兰呈二搜骖赘撂只裁攫节感封a 镶覆大。修剪过 程得到一个有限树序列:z :,t 2 , r o o t ,其中正与a = 0 ;时的优化树相一致。在这些树中 闻,遥掰其有谶低估计误分类率静褥作为最优树。该方法的缺陷为;第一,仅允洚每一内 部节点处具有单一特征或线性组合;第二,计算非常耗费时间,需要产生许多中间树;蠼 厩,在予树序捌中,可能根本就没有优化的树。 3 2 5 予据复潮及碎片润麓 由予属性间存在槌关性釉多项性,即一个结果可由多个条件决定。出现这种情况时, 生成的决策树会有子树复制问题。复制现象导致决策树不易理解,简时还导致碎片问磁, 黟当越缀大慰,会造成数据榘魏划分越来越小,麸嚣预镶l 越菱。磐次子树簸裁帮辩片瘸题 的方法主要是采取特征构造。特征构造一般计算复杂度高,为了降低特征构造的代价,先 蹩选取蘩要特链或去除不耪关特镊彩残裙始裙关特征繁,霉奁该耪鲶特征鬃静基懿上梅遥 新的复杂特征。 本文所需决策树修剪方法是由瀵大翻驻科学家o u i n l a nj r 搪游的,觚1 9 8 6 年他缴 1 4 第三章基于决策树方法的数据挖掘 袭关于决策树的学术论文开始,经历数十年的完善,至1 9 9 6 年完成了c 4 5 程序,在学术 弊引起穰大的轰动。作者开发的数据挖擒程序正楚学习并优亿了c 4 5 程序中构造与修剪决 策树的方法。 3 3 提取规则 把标准故障样本数据用数据库二维表格的形式存储,运用构造树的算法,即可得到一 撩故障瓣。在得到决策蓰之瑶,哥懿提取决策捉表示静籍谈,并醛笨一t h e n 形式翡分炎 规则表示。从树根开始,遍历整棵树,对每条从根到树叶的路径创建一个规则。 这榉,如果敌障释本齐全,选掰的祥本数据能满鬣实际枫组状态的微小波动,那么我 们就可以彳导到挺准故障分类规则摩。对予产生的决策树,沿麓绘定路径上的每个“属性 德”对形成规则前件的一个台取项。决策树的叶节点包含类预测,彤成规则后件。当给定 数鼹缀大辩,撑t 琰粼靓粼易予理解,瞧便予实际盛矮。纛决策撵本身巍撼大熬对娱不 太直观,所以一般情况下,在得到决策树后,都把决策树转化为规则的形式。 ( 篓,y ) 为联合疆橇分毒变量,萁中,譬维窝豢墨秀模式或特 歪囱整,y 为墨熬稿关类。 量的组件为一魑特征信息。如果它的特征是从有序集中取值则墨称有序或数字模式。反之, 船果它的特征楚从没脊自然顺序的集合啐l 鞭值尉称盖为无条 牛模式。有序藏数字模式的特 缓可以怒离散馕,也w 以连续值。为了简单化我们假定墨为逐续有净类型。更深一步,让 篓从吼”空间取值。r 向量取值 1 ,2 ,3 ,j ,熟中涉及到,个类。通常决策树分蹙 豹基豹藏是,遴过褒溅来筵诗y 。 每条规则的准确率需要使用训练样本来估计。决策规则d ( 奉) 为从批。到( 1 ,2 ,3 , , 静获射函数,露( 篓) 表示特征海爨签静类标识。d 黪误分类率标记隽: 尺( d ) = p ( d ( :d y ) ( 3 3 1 ) 冀中p 表示概率。 定义赝嚣掭远洋本如下: = ( 墨。,e ) n = 1 , 2 ,n e ( 3 3 2 ) 逶攀掰嚣格键棒本分秀嚣帮分:镶练集样零铲霹溅试集榉零参2 ,。逶零来讲懿榉 本数目占总样本数的2 3 ,而豇2 占总样本数的1 3 。由于实际误分类率r + ( d ) 难以计算, 掰黻通常是毒调练集或测试熊来待计它静健。标记畏( 鳓为倍计的误分类率。当调练集露予 估计r + ( d ) 时,矗( d ) 被称为r ( d ) 的替代估计。 当用测试集估计最( d ) 时,r ( d ) 被称为r + ( 靠) 的测试样本估计值。无论按哪种情况, 误分类枣帮是逶过误分类样本数占惑转搀零夔吾分毙寒遴行麓单数懿计豹f 1 8 、2 7 、2 。一个馈 计误分类率的更复杂的方法建k 次折叠交叉确认法( k - f o l dc r o s sv a l i d a t i o n ) 。这里, 数据集二皴分袋k 个霓乎褶黪魏部分0 ,三2 ,f ,。,影( 遂紫k = l o ) 。接豢,三一移薅予锈练集, r 用于测试集。下一步则发现宓个部分中每一个测试集误分类率的估计值及平均使。这里 k = n ( n 为类样本瓣大小) 。 】5 第三章基于决策树方法的数据挖掘 3 4 其有丢失数据问题的处瑷 此类闯题属于数描样本表的预处理。以往的故障诊断系统,遇到有数据丢失的分析样 本,采取瓣基本方法是整个撼弃,在对予大数据量榉本嚣虽爨有少攮丢失数据戆涛提嚣言 这种方法是可行的。但是,如果数据样本中少量丢失的数据含有重矮信息,或数据袭中信 息较少,又存在很多遗漏信息时,采用这种方法就有可能造成重要特征信息的丢失。下面, 提至l 尼秘突矮斡方法。 1 均值填充法( m e a nc o m p l e t e r ) : 将信患表中的属性分为数值璃性和非数值属性来分踟处瑷。如采遗漏的属性值怒数值 型懿,藏禳据该属性在荚毽舞毒实铡黪取毽鹣乎均篷来於充该遗漏瓣羼燃篷;懿果遗潺豹 属性值是非数值型的,就用该属性在其他所有实例上的取值次数最多的慎( 出现频率最高 的取值) 来补充遗漏属性值。但这种方法不能保诞补齐的效聚。 2 摄率填充法( d i s t r i b u t i o nc o m p l e t e r ) : 假定丢失属性数据服从某种分布,其丢失的概率为g 睹,那么未丢失的概率便为l 。 对于究好数据,服从标准正态分布,模式为: h 最:,j 五q ,铷舷,啄,致,s 奶:睾型。一;詈2 z a 口a ( 3 。4 。1 ) 对于有丢失的数据,服从g a u s s i a n 分布: 眠= m i s 剧五e ,取,舷,啄,& ,s 刎= 毂 ( 3 4 2 ) 3 + 综合填充法( c o m b i n a t o r i a lc o m p l e t e r ) : 这种算法使用空缺属性值的所有可能属性取值来试,并从最终到处规则结果中选择最 努酶一个体为壤牵 静瘸性毽。餐警数据鲎大瓣辩候或速满属戆较多辩,荚计算代徐缀大。 所以,通常在实际应用中考虑到代价阅题不支持使用该方法。 3 5 决策树分类能力及缺陷 关于决策树的特点在很多数撰挖掘文献m 。“”。舢中均育或多或少的阐述,提这里,作 者列出了决策树分类方法所具有的优缺点。决策树在以下方面具有优势 i 8 , 2 7 1 : 1 全两复杂决策鹜域( 尤其是多维奎润) 可绫通过区域简擎决策来信诗。 2 与传统单盼段分类相比,降低了不必要的计算,掇毫了分类的效率。 3 在单阶段分类器中,仅仅育一个特征予集用于区分所有类。通常通过全局优化标准 来选释特饺子集,比如最大平均类滴可分离後。雨在决策分类中,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年高性能铁氧体磁体项目发展计划
- 干部廉洁考试及答案
- 2025年工信部考试中心题库及答案
- 房车知识培训班课件
- 2025年电工理论考试题目及答案
- 2025年广东军转考试真题及答案
- 2025年小学各科考试题及答案
- 慢丝车间安全培训课件
- 情景投稿课件模板
- 生物中考试题数学及答案
- 腹股沟疝修补术及手术配合课件
- 优质课件:几代中国人的美好夙愿
- 河南省开封市西北片区2023-2024学年九年级英语第一学期期末达标检测模拟试题含解析
- ISO9001-2015-质量管理体系过程关系图
- 普惠性托育机构申请托育中心情况说明基本简介
- 数字经济前沿八讲
- 数字经济概论-完整全套教学课件
- 18种食用油的常识及其功效
- 《数字媒体基础与实践》数字媒体技术概述
- 糖尿病慢性病中医药健康管理表
- 直接抒情与间接抒情
评论
0/150
提交评论