(系统工程专业论文)球团生产质量控制系统研究与应用.pdf_第1页
(系统工程专业论文)球团生产质量控制系统研究与应用.pdf_第2页
(系统工程专业论文)球团生产质量控制系统研究与应用.pdf_第3页
(系统工程专业论文)球团生产质量控制系统研究与应用.pdf_第4页
(系统工程专业论文)球团生产质量控制系统研究与应用.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(系统工程专业论文)球团生产质量控制系统研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华中科技大学硕士学位论文 摘要 对于复杂的i _ , i h - 产过程,在实现了牿础自动化以后,为了增广:降耗,提高广 品质量,往往要研究牛产过程的先进控制。而先进控制的f := 1 标通常是产品的质最指 标,即产品质量控制问题。质量指标的检测大多是在产品生产t 柬以后彳进行,这样 大滞后,长周期的质景数据对质最控制系统很玎i 利,它不利r 操作i 针刘小j “+ j ! m ! 的实时质量状况调整生产工艺参数以便稠整生j ”质量水i h 而。1 发现质5 1 :合干 时,几乎已经无法挽同,这样必将造成很大浪费,影i q 介n k 的d - j “质毓和议旒。建 立质量预测系统可以在生产过程中对产品的质幂进行在线预测,现场操作人酗呵以 及时了解生产质量状况,从而有针对悱的凋整生广。j :艺参数以捉商,m 。1 i f i 质艟,使 质尾控制系统的建扭成为i ,j 能。 在现有的质量预测和控制系统巾,人多灶j 占j :岂弼! 用i j 人的绐验州参数进 行调整,以提高产品质景。然而影响产品质罱的阕素和j “ 质罱之州的关系牛i 0 复 杂,目前对这些关系的认识还不完善,仅凭这j ;不完善船知识和经验来指导牛产鼹 然不合理、科学。龄0 :此,小文捉r种j 数 l i ;挖 f 和神经叫络矬模的胍懈坝 测和控制方法。 数据挖掘是随数据库技术和数据库应川的矧 :促进_ 手l i 发艘f i j 观的个新兴 技术,已经比较成功的在决策支持、提前预测等系统r | i 得到廊用,渗透二i :科技发展 的许多领域。数掘挖掘方法很多,制。对球闭厂的实际乍产情况,本文采,玎分炎分析 方法中的决策树技术,通过对大量历史数搬的分析,形成j 定的顶最坝洲胤! j ! l j , 并以此为基础,利用神经网络的方法,建立了! l :广:过: | ! f ! 质蛹顶测模型和质酎控制模 型,实现了球团生产质景控制系统。 关键词:数据挖掘决策树神绎网络质帚球闭 华中科技大学硕士学位论文 a b s t r a c t a f t e rt h er e a l i z a t i o no fa u t o m a t i o n ,t h e r ea r en e e d st oi m p r o v eq u a l i t ya n di n c r e a s e p r o d u c t i o nw h i l ed e c r e a s et h ec o s t t h ed e v e l o p m e n to fa d v a n c e dc o n t r o lf o rc o m p l e x p r o c e s so fp r o d u c i n gi sc o m eu p a d v a n c e dc o n t r o l st a r g e ti st h eq u a l i t yo fp r o d u c t s t h e p r o d u c t s q u a l i t yi sa l w a y se x a m i n e da f t e rt h e yw e r ef i n i s h e d t h e s eq u a l i t yv a l u e sa r e n o tr e a l t i m ea n dt h e ya r en o tu s e f u lf o rq u a l i t yc o n t r o ls y s t e m a tt h es a m et i m e ,t h e d e f e c t sd i s c o v e r e da tt h a tt i m ea l w a y sc a n tb ec h a n g e d l a r g el o s s e sw i l lc o m ei n t o b e i n ga n dt h i sw i l li n f e c tt h ef a c t o r y sb e n e f i t si n e v i t a b l y i no r d e rt oc h a n g et h i ss t a t u s ,a s y s t e mt op r e d i c tt h eq u a l i t yo fp r o d u c t sn e e d st o b eb u i l t b a s e do nt h i ss y s t e m ,t h e q u a l i t yc a nb ep r e d i c t e do n l i n ea n dt h ep r o d u c i n gp a r a m e t e r sc a nb ca d j u s t e dt o a p p r o p r i a t ev a l u e s t op r o d u c eb e t t e rp r o d u c t s a tt h es a m et i m e ,t h eq u a li t yc o n l r a l s y s t e mi si m p o s s i b l et ob eb u i l tb a s e d m o s to ft h er e c e n ts y s t e m sf o rp r e d i c t i n ga n dc o n t r o l l i n gq u a l i t ya d j u s tt h e p a r a m e t e r sb a s i n go nt h ee x p e r i e n c e so fw o r k e r sa n dt h ep r o d u c i n gf l o w 1l o w e v e rt h e r e l a t i o n s h i pb e t w e e nt h eq u a l i t ya n dt h ef a c t o r st h a ta f f e c tt h eq u a l i t yi sv c r yc o m p l e x t h ek n o w l e d g eo ft h i sk i n do fr e l a t i o n s h i pi sn o tp e r f e c t i ti sn o tr e a s o n a b l ea n d s c i e n t i f i ct od i r e c tt h ep r o d u c i n go ff a c t o r yb a s i n go nt h i si n p e r f e c tk n o w l e d g es ot h a ta n e ws y s t e mn e e d st ob eb r o u g h tu p i nt h i sp a p e ran c ws y s t e mt op r e d i c ta n dc o n t r o lt h e q u a l i t yi si n t r o d u c e dw h i c hb a s e so nd a t am i n i n ga n t in e u t r a ln e t w o r k d a t am i n i n gi san e wt e c h n i q u e ,w h i c hc o m ei n t ot h ew o r l dw i t ht h ed e v e l o p m e n t a n dt h ea p p l i c a t i o no fd a t a b a s e i ti sa p p l i e ds u c c e s s f u l l yi nd e c i s i o ns u p p o r ts y s t e ma n d p r e d i c t i o ns y s t e m m a n ys c i e n t i f i c f i e l d sh a v eu s e dt h i st e c h n i q u e t h e r ea r em a n y m e t h o d sw h i c hc a nb eu s e di nd a t am i n i n g a sf a ra sp e l l e tf a c t o r yi sc o n c e r n e d , u s i n g d e c i s i o nt r e eg e t sac e r t a i nr u l ef o rq u a l i t yp r e d i c t i o n a tt h es a m el i m e ,aq u a l i t ym o d e l a n daq u a l i t y - c o n t r o lm o d e la r eb u i l tu s i n gn e u t r a ln e t w o r k w i t ht h e s em o d e l s ,t h c q u a l i t yc o n t r o ls y s t e mf o rp e l l e ti sb u i l t k e y w o r d s :d a t am i n i n g ,d e c i s i o nt r e e ,n e u r a ln e t w o r k ,q u a l i t y , p e l l e t 独创性声明 本人声明所呈交的学位论文足我个人在导师指导i = i - 进行的硼f 究1 :f l i 及j 仪得的l i ) f 究成果。尽我所知,除文r | i 已经标明引用的内容外本论文彳;包龠侄, f ie f j l , f i b 个人或 集体已经发表或撰写过的研究成果。对本文的研究做 l 贡献的个人和集体,均已存 文中以明确方式标明。本人完全意识到木声明的法律结果t l - i 木人承 f 1 。 学位沦文f 1 ;者签名:毕- 长年 r 蜘:川年rjj1 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使川学位论义的规定,u :校仃权 保尉并向囤家有关部门或机构送交沦文的复f 1 1 f l 平i 乜,版,允l ,i :论丈被夼i 训和f i f f 恻。 本人授权华中科技大学可以将本学f 移沦文纳个部或;| 分f j 齐编入f i 父数槲j i 进 j :榆 索,可以采用影印、缩印或扫捕锋复制手段保存和汇编本学似论文。 保密口, 征年解晰历适用小授权f 5 。 本论文属于 不保密醴 ( 请在以上方框内打“”) 学位论文作者签名:缸哞 n j i 】:沙忏r ,i1 1 1 指导教师锯名:守门为 鲥:一i i f 11 华中科技大学硕士学位论文 1 1 课题来源 1 前言 目前,竖炉球团生产是一个集制气、配料、烘干、涧磨、造球、稚料、烧结、 出料等于一体的复杂过程。从现有生产过程、生产状况来看,大冶铁矿幔炉球团生 产存在许多需要改造和改进的地方。一是生产设备陈旧,多数传感器元件、数据采 集设备、控制操作设备老化,甚至不能工作。二是生产自动化程度很低,基本上是 手动操作,人工控制,控制仅凭工人经验。这样生产的安全性很低,而且效率、质 量都不能保证。这些因素限制了球团厂的生产效益及质量的提高。随着围内外球翮 生产竞争的加剧及用户对球团质量要求的不断提高,传统的人t 控制辍炉球团小产 过程的方法已经不能适应生产发展的要求。所以,充分利用现代枪测技术、现代控 制技术,对大冶竖炉球团生产过程进行自动化改造,利用现代计算机技术、网络技 术、数据库技术、人工智能技术,为竖炉球团建立起科学的生产管理系统,实现峰 炉球团生产过程的自动控制、自动计罱及自动管理,这是实现怪炉球闭,l i 产过程现 代化并提高生产质量、生产效益的必然要求。球团厂的企业信息化建设j i j 狸就足在 这种环境下启动的1 2 i 。 1 2 课题目的、主要工作及意义 企业进行信息化的建设,可以分为四个层次,也可以称为凹个循序渐进的阶段, 它们分别是基础自动化层、先进控制层、优化层和企业资源规划( e r p ) ,如f 图1 1 所示f 3 1 。 华中科技大学硕士学位论文 基础自动化 , lf 生产过程 图1 1 企业信息集成的结构 竖炉球团采用先进的现代检测设备、控制设备和先进的自动控制技术,实现了 基础自动化。在竖炉球团生产中,成品球的质量直接影响成品球的价格,也是企业 竞争力的具体体现,提高成品球质量水平,把握价格主动权,从而提高企业生产效 益,企业信息化建设中先进控制层的建设应运而生。在实现基础级过程自动化以后, 先进控制层的建设必将为改善产品质量,降低消耗,增加产最,提高企业的卜产质 量、生产效益,提高企业的市场应变能力和竞争能力的挑战提供有力支持i “。 对于许多工业过程来说,在生产稳定的情况f ,一些重要的质量指标,通常由 化验室等专门部门定时采样检测来完成,采样周期一般为几小时不等。从质景预测 的角度来说,这样大滞后,长周期的质景数据很不利于操作= t :了解卜产过程的。史时 质量状况。竖炉成品球的质量指标为抗压强度,就是指成品球所能承受压力,帆位 为牛,个,抗压强度越大,所承受的压力就越大,质量就越高。球团厂成品球的质量 检测是在铁球生产出来之后,由一个质量检测部门,利用专门的检测设备,以两小 时为一个时间段对铁球进行多次抽样检测,生成本时间段内的铁球的最高抗压强 度,最低抗压强度,平均抗压强度和等外等质景参数,所谓等外,就是指存本次抽 样的检测次数中,抗压强度低于铁球所能允许的最低抗压强度的次数在总次数中所 占的比重,等外越高,次品率也越大,所以应使等外尽可能低。在大冶铁矿竖炉球 团的实际生产中,抗压强度以2 0 0 0 牛个为合格,次品率也就是等外不能高于3 0 。 然而,竖炉球团实际生产质量往往达不到所要球的指标。且质量检测又是在生产过 程之后,此时所检铡出的质量参数只是对前两小时的生产质量的一个评价,次品牢 的高低,抗压强度的大小都已成为一个不可改变的事实,从质景预测的角度来说 这样大滞后,长周期的质量数据没法让操作工了解生产过程的实时质量状况,从而 华中科技大学硕士学位论文 根据实时质量状况凋妒b “工岂参数以便提高f w ”质毓。 找到与成品球抗压强度密切相关且可以在线测量的参数对提高竖炉球【:j _ i 生广: 质量颇为重要。本文就是为着这样一个日的,以暴础级过程自动化为耩础,结合r 轻 炉球团的实际生产状况,綦于数据挖掘技术中决策树技术的分类预测能力,以期找 到与成品球抗压强度密切相关且可以在线测景的参数,从1 7 i i l l l 用此螳参数实现成品 球抗压强度的在线预测。决策树技术在质量预测r 1 存在其局限性,那就足它”能提 供哪些参数与成品球抗压强度密l j l 4 h 灭这些参数处订例j 螋范i f ! i l l , l ,成t 1 i l i 球抗爪强 度大概处在哪个范田,【包就是晚足利一定。r k 的关系。然而,它们之问的定吊笑系对 生产控制的指导作用更为币要,f _ 1 它们之问的关系为l f :线性关系,为此,雌决策树 结果为基础,利用神经网络技术,来找到成品球抗爪强度和这螳参数之m 的数最父 系,用以从数量一1 2 解答可在线测量参数到成i “1 1 1 球抗j l ( j 自t 度的数| i l :笑系以及 ! t - s ”多人 执压强度的成。诮球时,这些参数应该烂多人值的i u j 题,以此为j 占f , l i l ,为球i - t l l l k 铷l k 的牛j “过程竹理,小“质“i 僻 理都能起到很大作用,它能为生产过程挺供,卜,“过f ! 的控制知u ! ,为小,、,= 渊度箭娜 的决策层提供决策的科学依掘。存j i 、l k 氽、i p 的质茕两嘲4 和质昂预测系统一h 数据挖 掘技术都能起巨人作用,们对这方丽的席j l j 现补:坯比较少i ”i i ”i ,小丈就足 j ,f 丁数 据挖掘cr t 决策树技术在质最预测i f 的应f j 。 1 4 神经网络的研究发展史和研究概况 l ,4 1 神经网络的定义 神经网络是由许多并行运算的功能简单的币元组成,这些币元类似。r f 卜物神绛 系统的单元。神经网络是个非线性动力学系统,其特色神1 :信息的分斫i 式存储和 并行协同处理。虽然单个神经元的结构极其简巾,功能仃i 艇,f 1 1 人毋神经i 构成的 网络系统所能实现的行为却极其丰富多彩。与数宁i = 卜算机扪比。神经网络系统j l 有 集体运算的能力和自适应的学习功能。此外,它还只有很强的容锵一p l :和绍棒。r i :,h 善于联想、综合和推广。 一般而言,神经网络是一个并行和分j ;f f i 式的信息处瑚网络结构,它+ 舭r i :多 个神经元组成,每个神经元只有一个输f _ f ,它”j 以连接到很多其它的神经冗,每个 神经元输入有多个连接通路,每个连接通路对应j :个连接权系数。 严格的说,神经网络是一个具有下列性质的有向网: 华中科技大学硕士学位论文 1 每个节点有一个状态变量x i : 2 节点i 到节点j 有一个连接权系数w i l : 3 每个节点有一个阀值0i ; 4 每个节点定义一个变换函数f j l x i ,w j i ,0j ( i j ) 1 ,最为常见的情形为 ,( 矿口,) 神经网络模型各种各样,它们是从不同的角度对生物神经系统不同层次的描述 和模拟。有代表性的网络模型有感知器,多层映射b p ( b a c kp r o p a g a t i o n ) l 稠络,r b f 网络,双向联想记忆( b a m ) 、h o p f i e l d 模型等。利用这些网络模型可以实现函数逼 近、神经聚类、模式分类、优化计算等功能f 1 0 i 。 1 4 2 神经网络的研究发展史 神经网络的研究经历过两个高潮州j 9 j 1 1 1 1 ) 1 1 2 j 。 第一次神经网络研究高潮 对大脑神经元的研究表明,当其处于兴奋状态时,输f f 侧的轴突就会发脉冲 信号,每个神经元的树状突起与来自其它神经元轴突的互相结合部f 此结合部称为 s y n a p s e ,即突触) 接收由轴突传来的信号。如果一神经元所接收到的信号的总和超过 了它本身的“阀值”,则该神经元就会处于兴奋状态,并向它后续连接的神经元发出 脉冲信号。 1 9 4 3 年,w s m c c u l l o c h 和w p i t t s 根据上述研究发表了他们的神经元模型,通 常称为m p 模型。1 9 4 9 年,d o h e b b 提出了神经元的学习法则,即h e b b 法则。到 现在为止,大部分神经网络型机器的学习法则仍采用h e b b 法则或它的改进形式。 5 0 年代末,e r o s e n b l a t t 基于上述原理提出了一种模式识别机,即感知机( p e r c e p t r o n l 模型。1 9 6 1 年,e r c a i a n i e l l o 提出了能实现记忆相识别的神经网络模型,它 j i 学习 方程式和记忆方程式两部分组成。 同本的研究者中野,于1 9 6 9 年提出了一种称为a s s o c i a t i o n 的联想记忆模型。 在这种模型中,事物的记忆用神经网络中的神经元兴奋状态来表示,并对h e b b 的 学习法则加以修j 下,使其具有强化的学习功能并可用于 记忆。东京大学的甘利教授 从1 9 7 0 年起,就对神经网络的性质及其局限性作了许多理论研究,并取得了相当好 的成果。他的研究成果已发表在1 9 7 8 年山版的“神经网络的数学原理”险i i 。1 9 7 2 华中科技大学硕士学位论文 年,芬兰的t k o h o n c n 发表了一个与感知机等神经网络不同的线性神经网络模型。 比较非线性模型而言,它的分析要容易得多。 第二次神经网络研究高潮 1 9 8 2 年,美国物理学家h o p f i e l d 对神经网络的动态特性进行了研究,提f n 了所 谓h o 娟l e d 神经网络模型。以r u m e l l h a r t 为首的p d p ( p a r a i l e ld i s t r i b u t e dp r o c e s s i n g ) 并行分布处理研究集团对联结机带1 ( c o n n e c t i o n i s t ) 进行了研究。此外,t j s e j n o w s k i 等人还研究了神经网络语音信息处理装置。这些成功的研究对第二次神经网络研究 高潮的形成起了决定性的作用。 1 9 8 3 年,s e f a r m a n n 和h i t o n 提出了波尔兹曼机b m ,该神经网络模型叶1 使用 了概率动作的神经元,把神经元的输出函数与统计力学巾的波尔兹曼分前i 联系起来。 1 9 8 6 年由r u m e l h a r t 和h i n t o n 提出误差反向传播神经网络( e r r o rb a c kp r o p a g a t i o n n e u r a ln e t w o r k ) ,它是一种能向着满足给定的输入输m 关系方向进行自组 :i l 的神经 网络。 1 4 3 神经网络的研究概况及应用 神经网络的研究主要可分为以下三个方而: i 大脑和神经系统的信息处理原理。 2 构造能实现信息处理豹神经网络模型。 3 能实现信息处理基本原理的技术研究神经计算机。 以上三个内容本身还具有相当广泛的研究内容。此外神经网络是门新兴的交 叉学科,其研究涉及到神经科学、认知科学、物理学、数学、计算机科学、人一i :智 能、信息科学、微电子学和光学等众多的学科。 神经网络已被应用到许多领域,如模式识别、喜好处理、专家系统、努i 合优化、 自动控制和函数逼近等。人工 申经网络由于其独特的模型结构和同有的非线性模拟 能力,以及高度的自适应和容错特性等突出特征,在控制系统的建模、辨识和控制 中都获得了广泛的应用,已取得了许多成果。这剃,应用几乎覆盏了控制理论研究r l - 的绝大多数问题。主要有以下几种形式:( 1 ) 系统的模拟和辨识;( 2 ) 充当各类控制 器。多层前馈式神经网络的非线性拟合特性在监督控制、赢接逆模控制、模刈参考 控制、内模控制、预测控制、最优决策控制等多种控制结构巾得到了应用l 巧l 。利用 华中科技大学硕士学位论文 神经网络的学习能力以及通过学习掌握数据问的依存关系,可以很好的解决各利一预 测问题,如股票预测、天气预测、质量预测1 5 “。在数据挖掘中,神经网络技术就是 最常用的技术之一,在分类预测、聚类等知识发现任务中,都离不开它的应用。多 层前向网络能逼近任意非线性函数在科学技术领域中有广泛的应用。本文就是利 用多层前向神经网络的非线性拟合特性,以及它的学习能力以及通过学习掌握数据 间的依存关系的能力,通过对以往竖炉历史数据的学习,得到质量指标和与质量指 标关系密切的竖炉状态指示参数之间的数量关系,建立了质量预测模型和质量控制 模型,用于建立球团质量控制系统。 9 华中科技大学硕士学位论文 2 基于决策树的质量预测规则建立 2 , 1 球团生产质量的主要指标及其影响因素 大冶铁矿球团厂以铁精矿和皂土的混合物为原料,经造球工艺后生产生球, 然后送往竖炉工艺进行煅烧生产出熟球,即为成品球。 针对成品球的检测指标主要是抗压强度( 牛个) 。抗压强度,就是指球所能承受 压力,抗压强度越大,所承受的压力就越大,质量就越高。球团厂成品球的质量检 测是在成品球生产出来之后,由一个质最检测部门,利用专门的检测设祷,以两小 时为一个时间段对铁球进行多次抽样检测,生成本时州段内的铁球的展商抗压强度, 最低抗压强度,平均抗压强度和等外等质量参数,历渭等外,就足指在本次抽样的 检测次数中,抗压强度低于成品球所能允许的晟低抗压强度的次数和总次数r i t 所l f i 的比重,等外越高,次品率也越大,所以应使等外尽可能低。在大冶铁矿峰炉球闭 的实际生产中,成品球抗压强度以2 0 1 ) 0 乍个为合格,次品牢也就足等外不能低丁 3 0 。 竖炉工艺的主要生产工艺参数有煤气流量( 立方米小时) 、压力( p a ) ,助燃风流 量( 立方米小时) 、压力( p a ) ,冷却风流量( 立方米小时) 、胍力( p a ) ,针对特定的牛球 流量,如何调节好这些参数的大小才能使成品球质量较好,这是个需要急待解决 的问题。煤气流量、压力,助燃风流量、压力,冷却风流量、压力为竖炉球团生产 中的可调节量,还有许多竖炉生产的状态指示参数它们是竖炉控制系统的控制目 标。这些可调节生产工艺参数的大小对竖炉生产的影响是通过那些生产状态指示参 数表现的。竖炉生产状态参数主要有:燃烧室温度( ) 、火道温度( ) 、烟罩温度( ) 、 炉身温度( ) 。本文的质量预测系统就是要找到这些状态指示参数中哪砦与成一谲球 质量关系最为密切,它们之间有一种什么样的数量关系。得到这些知识后,这些状 态指示参数作为竖炉球团的控制目标,由竖炉球团的控制系统对可调节参数进行调 节,使被控制参数处在所需达到的成品球质量参数所对应的范围。 本章主要利用决策树的方法找到这些状态指示参数| f 1 哪些参数与成品球质氐 的关系最为密切以及它们之间的一些定忭关系,作为质罱预测的种丰r 略估汁。对 i o 华中科技大学硕士学位论文 j 与成品球质量关系最为密叨的参数1 j 质磺指标州所成| j 数聃天系,i - t 将利川神 经网络的方法给“;解答。 2 2 决策树数据挖掘技术 预测的的是从历史数据砒录i i l “动f 门推导刘给定数州f n 推广椭迷,从i f i 能 对未柬数据进行预测。分类和回归都可以用于预测。分类的输出是离散的类别值, 而回归的输 h 则是连续数值。决策树是+ 种可以进行预测分析的树状模趔,它的每 一个分枝都是对训练集的一个分类,而侮一个叶予也都是对应分类的数据集。 决策树是一个分类器,它的输入是一组带有类别标记的例了,构造的结果足。 棵二叉树或多叉树。二叉树的内部二1 7 点( 。卜f - 竹点) 1 般表示为个逻辑削断, 形式为f a i - - - - v i ) 的逻辑判断,其巾a ;是属性,v i 足该属性的某个属性值:树的边是逻辑 判断的分枝结果。彩叉树的内部节点足属性,便是法属r f :的所有权f i | c ,有几个属r i : 值,就有儿条边。树的i i | _ f - 1 7 点部足炎,j | 舶:u 。 构造;火策树的办法足采川f l ,l :1 i jf 、f f j 递pl 构造。以多义恻为例,它f 门构造心路 是,如果训练例子集合t i ,的所有例j r 足州类的,则将之做为i i r1 7 ,_ ,1 i 内择【! | j 是该类别标记。否则,根据某种策略选择1 个属性,按照眩属性的秤个l k f i i i ,把例 子集合划分成蓿于子集合,使得每个了集合f :的所有例予都仡该属r fl :其有同样的 属性值。然后再一次递归山来各个予集。这利,思路实际i :就足“分胁治之”的j 瞧胖。 二叉树同理,差别仅在于要选择一一个好的逻辑判断。构造妍的的决策树天键靠j :如 何选择好的逻辑判断或属性。对一r 同样+ 身l 例f ,”r 以彳r 艇多决策树能符合这 ;| | 例 子。人们研究出,一般情况下或具有较大概率的醢,树越小则树的预测能力愈强。 决策树的特点有f 1 8 】 1 9 】: 1 在每一个节点将训练予集分类寸4 i 会损失仃何数捌,也就魁说1 ,j i 处f 门数抛 集大小等于它的各个子节点数据集的大小之和; 2 决策树比神经网络模型或标准的统汁模,科更容易i 甲解,丽h 1 三更弈易牛成舰 则: 3 决策树比较容易在计算机卜用递! 1 7 1 q - :成的方沼i 实现,也比较挥易。典现一i 视化 操作。 微软数据挖掘工具一- - a n a l y s i ss e r v i c e 华中科技大学硕士学位论文 在微软的s q ls e r v e r2 0 0 0 的a n a l y s i ss e r v i c ei i 实现r 决策树模型。决镰树模 型能对关系数摒库、o l a p 立方体、f o x p r o 表、文本文件或者微软e x c e l 表格等任 何可以与o l ed b 关联的数据源进行挖掘生产决策树。利川微软决策树进行挖掘, 必须从数掘源中选择一个或多个输入列( 属性) ,选择一个预测列。输入列表示用来 训练挖掘模型的实际数据。可为连续位。预测列用丁仃储挖掘模,州的预测输信息, 预测列必须为离散值,若为连续值,还必须对之进行离散化1 5 ”。 抗压强度是连续属性数据,决策树生成要求对连续属性数据离散化后彳能进 行。离散化的任务是把连续属性的取值范m 或取俏区州划分为精r 个数小多的小 区f n j ,其中每个区间对应着一个离散的符号。虽然存存专门的算法用于将连续数俯 离散化,例如等宽区问法,等频i 再问法、最人熵法和再利t 聚类分析 法等。们j e 处 理复杂度往往很大,所以微软决策树实际上足将数谢集装,从| i 感说灯像足i1 羔- 川厂 离散值,但它牺牲了较大的准确性,但这对,1 i 要求预测值1 i 是 艇耕确的决策树彼,弘 来说,这足适川f n ,例! f 【i 沭章j 足希q ! 找 | | 哪j l 略炉状态指爪参数o j 机j i i m _ c :父系 最为密切,所以只得到抗压强度的大概范隔也是可以接受的。木市r l 一决筇树对抗胍 强度离散成了旧个值:1 6 4 6 5 ,1 8 6 6 5 ,2 0 8 4 ,2 4 3 7 ,根掰怪炉球实际小j “许况, 抗【i 强度应该人j :2 0 0 0 j 算合格,那么j 以分刖把返p u 个他解释为苁,较芹,f ? 格, 较好四个等级。 微软使用了它自己的算法用1 二_ i 成决策树,这些算法没行被公,i :, f 这种茆法 的灵感来自其它经过试验和验证的方法。在数掘挖掘领域o f ! 常川的决策树竹 0 , 4 i 1 : 1 分类和回归数( c a r t ) ,这是同前使用最泛的算法; 2 x 平方自动交互检验( c h a i d ) ,它使刚x 、| ,力分析检验米对树进 i 确认; 3 c 4 5 ,它是l d 3 ( i t e r a t i v ed i c h o t o m i z e rv e r s i o n3 ) 的增强型算法。 构造好的的决策树关键在:如何选祥好的逻辑削断或j j i i r f :。”1 需要决定川哪个 属性去分叉节点时,差异就成了一个关键性柏闪豢。为了汁鲐粜剧属性的茇,亡,矩 法将计算所有适合和不适合的实例。决策树以使每个群体i f f 差异度最小的原则来确 定决策树算法利用那种属性来分叉。差异度的计算是。种概率汁钳,它算此属f t 先后遇到不同分类的概率,如果此概率大,最大为5 0 , 兑明劳异不明屦,如果此 概率小,说明差异大,则分叉的机会也越f 以此脯性就一t j 咀川j :分义。微软决筇和吖 使j 1 j 种归纳算法来确定广”生分义的顺序。pf 纳卯洲:从 l j f l + m 复的- f l 况社j ;| i 结论, 华中科技大学硕士学位论文 而不是事件间的逻辑列应关系。归纳鳟法通过系列刘撼个屈f _ l - i f j 复杂计竹找到最 佳的分叉点。 微软决策树对决策树模型实现了可视化,整个模型的图形如株放倒的树,序 边是树根,右边是树枝,如图2 1 。这种i f t h e n 规则创建的分层可以用来对 信息进行分层。这个可视化模型还利用颜色来表示节点中实例的南度,颜色越深, 对应的节点所有实例的数目越多。 2 3 数据挖掘的过程 吲2 1 微软决筑树川搅化永别 数据挖掘过程需经过数据准符、 挖掘必经过程示意图i2 f q p l l l 2 2 1 : | 一一数撕h k 豁 数据挖掘需嘲l 谚 表达ti 个人j # 骤,f 、l 冬l 为数删 卜 一数批1 分埘一 i i m 扛让 - | 图2 2 数据挖掘必经步骤图 华中科技大学硕士学位论文 2 3 1 需求和条件分析 这一步相当于m i s ( 信息管理系统) 中的系统分析,特别需要丌发人员和用户的共 同参与,以研究确定用户需求和挖掘目标。清晰地定义出业务问题,认清数据挖掘的目 的是数据挖掘的重要一步,挖掘的最后结果是不可预测的,但要探索的问题应是有预 见的。 需求和条件分析必须考虑的问题有:需要挖掘的业务领域、挖掘任务种类、初步 选择的挖掘技术和选用的算法、追求的性能指标( 如可信度,支持度等) 、模式采用 的表达方式等等。其次还要做几项相关工作:( 1 ) 需要从企业内外部获取哪些数据; r 判断是否有足够的数据量支持数据挖掘。 对于本课题而言,挖掘的目的是质量预测。在蛏炉球闭纠i 产中质最榆测是在 生产过程之后,此时所检测出的质量参数只是对前两小时的生产质最的一个评价, 次品率的高低,抗压强度的大小都已成为一个不可改变的事实,从质罱预测的角度 来说,这样大滞后,长周期的质量数据没法让操作工了解生产过程的实时质量状况, 从而根据实时质量状况调节生产工艺参数以便提高生产质量。本课题希望在生产过 程中,就可以预测此时生产的成品球的质量情况,并日能够对生产t 艺参数进行及 时调整,改善成品球的质量。所以希望找到一些与产品质罱密切相关的可以在线测 量的参数用于预测产品质量。 根据竖炉工艺的实际情况,熟球流量、煤气压力和流量、助燃风压力年i i 流量、 冷却风压力和流量属于输入性质的参数,为可调节参数,而炉身温度、烟罩温度、 燃烧室温度、火道温度这些属于输出性质的参数,它们是蛏炉牛产状态的指示参数, 把它们作为分类属性是合理的,并且抗压强度作为预测属性,采用决策树的方法。 希望找到这些参数中哪些和成品球质量指标之问的关系密切闷大概是一种什么样 的关系。由于本课题的基础自动化系统对这些数据进行了采集、保存,所以具备挖 掘所需的条件。 2 3 2 数据准备 又称为挖掘源数据组织和预处理。这一阶段是根据挖掘需求选定挖掘的源数据 集,对数据去粗取精和不断升华并最终产生适合挖掘的数据集的过程。数据准备的 一般步骤: 华中科技大学硕士学位论文 1 首先根据数据挖掘需求从原始数据库集”t “生与发观仃务川天的数捌r 集。 2 对获得的数据进行完整性和致性检查,屏蔽噪声数据,填补遗漏的数据。现 在,般的方法 :丽两个步骤的r 作转移刮数赫;仓席n 0 处0 :利维护l - 太,州魁建设枢 个企、l k 的数据仓库,数据仓库中按照各个业务主题存储着已经过榆奄和修证过的、f p 务数据及统汁数据。 3 数据降维和数据转换:数搬降维是刈修正厉数据集结合数 j l i :挖掘仃务挑选川 关字段同时摒除无关字段;数据转换是把不适合挖掘的数据值通过离散或层次数据 提升等技术变换为适合挖掘的数据,降低数据复杂性。 4 确定用于挖掘和用于验证的数据集:经过卜而几个步骤得到的数摒集已经能 够满足数据挖掘的要求,般在此蘩硎:按照定的方式r 如随机选择或按时州区分1 把l :面的数据集分为挖掘集和训练集。 应该指出,即使是同一数据源,系统的需求不同,准桥选j i l f f f j 夸# , i ( 算法小, 数荆预处娜j 方法也坷j 尽定川| l i j ,i ) m 的数栅准箭l 作址吱脱敬 l i :挖姗j 匝j i i 化的 一个难点。 竖炉的数据是通过c a n 总线从现场传至通信服务器的, f f 通信j j i 务器保存爷 数据库服务器。本文选择了竖炉的主要j 三广:状态指示参数用l 熟球的抗脏强度组成 个。一:维表,这些参数是:炉身温度( ) ,火道温度( ) ,燃烧窜温度( ) ,烟罩湍度( ) , 抗压强度( 牛个) 。f _ l _ f 于熟球质景的检测是以两小时为个时闷段,1 :3 0 ,3 :3 f ) , 依次递增,每个时问段产! i i 最高、摄低、甲均抗骶强度,而现场聚银的数_ i l i :足何6 分钟保存一次入数据库,根摒数据挖掘巾数据准衙的步骤和数据的选择原则以及成 品球质量检测的特点,课题从2 0 0 4 年t 月到3j l 底荣集的蝼炉l i 爱参数数捌- 一选择 了2 1 6 0 组数据,这些数据每2 0 组都落在质量检测的两小时时间段内本文对每2 0 组数据求其平均值,最后产_ 生1 0 8 组螺炉1 :要参数的记录,0 刈臆的1 0 8 个熟球质 暴指标( 平均抗压强度) ,e 同孛句成挖掘煲,! f i 表2 j 。i f f 选择r4 1 ) 0 1 i - 眵炉1 二要参数数 据做如同产生挖掘集的处理,产卜2 0 组记录,作为验矸集如表2 2 。挖掘馕和验研 集的数搦特点是选择的质量指标具有代表性,范淌需j - ,轻炉阳、川i ,”胸f ,均机 压强度指标的最大范用。 华中科技大学硕士学位论文 表2 1 决策树挖掘集( 全部数据见附录二中附表一一) 烟罩温度炉身温度燃烧室温度 火道温度抗压强度 ( )( )( ) ( 1 2 )( 牛个) 8 0 3 5 59 6 6 6 3 51 0 8 4 5 7 ( i8 9 8 4 2 5 2 4 0 7 0 0 a 7 8 0 6 59 6 5 2 加1 1 3 8 8 7 0 8 9 5 2 8 02 3 1 1 o 伽 8 5 5 9 59 8 2 4 1 01 1 1 0 3 4 58 9 4 0 2 52 3 8 1 0 0 0 9 3 5 1 1 39 7 2 0 4 51 0 2 8 9 8 08 9 4 5 8 02 5 0 7 咖 9 3 6 5 09 8 6 4 1 51 1 1 6 8 6 0 8 9 3 1 4 52 0 9 1 o 8 6 咖9 9 7 4 8 51 1 5 6 0 5 08 9 1 9 2 c 2 1 2 4 0 0 0 9 0 0 6 51 加9 7 8 51 1 4 6 6 6 58 9 3 2 8 5 2 1 7 7 0 0 a 1 0 3 2 5 5l 1 4 2 01 1 2 2 1 0 58 9 6 1 7 1 j 2 2 6 0 0 0 0 1 0 4 1 5 59 9 3 3 0 51 1 4 9 1 5 58 9 8 i 0 02 1 3 9 0 0 0 表2 2 决策树训练集 烟_ 罩温度炉身温度燃烧室温度火道渝度 抗j k 强度 ( )( )( )( ) ( 牛个) 8 0 6 9 1 1 0 0 l 2 0 01 1 7 5 1 3 59 3 1 2 8 5 1 6 8 0 0 f j ( 9 3 9 8 51 0 3 9 0 1 1 1 1 4 8 9 0 09 3 1 2 9 0 1 6 6 9 0 0 0 8 0 5 2 51 0 4 4 6 1 5 1 1 7 0 5 5 59 3 2 7 如1 7 6 8 ( x ) a 8 7 9 3 5l o l 7 5 5 51 1 6 4 9 1 5 9 3 4 3 3 0j 9 7 6 1 瑚 5 1 0 2 09 7 2 2 加1 1 0 5 8 9 09 0 2 ,8 0 01 8 1 7 0 【) 0 5 0 8 7 5l 0 0 7 1 1 51 1 2 7 5 3 59 0 0 7 1 0 1 8 0 2 【啪 5 6 1 4 1 1 0 2 3 4 9 5 1 1 1 5 9 9 59 呻3 铷1 8 2 9 小砌 5 7 8 踟 1 0 0 1 6 8 加11 4 1 4 7 1 19 0 1 5 9 51 7 6 5 0 0 0 5 9 7 1 ( 31 0 2 8 1 2 5 1 1 6 3 8 0 59 0 2 2 4 51 7 8 7 0 0 a 5 9 3 6 1 1 0 3 0 0 1 01 1 4 8 1 0 59 0 3 0 3 0 1 7 1 2 0 0 0 5 8 7 1 51 0 2 7 2 3 01 1 6 1 o l o 9 0 5 4 7 51 7 6 0 【啪 6 7 8 6 51 0 3 3 6 4 c 1 1 5 0 1 9 7 0 5 3 52 4 0 2 o 咖 7 2 3 3 51 0 2 8 4 6 c 1 1 3 3 4 加9 7 2 2 7 52 3 4 0 o 加 8 4 2 5 1 7l o l l 2 8 01 1 2 0 2 1 1 1 9 7 3 2 5 02 1 2 8 0 0 0 1 0 2 4 2 1 1 0 2 0 “01 1 2 7 1 5 5 9 3 1 02 3 8 6 ( x 砌 8 2 8 4 5i o l l 0 2 01 1 3 4 7 0 59 0 9 5 8 0 2 5 1 8 0 0 0 1 0 2 1 1 5 1 0 1 7 9 6 511 5 9 6 1 59 0 9 7 3 52 4 6 7 o 伽 8 1 9 2 59 9 4 1 7 1 1 0 1 2 3 3 59 0 8 6 2 02 0 7 6 0 0 0 7 4 2 3 09 9 5 3 5 5 1 1 4 9 9 7 08 9 7 6 8 51 9 2 9 ( j ( ) c 】 7 4 2 9 09 9 5 7 4 5 1 1 3 3 6 4 59 0 0 0 4 01 9 6 2 删 2 3 3 规则推导

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论