已阅读5页,还剩58页未读, 继续免费阅读
(计算机应用技术专业论文)基于数据挖掘的高炉煤气流分布模型研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东北大学硕士学位论文塑墨 基于数据挖掘的高炉煤气流分布模型研究 摘要 商炉煤气流分布状态是高炉上部布料操作的主要依据,它对于高炉生产的稳 定运行,提高产量,降低焦比是非常重要的。虽然目前高炉十字测温的径向分柿 一般都能够傺证是型,但是寻求最佳的高炉煤气流分布模式仍然是大家非常关 注韵漾蓬。本交是试鍪鞠翅高炉静运嚣指标( 麴裹炉铡曩系数、焦比等) 乍燕评 价煤气流分匆状况好坏的性能指标。为此本文探讨了高炉煤气流分蠢状态与这些 指标之间关系,并一1 1 年, j 用这个实时模型作为高炉布料操作的指导。本文是采用数 据挖掘技术,利用聚类分析、分类判别、数据压缩、回归计算模型等统计分析方 法柬建立高炉煤气涟分布模型。鉴于藏系统楚作为商炉布料操作智能决策支持系 统数一令重要组袋灞分蠡| 设诗匏,斟就在文章最后掇出了系统实时运行静软转缝 构。利用u m l 语言和设计模式进行了全新的软件体系结构的设计,使系统的可扩 展性和可维护性得到了明龆的增强。 关键词数据挖掘专家系统高炉专家系统 东北大学硕士学位论文a b s t r a c t t h er e s e a r c ho fd i s t r i b u t i n gm o d e lo f b l a s tf u r n a c eg a sf l o w b a s e do nd a t a m i n i n g a b s t r a c t d i s t r i b u t i n gs t a t e o fb l a s tf u r n a c e g a sf l o wi sp r i n c i p a l b a s i si n o p e r a t i n g g u i d a n c eo fb l a s tf u r n a c em a t e r i a l 。i ti sv e r yi m p o r t a n tt oi m p r o v et h eo u t p u ta n d d e c r e a s et h ec o k er a t i o 。a l t h o u g hu pt on o w d i s t r i b u t i n gs t a t eo f c r o s st e m p e r a t u r e p r e d i c t i o nc a na s s u r ew s h a p e ,e x p l o r i n gt h e m o s to p t i m i z em o d e li ss t i l l v e r y c o n c e r n e db ye v e r y o n e ,t h i sp a p e ra d o p t si n d e x ( u t i l i z ec o e f f i c i e n ta n dc o k er a t i o e r e ) o f b l a s tf u r n a c e t oa p p r a i s i n gt h eg a sf l o w ,s ot h ep a p e r e x p l o r e s t h e r e l a t i o n s h i p b e t w e e ns t a t eo fb l a s tf u r n a c eg a sf l o wa n di n d e x e sa n du s er e a l t i m em o d e la st h e o p e r a t i n gd e c i s i o ni nb l a s 6m a t e r i a l i td i s c u s s e sh o w t ou s es o m em e t h o d st of i n d d i s t r i b u t i n gm o d e l so f b l a s tf u r n a c eg a sf l o w b yd a t am i n i n gt e c h n o l o g yw h i c ha r e c l u s t e r i n ga n a l y s i s 、d i s c r i m i n a t i n ga n a l y s i s 、d a t ac o m p r e s s i o n 、c o r r e l a t e da n a l y s i s a n dr e g r e s s i n gc o m p u t i n ge t c b e c a u s et h es y s t e mi sd e s i g n e da sav e r yi m p o r t a n t c o m p o n e n to fi n t e l l i g e n td e c i s i o n - m a k i n g ,s o i ta d v a n c e ss o f t w a r ef l a m eo ft h e m o d e la n dg i v e sn o v e li d e af o ro p e r a t i n gd e c i s i o ni nb l a s tf u r n a c em a t e r i a l a tt h e s a m et i m e ,t h ew h o l es y s t e mi sm o d e l e db yt h eu m lo v e ra g a i nb a s e do n o b j e c t o r i e n t e di d e a + i te s p e c i a l l yi m p r o v e st h ee x p a n s i b i l i t ya n dm a i n t a i n a b i l i t yo f t h es y s t e m k e y w o r d s :d a t a m i n i n g e x p e r ts y s t e m ;e x p e r ts y s t e m o f b l a s t f u r n a c e i i i 声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得 的研究成果除加以标注和致谢的地方外,不包含其他人已经发表或撰 写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与 我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的 说明并表示了谢意。 本人签名:雇立夏 日期:切乡二 东北大学硕士学位论文 引言 第一章引言 本章对全文内容进行概述。首先指出本文研究内容的产生背景及所要解决 的问题,然后在简要分析相关技术的基础上提出解决方法,即高炉煤气流分布 模型建立的方法。最后给出本文论文结构框架。 1 1 研究背景 钢铁工业作为基础原材料工业,在中国国民经济中具有举足轻重的地位。 8 0 年代以来,钢铁工业取得了长足的发展,到1 9 9 6 年钢产量超过1 亿吨,跃 居世界第。信息技术与产业技术相结合,能够更好地促进产业发展。高炉专 家系统在国内外的钢铁行业中,受到了广泛关注。专家系统的应用给社会生产 带来了非常可观的经济效益。 在以往高炉冶炼专家系统中,对于煤气流分布规律的研究较少,丌发方案 也比较简单,很难满足现场的实际需要。早期的布料操作研究也主要以物理模 型试验为基础,考虑炉料下落过程中的各种因素,通过建立数学模型计算料面 形状和矿焦比分布,但这种方法难以进行实时的在线分析和控制:国外早在上 个世纪八十年代就已开始研制用于高炉布料操作指导的专家系统,如八十年代 中期同本研制的r a b i t 模型,八十年代末日本j i 【崎制铁开发的目标推断型布料 操作指导系统,日本新日铁大铁分厂采用b p 网络进行煤气流分布模式预测, 九十年代芬兰根据热平衡理论开发的布料控制专家系统等,这些专家系统将数 学模型和专家经验结合起来,克服了单纯利用数学模型的缺点,在实际运行中 取得了较好的效果。 我国开展人工智能系统“1 的研发工作比较晚,尤其在高炉实时控制方面还 没有出现完整、实用的人工智能系统,基本上靠引进国外技术来指导生产。尽 管引进的这些系统在生产中发挥了一定的作用,但进口的系统对高炉技术装备 和原料要求很高,与我国高炉现有的实际条件尚有一定的差距:另外,引进费 用昂贵,每一套软件均花费上百万美元,且不提供源代码,因此难以根据自身 的实际情况进行修改、维护以及进一步的扩充、推广。因此,从我们的实际条 件出发,白行设计、开发适合自身特点的具有自主知识产权的人工智能系统是 我国钢铁工业实现现代化的必由之路。 1 2 问题提出 煤气流的合理分布对高炉生产极为重要。合理的煤气流分布是保证高炉炉 1 东北大学硕士学位论文 ;l 言 料稳定下降、炉内化学反应和热交换正常进行的重要因素,因此,它是高炉稳 定顺行、节能降耗、增产提质和延长炉龄的重要途径之一。如果中心煤气流过 强,炉壁处的煤气流就不易流动,破坏了煤气流的合理分布,容易发生炉壁结 厚现象,且极易形成中心管道;如果边缘煤气流过强,就会侵蚀炉壁,而且煤 气流不稳定。因此,保持合理的煤气流分布可以避免炉壁结厚、炉壁侵蚀等现 象的发生,对保持高炉的稳定运行和长寿起着十分重要的作用:对合理的煤气 流分布进一步优化可以提高高炉运行指标,实现精细操作。高炉布料操作制度 是高炉生产中极为重要的操作技术,布料制度的变化,直接影响高炉上部煤气 流的分布,决定高炉内部热量和质量的传递及炉料下降的顺行程度,从而影响 高炉冶炼过程和铁水质量等高炉各项技术经济指标。因此,追求煤气流分布的 最佳化以及依据煤气流的分布状况有效地进行布料控制一直是大家非常关注的 课题。在过去的高炉生产中,操作人员通常根据传感器数据和高炉生产经验来 判断煤气流分布情况,根据实际情况做出操作处理,但限于操作人员的经验很 难在短时间内对大量数据进行分析判断,结论和操作难免片面。因此开发高炉 煤气流分布和柿料操作决策人工智能系统,借助现代化手段合理控制煤气流分 布和布料具有重要的现实意义和实用价值。 由于高炉内部的生产条件非常严酷( 如高温、炉尘等) ,高炉内煤气流分布 不能直接测量。一般来说,高炉操作人员根据炉顶煤气利用率和炉喉十字测温 仪表对煤气流分布进行判断。当煤气利用率降低时,煤气温度升高,十字测温 传感器的温度也升高;当煤气利用率升高时,煤气温度降低,十字测温仪表的 温度也降低。在高炉生产中,要求煤气流的分布适当地保持中心煤气流和边缘 煤气流都有一定的发展,中间部分的煤气流最弱。同时,要防止中心煤气流和 边缘煤气流过强:如果中心流过强,容易形成中心管道,使边缘煤气流较弱而 不易流动,容易发生炉壁结厚现象;如果边缘煤气流过强,煤气流会变得不稳 定,容易侵蚀炉壁。 目i ; f ,对高炉十字测温的径向分布一般都能够保证是w 型,但是寻求最佳 的高炉煤气流分布模式仍然是大家非常关注的课题,及如何来评价煤气流分布 的好坏是非常重要的问题? 这就是本文所要解决的问题。 1 3 解决方法 考虑高炉的稳定顺行,实际上是在不同的炉料条件下,为取得高炉的几个 重要参数如透气性、炉温水平、炉料下降状态、煤气利用率、炉壁的结厚和脱 落、出渣出铁的成分和冶炼强度等的一个平衡状态,在这个平衡状态下,高炉 东北赶学硕士学位论文 ;l 富 可以取得一个长期稳定、高效、低成本的技术指标。这时,煤气流的合理分布 对予段得一个较好翡平筏稳定、鞭纷躲炉况楚j 常关键款翅素。因此,判叛煤 气流分布愚否合理,就必须从上述几个方面沫考虑。在煤气流分布合理的情况 下,雅荐一个较优的渫气流分蠢,进行煤气流静优讫调节 实时掌握及调整高炉煤气流分布状态,种新的思路是在炉况顺行的前提 下,利用高炉的运行指标( 利用系数、焦比、焦炭负荷,煤气利用率,冶炼强 度等) 乍为评价蠛气流分匆状况好坏建勺性能指标。魁翦,赢炉运行指标一般通 过机理模型的计算得到 3 l ,但机理模型考虑的情况过于理想化,同时计算的滞 嚣搜褥不链及时反映潆气渡分匆、状况并进行蘧时戆调整寒提毫技寒摆瓠。为此, 考虑高炉冶炼过程中内部发生的物理和化学反应过程,探讨炉喉十字温度、c 0 2 径向分布、布籽镪度等数据与离炉运行指标淘匏关系,采蠲数撵挖摇技术与统 计分析相结合的方法建立十字测温各点温度、c 0 2 浓度、布料制度数攒与运行 指标间的关系模型。模型针对当前和由十字测温预报模型产生的3 0 分钟后的预 报十字温度及其他参数,实时计算运行指标,动态掌握煤气漉分布状况,以便 及时调整布料制度,改善煤气流分布。 本文试蛰麸技术指标运行德汉懿麓凄柬评侩煤气滚分蠢懿竣态及变纯趋 势,这就是本文真正的目的所在。它是目前图内外都没有涉及的种新的思想。 欲建立十字溺温和靠籽澍发和技术指标之闰的关系,郎怒逶过瞧们之淹滟 一种模型,使用披术指标作为评价煤气流分布状况好坏的标准。经过多次的试 验与研究,本文采用数糖挖掘工具来完成此模型的建立。针对商炉实时的预测 剜构造了实时系统,同时对模型豹拟翔构造了离线系统。其中包括聚类分析、 判别分析、数据服缩中有损压缩的主成分分析方法、相关分析、多元非线性网 归、残差分辑。则鬻离线系统凡令胃藏更长辩阍懿群奉鼗攥掇稻熬攘黧提供给 实时系统来使用。实时系统针对实时到达的数据输入模型给出结果。 其解决方法的模型潮热下; 图1 1 关系图 f i g 1 tt h ed i a g r a m o f r e l a t i o n 东北大学硕士学位论文引害 1 4 系统设计 相对于传统的面向过程的程序设计方法,面向对象程序设计现己占据支配 地位。它将程序中粒数摆帮对数据的操 乍封装在一个对象内,其内聚性更强, 有更强的信息隐蔽能力,因而程序容易修改和维护,而面向对象的继承性和多 态性,会大大穗强系统瓣霹扩充性、拜教性。采囊錾囱对象兹拜发方渡要使爝 u m l 描述语言和面向对象编秘语言。 系统的设诗醋标主要有三点: l ,以面向对象的思想重新整合系统,提高代码的可重用性和可扩展性 2 以分布式构架为基础,提高系统的安全性和可靠性 3 莲 乏的款 牛王程模式,创建毅系统,使系统依纛文挡蕊存在 本文使用u m l 进行设计,其中包括离线系统和实时系统,对于离线系统针 对不溺麴窝炉运行诲提,一些窟炉系统可以考虑傻蠲s a s ( s t a t i s t i c a la n a l y s i s s y s t e m ) 进行分析从而建立模型。其中具体的方法在文中第四章将详细论述。 1 5 论文结构 本文从系统设计的角度出发,介绍1 1 号嵩炉专家系统中高炉煤气流分布模 型的建立过程,第一章为引言部分,介绍该系统的一些相关背景知识及问题的 提出与鳃决方法;第二黎系统综述与姻关技术,谬终专家系统瓣总 本功能、特 点和采用方法;第三章黼炉煤气流分布模型的建立方法,为本文中心部分,其 中采焉数舔挖掘中聚类分毫蓐、数据压雅、糨关分聿秀、圈烟分辑稻残姜分析等方 法;第四章高炉煤气流分布模型实现,阐述了其软件结构和功能划分及面向对 象的实现方法;激后一牵结论,主要讨论诧高炉攥气流分布模整建立中取褥静 成襞和仍然存在豹一些不足之处及相应的改进措施。 4 东北是学硕士学位论文第二章系统综述及相关技术 第二章系统综述及相关技术 2 1 高炉专家系统综述 2 1 1 高炉炉况诊断专家系统开发过程概况 1 9 9 2 年承担国家八五科技攻关项目“鞍钢高炉冶炼过程专家系统工业试 验”: 试验地点:开始在鞍钢4 号高炉( 1 2 0 0 m 3 ) 9 5 年改在鞍钢1 0 号高炉( 2 5 8 0 m 3 ) ,1 9 9 5 年底通过国家验收: 1 9 9 6 年通过冶金部技术鉴定,本系统处于国内领先水平,部分指标已达到 国际先进水平; 1 9 9 8 年获原冶金部科技进步一等奖; 1 9 9 7 年承担国家九五科技攻关项目“鞍钢高炉炉况诊断和操作决策人工智 能系统”的研究和开发; 试验地点:鞍钢1 0 号高炉( 2 5 8 0 m 3 ) 2 0 0 1 年9 月通过国家验收; 2 0 0 2 年受鞍钢公司委托在鞍钢1 1 号高炉( 2 5 8 0 m 3 ) 研究丌发专家系统。 2 2 2 高炉专家系统开发环境简介 八五期间在d e c 和v a x 工作站 u n i x 操作系统和v m s 操作系统 x w n d o w s ,m o t i f 环境下开发 九五期间在p c 机p i i i 一5 5 0 w i n d o w s - n ts e r v e r 和w i n d o w s 2 0 0 0 环境f 开发 系统的网络拓扑结构如下图2 1 所示,图2 1 中各部分功能如下: 高炉仪表:采集数据,通过l i n k 网传到过程控制计算机中。 过程控制用计算机:过程控制用上位机采用v a x 一4 0 0 0 小型计算机,通过 d e c n e t 网络将采集的数据传送到五台v a x 4 0 0 0 v c l 操作站上。 v a x 一4 0 0 0 v c l 操作站:主要用于监测上料及炉顶部分、高炉本体部分、热 风炉部分、煤粉喷吹部分及设备管理部分工艺参数的变化。 服务器:主要用于存储并分类数据,建立数据库,并将嫠理的数据存入数 据库中。 d e c r l e t 网络:将集中采集的传感器数据传送五台v a x 4 0 0 0 v l c 操作站, e 查! ! 垄茎壁主茎竺垒墨 签三兰墨些堡垦墨! ! 茎i 苎生 并搀数提传送到服务器。 i i , l i n k 网络:将高炉仪表t c s 一6 0 0 0 采集的传感器数据传送到过程控制计算 机中。 e t t t e r 网络:将服务器数据传送到高炉控制系统。 高炉专家系统:安鼗在2 台p c 机上,并通过总线型网络与p i l 3 0 0 服务器 棚连。 热风炉控制系统:用于控制吹入高炉内的空气温度通过总线鹜丽与服务器 相连。 实时监浏系统:用于篮测高炉参数的变化 2 1 ,通过总线登网与撤务器翻连。 离线参数学习系统:用于参数学习与调整,通过总线黧网与服务器褶连接 图2 t 麓炉专家系统软件结构圈 f i g 2 1s o f t w a r es t r u c t u r ed i a g r a mo fb l a s tf u r n a c ee x p e as y s t e m 6 东北大学硕士学位论文第二章系统综述及相关技术 2 2 3 系统特点 1 实时性强,反应速度快,每2 分钟为一个诊断周期 2 对仪表条件要求比较低 3 通用性强,容易移植到其他高炉 4 维护工作量小,参数学习和知识修改可以在网络环境下实现,不影响系 统实时运行 5 针对高炉炉况诊断的几个问题开发的,有关高炉的般参数检测和显示 在操作站上完成 6 在网络环境下开发,各个子系统可以独立运行 2 2 4 系统功能 高炉专家系统软件结构图如图2 2 所示:其中,总控程序负责与数据采集模 块通讯,获取实时数据,并分发给其它各个子模块。并作为整个系统的管理和 控制模块,负责系统其它模块的启动与关闭等任务,并肩负实时数据采集的任 务,以每天为h 1 间单位,将现场采集的实时数据保存在本地,数据文件每天生 成一个,以当天的同期命名。并在一个日志文件中,记录下每次系统的启动和 停止的时间,便于日后对数据的整理和加工。 图2 2 高炉专家系统软件结构图 f i g 2 2s o f t w a r es t r u c t u r ed i a g r a m o fb l a s tf u m a c ee x p e r ts y s t e m 东北走学硬士学位论文第二章系统综述及相关技术 2 2 5 新增模块概述 由于鞍钢1 18 高炉没有在线的径向煤气流分析仪表等检测仪表,利粥炉嚷十 字测涅黪数握找髓径向麓煤气溅分析仪表,并设计了用句法分移亍的方法进行麓 炉煤气流分布的模式识别,建立了煤气流分布的温度指数模型,由于其中十字 温度鞭溺鬣块采瑙鼙予t 算法的薅黼序甍享枣经潮络,在过去2 4 ,j 、时历史数据 的基础上对未来2 小时内的温度进行预测,弥补了原系统不能对十字温度预测 的缺陷。而布辩决策模浃翊通过句法分桥的方法在十字澈度的萋磕上对下一步 匆料制度进行决壤,通过句法分析的方法,我们可以提供更加详细的煤气流分 布模式。 在煤气流分匆模式建立起来戆基吾窭上,针对煤气流分匆摸型在整个高炉中 的重要性,所以找到好的煤气流分布成为至关重要的问题。本文就是通过采用 数攥挖掘方法柬建立十字测溢帮技术指标之闽豹关系,从纛达到透过技术撂标 来评价煤气流分布好坏的标准。 2 2 数据挖掘概述 2 2 1 什么是数据挖掘 近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提商,千万个 鼗嚣痒被蠲子裔攮管理、致麝办公、秘学餮 究和王程开发等等,这一势头仍稳持 续发展下去。于是,一个新的挑战被提了出来。在这被称之为信息爆炸的时代, 信患过量几乎成为人人需要面对的阍题。如何才麓不被信患的汪洋大海所淹没, 从中及时发现有髑的知识,提高信息剩用率昵? 要想使数据真正成为一个公司 的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量 熬数摄霹能藏为饶戡,獒至戒为垃圾。毽j | :,疆对“入翻数数摄淹没,人们却饥饿 于知识”的挑战擞据挖掘和知识发现( d m k d ) 技术应运而生,并得以蓬勃发展, 越来越显示出萁强大静生命力。 同样在冶金工业中也年复年的积累糟各种数据,从每一炉钢到每一块板 坯弼每一个钢卷,各级计算桃系统可以把这些数稀完整魄收集起来。但是收集 数握本身并不是强的,从“信息化带动工业优”的角度来看,更重要的是搬这 些数据利用起来,利用数据中蕴藏的知识来指导生产,形成企业的核心竞争力。 数撂挖掘( d a t am i n i n g ) 簸是款大量黪、不完全豹、畜噪声斡、模糊妁、廷祝鹁 数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知 谈静过程。 东北大学硕士学位论文第二章系统综述及相关技术 2 2 2 数据挖掘系统组成部分 数据挖掘【4 】为数据库中知识发现过程的一个基本步骤,他是从存放在数据 库、数据仓库或其他信息库的大量数据中挖掘有趣知识的过程。基于这种观点, 典型的数据挖掘系统包括以下几个重要成分: 1 数据库、数据仓库或其他信息库:这是一个或一组数据库、数据仓库、 电子表格或其他类型的信息库,可以在数据上进行数据清理和集成。 2 数据库或数据仓库服务器:根据用户的数据挖掘请求,数据库或数据仓 库服务器负责提取相关数据。 3 知识库:这是领域知识,用于指导搜索,或评估结果模式的兴趣度,这 种知识包括概念分层,用于将属性或属性值组成不同的抽象层。用户确信方面 的知识可以包含在内。 4 数据挖掘引擎【1 4j :这是数据挖掘系统基本的部分,由组功能模块组成, 用于特征化、关联、分类、聚类分析以及演变和偏差分析。 5 模式评估模块:通常,此成分使用兴趣度度量,并与数据挖掘模块交互, 以便将搜索聚焦在有趣的模式上。模式评估模块也可以于挖掘模块集成在一起, 这依赖于所用的数据挖掘方法的实现。对于有效的数据挖掘,以便将搜索限制 在有兴趣的模式上。 6 图形用户界面:本模块在用户和数据挖掘系统之间通信,允许用户于系 统交互,指定数据挖掘查询或任务,提供信息,帮助搜索聚焦,根据数据挖掘 的中间结果进行探索。 2 2 3 数据挖掘功能 一般而苦,d a t a m i n i n g 功能可包含下列五项功能,下面将这些功能的意 义及可能使用的技巧简述如下: 分类( c l a s s i f i c a t i o n ) 按照分析对象的属性分门别类加以定义,建立类组。例如,将信用申请者 的风险属性,区分为高度风险申请者,中度风险申请者及低度风险申请者。使 用的技巧有决策树,记忆基础推理等。 推理( e s t i m a t i o n ) 根据既有连续性数值之相关属性数据,以获致某一属性未知之值。例如按 照信用申请者之教育程度、行为来推估其信用卡消费量。使用的技巧包括统计 方法上之相关分析、回归分析及神经网络方法。 东北太学硕士学位论文第二章系统综述及相关技术 预测( p r e d i c t i o n ) 校据对象属性之过去蕊察谴来攘信浚耩性未来之值。翱翔注l 颧客过去之涮 号消费量预测其未来之刷卡消费量。使用的技巧包括回归分析、时间数列分析 及丰串经阏络方法。 关联分组( a f f i n i t yg r o u p i n g ) 从所有对象决定那些相关对象应该放在一起。例如超市中相关之盥洗用品 ( 牙利、牙膏、牙线) ,放在同间货架上。在客户行销系统l 此种功能系用 来确认交叉销售的机会以设计出吸引入的产品群组。 同质分组( c l u s t e r i n g ) 将异质母体中区隔为具同构型之群组。闹质分组相当f 行销术语中的区隔 化,但是,假定攀先素对区骗加以定义,蕊数据中自然产生区隧。使用的技巧 包括k - m e a n s 法及a g g l o m e r a t i o n 法。 2 2 4 数据挖掘工具 数据拢掘的工具是利用数据来建立一些仿真真实世界的模式,利用这些模 式柬撼述数据中鹣特征以及关蓉。这些模式有两转甥处: 第一,了解数据的特征与关系可以提供你做决策所需要的信息,譬如关联 模式可以帮助超级市场袋百贷店规翻如俺摆设货舔+ 第二,数据憝特征可以裁鼹蟊擞颈测,倒翅傣可以从份郎寄名擎颈测怒 哪然客户最可能对你的推销做响应,所以你可以只对特定的对苏做邮购推销, 焉不必渡费许多印蓐l 费鼯寄费嚣只得掰缀少瓣霞应。 数掘可以建立六秘模式:分类、圆归、时间序列、聚类分栅、关联、以及 序y l j 。分类以及回归主要是用束做预测,而关联与序列主袋是用柬描述行为( 例 如淡爨嚣为) 。聚类分搿劂是二者都可强臻疑上。 2 。2 。5 数据挖握是如何工作的 数据挖掘工舆是怎样准确地告爨你那媸隐藏在数搦痒深处的重要信息的 呢? 它们又是如何进行预测的? 答案就是建模。建模实际上就是在你知道结果 豹舞嚣下建立莛一狰攘裂,著曼把这辫模型应耍到依嫒不知道鑫孽郡耪媾援中。 比如说,如果你想要在大海上去寻找艘古老的西班牙沉船【1 8 】,也许你首先想 餮斡蓑是去找我过去发蕊这些宝藏静辩闻帮逮点有哺些。那么,经过谪查髂发 拇 东北大学硕士学位论文第二章系统综述及相关技术 现这些沉船大部分都是在百慕大海区被发现,并且那个海区有着某种特征的洋 流,以及那个时代的航线也有一定的特征可寻。在这众多的类似特征中,你将 它们抽象并概括为一个普通的模型。利用这个模型,你就很有希望在具有大量 相同特征的另外一个地点发现一件不为人知的宝藏。 在数据挖掘技术甚至计算机出现以前,建模抽象的方法就己经广泛地被人 们所使用。在计算机中的建模和以前的建模方法并没有很大不同,主要的差异 在于计算机能处理的信息量比起以前来更加庞大。计算机中能够存储已知了结 果的大量不同情况,然后由数据挖掘工具从这些大量的信息罩面披沙拣金,将 能够产生模型的信息提取出来。一旦模型建立好了之后,就可以应用在那些情 形相似但结果尚未知的判断中了。 2 2 6 数据挖掘的步骤 数据挖掘既然可以增加企业智慧,提升企业竞争优势,根据g l y m o u r 等人 的研究,提出一个参考的进行步骤如下: 1 理解数据与进行的工作 2 获取相关知识与技术 3 融合与查核资料 4 去除错误或不一致的数据 5 发展模式与假设 6 实际数据挖掘工作 7 测试与检查所挖掘的数据 8 解释与使用数据 从八个步骤来看,d a t a m i n i n g 牵涉大量的规划与准备,而从其它文献得知, 专家声称高达8 0 的过程花在准备数据阶段,这包括表格的j o i n 以及可能相当 大量的数据转换。从这个角度看,d a t a m i n i n g 只是知识发掘过程中的一个步骤 而己,而达到这个步骤前还有许许多多的工作要完成。 2 3 小结 上文提到因为利用炉喉十字测温的数据代替径向的煤气流分析仪表,所以 评价煤气流的好坏可以通过十字测温来判断,而煤气流的评价本文想通过技术 指标来判断,所以则为建立十字测温和技术指标之间的关系。由于高炉产生了 东北大学硕士学位论文 第2 - 辛系统综述及相关技术 大量的十。字测温和技术指标数据。想挖掘其中有利的信息,从而建立模型而做 到鬏 羹l 豹佟蠲,烈想到髑数据挖掘豹方法采鳃决。 本文掇到数据挖掘工具是通过建模来知道隐藏在数据库深处的重袋信息, 并对已经建立努豹模鍪对良螽鼹数援骰颈溅。瑟实际土裁是在稻遥绩莱熬馕嚣 下建立起种模型,并且把这种模型应用到你所不知道的那种情况中。本文则 是从大量的十字溯温和布科制度数赫中试圈我到与技术措标之阉静一种禳羹, 而后把这种模型应用到不知道的情况中,即实时的高炉系统中进行预测。 东北大学硕士学位论文第三章高炉煤气流分布模型确定方法 第三章高炉煤气流分布模型确定方法 3 1 聚类分析 3 1 1 聚类分析简介 聚类分析:聚类分析( c l u s t e ra n a l y s i s ) 是根据事物本身的特性研究个体分类 的方法,其原则是同一类中的个体有较大的相似性,不同类的个体差别比较大。 根据分类对象的不同分为样品聚类和变量聚类。 聚类是把一组个体按照相似性归成若干类别,即”物以类聚”。它的目的是使得 属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可 能的大。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的 方法。 在统计方法中,聚类称聚类分析“3 ,它是多元数据分析的三大方法之一( 其它 两种是回归分析和判别分析) 。它主要研究基于几何距离的聚类,如欧式距离、明 考斯基距离等。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动 态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。这种聚类方法是一种基于 全局比较的聚类,它需要考察所有的个体才能决定类的划分,因此它要求所有的数 据必须预先给定,而不能动态增加新的数据对象。聚类分析方法不具有线性的计算 复杂度,难以适用于数据库非常大的情况。 在机器学习中聚类称作无监督或无教师归纳,和分类学习相比,分类学习的例 子或数据对象有类别标记,而要聚类的例子则没有标记,需要由聚类学习算法来自 动确定。一些人工智能文献中,聚类也称概念聚类,距离不再是统计方法中的几何 距离,而是根据概念的描述来确定的。 聚类分析中的数据类型有以下两种: 1 数据矩阵:它为二模矩阵,此矩阵的行和列代表不同的实体。它用p 个变量来 x l i 1 一x l f 。x i p 。i l x i f x l p x n l 。n f - 。n p 表示n 个对象,本文中样本数据共有五个月的,所以n 为1 4 4 ,而利用系数、焦 比等属性来表示p 个变量。这种数据关系表的形式,或者看成n p ( n 个对象p 1 3 东北大学硕士学位论文第三章高炉煤气流分布模型确定方法 个变蹩) 的矩阵。 2 ,蜒异痊翘阵:为萃摸铤薄,此矩蓐鲶行巍列代表螭| 司的实体。存穗r 1 个对象嚣 两之间的近似性,表现形式是一个n n 维的矩阵。如下: o d 2 ,i ) o e l ( 3 ,) d ( 3 ,2 ) 0 d ( n ,1 ) d ( n ,2 ) 0 在这,ld ( i ,j ) 是对象i 和对象j 之闽籀髯凌的量讫表示,遴常它趋一令j 负的数值,当对象i 和j 越相似妓越“接近”,其值越接近0 ;两个对象越不同, 其值越大。 对于距离d 的计算有以下方法: 1 欧氐距离其中样鼯i 与,之闯欧氏距离: # d 口= f ( x ,- x k j ) 2 】j ( f ,= 1 , 2 , )( 3 1 ) t “l 2 绝对距离 3 m i n k o w s k i 距离 4 c h e b y s h e v 距离 5 ,方麓加投距离 6 。马氏距离 样品之间的距离主要用到畎上提到的各种距离。采用欧氏距离聚类或先将数据 标准他,再计算欧式距离进行聚类,实际为方羞加投距离。 3 。l 。2 主要聚类方法的分类 目前在文献中存在大量的聚类算法【5 】。算法的选择驳决于数掘的类型、聚类 的目的和应用。如果聚类分析被用作橘述或探查的工具,可以对同样的数据尝试 多种簿法,以发琨数据可能揭示豹结襞。 主要的聚类算法可叭划分为如下几类: l 。划分方法:绘定曩、n 个对象域元缝瓣数据痒,一个划分方法梭建数掇躲 k 个划分,每个划分表示个聚簇,并且k ”,也就是说,它将数据划分为k 个组, 同时满足如下的要求: 东北大学硕士学位论丈 第三章高炉煤气流分布模型确定方法 a 每个组至少包含一个对象 b 每个对象必须属于且只属于一个组 给定要构建的划分的数据k ,划分方法首先创建一个初始划分。然后采用一 种迭代的重定位技术,尝试通过对象在划分中移动来改变划分。一个好的划分的 一般准则是:在同一个类中的对象之间“接近”或相关,不同类中的对象之间尽 可能“远离”或不同。 为了达到全局最优,基于划分的聚类要求穷举所有可能的划分。实际上,绝 大多数应用采用了以下两个启发式方法:( i ) k 一平均算法,在陔算法中,每个簇 用该簇中对象的平均值来表示。( i i ) k 一中一1 1 , 点算法,在算法中,每个簇用接近 聚类中心的一个对象来表示。这些启发式聚类方法对在中小规模的数据库中发现 球状簇很实用。为了对大规模的数据集进行聚类,以及处理复杂形状的聚类,基 于划分的方法需要进一步扩展。 2 层次的方法:层次的方法对给定数据对象集合进行层次的分解。根据层次 的分解如何形成,层次的方法可以分为凝聚的和分裂的。凝聚的方法,也称为自 底向上的方法,一开始将每个对象作为单独的一个组,然后相继的合并相近的对 象和组,知道所有的组合并为一个,或者达到一个终止条件。分裂的方法,也称 为自顶向下的方法,一开始将所有的对象置于一个簇中,在迭代的每一步中,一 个簇被分裂为更小的簇,知道最终所有的对象在单独的一个簇中,或者达到一个 终止条件。 3 基于密度的方法:绝大多数划分方法基于对象之间的距离进行聚类。这样 的方法只能发现球状的簇,而在发现任意形状的簇上遇到了困难。则基于密度的 方法主要思想就是:只要临近区域的密度( 对象或数据点的数目) 超过某个阈值, 就继续聚类。即,对给定类的每个数据点,在一个给定范围的区域中必须至少包 含某个数目的。这样的方法可以用来过滤“噪声”孤立点数据,发现任意形状的 簇。 4 基于网格的方法:基于网格的方法把对象空间量化为有限数目的单元,形 成了一个网格结构。所有的聚类操作都在这个网格结构上进行。这种方法的主要 优点是它的处理速度很快,其处理时间独立于数据对象的数目,只与量化空间中 每一维单元数目有关。 5 基于模型的方法:基于模型的方法为每个簇假定一个模型,寻找数据对给 定模型的最佳拟合。一个基于模型的算法可能构建反映数据点空间分布的密度函 数来定位聚类。它也基于标准的统计数字自动决定聚类的数目,考虑“噪声”数 据或孤立点数据从而产生健壮的聚类方法。 本文主要用到了层次聚类法,所以下面主要叙述层次聚类法的思想。 东北大学硕士学位论文第三章高炉煤气流分布模型确定方法 3 。1 3 层次聚类法 一个层次幻聚类方法足将数据对象组成一棵聚类的树。根据层次分解是自底 向上还是自顶向下形成,层次的聚类方法可以进一步分为凝聚的和分裂的层次聚 类。令纯粹筑层次聚类方法弱聚类矮量受黢于如一f 的特点:一基一个含著或分 裂被执行,就不能修正。 凝聚的艨次聚类:这稀叁赢向上蕊策晦饕先将对象 乍为一个簇,然瑟台_ 莠这 些原予簇越来越大的簇,直到所有的对象都在一个簇中,或者某个终结条件被满 足。 分裂的层次聚类:这种自底向下的策略与凝聚的层次聚类棚反,它首先将所 有的对象置于一个簇中,然后逐渐分为越来越小的簇,直到每个对象子自成一簇。 s t e o0s t e o1s t e o2s t e o3s t e o4 s t e p4s t e p3s t e o2 s t e o1s t e o0 翻3 1 数据对象集台上静凝聚攀l 分裂攫次 f i 9 3 、1a g g l o m e r a t i v e a n dd i v i s i v ei nh i e r a r c h i c a lm e t h o d 上图显示,考虑凝聚过程,对于n 个观测,先计算其两两的距离得到一个距 离矩阵,然后把离得最:i 葭的两个蕊测合荠为类,于是炙翱tn 1 个炎( 每个单 独的未合并的观测作为个类) 。计辫这n - 1 个类两两之怕j 的躐离,找到离得最 近的两个类将其合并,就只剩下了n 一2 个类,直到剩下两个类,拖它们合并 为一个类为止。如果真的合并戏一个类就失去了聚类的意义,所以上联的聚炎过 程应该在某个类水平数( 即未合并的类数) 停下来,最终的类就取这魍类。进行 此聚类羁,类阕趱离可以童接镜+ 算,氇可以扶土一凝类承乎敢黪裹递雄褥到。双 测间的距离可以用欧氏距离或欧氏距离的平方,如果用其它距离或非棚性测度得 6 东北大学硕士学位论文 第三章高炉煤气流分布模型确定方法 到一个观测问的距离矩阵也可以作为谱系聚类方法的输入。根据类间距离的计算 方法的不同,有多种不同的聚类方法,本文用到平均距离法,所以下面介绍此方 法。 测量两类每对观测问的平均距离,即 d 。= 1 n 。n 。d ( x ,) f q ,5 吒 ( 3 2 ) 其中n 。,n 分别代表类中的个数,在d ( x ,y ) = i i x - y | | 2 时,若类c - 和类c 合并 为下一个水平的类,计算两个类之间的最短距离,则类c 。和类c ,的递推公式为 d i m = t n dj ( + n i d m 、n 3 1 4 聚类法的统计量 ( 3 3 ) 谱系聚类最终得到一个聚类树,可以把所有观测聚为一类【5 1 。到底应该把观 测分为几类是一个比较困难的问题,因为分类问题本身就是没有一定标准。决定 类数的一些方法来自统计的方差分析的思想,我们在这早作一些介绍。 一、统计量r s q r2 :l 一二殳 f 3 4 ) 其中p 。分类数为g 类时的总类内离差平方和,t 为所有变量的总离差平方和。 r 2 大,说明分为g 个类时每个类内的离差平方和都比较小,也就是分为g 个类是 合适的。但是,显然分类越多,每个类越小,r 2 越大,所以我们只能取g 得到r 2 足够大,但g 本身比较小,而且r 2 不再大幅度增加。 二、半偏相关统计量s p r s q 把类c 。类c 并为下一水平的类c w ,定义半偏相关统计量月2 = 1 一争,半 偏统计量中其中b 。为合并类引起的类内离差平方和的增量,半偏相关越大,说明 这两个类越不应该合并,所以如果由g + i 类合并为g 类时如果半偏相关很大就应 该耿g + 1 类。 堡苎查芏竺主鲎些丝墨 三伪f 统计量p s f 第三章高炉煤气流分布模型确定方法 f :( t - p c , ) ( g - 1 ) 岛( 一一回 ( 3 5 ) 伪f 统计量中,t - p 。是分为g 个类列熬类阉平方帮,g 一1 时鸯由癔,致,是分为g 类时的类内平方和,n - g 是其自由度,如果分为g 个类合理,则类内离差平方和 ( 分蹲) 应浚较小,类闻平方翻( 分予) 稻对较大。所戮应该取镄f 绕诗羹较大 两类数较小的聚类水平。 四伪t 2 统计量p s t 2 f 2 = b “取+ 矽) ( n + - 2 ) ) ( 3 6 ) w 。和w 。分别是类k 和l 的离差平方和,p s t 2 大,说明合并w 。和w ,为w - 。后,离 差平方和的增量瓯。相对子原来的类内离差平方和大,鄹表疆合并的两个类楚校分 开的,即上一次聚类效果好。用此统计量评价合并类g 和类c ,的效果,该值大说 明不应合并这两个类,所以应该取合并前的水平。 3 1 5 平均距离聚类法的实现 根据从鞍钢l l # 高炉采集的五个月的样本数据,对实时数掘进行统计分析来 获取燥气浚分匆模型。出于高炉冶炼过程具有很大的随机性,聪且在欺点图上点 的分布比较密集,采用单一的聚类分析方法绒回归模型都很难得到比较高的准确 性,因此校据鑫炉煤气浚分毒戆特餐,慰十字溅瀑二十一点兹滋菠数攥,热敬其 中特征首先进行分类,本文采用层次聚类法中平均距离法进行聚类。根据高炉十 字测温的潺度分布特征,选定几个特征。本文选寇二十一点十字溺溢数据,遴过 计算得到所有点的平均戗,通过平均值与十字测温曲线得到一个宽度,通过此宽 度作为特征值来谶行聚袋分析。特征值向量为: x = ( 搿;,x2 ,- ,x 。) ( p 烈,g 2 ) 根据判别分析的思想及方法,即根据样本建立酶分类标准,对观测值判粼是 否属于菜个类别,从两通过类别建立的模型达到预测的目的。上节本文对大量的 十字测温样本数据根据特征值宽度进行聚类分析,戴结果为分为九个予类。当应 髯到实时的鹣高妒上十字测湛载鼹测馕时,蓠先藏应该判叛它瘸于骤一予类,刿 别为哪个子类则可以进行对每个子类的计算,对于本文采用用距离判别法进行判 剐。具体翔稍方法辩下: 设新十字测温数据x 。= ( ,2 ,z 。) 7 是一个待判样品, z 。s g ,( 浊l ,2 ,9 ) 的马氏距离为: | d ( x 。,g ,) = 【( 以一h ) 三 x 。一“) 】2 ( 3 1 4 ) 其中,是g ,酶均德向量,三,怒g ,雏协方差怒簿。 距离判别准则: 若d ( x 。,g ,) d ( x 。,g ,) 则丸g g , 若d ( 托,g ,) d ( x 。,g ,) 爨l 我g ; 根据此准则,则可以判定实时的十字测温观测值样品属于哪一类,从而进行 模型的计算。 对于判别方法还有下嚣这耪判别方法可以考虑,针对实时的数据判别情况, 可以考虑其他判别方法。 2 + b a y e s 判剐 b a y e s 判别是镁定获鹾究的对象在撼样中已经药一定鹣试议,鬻矮数先验分 布来描述这种认识,然后基于抽取的样本再对先验认识作修i f ,得到后验分布, 丽各年牵统计攘断筠基予霰验分布迸章亍,将b
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年上海师范大学单招职业倾向性考试必刷测试卷带答案解析
- 2026年浙江长征职业技术学院单招职业技能测试必刷测试卷附答案解析
- 2026年云南省丽江地区单招职业倾向性测试题库及答案解析(名师系列)
- 2026年吉林城市职业技术学院单招职业适应性考试必刷测试卷带答案解析
- 2026年江西应用工程职业学院单招综合素质考试必刷测试卷带答案解析
- 2026年南京铁道职业技术学院单招职业适应性测试题库带答案解析
- 2026年义乌工商职业技术学院单招职业适应性考试必刷测试卷及答案解析(夺冠系列)
- 2026年吉林城市职业技术学院单招综合素质考试必刷测试卷及答案解析(名师系列)
- 2020-2025年公共营养师之二级营养师通关提分题库及完整答案
- 2026年吉林省长春市单招职业倾向性考试题库及答案解析(夺冠系列)
- 游戏动漫行业IP衍生品开发与运营方案
- 神经性关节病课件
- 故宫详细介绍课件
- 【MOOC】研究生英语科技论文写作-北京科技大学 中国大学慕课MOOC答案
- 《中日关系史》课件
- 海通国际-医药行业国别竞争力研究:从中、美、欧、日、印财报看2025年中国医药供需及投资机会
- 胖东来:你学得会的秘密培训课件
- (高清版)DB43∕T 2510-2022 优 质灿稻单品种大米全程生产技术规范
- DB11T 1794-2020 医疗机构临床用血技术规范
- 《事故汽车常用零部件修复与更换判别规范》
- 医院收购合同范本
评论
0/150
提交评论