




已阅读5页,还剩63页未读, 继续免费阅读
(控制理论与控制工程专业论文)基于数据挖掘生成集气管压力模糊控制规则.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 捅姜 集气管压力系统是一个耦合严重、非线性、扰动频繁剧烈的多变量时变系统, 很难用常规方法加以控制。随着控制理论的发展、计算机技术的成熟,在很多地方 采用了模糊控制与专家控制相结合的先进策略,但现在模糊控制规则的建立一般都 是在经验归纳法的基础上,根据控制规则的设计原则,依靠专家知识和操作人员的 经验积累所得到的。 在影响焦炉集气管压力的众多因素中,有的因素值的改变对集气管压力的波动 影响较小,有的因素值的改变对集气管压力的波动影响就要大的多。因此,首先利 用粗糙集理论中的属性约简这一核心性质,生成集气管压力系统的机理模型。在得 到集气管压力系统的机理模型后,提出了一种利用数据挖掘中的聚类分析算法来获 取模糊控制规则的方法。 通过对采集于唐钢炼焦制气厂的原始数据进行数掘预处理,利用聚类分析生成 模糊控制规则的方法,可得到不同工况条件下执行机构的状态,即模糊控制规则。 通过在m a t l a b 6 5 环境下进行仿真试验,并与利用经验归纳法获得的模糊控制规 则的控制效果进行比较,证明了此种新的生成模糊控制规则的方法虽然在峰值时间 上效果相当,但在上升时间,超调量,稳态误差三项性能指标上具有一定优势。从 而也证明了所提出的生成模糊控制规则方法的合理性和可行性。 图1 4 表1 7 参5 2 关键词:数据挖掘;聚类分析:集气管压力;粗糙集;模糊控制 分类号:t p 3 9 1 : 河北理i :人学硕十学位论文 a b s t r a c t p r e s s u r es y s t e mi nc o k eo v e ng a s c o l l e c t i n gp i p ei sam u l t i - c o u p l i n g , n o n l i n e a r , s t r o n gd i s t u r b e d ,m u l t i - v a r i a b l ea n dt i m e - v a r y i n gs y s t e m i ti sh a r dt oe o n t m li ti nu s u a l m e t h o d s a o n gw i t ht h ed e v e l o p m e n to fc o n t r o lt h e o r ya n dt h em a t u r eo fc o m p u t e r t e c h n o l o g y ,s o m ea d v a n c e dc o n t r o ls t r a t e g i e sa r ea d o p t e dw h i c hc o m b i n e df u z z yc o n t r o l a n de x p e r ts y s t e m b u tf u z z yr u l e sa r eg e n e r a l l yc r e a t e d ,w h i c ha r ei nt h ep r i n c i p i ao f d e s i g n i n g , d e p e n d i n go no p e r a t o r s k n o w l e d g ea n dm a n i p u l a t o r s e x p e r i e n c e s , b a s e do n e x p e r i e n c ec o n c l u s i o n sa n de x p e nk n o w l e d g e i nt h em u l t i t u d i n o u sf a c t o r s , w h i c ha f f e c tt h ec o k eo v e ng a s c o l l e c t i n gp i p ep r e s s u r e , t h ec h a n g eo fs o m ef a c t o r sv a l u e sh a sas m a l li n f l u e n c eo nt h eu n d u l a t i o no ft h ep r e s s u r e o ft h eg a s - c o l l e c t i n gp i p e ,b u tt h ec h a n g eo fo t h e r sh a sag r e a tm f l u e n c e t h e r e f o r e ,w i t h t h ec o r ei d e n t i t yo ft h er o u g hs e t - - a t t r i b u t er e d u c e ,i tc a no b t m nt h em o r ei n f l u e n c i n g f a c t o r st op r o d u c et h em e c h a n i s mm o d e lo ft h ep r e s s u r es y s t e ma b o u tt h eg a s - c o l l e c t i n g p j p ci nt h ep a p e ra lf i r s t a f t e rg c n j n gt h em e c h a n i s mm o d e l ,t h i sp a p e rp r o p o s e dan e w w a yt oa c q u i r ef u z z yr u l e sw i t hc l u s t e r i n g a n a l y s i si n d a t am i n i n g c l u s t e r i n g 伽 c a t e g o r i z et od a t ab y c o m p a r i n gv a r i a b l e ,s ot h ed a t ah a v i n gt h es i m i l a rc h a r a c t e r sa r e c a t e g o r i z e dt o g e t h e r s ot h a tl o t so fr e a lt i m ed a t ai sc o n v e f t e dt oc l a s ss e tb yc l u s t e r i n g , t h r o u g ht r e a t i n gt h eo r i g i n a ld a t aw h i c ha r ec o l l e c t e df r o mt a n g g a n gc o k i n ga n d g a s s i n gf a c t o r y , w e 啪g a i nt h es t a t e so fa c t u a t i n ge q u i p m e n ti nd i f f e r e n tp r o d u c t i o n c o n d i t i o n s ,c a l l e df u z z yc o n t r o lr u l e s s i m u t e di nm a t l a b 6 5a n dc o m p a r e dc o n t r o le f f e c t w i t ht h ec o n s t r u c t i n gf u z z yc o n t r o lr o l e sm e t h o dg i v e ni n t h i sp a p e rw i t hc o n t r o le f f e c t w i t hf u z z yc o n t r o lr u l e sc o n s t r u c t e df r o me x p e r i e n c ec o n c l u s i o n s i ti sp r o v e dt h em e t h o d g i v e ni nt h i sp a p e ri ss u p e r i o ri nr i s i n gt i m e ,s u p e r - r e g u l a t i n gv a l u ea n ds t e a d y - s t a t ee r r o r , t h o u g hi ti sc o m p a r a b l ei np e a l 【v a l u et i m e a n di ts h o w e dt h a tt h em e t h o dg i v e ni nt h i s p a p e rh a s i t s e l tr a t i o n a l i t ya n d f e a s i b i l i t y f i g u r e1 4 ;t a b l e1 7 ;r e f e r e n c e5 2 k e y w o r d s :d a t am i n g , c l u s t e r i n g , t h ep r e s s u r eo fg a s c o l l e c t i n gp i p e ,r o u g hs e t , f u z z yc o n t r o l c h i n e s eb o o k sc a t a l o g :t p 3 9 1 n , 独创性说明 本人郑重声明:所呈交的论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得 河北理工大学或其他教育机构的学位或证书所使用过的材料。与我一同 工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表 示了谢意。 签名:冠捭日期:举单月斗日 关于论文使用授权的说明 本人完全了解河北理工大学有关保留、使用学位论文的规定, 即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学 校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复 制手段保存论文。 ( 保密的论文在解密后应遵循此规定) 日期:耳_ 年卑月1 日 引言 引言 集气管属于炼焦过程中干馏煤气的导出设备。集气管压力是焦炉生产中重要的 工艺参数,在焦化生产过程中,它因受多种因素:出焦、装煤,换向、煤气发生 量、工艺设备及管道阻力等的影响而常常发生波动。对焦炉集气管压力进行控制使 其稳定在生产工艺所需范围内是保证安全生产、提高产品质量、减少环境污染、延 长炉龄的重要技术措施。 近年来,随着神经网络与模糊控制理论的发展、计算机技术的成熟,人们在模 糊神经网络控制,模糊控制与专家控制相结合的先进策略技术上进行了大量研究, 有的已经应用到实际中。但现在模糊控制规则的建立一般采用的都是在经验归纳法 的基础上,根据控制规则的设计原则,依靠专家知识和操作人员的经验积累所得到 的。这种方法现在大量的运用在实际的生产中,取得了较好的控制效果。 随着数据挖掘( d m ) 技术的发展和完善,为模糊控制规则的获得提供了一条崭新 的途径。可以运用数据挖掘中的聚类分析算法来获取控制焦炉集气管压力的模糊规 则。聚类算法是通过对变量的比较、把具有相似特征的数据归为一类。因此,通过 聚类以后,数掘集就转化为类集。在类集中同一类数掘具有相似的变量值,不同类 之间的变量值不具有相似性。这些类不是事先定义好的,而是通过聚类算法采用全 自动方式获得。 运用数据挖掘技术中的聚类分析方法,通过对运行时控制集气管系统压力的数 据进行聚类,同一类中的数据中必定有潜在规律,则此可生成可以控制集气管压力 的模糊控制规则,从而丰富模糊控制规则表 属性约简是粗糙集( r o u g hs e t ) 理论用于数据分析的核心问题之一。所谓属性约 简就是对数据中不同因素的重要程度进行分析,在保持属性分类能力不变的条件 下,剔除数据中的冗余成分,只保持关键的信息。本文首先通过对影响集气管压力 的各种因素进行分析,利用粗糙集中属性约简这一核心性质,得到对集气管压力有 较大影响的因素,从而生成集气管压力系统的机理模型。为将来利用数据挖掘技术 生成控制集气管压力的模糊控制规则打下坚实的基础。 1 河北理i :人学硕十学位论文 l 绪论 焦炭的生产过程成为炼焦。炼焦工艺控制就是为了保证焦炭的产品质量,增加 荒煤气的回收率,减少环境污染,提高经济效益。荒煤气是炭化室中的煤料在高温 干馏下产生的煤气,因尚未经净化处理,因此在习惯上称为荒煤气或粗煤气。荒煤 气回收就要依靠荒煤气导出设备,它包括:上升管、桥管、水封阀、集气管、吸气 弯管、吸气管、氨水喷洒系统等l 。集气管只是荒煤气导出系统的一部分。如图1 所示。集气管是用钢板焊接而成的圆管或槽形结构,沿整个焦炉纵向置于炉柱托架 上,用以汇集个炭化室的荒煤气、冷凝焦油和氨水。 图l 荒煤气导出系统1 1 1 f i g 1s y s t e mo f e x p o r t i n gf o u g hg a s 集气管压力是焦炉生产中重要的工艺参数,在焦化生产过程中,它因受多种因 素:出焦、装煤、换向、煤气发生量、工艺设备及管道阻力等的影响而常常发生波 动。对焦炉集气管压力进行控制使其稳定在生产工艺所需范围内是保证安全生产、 提高产品质量、减少环境污染、延长炉龄的重要技术措施 2 - 3 。集气管煤气系统简图 如图2 所示。 1 1 影响焦炉集气管压力的因素 焦炉集气管压力受多种因素影响,其中主要的是1 4 - s : 1 出焦计划在小范围内产气量存在明显波动; 2 装煤扣盖对集气管压力产生较大的冲击干扰i 2 1 绪论 3 度不同; 4 5 特性; 最 如 b p a 、只2 一号是焦炉机侧、焦侧集气管压力 j q l 、j 写2 一i 号是焦炉机侧、焦侧集气管碟阀开度 j r ( 4 鼓风机回流碟阀开度 只鼓风机机前吸力 i = 1 ,2 ,3 图2 集气管煤气系统简图 f i g 2s i m p l yf i g u r eo f a i r - c o l l e c t i n gp i p es y s t e m 由于各焦炉工艺输气管线阻力不同,集气管压力受鼓风机吸力变化影响程 多座焦炉工艺输气管的汇总方式不同,产生的相互耦合相应也不同; 荒煤气冷却系统是否畅通、阻力大小也影响压力的稳定及气量传输的动态 6 鼓风机入口捧液系统、鼓风机后管线是否畅通直接影响压力系统的稳定; 7 荒煤气的温度高低直接影响输气系统正常运行,过高时风机负荷加重且易 发生危险,过低时则会导致冷却系统结萘; & 由于生产需要,设定的配煤比发生变化; 9 装煤量发生变化: 1 0 由于焦炭产量的改变使出炉数发生变化; 1 1 出焦事件发生变化; 1 2 门、炉盖密封不严引起集气管压力降低; 1 3 氨水量的变化形成瀑布,从而增加荒煤气的流动阻力。 3 河北理i :人学硕十学位论文 以上众多外部因素中,有的为常值干扰如配煤比的变化等,有的为脉冲型干扰 如推焦换向操作等,不同的干扰强度也各不相同。 鼓风机吸入焦炉产的荒煤气,鼓风机入口荒煤气流量多少将影响鼓j 斌机机前吸 力,而鼓风机机i ;i 吸力的变化将影响单集气管压力波动,鼓风机机前吸力的调节是 通过调节集气管总管蝶阀歼度束改变其大小。则可通过控制鼓风机机前吸力以及碟 阀的开度的变化来平衡集气管压力。 由于集气管与集气管并联,组内和组问存在负耦合关系,当并联的两集气管压 力不同时,煤气的流向会发生不同程度的改变,使高、低压两集气管之间存在着自 平衡的趋势。趋于平衡的快慢因组内与组间并联管线长度和耦合的强弱而不同组 内耦合关系强,自平衡较快,组问耦合对系统影响较大而自平衡较慢。 焦炉与鼓风机串联,存在着正耦合关系,总管压力的变化必然导致各单集气管 压力的相应变化。机前吸力增大使煤气流量增大,在其它条件不变的情况下集气管 压力升高。 有以上的分析可知,集气管压力的波动系统是一个耦合严重、具有严重非线 性、扰动频繁剧烈的多变量时变系统,当一个集气管内的压力波动时,就会使另一 个集气管的压力随之波动。若波动量较大时,就会使整个集气管压力控制系统造成 拉锯式的振荡现象,很难用常规方法加以控制1 6 1 。 1 2 集气管压力控制的发展 在早前集气管压力的控制多采用液压比例控制器,如前苏联“国立焦化工业设 计院焦化机械设计院”设计的集气管压力控制系统;在国内焦炉控制系统多采用电 动单元仪表系统,如马钢焦化厂j n 6 0 8 2 型焦炉采用的定制调节系统。这些都是比 较老的技术,现在基本上已经淘汰。近年来,很多焦化厂采用了p l c 、单片机或工 控机系统,对焦炉集气管压力及鼓风机吸力进行自动控制,如铁岭焦化厂用s t d - 5 8 0 1 工控机构成的c r b 集气管压力控制系统。虽技术上比较成熟,设计调试简单 易行,但由于影响焦炉压力的因素多而强烈,而且随焦炉工况的变化,控制对象的 模型也发生变化,p i d 控制很难兼顾减小超调量和提高快速性的要求,系统的调节 品质会因参数变化而变坏,使压力常有超出正常范围的现象1 4 1 。鉴于此,近年来, 随着神经网络与模糊控制理论的发展、计算机技术的成熟,人们在模糊神经网络控 制,模糊控制与专家控制相结合的先进策略技术上进行了大量研究,且有的已经应 用到实际中,如鸡西矿局煤气厂采用的智能系统用;西林钢铁公司的焦炉集气管压 4 1 绪论 力智能控制系统 s 1 并且有人采用把p l c 控制和专家系统相结合的方法对集气管压 力进行控制:对单集气管压力进行i i d 控制,对机前吸力的控制则采用专家控制l 钆 1 1 1 。 1 3 研究的主要内容 正如在集气管压力控制的发展中所述。近年来,随着神经网络与模糊控制理论 的发展、计算机技术的成熟,人们在模糊神经网络控制,模糊控制与专家控制相结 合的先进策略技术上进行了大量研究,有的已经应用到实际中。但现在模糊控制规 则的建立一般采用的都是在经验归纳法的基础上,根据控制规则的设计原则,依靠 专家知识和操作人员的经验积累所得到的。这种方法现在大量的运用在实际的生产 中,取得了较好的控制效果。 但是随着数据挖掘技术的发展和完善,本文为模糊控制规则的获得提供了一个 崭新的途径,即基于数据挖掘中的聚类分析算法来生成模糊控制规则。聚类算法是 通过对变量的比较,把数据对象分组成为多个类,在同一类中的对象之间具有较高 的相似性,而不同类之间的对象差别较大。因此,通过聚类以后,数据集就转化为 类集,能够识别密集的和稀疏的区域,从而发现全局的分却模式,以及数掘属性的 关系。 本课题的所有数据都来自唐钢炼焦制气厂首先对在唐钢所采集到的原始数据 按照一定的方法进行数据预处理,使数据符合研究的需要。在预处理的基础上,利 用粗糙集理论中的属性约简这一核心性质生成焦炉集气管压力系统的机理模型,为 后边利用数据挖掘技术生成控制集气管压力的模糊控制规则打下坚实的基础。 在数据预处理和生成机理模型的基础上,通过数据挖掘中的聚类分析方法对数 据进行聚类,生成七个模式类( r a h e m s ) ( 其中七的值可根据实际需要人为设定) 。则每 个模式类中的数据中必定有潜在规律,再在同一类数据中找出数据的潜在规律,则 可挖掘出可以控制集气管压力的模糊控制规则,用来丰富模糊控制规则表。 5 河北理1 人学硕十学位论文 2 数据预处理 2 1 数据挖掘中数据预处理的必要性 数据挖掘过程可粗略地理解为四部分:问题定义、数据采集及数据预处理、数 据挖掘、以及结果的解释评估。可见数据预处理是其中的重要一环,是必不可少 的。数据预处理以领域知识作为指导,来组织原来的业务数据,放弃一些与挖掘 目标不相关的属性,提供高质量的数据,从而减少了数掘挖掘的数据处理量,提 高了挖掘算法的效率,提升了数据挖掘的起点和知识的准确度i 协1 3 1 。 数据挖掘中的一些成熟的算法对其处理的数据集合都有一定的要求,比如数 据完整性好、数据的冗余性少、属性之间的相关性小。然而实际系统中的数据一 般都具有不完全性、冗余性和模糊性,严重影响了数据挖掘算法的执行效率。另 外,海量的实际数据中无意义的成分很多,严重影响了数据挖掘算法的执行效 率,而且其中的噪声干扰还会造成挖掘结果的偏差。因此,如何对原始数据进行 有效的预处理,己经成为数据挖掘系统实现过程中的关键问题 2 2 实际数据存在的问题 要使数据挖掘算法有效地挖掘出知识,就必须为它提供干净、准确、简洁的 数据。然而,从实际应用系统中收集到的原始数据通常存在以下几方面的问题: 杂乱性。原始数据是从各个实际应用系统中获取的,由于各个实际应用系统 的数据缺乏统一标准和定义,数据结构也有较大的差异,因此各系统问的数据存 在较大的不一致性,往往不能直接拿来使用。 重复性。是指对于同一个客观事物在数据库中存在两个或两个以上完全相同 的描述由于应用系统实际使用中存在的一些问题,几乎所有应用系统中都存在 数据的重复和信息的冗余现象。 不完整性。由于实际系统设计时存在的缺陷,以及一些使用过程中人为因素 所造成的影响,可能出现有些数据属性值的丢失或不确定的情况,还可能缺少必 需的数据而造成数据不完整。实际使用的系统中,存在大量的模糊信息,有些数 据甚至还具有一定的随机性质。 6 2 数据预处理 2 3 数据预处理的基本功能 数据挖掘中的数据预处理主要是接受并理解用户的挖掘要求,确定挖掘任务, 抽取与挖掘任务相关的数据源,根掘领域知识中的约束规则对数据进行合法性检 查,通过清理和归约等操作,生成挖掘算法所需要的目标数据,即原始数据经过处 理后得到的二维表,横向为观察( 记录、元组) ,纵向为变量( 属性、字段) 。它汇集了 原始数据中与数据挖掘任务相关的所有数据的总体特征,是最原始的知识模板。数 据预处理应该包括以下几个方面的功斛1 5 l : 1 数据集成( d a t ai n t e g r a t i o n ) 数据集成主要是将多文件或多数据库运行坏境中的异构数据进行合并处理,解 决语义的模糊性。该部分主要涉及数据的选择、数据的冲突问题、不一致数据的处 理以及冗余等问题。 2 数据清洗( d a t ac l e a n i n g ) 数据清洗是要去除源数据集中的噪声数据和无关数据,处理遗漏数据和清洗脏 数据,去除空白数据域和知识背景上的白噪声,考虑时间顺序和数据变化等。主要 包括噪声数据处理和缺值数据处理,并完成一些数据类型的转换。 数据清洗可以分为有监督和无监督两类。有监督过程是在领域专家的指导下, 分析收集的数据,去除明显错误的噪声数据和重复记录,填补缺值数据;无监督过 程是用样本数据训练算法,使其获得一定的经验,并在以后的处理过程中自动采用 这些经验,完成数据清洗工作。 3 数据变换( d a t at r a n s f o r m a t i o n ) 数据变换主要是找到数据的特征表示,用维变换或转换方法减少有效变量的数 目或找到数据的不变式,包括规格化、归约、切换、旋转和投影等操作。规格化指 将元组集按规格化条件进行合并,也就是属性值量纲的归一化处理。规格化条件定 义了属性的多个取值到给定虚拟值的对应关系。 4 数据简化( d a t ar e d u c t i o n ) 有些数据属性对数据挖掘任务是没有影响的,这些属性的加入会大大影响挖掘 效率,甚至还可能导致挖掘结果的偏差。因此,有效地缩减数据是很必要的。数据 简化是在对挖掘任务和数据本身内容理解的基础上,寻找依赖于发现目标的数据的 有用特征,以缩减数据规模,从而在尽可能保持数掘原貌的| ;i 提下,最大限度地精 简数据量。它主要有两个途径:属性选择和数据采样,分别针对原始数据集中的属性 7 。 河j 匕理i :人学硕士学伊论文 和记录。 2 4 预处理的主要方法 预处理方法就是从大量的数据属性中提取出一部分对目标输出有重要影响的属 性。即降低原始数据的维数,从而达到改善实例数据质量和提高数据挖掘速度的目 的。预处理方法可以分为以下几类1 3 0 1 : 1 基于粗糙集理论的约简方法 粗糙集理论是一种研究不精确、不确定性知识的数学工具利用租糙集理论对 数据进行处理是一种十分有效的精简数据维数的方法。它的最大特点就是无需提供 问题所需处理的数据集合之外的任何先验信息。我们在本文中就是利用粗糙集理论 的属性约简方法来生成焦炉集气管压力系统的机理模型。 2 基于概念树的数据浓缩方法 基于概念树的数掘预处理方法是一种归纳方法,其实是数据库中元组合并的处 理过程。对数据库中的许多属性,各属性值和概念依据抽象程度不同可以构成一个 层次结构。概念树一般由领域专家提供,它将各个层次的概念按一般到特殊的顺序 排列。 3 信息论思想和普化知识发现 特征知识和分类知识是普化知识的两种主要形式,其算法基本上可以分为两 类:数据立方方法和面向属性归纳方法。 4 基于统计分析的属性选取方法 可以采用统计分析中的一些算法来进行特征属性的选取,这样可以利用少量的 特征元组去描述高维的原始知识。 5 遗传算法 遗传算法是一种基于生物进化论和分子遗传学的全局随机搜索算法。利用遗传 算法进行聚类预处理的最大特点是模式类结构不依赖于初始模式类中心,一般都可 收到较好的效果。 2 5 对所采集到的数据进行预处理 本文中所用到的数据都采集于唐钢炼焦制气厂。因数据来自多个实际系统,因 而存在着异构数据的转换问题,且在海量的数据中隐藏着噪声数据和明显偏离正常 值的无关数据。在课题中,要求的是每个因素值的变化值对集气管压力波动情况的 8 2 数据预处理 影响,并且也由于各变量表示样本的各种性质,往往使用不同的度量单位,其观测 值也可能相差十分悬殊。这样,绝对值大的变量其影响可能湮没绝对值小的变量, 使后者应用的作用得不到反映。为了确保变量在分析中的地位相同,需对数据进行 数据预处理。 唐钢炼焦制气厂现有三座焦炉,其中l 号,2 号焦炉是双集气管,3 号是单集气 管。由于采集条件的局限性,我们所得到的数据没有能够包括在绪论中所分析 的全部因素。在此次采集的数掘中包括:1 号、2 号焦炉集气管的压力值及与之相对 应的蝶阀开度值,鼓风机的吸力值,鼓风机蝶阀开度值,及其它如:集气管温度、 机侧分烟道温度、焦侧分烟道吸力等,共1 8 个属性值。因此集气管系统可简化为如 图3 所示。 2 田3 :唐钢炼焦制气厂集气管系统简化图 f 皓3p r e d i g e s t e df i g t u eo f t a n g g a n ga i r - c o l l e c t i n gp i p es y s t e m 现以l 号焦炉的集气管压力值为例,介绍数据预处理的全过程。 从唐钢炼焦制气厂采集到的原始数据格式如表l 所示。 在海量的数据中,有的压力值明显偏离正常值,如: 6 6 6 6 6 0 00 2 f e b - 0 60 8 :0 4 :5 4 6 2 5 0 0 则我们完全可以把它剔除出去,进行数据清洗。当然,在大量数据中我们不可 能通过目测得到这些异常值,可通过下列简单的算法获得( 在不加特别说明的情况 下,本文中的所有算法都在m a t l a b 6 5 环境下实现) : a - - 【1 ; 原始数据数组,其中a 为包括压力值和时间值的一2 的数组; j = l ; 9 一 河七理l :人学硕十学位论文 f o ri = l :n i f ( “i ) ( 5 0 ) ) b ( j ,1 ) = a ( i ,1 ) ; b a ,2 ) = a ( i ,2 ) ; j - - - j + 1 : e n d e n d 其中n 为原始数掘的个数; 进行判断,其中5 0 0 和5 0 根据经验获得; 把符合条件的数据聚赋值给6 数组; 表1 原始数据表 t a b l e1 o r i g i n a ld a t a 压力值( p a ) 时间 1 5 0 5 2 1 4 8 9 6 1 6 2 0 7 1 5 8 7 7 1 5 5 9 0 1 5 9 4 6 6 1 6 6 6 6 1 7 6 1 3 1 7 9 铂 1 7 6 3 0 1 7 0 9 2 1 6 7 髓 0 2 f e b - 0 60 7 :2 6 :1 7 9 5 4 0 1 0 2 f e b - 0 60 7 :2 6 :1 8 9 6 5 0 1 0 2 f e b - 0 60 7 :2 6 :19 9 5 7 0 2 f e b - 0 60 7 :2 6 :2 3 9 5 3 0 1 0 2 f e b - 0 60 7 :2 6 :2 4 9 5 4 0 1 0 2 r i b - 0 60 7 :2 6 :2 5 9 5 5 0 0 0 2 - f 曲- 0 60 8 :0 4 :5 4 6 2 5 0 0 0 2 - f e b - 0 62 3 5 9 :5 4 2 2 6 0 1 0 2 - f e b - 0 62 3 :5 9 :5 5 2 2 舳1 0 2 - f b b - 0 62 3 5 9 :5 6 2 4 9 0 0 0 2 - f e b - 0 62 3 :5 9 :5 7 2 4 1 0 l 0 2 - f c b - 0 62 3 :5 9 :5 9 2 2 柏1 通过数据清洗以后,首先除去了噪声数据和无关数据。因为集气管压力数值是 一个缓慢变换的值,更重要是因为数据量太过于庞大,通过预处理减少数据的个 数,因此把所有属于同一分钟的数据进行合并。合并的方法是把属于某一分钟的所 有值取平均值。 要进行此项处理首先要对时间数据进行数据变换。在原始数据中时间数据形如 0 2 f e b - 0 60 8 :0 4 :5 4 6 2 5 0 0 的,无法对其进行操作。可对其进行适当的转换,但又不 失其时间的代表性。可用函数h o u r 和m i n u t e 分别提取出它的小时值和分钟 值。如: a = h o u r ( 0 2 - f e b - 0 60 8 :0 4 :5 4 6 2 5 0 0 ) ; b = m i n u t e ( 0 2 一f e b - 0 60 8 :0 4 :5 4 6 2 5 0 0 ) : 则a 、b 分别等于8 和4 - 1 0 - 2 数据预处理 那么就可以把这个时日j 值用a x 6 0 + b = 4 8 4 代替。这就可以把烦杂的时问数掘用 整数代替,又不失其对时间的代表性。如表2 所示。 表2 对时间进行转换后的数据表 t a b l e2d a t ao ft r a n s l a t e dt ot i m e 压力值( p a ) 1 5 4 5 l 1 4 8 4 4 1 5 4 1 7 1 5 7 2 9 1 6 3 7 2 1 5 9 6 4 1 4 2 7 l 1 5 3 9 9 1 9 ( 坫4 1 8 5 2 4 1 5 0 5 2 下: 现在,可以转换为把所有时间数据相同的进行合并。进行数据合并的算法如 a = 【】; m = o : j = 1 ; f o ri = l :n 均值 要进行合并的2 x n 数组; 初始化; i f 娟) 的时阃值和a ( i - 1 ) 中的时间值相同 m = m + a ( i ) 中的压力值; e l s e b ( i ) - m ; m = = o : j = j + l ; 把相同时间的压力值相加; 压力和清空,进行下一轮求和; e n d e n d f o ri = l :j c ( i ) - b ( i ) 对应的每个相同时间值的个数:求出每个分钟时剃点的压力平 1 1 :星|蛳啪蛳蛳蛳訾:仡仡仡仡仡 河北理f :人学硕十学位论文 e n d 所得到的c 数组即为合并后的数据。合并后的数据形式如表3 所示。 表3 时间合并后的数据表 t a b l e3d a t ao f u n i t e dt i m e 压力值( p a ) 1 6 3 8 7 2 2 2 2 1 2 2 2 2 1 2 0 6 - 6 1 7 7 3 3 2 2 0 2 2 1 7 9 2 9 1 船2 6 2 0 9 4 2 1 8 5 8 1 l 8 7 经过数据合并后的数据,某个时日j 点的数据可能是“丢失”的,如:表3 中所 示7 1 9 时间点的数据就是“丢失”的。也就是原始数掘中遗漏了这个时间点的数 据,那么要对这些“丢失”的数据进行补齐操作。 补齐数据的思想如下:如果某个时间点的数据丢失,那么取它的上一个时间点 的数据和下一个时日j 点的数据相加取平均值。 因为现在的时f h j 数据是一个依次加1 的等差序列,则算法如下: a - - ; 要进行合并的2 x n 数组; j = 1o f o ri = l :n i f a ( i + 1 ) 的时间值和a ( i ) 的时间值加1 不相等 b ( i ) = ( 岬+ 1 ) + a ( i 胆; 把平均值赋给b 数组 j - - - j + 1 , e l s e b ( j ) = a ( i ) ; 把原值赋给b 数组 j = j + 1 ; e n d e n d 1 2 司一6 7 8 8 9 o 1 8 o l 2郴一甜钟删删钳的牾;订彻记佗 2 数据预处理 经过补齐数据操作以后,数据格式如表4 所示。 表4 补齐后的数据表 t a b l e4f i l l e dd a t a 压力值( p a ) 时间 2 2 2 2 1 4 4 7 2 0 6 6 0 4 4 8 1 7 7 3 3 4 4 9 2 2 0 2 2 4 5 0 1 7 9 2 9 4 5 1 i i 1 8 8 2 6 7 1 8 1 9 8 8 4 7 1 9 2 0 9 4 27 2 0 1 8 5 8 17 2 1 至此,已经完成了对1 号焦炉集气管压力数据的处理。可照此方法对所有采集 到的原始数据进行处理。 在所有采集到的数据中,集气管压力值以向量形式表示为: p = ( 只、b ) 各个集气管挡板开度以向量形式表示为: 置= ( k 、k 2 ) 则其它1 4 个因素以向量形式表示为: t = ( 2 1 、2 2 、b 、瓦、2 s 、2 6 、乃、2 s 、r 9 、r i o 、瓦l ,正2 、b 、k 3 ) 那么一个样本就看作是由集气管压力值和各个影响因素的数据值组成的: z = ( p 、k 、五、r 2 、马、2 4 、码、死、乃、巧、马、瓦l 、毛2 、只、 k 3 ) ; 本文的目的是为了控制各个集气管的压力,则在下一节将要介绍的基于粗糙集 生成焦炉集气管压力机理模型过程中,集气管压力向量p = ( 只、b ) 为所有属性中 的决策属性,其它影响因素可视为条件属性。 把这些量作为样本的属性,并一一对应,则可把第i 个样本写为: x i 两、而2 、嘞) ,( 其中p = 1 8 ) ( 1 ) 而把所测得的数据作为个样本的集合: x = ( x i ,z 2 ,。3 x h , ) ( 2 ) 1 3 - 河北理i :人学硕+ 学付论文 把第f 个样本的第j 个属性的测量值记为,则个样本所有p 个属性的观测 值可排成如下矩阵: x 1 1x 1 2 x 2 1x 2 2 工 1x n 2 j 功 x 2 p : z 相对于所采集到的所有数据,都以时阃为对应条件,把相同时阃的所有属性值 归为一个形如公式( 3 ) 的样本。对所采集到的所有数据,组织成公式( 3 ) 的形式,则 可得到一个9 9 4 1 8 的矩阵,如表5 所示: 表5 进行标准化前的数据 t a b l e5d a t ao f b e i n gu n s t a n d a r d i z e d 从上面的矩阵中我们可以看出,各变量表示样品的各种性质,因此使用不同的 度量单位,其观测值也可能相差十分悬殊这样绝对值大的变量,其影响可能会湮 没绝对值项的变量,使后者应有的作用得不到反映。为了确保各个变量在分析中的 地位相同,就要对数据进行中心化和标准化变换。 所谓中心化是要使各种变量的观测值都有相同的基点,通常是在观测值上减去 相应变量的平均值。 记第,个变量的平均值为: 石- 二1 匀 x 口 ,2 1 ,2 ,1 8 一( 4 ) 下式表示对第j 个变量n 个数据实施中心化变化: 峋一唧一。jf 。l ,2 ,9 9 4 ;,= 1 ,2 ,1 8 ( 5 ) 经由此变换后各个变量的均值将为0 。即各个变量的取值都有相同的基点。 1 4 2 数据预处理 在中心化的基础上再对所有数据进行标准化。所谓标准化就是在中心化的基础 上再作变换,使各变量的变化范围相等。现用标准差标准化对其进行标准化: 记第j 个变量的标准差为: s j - i = 1 ,2 ,9 9 4 ;,= l ,2 ,1 8 ( 6 ) 则对第,个变量n 个数据实施标准差标准化为: 畸。警卢l ,2 ,棚_ l ,2 ,1 8 一 经过变换后各变量的均值为0 ,标准差为1 。 经过标准化以后,则对于表5 ,可转换为如表6 所示的形式: 表6 进行标准化后的数据 t a b l e6s t a n d a r d i z e dd a t a 由表6 可以看出,经过标准化变换后,每一个变量值都表示的是它所对应的原 始值相对于本属性变化值,且不但基点相同,变化范围也相等。 1 5 - 河北理t 人学硕+ 学位论文 3 基于粗糙集理论生成集气管的机理模型 生成焦炉集气管压力系统机理模型的目的就是通过对影响集气管压力的各种因 素进行分析,得到所有对集气管压力有较大影响的因素,从而生成集气管压力系统 的机理模型。在以前的焦炉集气管系统机理模型的生成过程中,都是通过对影响焦 炉集气管压力的因素的分析以及对各集气管的耦合关系的分析,根据物料平衡关系 所建立的气压系统的动态平衡非线性方程式,从而得到一个能够基本反映焦炉集气 管压力系统主要特性、含参数的、比较简单的线性化模型。而本文中则利用粗糙集 的属性约简性质,得到焦炉集气管压力简化后的机理模型”q 。 3 1 粗糙集理论基本原理 粗糙集理论( r o u g hs e tt h e o r y ) 是波兰华沙理工大学数学家z p a w l a k 教授于 1 9 8 2 年提出的一种研究不完整、不确定知识和数据的表达、学习、归纳的理论方 法。此后,粗糙集理论引起了许多数学家、逻辑学家和计算机研究人员的兴趣,并 在粗糙集的理论和应用方面做了大量的研究工作【1 他7 】。 粗糙集理论是处理模糊信息系统或不确定性问题的一种新型数学工具,它反映 了人们用粗糙集方法处理不确定问题的常规性,即以不完全信息或知识去处理一些 不确定现象的能力,或依据观察、测量到的某些不精确的结果而进行分类数据的能 力其中属性约简是粗糙集理论用于数据分析的核心问题之一所谓属性约简就是 对数据中不同因素的重要程度进行分析,在保持属性分类能力不变的条件下,剔除 数据中的冗余成分,只保持关键的信息,从而有效地发现数据中起主要或决定性作 用的因素,实现对数据的简化和提炼。 粗糙集的研究对象是由一个多值属性集合描述的一个对象集合,对于对象及其 属性都用一个值作为其描述符号。粗糙集方法可以解决重要的分类问题,所有冗余 对象和属性的约简包含属性的最小子集,能够很好地近似分类,得到质量可以接受 的分类。 3 i 1 知识、知识库 在粗糙集理论中,知识被视为一种对对象进行划分的能力。可表述如下:设 u ( u o ) 是感兴趣的对象( 对象是指可以想到的任何东西,如实际的物体、状态、 抽象概念、过程、时刻等等) 组成的有限集合,称为论域任何子集x e u 称为u 中 - 1 6 3 基丁粗糙集理论生成集气管的机理枚型 的一个概念或范畴。为规范起见,也可认为空集也是一个概念。则u 中任何一族概念 ,= x 。,x :,x 称为关于u 的抽象知识,简称知识。 一个划分定义为:c = x ,x 2 ,x ,使得x ieu ,x i - 乃,x in x j 1a , 对于i - j ti ,j 1 1 ,2 ,n ,且u 置i u x ;称为划分c 的一个等价类。u c 表示c 的所有等价类( 或者u 上的分类) 。u 上的一族划分,称为关于u 上的一个知识库。一个知识库也就是一个关系系统 k 一( u ,c ) 。u 上的一个划分与其上的一个等价关系是等价的。每一个等价关系描 述的是论域u 上的某一个属性,即属性可看作是一个等价关系。 3 1 2 信息系统及决策表 在粗糙集理论中,知识是用信息系统( 也称决策表,即属性一值关系对表) 来表 示的。信息系统被定义为:s = ( u ,a ,v ,) ,其中【,是对象的非空有限集合, u = ,石 ,) ;a 是属性的非空有限集合,彳= 口1 ,4 ,4 。j ;v = u 圪是属性 口h 的值域集,圪是属性口e a 的值域;,是信息函数,:u 爿一v ,f ( 置,a ) v o 如果爿- c u d ,c q d a ,穰示条件属性集,d 表示决策属性集,则该类信息 系统又称为决策系统,决策系统是一类最为常见的信息系统。 ,:u x a v ,是一个信息函数,它为每个对象的每个属性赋予一个信息 值,即 c a e a ,x e u , ,4 ) 屹在知识表达系统中,信息函数,是非常重要 的如果不存在,对象集u 与属性集a 之间是孤立的。信息函数,表达了对象集( , 与属性集a 之问的联系,这正是知识发现所需要的信息基础比如,似4 ) v 表示了 对象z 的属性a 具有属性值v ,有是我们也用口0 ) 表示对象善在属性a 上的属性值。 知识表达系统也称为信息系统通常也用s =
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 石棉在环境保护领域中的应用考核试卷
- 船舶水上求生与逃生技术考核试卷
- 《睡眠障碍的影响与对策》课件
- 2025年防眩光太阳镜项目建议书
- 学生资助诚信教育体系构建
- 节能建筑生态景观施工技术考核试卷
- 《STEAMI-诊疗指南》课件
- 纤维增强合成材料的制造与应用考核试卷
- 《亚太财务报告》课件
- 室内设计材料汇报
- 房屋外立面改造施工组织设计方案
- 商品房交房验收项目表格
- TSG特种设备安全技术规范 TSG G7002-2015
- 中小学文言文阅读详解基础篇 56:《齐人攫金》
- 第十五届运动会场馆医疗保障工作方案
- 岗位风险辨识及风险辨识结果、风险控制措施培训记录
- 浅析幼儿攻击性行为产生的原因及对策
- 印染厂染色车间操作手册培训教材
- 《学弈》优质课教学课件
- 教学课件:《国际金融》
- 贵州版二年级综合实践活动下册-教学计划
评论
0/150
提交评论