焦炉集气管压力控制系统研究论文.doc_第1页
焦炉集气管压力控制系统研究论文.doc_第2页
焦炉集气管压力控制系统研究论文.doc_第3页
焦炉集气管压力控制系统研究论文.doc_第4页
焦炉集气管压力控制系统研究论文.doc_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

引言在炼焦生产过程中,焦炉集气管压力是炼焦生产中的重要参数,它的稳定性直接影响着焦炉的使用寿命和焦碳的生产。焦炉集气管压力控制系统是一个具有强干扰、多耦合、时变、非线性的复杂多变量系统,利用传统的建模与自动控制手段往往难以奏效,因此课题中使用不依赖系统精确数学模型的模糊控制。但现在模糊控制中的控制规则一般都是通过专家或操作人员的经验总结形成的,存在一定的主观性和随意性。使用数据挖掘的方法从生产过程的大量的数据中分析出模糊控制规则,这个方法不仅为模糊控制规则的生成提供了一个崭新的思路,而且得到了一定的控制效果。随着数据挖掘(dm)技术的发展和完善,为模糊控制规则的获得提供了一条崭新的途径。可以运用数据挖掘中的聚类分析算法来获取控制焦炉集气管压力的模糊规则。聚类算法是通过对变量的比较、把具有相似特征的数据归为一类。因此,本课题就采用聚类的方法来建立及其关压力模糊控制模型, 通过对运行时控制集气管系统压力的数据进行聚类,同一类中的数据中必定有潜在规律,则此可生成可以控制集气管压力的模糊控制规则,从而丰富模糊控制规则表。通过聚类以后,数据集就转化为类集。在类集中同一类数据具有相似的变量值,不同类之间的变量值不具有相似性。这些类不是事先定义好的,而是通过聚类算法采用全自动方式获得。焦炉集气管压力控制系统是一个具有强干扰、多耦合、时变、非线性的复杂多变量系统,一个集气管压力产生波动时,就会引起另一个集气管压力的波动,当波动较大时,就会造成整个集气管系统拉锯,出现振荡现象。对多输入多输出系统中输入与输出之间相互影响较强的,不能简单地化为多个单输入单输出系统,此时必须考虑到变量间的耦合,以便对系统采取相应的解耦措施后再实施有效的控制。本课题采用模糊控制与数据挖掘相结合,在不需要已知对象模型情况下求出耦合度,再进行集气管压力控制模型的耦合分析和解耦设计。最后通过在matlab环境下仿真,验证本课题所提出的生成模糊解耦控制规则方法的合理性、可行性及其优越性。1 绪论炼焦工艺控制就是为了保证焦炭的产品质量,增加荒煤气的回收率,减少环境污染,提高经济效益。荒煤气是炭化室中的煤料在高温干馏下产生的煤气,因尚未经净化处理,因此在习惯上称为荒煤气或粗煤气。荒煤气回收就要依靠荒煤气导出设备,它包括:上升管、桥管、水封阀、集气管、吸气弯管、吸气管、氨水喷洒系统等1。集气管只是荒煤气导出系统的一部分。如图1所示。集气管是用钢板焊接而成的圆管或槽形结构,沿整个焦炉纵向置于炉柱托架上,用以汇集个炭化室的荒煤气、冷凝焦油和氨水。图1荒煤气导出系统1fig.1 the system of exporting rough gas1.1 数据挖掘概述1.1.1 数据挖掘的基本任务随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。数据挖掘就是为满足这种要求而产生并迅速发展起来的,可用于开发信息资源的一种新的数据处理技术。数据挖掘技术是多学科交叉的新型技术,它主要基于统计学、人工智能、机器学习等技术,高度自动化地分析数据,做出归纳性的推理,从中挖掘出潜在的模式,并对未来情况进行预测,以辅助决策者评估风险、做出正确的决策。数据挖掘的任务就是发现隐藏在数据中的模式/知识4。数据挖掘任务一般可以分为两类:描述和预测。描述性挖掘任务以简洁概要的方式描述数据,并提供数据的有趣的一般性特征;预测性挖掘任务对当前数据进行分析,建立一个或一组模型,并试图预测新数据集的行为。通常情况下,为了适应不同用户的不同需求和应用,数据挖掘系统要能够挖掘多种类型的模式2。1.1.2 数据挖掘的挖掘步骤 数据数据挖掘系统可以大致分为三层结构3第一层是数据源,包括数据库、数据仓库。数据挖掘不一定要建立在数据仓库的基础上,但如果数据挖掘与数据仓库协同工作,则将大大提高数据挖掘的效率。 第二层是数据挖掘器,利用数据挖掘方法分析数据库中的数据,包括关联分析、序列模式分析、分类分析、聚类分析等。第三层是用户界面,将获取的信息以便于用户理解和观察的方式反映给用户,可以使用可视化工具。数据挖掘的过程可粗略的分为如下的几步5, 6:1)问题定义:数据挖掘是为了在大量数据中发现有用的令人感兴趣的信息,因此发现何种知识就成为整个过程中第一个也是最重要的一个阶段。2)数据准备:又可分为三个子步骤:数据选取、数据预处理和数据变换。3)数据挖掘:基本步骤,使用智能方法提取数据模式。4)结果解释和评估:根据某种兴趣度度量,识别表示知识的真正有趣的模式,并使用可视化和知识表示技术,向用户提供挖掘的知识。1.1.3 数据挖掘的应用和发展数据挖掘强调的是大数据量和算法的可伸缩性,它是一门很接近实用的学科,一出现就被许多部门所应用。目前,数据挖掘的研究领域已遍及的行业包括金融业、电信业、网络相关行业、零售商、制造业、医疗保健、制药业及科学领域等。例如:数据挖掘在天文学上有一个非常著名的应用系统:skicat(sky image cataloging and analysis tool),它是加州理工学院喷气推进实验室与天文科学家合作开发的用于帮助天文学家发现遥远的类星体的一个工具;数据挖掘所能解决的典型商业问题包括:数据库营销、客户群体划分、背景分析、交叉销售等市场分析行为,以及客户流失性分析、客户信用记分、欺诈发现等;在internet上的应用包括三种:在搜索引擎上对文档进行自动分类、帮助寻找用户感兴趣的新闻以及利用数据挖掘设计一个电子新闻过滤系统6-11。数据挖掘的应用很广泛,但我国的数据挖掘应用尚处于尝试性的萌芽阶段,企业大规模地运用数据挖掘技术尚不普遍,个别企业或部门仅零星地运用数据挖掘技术。数据挖掘的应用研究应该寻求领域的探索和扩张。在注重理论、技术研究的同时,强调实际应用研究,例如在生产控制领域中,应用数据挖掘的算法,开发出适合工业控制的系统等。1.2 焦炉集气管压力控制系统研究现状及发展1.2.1 集气管压力控制系统的定义焦炉集气管压力控制系统是一个具有强干扰、多耦合、时变、非线性的复杂多变量系统,利用传统的建模与自动控制手段往往难以奏效,因此课题中使用不依赖系统精确数学模型的模糊控制。集气管煤气系统简图如图2所示37。图2 集气管煤气系统简图fig. 2 the simply figure of air-collecting pipe system1.2.2 集气管压力控制系统的研究现状及发展焦炭的生产过程称为炼焦。炼焦工艺控制就是为了保证焦炭的产品质量,增加荒煤气的回收率,减少环境污染,提高经济效益。集气管压力是焦炉生产中重要的工艺参数,在焦化生产过程中,它因受多种因素:出焦、装煤、换向、煤气发生量、工艺设备及管道阻力等的影响而常常发生波动。对焦炉集气管压力进行控制使其稳定在生产工艺所需范围内是保证安全生产、提高产品质量、减少环境污染、延长炉龄的重要技术措施11,12集气管压力是一个重要工艺指标,压力偏高将导致焦炉炭化室压力增高,粗煤气从炉门等处冒出,严重污染环境并降低化产收率;压力偏低将使空气进入炭化室,使粗煤气和焦碳燃烧,焦碳灰份增加,质量下降。影响集气管压力的因素很多,它受到焦炉煤气发生量、压力调节碟阀的开度、鼓风机吸力、管道阻力、机前机后阻力等多方面因素的影响。由于集气管与集气管并联,组内和组间存在负耦合关系,当并联的两集气管压力不同时,煤气的流向会发生不同程度的改变,使高、低压两集气管之间存在着自平衡的趋势。趋于平衡的快慢因组内与组间并联管线长度和耦合的强弱而不同。组内耦合关系强,自平衡较快,组间耦合对系统影响较大而自平衡较慢。焦炉与鼓风机串联,存在着正耦合关系,总管压力的变化必然导致各单集气管压力的相应变化。机前吸力增大使煤气流量增大,在其他条件不变的情况下集气管压力升高。集气管压力系统是一个耦合严重、具有严重非线性、扰动频繁剧烈的多变量时变系统,当一个集气管内的压力波动时,就会使另一个集气管的压力随之波动。若波动量较大时,就会造成整个集气管系统拉踞,出现振荡现象。而鼓风机前吸力的变化、循环氨水流量的变化、用户负荷的变化,又是集气管压力的间接扰动,很难用常规方法加以控制。在早前集气管压力的控制多采用液压比例控制器,如前苏联“国立焦化工业 设计院焦化机械设计院”设计的集气管压力控制系统;在国内焦炉控制系统多采用电动单元仪表系统,如马钢焦化厂jn60-82型焦炉采用的定制调节系统。这些都是比较老的技术,现在基本上已经淘汰。近年来,很多焦化厂采用了plc、单片机或工控机系统,对焦炉集气管压力及鼓风机吸力进行自动控制,如铁岭焦化厂用std-5801工控机构成的crb集气管压力控制系统。虽技术上比较成熟,设计调试简单易行,但由于影响焦炉压力的因素多而强烈,而且随焦炉工况的变化,控制对象的模型也发生变化,pid控制很难兼顾减小超调量和提高快速性的要求,系统的调节品质会因参数变化而变坏,使压力常有超出正常范围的现象13。鉴于此,近年来,随着神经网络与模糊控制理论的发展、计算机技术的成熟,人们在模糊神经网络控制,模糊控制与专家控制相结合的先进策略技术上进行了大量研究,且有的已经应用到实际中,如鸡西矿局煤气厂采用的智能系统13;西林钢铁公司的焦炉集气管压力智能控制系统14。并且有人采用把plc控制和专家系统相结合的方法对集气管压力进行控制:对单集气管压力进行pid控制,对机前吸力的控制则采用专家控制15-16。1.2.3 存在的主要问题和缺陷对于集气管压力控制系统的设计可以采用不同的方法达到控制的目的,相对的每一种方法都有自己的优势也存在各自的不足。pid控制器结构简单,工作稳定,鲁棒性较强,使用方便,但要求获得对象相对精确的数学模型;智能解耦控制通过分管控制补偿和设点动态调整,实现了焦炉组内并联解耦,但要求扰动可测;专家控制则是将人的感性经验和定理算法相结合的一种传统的智能控制方法,能够根据工业对象本身的时变性和不确定性以及现场干扰的随机性,控制器采用不同形式的开环与闭环控制策略,其主要优点是控制方法和知识表达灵活,但灵活性同时带来了设计上的随意性。模糊控制精度高,适用于数学模型未知的控制对象,已广泛应用于工业生产过程控制,但相对的这种方法对于需要快速抑制扰动的对象不能获得较理想的控制效果8,而且在模糊规则的获取一直是个瓶颈问题。1.3 多变量控制系统解耦控制方法1.3.1 多变量控制解耦控制方法工业控制中,被控系统大多数是多变量系统。与单变量系统相比,多变量系统有多个输入和输出,内部结构复杂,会带来一些特殊问题17:(1) 关联性在多数多变量系统中,一个输入信号的变化会使多个输出量发生变化,一个输出也会受多个输入的影响。将输入与输出配对,用一个输入和一个输出构成闭环控制回路时,各回路之间会存在相互影响,使得系统的控制品质急剧下降,严重时将导致系统无法工作。(2) 模型的不确定性单变量模型多半是低阶惯性环节加纯延迟,控制回路简单,涉及的参数较少,其常用的pid控制器也有很好的控制特性,因此不确定性影响不大。多变量则涉及较多参数,难以得到精确的数学模型,各控制回路联系多,使得参数变动对整体控制效果的影响变得复杂。(3) 控制部件的失效和完整性当系统的某些环节(如传感器或执行器)出现故障时,可能影响整个控制系统的性能,严重时会使控制系统不稳定,造成重大事故。在多变量系统中有多个回路,其环节增多。因此控制部件失效的可能性增大,将导致对其控制的难度增大。在此情况下,则要求在失效时系统仍不丧失某些基本性能(此特性称为完整性),保证控制系统的稳态和动态特性不能变得太坏,即对系统的容错控制。在多变量的几个特殊问题中,回路之间的关联最为典型,甚至在某些情况下,耦合不解除,系统就无法控制。多变量系统的解耦设计思想在控制学科发展初期就已经形成,在boksenbomhood和钱学森的著作中就已得到了基本研究;此后,kavanagh等人将这个理论用于过程控制系统。在现代控制理论的框架内,这个问题由morgan在1964年正式提出。随着被控系统越来越复杂,被控对象存在着更多难以控制的因素,如不确定性、多外扰、非线性、滞后、非最小相位特性等,使得工程对耦合控制系统的设计要求越来越高,设计难度也越来越大。因此,解耦问题成为学术上与工程上一大难题。 目前,在理论上研究比较成熟的解耦控制技术可分为以下几类:传统解耦方法、基于现代控制理论的解耦方法、自适应解耦方法和智能解耦方法。1)传统的解耦方法传统解耦方法主要适用于线性定常多变量系统,如下所述:(1)基于古典控制理论的串联解耦由bristol提出的相对增益分析法和由bolscnbomhood和钱学森首先提出的对角形解耦方法18,是古典解耦的代表。其基本思想是:适当设计,使得输入变量与输出变量之间的系统传递函数矩阵成为对角矩阵。在此基础上的进一步改进是改变目标矩阵的解耦,它除了解耦外,能同时改变各个控制通道特性,使之更易于控制。(2)基于多变量频域理论的逆nyquist曲线法、序列回差法和特征曲线分析法25。这几种方法本身引用的概念多,计算复杂。2)基于现代控制理论的解耦方法由falb等人发展起来的状态变量法19,主要有线性状态反馈解耦和线性输出反馈解耦。其基本思想是:通过从状态变量或输出变量处引出一个反馈阵,使得系统传递函数阵成为一个对角形有理多项式矩阵。这种方法首先需要进行能解耦性判定。3)自适应解耦方法自适应控制的思想与解耦控制技术相结合并用于多变量系统中,就形成了自适应解耦方法20。自适应解耦的目标是使系统的闭环传递函数成为对角阵,通常把耦合信号作为干扰处理。自适应解耦实质上采用了最优控制的方法,建立目标函数并对参数寻优是该方法的核心,这是与传统解耦方法的本质区别,是解耦理论的重大突破,也是智能解耦理论的基础。4)智能解耦方法近几年来,随着智能控制技术的发展,“智能”的思想已运用于解耦控制中并取得一定的成果。文献21利用神经网络的可训练性与结构通用性,引入神经网络作为补偿环节而达到解耦的目的。当对象的输入输出之间存在耦合,又没有确定的映射关系,可以建立相应的模糊规则,进行模糊解耦。文献22采用模糊概念表述相对耦合度,用模糊控制的方法设计了模糊解耦补偿器,使系统能按不同的被控过程特性达到一定的解耦要求。文献23将预测控制的思想引入解耦控制中,进行预估补偿解耦控制。在多变量解耦控制系统中,逐渐出现了将自适应控制、神经网络控制、预测控制以及模糊控制等几种不同方法融合在一起的设计方法,以求得更好的设计效果。模糊控制系统的不敏感性是其突出优点之一,尤其适用于不确定的系统,因此可将模糊控制应用于解耦控制。模糊解耦主要有两种方法:1)直接解耦法方法是先对控制对象进行解耦,然后针对解耦而成的各单变量过程进行模糊系统的设计。针对模糊控制器的直接解耦法,仍然要求操作人员对受控对象认识的模糊信息的归纳和操作经验的总结建立一组模糊控制规则或控翩查询表,这在实际应用中是很困难的。通过将该模糊解耦控制算法用于氢气烧结炉温度控制可以看出,该法适应性强,稳定性好,且设计思想简洁,对多变量系统能较好地起解耦控制作用。2)间接解耦法间接解耦法是对控制器进行解耦。它既能快速跟踪设定值,又能减弱各变量之间耦合的影响,获得良好的控制效果;但是要求已知一组多维模糊控制规则,这给实际应用带来了很大困难。1.3.2 集气管压力智能解耦控制焦炉集气过程具有扰动变化激烈且压力幅值变化大、耦合严重、强非线性和时变特性的特点。由于炭化室的装煤、推焦等操作和结焦时间的变更、加热制度的变化、鼓风机前吸力的变化等都不同程度地影响集气管的压力,因此无法获得控制对象的精确数学模型,难以用常规方法进行控制。目前提出的焦炉集气管压力控制方法主要有pid控制、模糊控制、专家控制、前馈补偿解耦、模糊解耦控制等24。例如:文献25提出了一种基于相关性分析的解耦控制算法,并与变积分常数pid控制相结合。该算法将变积分pi控制与运用相关性分析法的解耦控制有机结合,通过改变积分系数,保证单座焦炉的稳定,通过相关性分析及补偿,消除焦炉之间集气管压力的耦合影响,解决了具有耦合特性的多座焦炉的集气管压力稳定问题;文献26设计了一种专家规则与模糊控制相结合的智能控制器,在分析了集气管耦合关系的前提下,提出了基于规则的补偿解耦算法,通过分管控制补偿和设定点动态调整实现了焦炉之间的并联解耦;文献27和28提出了一种基于pid神经网络和rbf模糊神经网络的多变量解耦控制方案,采用rbf网络多变量解耦控制器与被控对象构成广义被控对象,通过学习达到解耦,由神经网络pid控制器对解耦后的过程动态特性进行控制,能够根据被控对象的特点,调整神经网络权值,适应系统强扰动的干扰,从而有效地解决了集气管压力这类复杂对象的过程控制问题;文献29提出了一种分层智能协调控制方法,将集气管压力控制系统划分为基础控制级、解耦级和协调级,通过分层结构解决过程的复杂性问题。这些控制方法针对解耦问题都提出了较好的思路42,也取得了一定的控制效果,但是它们都只是针对对称的焦炉集气管进行控制,难以解决具有焦炉容量不同、管道布局不同等不对称特性的焦炉集气管压力控制问题。1.4 研究的主要内容近年来,随着神经网络与模糊控制理论的发展、计算机技术的成熟,人们在模糊神经网络控制,模糊控制与专家控制相结合的先进策略技术上进行了大量研究,有的已经应用到实际中。但现在模糊控制规则的建立一般采用的都是在经验归纳法的基础上,根据控制规则的设计原则,依靠专家知识和操作人员的经验积累所得到的。这种方法现在大量的运用在实际的生产中,取得了较好的控制效果。但是随着数据挖掘技术的发展和完善,本文为模糊控制规则的获得提供了一个崭新的途径,即基于数据挖掘中的聚类分析算法来生成模糊控制规则。聚类算法是通过对变量的比较,把数据对象分组成为多个类,在同一类中的对象之间具有较高的相似性,而不同类之间的对象差别较大。因此,通过聚类以后,数据集就转化为类集,能够识别密集的和稀疏的区域,从而发现全局的分布模式,以及数据属性的关系。本课题的所有数据都来自唐钢炼焦制气厂。研究的具体内容包括:1) 数据预处理数据预处理阶段主要进行数据集成、数据净化以及数据的应用变换等工作。将不同采集系统中获取的数据集成到同一数据库中,然后将坏值删除,对缺失数据进行补齐,最后按照数据挖掘算法或需求分析的要求对数据进行应用变换26-28。因此本课题对在唐钢所采集到的原始数据按照一定的方法进行数据预处理,使数据符合研究的需要。2) 聚类分析在数据预处理和生成机理模型的基础上,通过数据挖掘中的聚类分析方法对数据进行聚类,生成个模式类(patterns)(其中的值可根据实际需要人为设定)。3) 生成模糊控制规则每个模式类中的数据中必定有潜在规律,再在同一类数据中找出数据的潜在规律,则可挖掘出可以控制集气管压力的模糊控制规则,用来丰富模糊控制规则表。4) 利用模糊控制的方法进行集气管压力控制的耦合分析及解耦设计此研究的目的是减弱耦合的影响。5) 进行系统仿真和性能分析 对生成的模糊控制规则进行计算机仿真,仿真过程将采用matlab软件,在仿真过程中,主要是进行模糊控制器的设计。2 数据预处理2.1数据预处理的必要性及实际数据存在的问题2.1.1 数据挖掘中数据预处理的必要性数据预处理以领域知识作为指导来组织原有的业务数据,放弃一些与挖掘目标不相关的属性,提供高质量的数据,从而可以减少数据挖掘的数据处理量,提高挖掘算法的效率,并能提升数据挖掘的起点和知识的准确度。数据挖掘过程可粗略地理解为四部分:问题定义、数据采集及数据预处理、数据挖掘、以及结果的解释评估。可见数据预处理是其中的重要一环,是必不可少的。数据预处理以领域知识作为指导,来组织原来的业务数据,放弃一些与挖掘目标不相关的属性,提供高质量的数据,从而减少了数据挖掘的数据处理量,提高了挖掘算法的效率,提升了数据挖掘的起点和知识的准确度12-13。数据挖掘中的一些成熟的算法对其处理的数据集合都有一定的要求,比如数据完整性好、数据的冗余性少、属性之间的相关性小。然而实际系统中的数据一般都具有不完全性、冗余性和模糊性,严重影响了数据挖掘算法的执行效率。另外,海量的实际数据中无意义的成分很多,严重影响了数据挖掘算法的执行效率,而且其中的噪声干扰还会造成挖掘结果的偏差。因此,如何对原始数据进行有效的预处理,己经成为数据挖掘系统实现过程中的关键问题。2.1.2 实际数据存在的问题数据挖掘中的重要环节就是数据预处理,而且是必不可少的。在数据挖掘一些成熟的算法中对其处理的数据集合都有一定的要求,比如数据完整性好、数据的冗余性少、属性之间的相关性小。然而实际系统中的数据一般都具有不完全性、冗余性和模糊性,严重影响了数据挖掘算法的执行效率,而且由于其中的噪声干扰还会造成无效的归纳。因此,数据预处理已经成为数据挖掘系统实现过程中的关键问题。要使数据挖掘算法有效地挖掘出知识,就必须为它提供干净、准确、简洁的数据。然而,从实际应用系统中收集到的原始数据通常存在以下几方面的问题:1、 杂乱性:原始数据是从各个实际应用系统中获取的,由于各个实际应用系统的数据缺乏统一标准和定义,数据结构也有较大的差异,因此各系统间的数据存在较大的不一致性,往往不能直接拿来使用。2、 重复性:重复性是指对于同一个客观事物在数据库中存在两个或两个以上完全相同的物理描述。由于应用系统实际使用中存在的一些问题,几乎所有应用系统中都存在数据的重复和信息的冗余现象。3、 不完整性:由于实际系统设计时存在的缺陷以及一些使用过程中人为因素造成的影响,数据记录中可能会出现数据属性的值丢失或不确定的情况,这可能缺少必需的数据而造成数据不完整。2.2 对焦炉集气管压力各属性数据进行数据预处理本文主要从数据的集成和数据的净化两个方面介绍焦炉集气管压力各属性数据的数据预处理。为了更好的对数据与预处理进行分析,本文以某炼焦制气场2#焦炉的集气管蝶阀开度值为例,介绍数据预处理的过程。2.2.1 数据的集成 首先的工作是将某炼焦制气厂关于2#焦炉的18个属性的全部数据集成到同一数据库中,由于实际中的某些原因使得在一些采样时刻的数据并未采集到,这些数据以“bad”的形式而不是以具体的数值标示出来,于是首先将上述“bad”值从数据库中删除。从某炼焦制气厂采集到的集气管蝶阀开度原始数据格式如表1所示。集气管压力系统不同属性的数据是从不同的实际采集系统中获取的,它们具有不同的采样周期,要将它们放在同一个数据库中需要一个统一的标准。在此通过分析将时间作为统一的标准,即将同一时刻(精确到秒)不同属性相应的数据作为一条记录。而不同属性在采集数据时其开始时间和结束时间是不同的,经过对比分析将统一时间段取为从“2010-2-2 7:36:52”开始至“2010-2-3 16:51:17”结束。表1 原始数据表table1 table of original data开度值时间39.2 %03-feb-10 11:10:2539.5 %03-feb-10 11:10:2638.5 %03-feb-10 11:12:1838.1 %03-feb-10 11:12:19bad03-feb-10 15:22:0243.0 %03-feb-10 15:27:0343.5 %03-feb-10 15:27:4144.1 %03-feb-10 15:27:422.2.2 数据的净化噪声数据处理和缺值数据处理是数据净化的主要工作。在原数据集中,由于受实际系统干扰等因素的影响,会出现一些噪声数据或是偏离正常值很远的不正常数据,例如集气管的压力值,根据实际的生产可知,当压力值小于70pa,或大于330pa时都属于不正常值,需要进行数据净化,在此处理方法是将小于70pa的值用70pa来代替,大于330pa的值用330pa来代替。其他属性的处理方法与此类似。所以,在海量的数据中,有的压力值明显偏离正常值,我们完全可以把它剔除出去,进行数据净化。当然,在大量数据中我们不可能通过目测得到这些异常值,我们可以通过一些办法获得。(这里就不详细介绍了)由于各个属性数据在采集时其采样周期是不同的,于是出现在一些时刻点(精确到秒)有的属性有对应的采集数据,而有的属性则没有,致使在同一时间段内各个属性数据采集到的数据个数是不同的,这不符合后续数据挖掘算法的实施要求,于是需要将采样周期大的属性按照采样周期小的属性的采样周期依据一定的策略进行数据的补齐,使得所有属性的所有数据在每一个时刻点都有对应的数值。将采样周期大的属性按照采样周期小的属性的采样周期进行数据的补齐,不会掩盖其变化规律。3 对数据进行聚类分析数据挖掘领域最为常见的技术之一就是聚类,它用于发现在数据库中未知的对象类。这种对象类划分的依据是“物以类聚”,即考察个体或数据对象间的相似性,将满足相似性条件的个体或数据对象划分在一个组内,不满足相似性条件的个体或数据对象划分在不同的组内。通过聚类过程形成的每一个组称为一个类。在数据挖掘之前,对象类划分的数量和类型均是未知的153.1 数据挖掘概述3.1.1 数据挖掘的定义数据挖掘(dm,data mining),又叫做知识发现(kdd,knowledge discovery in database),是近年来随着人工智能和数据库技术的发展而出现的一门新兴的技术。数据挖掘就是从海量的,不完全的,有噪声的,模糊的,随机的数据中,提取含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程。简单地说,数据挖掘就是从海量的数据中提取或“挖掘”知识31。数据挖掘技术从一开始就是面向应用的。但它又不仅仅是面向特定数据库的简单检索查询调用,而是要对这些数据进行微观或宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。数据挖掘的研究方法主要建立在人工智能、计算智能、统计分析等理论和方法的基础上,包括:统计方法、机器学习方法、模糊理论方法、人工神经网络方法、遗传算法等32-34。在实践中,数据挖掘的两个基本目标往往是预测和描述。预测涉及到使用数据集中的一些变量或者域来预测其他我们所关心变量的未知或未来的值;另一方面,描述关注的则是找出可由人类解释的数据模式。因此,可以把数据挖掘活动分成下述两类21:预测性数据挖掘:生成已知数据集所描述的系统模型。描述性数据挖掘:在可用数据集的基础上生成新的、非同寻常的信息。在实际应用中,根据挖掘的任务,可分为26:1)分类分析(classification analysis)(预测变量为离散)或回归分析(regression analysis)(预测变量为连续):预言模型以通过数据库中的某些数据得到另外的数据目标;2)聚类分析(clustering analysis):用于从数据集中找出相似的数据并组成不同的组;3)关联分析(association analysis):发现描述变量之间或者数据集或其一部分的特征值之间的重要的相关性的本地模型;4)序列分析及时间序列(sequence analysis and time sequence):说明数据中的序列信息和与时间有关的序列分析;5)孤立点分析(outlier analysis):找出与数据一般行为或模型不一致;6)演变分析(evolution analysis):描述行为随时间变化的对象的规律或趋势;等等等。3.1.2 数据挖掘的结构数据挖掘系统可以大致分为三层结构27,如图3所示。第一层是数据源,包括数据库、数据仓库。数据挖掘不一定要建立在数据仓库的基础上,但如果数据挖掘与数据仓库协同工作,则将大大提高数据挖掘的效率。第二层是数据挖掘器,利用数据挖掘方法分析数据库中的数据,包括关联分析、序列模式分析、分类分析、聚类分析等。第三层是用户界面,将获取的信息以便于用户理解和观察的方式反映给用户, 可以使用可视化工具。用户界面(结果输出)数据仓库odbc或其它数据库接口关联分析.分类分析聚类分析数据 库其它数据源 模式分析图3 数据挖掘体系结构fig. 3 the structure of dm system结 论3.2 聚类的定义和方法3.2.1 聚类的定义聚类就是把大量的数据对象聚集成若干个类,使同一类中对象的相似性尽可能最大,而不同类中对象的相似性尽量达到最小。也就是说,形成聚类之后,同一个聚类内对象具有很高的相似性。在应用中经常把同一个类中的数据对象当成一个整体来对待。3.2.2 聚类的方法聚类的方法主要有统计学的方法和机器学习的方法两种27。在统计学中,聚类一般称为聚类分析,主要研究基于几何距离的聚类。在使用上,首先要定义多维空间和距离,以距离作为相似性的判别标准。在机器学习中,聚类称为无监督学习,主要体现为聚类学习的例子或数据对象没有类别标记,需要由聚类学习算法自动计算。而若从数据库知识发现的角度来讲,对聚类问题的研究是要从大量的数据集中智能地、自动地抽取出有价值的聚类知识。聚类的输入是一组未分类的记录,而且事先也不知道要分成几类,它通过分析数据,根据一定的分类准则,合理划分记录集合,从而确定每个记录所属的类别。在不同的聚类算法中,用于描述相似性的函数也有所不同,有的采用欧氏距离或马氏距离,有的采用向量夹角的余弦,也有的采用其他的度量方法。当事先不知道类型数目,或者用参数估计和非参数估计难以分辨不同类型的类概率密度函数时,就需要采用聚类分析。有些聚类分析算法可以自动地确定类型的数目k(聚类的个数),而不必以预知k为前提条件,也可以给定k作为算法的终止条件。若没有给定k,那么如何在聚类过程中自动地确定k,这是聚类分析中的一个关键问题。采用不同的聚类方法,同一个记录集合可能有不同的划分结果49。到现在为止,人们已经提出了很多种聚类算法39,比如:划分法、层次法、基于密度法、基于网格法和基于模型法,这些算法对于不同的研究对象各有优缺点。3.2.3 聚类分析简介随着时代的发展,数据挖掘的研究方向越来越热门,而聚类(clustering)作为数据挖掘的主要方法之一,更是引起人们的普遍关注。所谓聚类,就是把大量的维数据对象(个)聚集成个模式类(),使同一模式类内对象的相似性尽可能最大,而不同模式类内对象的相似性尽量达到最小。也就是说,形成模式类之后,同一个模式类内对象具有很高的相似性,而且与不属于该模式类的对象有迥然的差异(即不相似)。在应用中经常把同一个模式类中的数据对象当成一个整体来对待38。聚类是一种无监督分类,它的输入是一组未分类的记录,而且事先也不知道要分成几类,它通过分析数据,根据一定的分类准则,合理划分记录集合,从而确定每个记录所属的类别。不同的聚类算法中,用于描述相似性的函数也有所不同,有的采用欧氏距离或马氏距离,有的采用向量夹角的余弦,也有的采用其他的度量方法。当预先不知道类型数目,或者用参数估计和非参数估计难以分辨不同类型的类概率密度函数时,就需要采用聚类分析。有些聚类分析算法可以自动地确定类型的数目,而不必以预知为前提条件,也可以给定作为算法的终止条件。若没有给定,那么如何在聚类过程中自动地确定,这是聚类分析中的一个关键问题。采用不同的聚类方法,同一个记录集合可能有不同的划分结果。聚类的结果与特征选取也有很大关系。例如对人体进行聚类:可以根据体重进行分类,也可以根据身高分类,也可以根据年龄分类。选取不同的特征,就会产生不同的结果31-38。3.3 数据预处理结果文中用到的数据都采集于唐钢炼焦制气厂。集气管不同属性的数据是从不同的实际采集系统中获取的,它们具有不同的采集策略(例如采样频率不同),要将它们放在同一个数据库中需要一个统一的标准。在此通过分析将时间作为统一的标准,即同一时刻(精确到秒)不同属性相应的数据作为一条记录。所以首先对比各属性数据,将其统一到一个时间段。在原数据集中,由于受实际系统干扰等因素的影响,会出现一些噪声数据或是偏离正常值很远的不正常数据,所以需要除去了噪声数据和无关数据,进行数据清洗。最后经过预处理后,可得到如下表2所示的数据形式:表2 进行预处理后的数据table 2 the standardized data集气管1压力p1蝶阀开度k1集气管2压力p2 蝶阀开度k2 鼓风机机前吸力p3-11.760.4405-45.152730.51286.336-8.930.4405-44.949090.51286.339-7.1250.4405-44.745450.51286.342-5.320.4405-44.541820.51286.345-4.240.4405-44.338180.51286.34816.950.413213.340.50436.25080322.330.41325.820.50436.25046827.600.4132-1.020.50436.25013432.580.4132-7.370.50436.24979937.470.4132-12.940.50436.249465由表2可以看出,经过标准化变换后,每一个变量值都表示的是它所对应的原始值相对于本属性变化值。3.4多变量集气管压力模糊控制的解耦设计多变量模糊控制系统是一个强耦合的系统,不能简单地化为多个单输入单输出系统,此时必须考虑到变量间的耦合,以便对系统采取相应的解耦措施后再实施有效的控制。本课题采用模糊解耦控制进行解耦设计。模糊解耦控制器模糊控制器被控对象 _ 图4 模糊解耦控制策略图fig.4 policy graph of fuzzy decoupling control为第i集气管压力的设定值,为相应的集气管压力测量值,被控对象为电动调节蝶阀。反映了相邻通道对主通道i的耦合作用,作为i通道模糊解耦控制器的输入。根据图7可得: 当集气管为2个时,则主通道1的为:由此可知,模糊解耦控制器的输入实际上是相邻集气管压力偏差量的差值,而模糊解耦控制器的输出是相应蝶阀开度的变化量。解耦控制策略采用的是模糊解耦控制,再通过数据挖掘生成相应的模糊解耦控制规则,从而完成解耦设计。在采用预处理后的数据基础上进行数据准备,模糊解耦控制器的输入和输出,#1焦炉和#2焦炉的设定值都是145,模糊解耦控制器的输入是集气管压力的差值,模糊控制器的输出是蝶阀开度的差值变化量,所需要的数据准备如下表:表3 生成模糊控制器所需数据组table 3 the needed data team of creating fuzzy controller解耦输入p1-p2解耦输出-49.520-0.0064-37.320-0.0046-24.1300-9.480089.4800.006879.1270.005467.595055.092077.0700007873.8400.002269.205063.390056.65003.5 k-means聚类算法k-means是一种常用的基于划分的聚类方法,在许多实践应用中取得了很好的效果。本文在对数据进行聚类分析时,将采用划分方法中常用的k-means算法。划分方法的基本思想是:给定要构建的划分的数目k,首先创建一个初始划分,然后采用一种迭代的重定位技术,尝试通过对象在划分间移动来改进划分。划分方法需要给定一个包含n个数据对象的数据库,以及要生成的类的数目k,一个划分方法将数据对象组织成k个划分(kn),其中每个划分代表一个类。也就是说,它将数据划分为k个组,同时满足如下的要求:1)每个组至少包含一个对象;2)每个对象必须属于且只属于一个组(在某些模糊划分技术中此要求可以放宽)。k-means算法在许多实际应用中取得了很好的效果,它是以平均值作为类的“中心”的一种划分聚类方法。假设有n个对象,将其划分为k个类,其中,分成的聚类的个数k是采用k-means算法必须预先指定的参数。聚类的过程可以通过下述几个步骤来描述:1)随机的选择k个对象,每一个对象作为一个类的“中心”,分别代表将分成的k个类;2)根据距离“中心”最近的原则,寻找与各对象最为相似的类,将其他对象分配到各个相应的类中;3)在完成对象的分配之后,针对每一个类,计算其所有对象的平均值,作为该类的新的“中心”;4)根据距离“中心”最近的原则,重新进行所有对象到各个相应类的分配;5)返回步骤3,直到没有变化为止。该方法的计算复杂度为o(nkt),其中n是对象的总数,k是分成的聚类的个数,t是迭代的次数。通常kn,tn,因此该方法可以应用于数据量比较大的情况,这是该算法的一个优点3.6 采用k-means算法对解耦输入输出数据分别进行聚类3.6.1 程序界面数据的输入形式采用excel格式导入,采用k-means算法对数据进行聚类,是解决聚类问题的一种经典算法,它是一种爬山式的搜索算法,程序运行界面如下图4所示:图5 程序界面fig5 the interface of program其中,excel文件路径是选取要分析的数据所在的excel文件,excel起始分析行选择聚类数据开始的行数,excel待分析数据所在列是要分析数据在excel表的第几列,聚类中心数是聚类个数。对模糊解耦控制器的输入数据聚类如图5所示 图6 输入聚类结果fig.6 the input of the clustering results对模糊解耦控制器的输出数据聚类如图6所示:图7输出聚类结果fig.7 the output of the clustering results3.6.2 设定论域及其隶属度函数这里继续利用前面介绍的k-means算法分别对解耦输入输出数据组进行聚类。在这里定义语言变量取值范围都为 pm,ps,ze,ns,nm ,因此我们设定聚类的模式类为5个。通过聚类后每个模式类的中心值及其取值范围都是可以确定的。如表4所示。表4 模式类的中心值及其取值范围table 4 the center value and the range of every pattern (a) 解耦输入模式1模式2模式3模式4模式5中心值-87.70979-27.510586.2484546.46120128.21483最大值-57.43000-10.5274026.3908087.33000244.30000最小值-234.24000-57.40780-10.5221026.3914087.37500(b) 解耦输出 模式1模式2模式3模式4模式5中心值-0.00945-0.00496-0.000310.004370.00855最大值-0.00730-0.002700.002000.006400.01400最小值-0.45490-0.007100.002600.002200.00650将每个变量的模式类的中心值按照从大到小的顺序和其语言变量取pb,pm,ps,ze,ns,nm,nb一一对应,并确定相应的隶属度函数。语言变量的隶属度函数有很多种,本文中采用三角形隶属度函数。在每一个语言变量的隶属度函数中都把其中心值的隶属度设置为“1”,其最大值和最小值的隶属度设置为“0”。每个语言变量的各个模糊子集(语言值)之间并没有明确的分界线,反映在模糊集的隶属度函数上,就是这些隶属度函数必定是相互重叠的。因为我们利用数据挖掘中的聚类分析来生成各个语言变量,根据聚类分析的特点:同一模式类内对象的相似性尽可能最大,而不同模式类内对象的相似性尽量达到最小。因此我们可以确定通过聚类分析确定的各个语言变量的隶属度函数之间必定只有很小的重叠率。4 生成模糊控制规则并仿真4.1 模糊控制的理论基础模糊控制或模糊自动控制系统是以模糊数学,即模糊集合论、模糊语言知识表示及模糊逻辑规则推理等作为理论基础;以计算机作为物质基础;以计算机控制技术、自动控制理论作为技术基础的自动控制系统。模糊控制系统既然是一种自动控制系统。它必然与其他所有的自动控制系统一样有着某些共性,如系统的结构组成、基本工作原理、设计方法、系统性能分析、建模等。4.1.1 模糊控制的基本原理模糊控制系统通常由模糊控制器、输入/输出接口、执行机构、被控对象及测量装置等五部分组成,如图7所示31。+给定值a/d模糊控制器d/a被控对象执行机构传感器被控量图8 模糊控制系统组成框图 fig 8 fuzzy control system diagram 控制器是模糊控制系统的核心部分,采用基于模糊知识表示和规则推理的语言型“模糊控制器”,这也是模糊控制系统区别于其他自动控制系统的特点所在。一个模糊控制系统性能的优劣,主要取决于模糊控制器的结构,所采用的模糊规则,合成推理算法,以及模糊决策的方法等因素。另外,模糊控制系统中a/d、d/a单元必须有适用于模糊逻辑处

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论