




已阅读5页,还剩84页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Y1057叮43【_獬号=俅z2学校哆、帆,磐牙孑jLj、华北r电力大学北京,1。、硕士?擎位论寡一,、0,7、,一、,”oo一v:、题:。日:基;i毒毒库的数据挖掘系统辜台研究。题:日:基于数据仓库的数据挖掘系统平台研究囊曼题目:;e南mh。o。DacaMiners!;lemB”edo-1Dan、jjWa。t。ehouse、研究、目j划其良华北电力大学硕士学位论文摘 要电厂中大量的历史数据中必然会隐含一些有用而没有被发现的规律,这些有用的信息都被冰冻在海量的DCS数据中,数据仓库技术由此而生,它与OLAP技术的结合应用,充分利用DCS系统中的海量数据,挖掘出有用的信息,从而为电厂的可靠运行进一步提供了保障。本文针对这类问题做了开发性实验研究,建立了前台应用分析界面、后台数据仓库,即建立了一个基于数据仓库的数据挖掘展现系统的雏形。两者通过JAVA语言实现两者的链接。本文针对一个凝汽器进行分析,建立了一个小的模块,前台分层次输入换热器进水温度佃、出水温度伽”、汽机低压缸排气量Dn、真空度ps等数据,后台进行运算分析,将结果显示在前台界面,依此来判断该设备是否需要清洗,对事故有一定的预警作用。另外,前台和后台之间的链接、运算、显示不超过三秒,能够达到电厂快速操作反应的要求。关键词:数据仓库,Des,OLAP,安全运行,数据挖掘ABSTRACTLots of data of electric plant contains information,but the information iS not found。it stayed in the sea of DCS dataThe application of DW and OLAP is very useful,itmakes full use of the data in DCS,it dredges up the data,SO,it make safeguard of theplantThe paper builds up a DW,and,there is a interface,JAVA make them have relationThe paper make a analysis to Water recovery condenser,WC Can input tw、tw”、Dn、ps and SO on,DW make operation and analysis,outcome will be displayed on theinterface,we can judge the equipment cleaning or not,it can give an alarm ahead insome degreeIn addition,the whole time of connection,operation,display betweeninterface and background is 3 seconds at most,this call achieve the request of quickfeedback in plantLiu Qi Liang(power machinery and engineering)Directed by profFu Zhong GuangKEY WORDS:DW;DCS,0LAPsecnrity running,DATA MINING华北电力大学硕士学位论文第一章绪论11电力行业中的数据利用现状随着国民经济的不断发展,社会对电力的需求越来越大。为了适应日益增长的电力需求,机组趋于大容量、高参数,与此同时大容量、高参数的机组对自动化程度的要求也越来越高。这些大容量机组均配置了先进的DCS控制系统,有着完善的信息收集、传输、加工、存储、查询和控制功能。随着信息化建设的深入,不少火电厂建立了企业内部网Intranet,实现了DcS与Intranet的互连。这样由DCS所收集、加工的生产实时数据就以数据库的形式存储在火电厂企业内部网Intranet的数据库服务器中,形成了涵盖火电厂生产全过程的“数据宝库”。但面对这些收集、转换来的数据集合,目前极大部分火力发电厂只是采用传统的数据分析、统计手段来进行日常的数据汇总、制表、趋势分析等浅层次的处理和利用。受人力、物力、财力以及知识的限制,无法从时间和空间意义上,深层次地理解并有效地使用这些数据。这样所收集的数据,不仅得不到充分利用,反而带来越来越严重的“数据灾难”和“资源荒废”。一方面火力发电厂花费大量人力、物力、财力,建立数据采集系统、集散控制系统以及管理信息系统,仍用传统的数据分析方法去处理数据,其收获是面对海量的数据“事倍功半”,几乎得不到蕴涵在数据中的深层次信息,管理水平得不到实质性的提高,带来的经济效益也不甚明显。另一方面,火力发电厂的决策者企盼应用隐含在数据中的知识作为支持,以做出正确的决策,却因“知识局限”而守着这些“数据宝库”开采不出有价值的信息。这样,电厂技术人员明明知道从DCS中采集来的数据中含有一定的有价值的信息,可能会为电厂以后的安全运行乃至高层的决策提供信息,但是,由于数据量太大,隐含太深,所以大家都对这些庞大的现场数据束手无策。只能是采用传统的数据分析和统计手段来对少数数据进行常规的分析和汇总,这样所能得到的发现型信息几乎没有,所以对电厂的安全生产、优化运行、设备性能分析和决策分析几乎没有什么帮助。在这种情况和背景下,我选题在针对电厂的DCS海量数据建立的数据仓库,在此数据仓库的基础上进行数据挖掘展现,从而祢补只对数据做传统的分析和统计所造成的弊端,本文只是做了探索性的研究,所以在很多方面还不是很成熟,有待于后期的完善和加强。这里所说的数据仓库和一般的常规数据库有着很大的区别,在市场经济瞬间万变以及生产设备连续运行的条件下,常规的数据库技术不能为火电厂的重大决策和优化运行提供客观的、有前瞻性的科学依据。这样,以数据仓库(data warehouse)与数据挖掘(datamining)为代表的数据库新技术应运而生,面对竞争日益激烈的电力市场,发电企业必须把业务经营同市场需求联系起来,在此基础上做出科学、正确的决策,以求生存。这就需要把已经收集到的数据集成、转换到数据仓库中,在数据仓库中通过数据挖掘来提5华北电力大学硕士学位论文取蕴涵在火电厂生产实时数据库的深层次信息,比如各热力设备中能量转换、利用和损失的规律,热力设备性能状态渐变和寿命隐性损耗的规律等。这些有用的知识能够为电力生产及发展做出即时、正确的判断,为管理者制定的决策提供有力的依据,从而提高发电企业的经济效益。目前,国内电厂还没有运用在数据仓库的基础上做数据挖掘展现系统的,也就是说这一技术在国内还没成熟,据本文了解,哈尔滨工业大学近几年对该技术投入的比较多,但他们研究的对象并不是电力系统中的电厂DCS海量数据;厦门大学对数据挖掘技术研究也比较早,但是大家都处于起步阶段,该技术在电力系统尤其是电厂中的应用几乎还是空白。本文所设计的这套系统如果能够达到界面完善和功能齐全的标准,它将会给电力系统,尤其是电厂的优化运行带来里程碑的意义。从此,电力系统将可以从现场的数据中随时提取有用的信息,提供给决策者做出关键性长远决策。那样,电厂的事故会大大减少,会达到真正的安全生产,生产的效率会大大的增加,高层的决策也将会更加的明确,目光会更加的长远,目的会更加的明确。另外,本文所涉及的内容只是该庞大系统的很小一部分,只是实现了该系统的总体框架和针对凝汽器清洗与否的一个分析模块。整个挖掘系统平台的实现还需要有很多的后续工作来发展和完善。下面将简单介绍一下数据仓库和数据挖掘两项技术以及两者的结合运用。12数据仓库与数据挖掘技术121数据仓库技术的发展随着C1 ientServer(客户服务器)技术的成熟和并行数据库的发展,信息处理技术的发展趋势是”:从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格式,即针对决策目标把数据聚合在一种特殊的格式中。随着此过程的发展和完善,这种支持决策的、特殊的数据存储即被称为数据仓库”1。数据仓库的概念一出现,立即引起学术界和工业界的极大关注,厂商们争相展示出产品,而研究领域则掀起了信息研究的一股热潮。80年代初,WHInmon“1在“记录系统”、“原子数据”(Atomic Data)和DSS等专题研究报告中,提出了数据仓库或信息仓库的概念并给出了基本框架描述。其定义为:数据仓库是支持管理决策过程的、面向主题的、集成的、稳定的、不同时间的数据集合。数据仓库(Data Warehouse)是上世纪90年代信息系统框架的中心,数据仓库技术是信息处理领域里的一项重大的技术创新。在国外数据仓库是一个已被接受,而在我国则是刚刚兴起的信息管理新概念,是现代计算机应用领域里的一个崭新方向。它是一种新型的信息管理技术,其研究的主要宗旨是通过通畅、合理、全面的信息管理,来达到对管理决策的支持。与信息处理技术中的联机处理”(0LTP)相比,它完全是另一种类6华北电力大学硕士学位论文型的信息管理方式。当今世界,信息技术及其产业飞速发展,取得了令人瞩目的成绩。与此同时,任何一个组织(公司或企业)每天都会产生或收集到大量的营运数据(Operational Data),如订单、库存目录等。这些运营数据的捕获和维护几乎都是由相关部门来负责的,尽管这些数据精确、可靠,但是许多组织并未从中获得有价值的信息。原因在于这些数据没有获得相关的处理,如归纳、总结等。同时企业内外的数据来源众多,格式各异,要想从这些零乱的数据中了解变化的形势,并做出正确的反应,就需要对这些数据进行快速综合、分析,使决策者能得到可视化的更新数据。数据仓库正是能够解决这一问题的崭新的信息处理技术p。122数据挖掘技术的发展状况数据挖掘技术的提出最早可追溯到1989年8月在美国底特律召开的第11届国际人工智能联合会议的专题讨论会”1,在该次讨论会上首次出现KDD(Knowledge Discoveryin Database)这个术语。随后在1991年、1993年和1994年都举行KDD专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。随着参与人员的不断增多,1995年KDD国际会议发展成为年会“。参加会议的人数已由1989年的30人增加到2000年600多人,许多国际会议也将KDD列为讨论的专题,1993年IEEE的(Knowledge and Data Engineering率先出版了KDD专刊,1997年创办了国际性的学术刊物Data Mining and KnowledgeDiscovery。一些著名的软件公司开始开发KDD软件,许多大学开始开设数据挖掘的相关课程。到目前为止,由美国人工智能协会主办的KDD国际研讨会已经召开了8次,规模由原来的专题讨论会发展到国际学术大会,研究重点也逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。1999年,亚太地区在北京召开的第三届PAKDD会议收到158篇论文,空前热烈。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论,甚至到了脍炙人口的程度。已经有一些数据挖掘系统上市,如加拿大Simon Fraser大学开发的多任务挖掘系统DBMiner,IBM公司Almaden研究中心开发的多任务挖掘系统Quest,SGI公司研制的集数据挖掘和强大的可视化工具于一体的数据挖掘系统MineSet等。目前,国外数据挖掘研究的进一步发展主要有对知识发现方法的研究,如近年来注重对Bayes(贝叶斯)方法以及Boosting方法的研究和提高;传统的统计学回归法在KDD中的应用;KDD与数据库的紧密结合等。在应用方面包括:KDD商业软件工具不断产生和完善,注重建立解决问题的整体系统,而不是孤立的过程。用户主要集中在大型银行、7华北电力大学硕士学位论文保险公司、电信公司和销售业。国外很多计算机公司非常重视数据挖掘的开发应用,IBM和微软都成立了相应的研究中心进行这方面的工作”。1997年亚太地区在新加坡组织了第一次规模较大的PAKDD学术研讨会。此外,数据库、人工智能、信息处理、知识工程等领域的国际学术干U物也纷纷开辟了KDD专题或专刊。IEEE的Knowledge and Data Engineering会刊领先在1993年出版了KDD技术专刊,所发表的5篇论文代表了当时KDD研究的最新成果和动态。不仅如此,在Internet上还有不少KDD电子出版物,其中以半月刊KnowledgeDiscovery Nuggets最为权威。还可以在论坛BM Email Club自由讨论DMKD的热点问题。当前,世界上比较有影响的典型数据挖掘系统:SAS公司的Enterprise Miner、IBM公司的Intelligent Miner、SGI公司的SetMiner、SPSS公司的Clementine、Sybase公司的Warehouse Studio、RuleQuest Research公司的See5、还有CoverStory、EXPLORA、Knowledge Discovery Workbench、DBMiner、Quest等。同时可以访问http:wwwdatamininglabcom网站,该网站提供了许多数据挖掘系统和工具的性能测试报告。目前进行的大多数研究项目是由政府资助进行的,如国家自然科学基金、863计划、十五”计划等一-。123数据仓库与数据挖掘在电力系统中的应用预测未知情况广东电力局建立面向规划的数据仓库,利用聚类、分类、关联、总结等规则进行数据挖掘,为辅助决策系统增加约束条件;寻求负荷变化与经济因素的联系模型,克服了单纯从数学模型角度进行负荷预测的局限性。聚类分析”电力系统的运行状态通常被分为正常状态、警戒状态、紧急状态和恢复状态。一旦电力系统当前的运行状态被确定,电力系统操作员就可以此为据来执行一系列相应的操作。数据挖掘算法在这里可以作为这种状态分类的辅助分析手段。如用数据挖掘技术对变压器油中各种气体成分进行聚类分析,从而可以在预先不知道变压器故障类型的情况下得出变压器油中各种气体成分含量与故障之间的直观联系,为专家们判断变压器故障类型提供了十分有力的依据。突变和偏差检测在电力市场中,对负荷进行分类,找出其中最显著的变化,以此为根据预测未来的负荷具有非常重要的意义。数据挖掘技术使得人们能够充分利用多年积累下来的历史数据,对各种不同类型的负荷进行更加细致的划分,同时发现负荷数据中所蕴含的一些非常规的负荷模式。如利用可适应性的决策树来对不同类型的负荷进行分类。8华北电力大学硕士学位论文利用可视化工具辅助分析决策”利用可视化工具从电力系统纷繁复杂的数据中提取部分信息直观表示出来,以利于人工分析决策。意大利某电力公司混合使用人工智能中的人工神经网络、模糊逻辑等技术,把用户的管理、消费、交易等数据进行综合处理,以欧几罩德距离为判据得到分类用户模型,并用可视化的图表方式表达出来,来辅助分析用户实例。武汉供电局在配电故障统计分析系统中利用数据挖掘方法,提高了供电可靠性和经济效益。其中应用关联分析方法可以确定开关设备故障率同温度、雨量、雷暴、负荷的关系,应用序列模式分析方法能够发现并预测开关设备的故障率分布,应用分类和聚类分析方法为各种设备划分适当的故障类型。综合应用这些方法能够达到很好的处理效果【9】oSAS软件在电力负荷特性分析及预测方面的应用,可为电力系统中的数据处理和分析提供很好的强大工具,从而能更好,更准确地把握数据问的规律,为预测或其他工作提供良好的信息支持”。美国田纳西州电网公司依据实时数据和历史数据建立数据仓库,并以此为服务器,各应用客户系统分布在州内各地,通过Modem、WAN、Internet等方式自动获取数据”。这样就实现了从主机终端式中心计算模式向Sun工作站与Pc混合网络中的客户服务器模式分布计算的过渡。对于电力系统这样一个复杂的大系统,在运行中过程中不断产生和积累大量的数据。如果能应用数据仓库、数据挖掘技术充分地利用这些运行数据,揭示电力系统历年积累的数据背后蕴含的原理、规则,找出解决问题的更加合理的方法,同时还可为决策提供更加有力的科学依据。然而数据仓库、数据挖掘方法在国内电力系统中的应用也还处于起步阶段,因此,非常有必要结合电力系统的特点,研究数据仓库、数据挖掘技术及其应用,开发面向电力行业的基于数据仓库的数据挖掘软件。124基于数据仓库的数据挖掘系统数据仓库中的知识发现技术KDD(Knowledge Discovery in Database)是从大量的数据中提取出可信的、新颖的、有效的、并能被人理解的模式的高级处理过程”1。随着对数据仓库技术研究的深入,出现了基于数据仓库的知识发现技术(KDDW-Data Miningand Knowledge Discovery)。KDDW是指知识发现所依赖的数据集来自于数据仓库。具体地讲,KDDW以数据仓库的主题数据为基础,通过数据收集、数据挖掘和知识解释评价等一系列迭代过程产生专业知识,支持多种应用。数据挖掘技术和数据仓库技术的结合在技术角度上达到了两者的优势互补,具体表现在以下几个方面:(1)知识发现是一个交互的、迭代的过程,应该允许也需要人工干涉,但应该使这9华北电力大学硕士学位论文种干预最小化,以提高自动化程度。知识发现过程中数据的提取和数据预处理的环节通常自动化程度不高,而数据仓库技术能完成知识发现中的大部分数据预处理工作。(2)知识发现过程中数据集的选取对知识发现的结果有直接的影响,这主要体现在两个方面:一方面是数据集的业务覆盖范围;另一方面是数据集的数据量。在数据仓库中可以进行数据导航从而确定合适的业务覆盖范围”1,通过上卷、下钻、切片、旋转等操作来确定合适的数据集。(3)对知识发现的数据集进行数据添加或更新时,原来建立在这些数据上的既成知识将如何更新的问题也是数据挖掘中较难解决的问题。但在基于数据仓库的知识发现中,多维数据的更新和变化一般是由工作流来管理的,在定义和设计工作流时,可以把知识发现过程作为此工作流中的一个环节,这样可以按照工作流脚本的内容来对已发现的知识进行处理。(4)在基于数据仓库的知识发现系统中,数据的组织、存储和访问是由数据仓库来完成的,数据仓库对大量多维数据的高效存取策略提高了知识发现的处理效率。(5)知识发现过程中所产生的模式和最终得到的知识具有明显的多维特性,所以数据仓库技术中的一些研究成果也可以应用到知识库系统的建设中。综上所述,数据仓库和数据挖掘的结合已成为必然趋势。数据仓库为数据挖掘提供经过良好预处理的数据源,而数据挖掘又为数据仓库提供深层次数据分析的手段。目前许多数据挖掘平台都采用了基于数据仓库的技术。其中,由DB Miner Technology公司开发的DB Miner平台和由中国科学院计算技术研究所开发的Ms Mine平台就是比较典型的例子”。13火力发电机组的运行特性分析随着电力企业向大型化、自动化方向的发展及电力市场厂网分开、竞价上网的需要,提高发电机组的运行和管理水平,节能降耗,增强企业竞争力,已成为发电企业最为关心的问题。传统的离线热力运行特性分析虽能计算机组的主要运行特性指标,如锅炉热效率、汽轮机热耗率、发电煤耗率、供电煤耗率、高压缸效率、中压缸效率等。但存在很多的缺陷,如试验周期长,测算的指标数据缺乏实时性,对于造成煤耗高的原因、产生的地点和由此造成的经济损失大小不能及时做出判断等。随着火电机组逐渐向大容量高参数方向发展,运行实时采集数据的不断完善,机组在线运行特性分析与优化运行己成为现在火电机组的必然趋势。为此,采用先进的数据仓库、数据挖掘技术等信息技术,结合火电机组自身的特点,开发基于火电机组运行数据仓库的数据挖掘系统,对机组运行状况进行挖掘分析,来发现隐藏在生产数据中有用的知识,为提高火力发电厂的运行和管理水平提供决策支持奠定基础。10华北电力大学硕士学位论文基于火电机组运行数据仓库的数据挖掘系统能够使发电企业从知识数据库中高效地提取信息,发现那些隐藏在数据中的模式(该系统提供分类、预测、回归、聚类、关联等模式)和内涵。使用该系统,能对机组运行的各项特性指标进行在线监测、动态分析和运行优化,从而指导机组的运行和设备、系统的改造,提高机组运行的经济性和安全性。14课题的意义以及主要工作内容本文的研究工作源于上述背景,研究基于火电机组运行数据仓库的数据挖掘系统。把基于火电机组运行数据仓库的数据挖掘系统应用到机组运行特性分析、优化运行和故障诊断中去,为优化运行提供决策指导。为研究方便,本数据挖掘系统采用离线数据分析,并留有与DCS系统相连的数据接口,为以后的在线分析奠定基础。数据仓库与数据挖掘在电力行业中的应用还处于起步阶段,许多问题亟待解决。本课题研究一个基于火电机组运行数据仓库的数据挖掘系统,并探索用该系统分析机组运行的状况,因此整个课题是把数据挖掘技术、数据仓库技术应用到电力系统中的一次尝试。这是一项开拓性的研究课题,既具有一定的理论意义,又具有实际应用价值。本课题的主要研究内容可以分为以下几部分:1数据仓库的研究要构建一个面向火电机组的数据仓库,首先要对数据仓库的概念、基本原理以及OLAP的基本原理进行一定的研究。论文研究了从数据源中提取数据,再到构建数据仓库的元数据,完成元数据的定义和管理。了解和研究数据仓库的体系结构、数据仓库的联机事务处理(OLTP-onLine Transaction Processing)和联机分析处理(OLAP-OnLineAnalytical Processing),这些数据仓库的基本知识对于随后的数据挖掘系统的成功实施起到基础性作用。2数据挖掘技术的研究本论文研究数据挖掘技术在电厂的应用,用数据挖掘技术来解决电厂的实际问题。对数据挖掘技术进行探讨。包括数据挖掘处理模型的研究、数据挖掘算法的研究及数据挖掘应用的研究。3基于数据仓库的数据挖掘展现系统的研究本论文研究基于数据仓库的数据挖掘系统,首先在已有的Oracle lOg平台上构建一个面向火电机组的数据仓库。这个数据仓库具有多维数据模型,包括时间维、主蒸汽压力维、主蒸汽温度维、凝汽器真空维、负荷维、转速维等6个维,采用星形模式来连接事实表和维表。然后,在建立的这个数据仓库的基础上,用Oracle warehousebiulder来进行数据访问,通过对数据仓库中的各个参数的了解,制定自己的挖掘和展现方案。这是基于数据仓库的数据挖掘系统的开发技术流程。11华北电力大学硕士学位论文4Java语言的应用Java是一种面向对象的、独立于平台的安全语言,比C和C+更能避免被误用。面向对象编程(OOP)是一种软件开发方法,它将程序视为一组协同工作的对象。对象是使用被成为类的模版创建的,它们由数据和使用数据所需的语句组成。Java是完全面向对象的。独立于平台指的是无需修改程序便能够运行在不同的计算环境中。Java程序被编译成一种名为字节码的格式,字节码可被任何带有Java解释器的操作系统、软件或设备运行。这也是本文选择Java语言进行开发的理由之一。比方说,我们可以在Windows XP机器上创建Java程序,然后在Linux Web服务器、使用0S x的Apple Mac和Palm个人数字助理上运行它。只要这个平台上安装了Java解释器,便可以运行字节码。这种特性常常被使用者成为“一次编写,随处运行”。但是,在实际使用Java的经验中表明,Java语言在不同平台上的实现总是有一些不兼容和bug。因此也可以说成是“一次编写,到处调试”。虽然这样,Java的平台独立性还是使其在开发那些用于多种操作系统或计算环境的软件时容易很多。Java语言的优点:Java自动负责内存的分配和释放,将程序员从这个繁琐的、复杂的工作中解放出来。Java没有指针,指针是一种功能强大的特性,主要为经验丰富的程序员使用,不过经常被误用。Java只具备面向对象编程的单重继承。Java语言之所以安全的两个关键因素是没有指针且能自动管理内存。另一个因素是运行在Web页上的Java程序只具备该语言的有限的一部分特性,以防止恶意的代码(通常所说的“病毒”)给用户的计算机带来破坏。这个特点在BS结构中表现的尤为突出。虽然本文选择了BS结构,但是安全性也本文选择Java语言的理由之一。Java语言的功能非常强大,其中包括图形,文件输入输出,用户界面设计,事件处理,JavaBean和数据库连接。而且Java语言可以运行在Web页、个人Pc和Web服务器以及其他的计算环境中。在本文中,我们重点用到的是图形、用户界面设计、数据库连接这几个功能。本文选用的是Java2的14版本,它集成的开发环境有很多,比如BorlandJBuilder、Web6ain Visual Cafe、Sun ONE Studio和IBM VisualAge for Java。本文重点使用的是Borland Jbuilder。12华北电力大学硕士学位论文21数据仓库第二章数据仓库和数据挖掘技术211数据仓库的含义及特点“数据仓库”这一技术,最早起源于20世纪80年代初wHInmon”的研究,并存在其“记录系统”、“原子数据”(Atomic Data)和DSS等专题研究报告中。数据仓库的概念是WHInmon在其建立数据仓库一书中提出的。目前它被认为是解决信息技术在发展中一方面拥有大量的数据,另一方面有用信息却很贫乏这种不正常现象的综合解决方案pJ。wHInmon曾对数据仓库做了这样的描述:“数据仓库是20世纪90年代信息技术框架的新焦点,它提供集成化的、历史的数据;它集成种类不同的应用系统;数据仓库从事物发展和历史的角度来组织和存储数据,以提供信息化和分析处理之用”。他在建立数据仓库一书中提出”:“数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用以支持管理决策过程的。(A data warehouse is asubjectoriented,integrated,timevariant,and nonvolatile collect of datain support of managementS decision making process)”。由于WHIninon本人在数据仓库发展中的贡献,他对数据仓库的上述描述不断被其它文献引用,相对地成了一种权威的定义。从数据仓库这一概念的出现到现在,已有20多年的时间了。在这段时间里,不论是在理论方面,还是在应用方面,数据仓库技术都已得到了飞速的发展,对数据仓库的含义也有了更深的理解。通俗的讲,数据仓库就是企业内部一种专门的数据存储,专门用于支持分析型数据查询。WHInmon在建立数据仓库一书中列出了操作型数据和分析型数据的区别,如表21所示,二者的区别从根本上体现了事务处理和分析处理的差异。传统的数据库系统由于主要用于企业的日常事务处理工作,存放在数据库中的数据基本符合操作型特点。而为了适应数据分析处理的要求而产生的数据仓库中存放的数据,基本符合分析型数据的特点。华北电力大学硕士学位论文表21操作型数据和分析型数据的区别操作型数据的特点 分析型数据的特点细节的 综合的、经过提炼的在存取的瞬划是准确的 代表过去的数据可更新 不更新操作需要通常事先可知 分析需求通常事先不知道生命周期符合SDLC 生命周期不符合SDLC对性能(如操作时延)要求高 对性能要求较宽一个时刻操作一个数据单元 一个时刻操作一个数据集合事务驱动 分析驱动面向应用 面向分析一次操作数据量小 一次操作数据量大支持日常操作需求 支持管理需求胃HIninon进而指出了数据仓库面向主题、集成、随时间变化、相对稳定这4个最重要的特征。I数据仓库是面向主题的。传统数据库是面向应用而设计的,它的数据是为了处理具体应用而组织在一起,即按照业务处理流程来组织数据,反映的是企业内数据的动态特征,目的在于提高数据的处理的速度。主题是一个在较高层次将数据进行归类的标准,每一主题基本对应一个宏观的分析领域,满足该领域分析决策的需要。因此,主题的抽取是按照分析的要求来确定的。数据在进入数据仓库之前必须要经过加工与集成,将原始数据结构作一个面向应用到面向主题的大转变。2数据仓库的数据是集成性的。数据仓库的数据主要用于进行分析决策,要对细节数据进行归纳、整理、综合。数据仓库中的数据来自于多个应用系统,但并不是对这些数据的简单汇总或拷贝,因为我们不仅要统一原始数据中的所有矛盾,如同名异义、单位不统一等,而且要将这些数据统一到数据仓库的数据模式上来,还要监视数据源的数据变化,以便扩充和更新数据仓库。应该说数据仓库需对源数据进行增值和统一。数据集成是数据仓库技术中非常关键且非常复杂的内容。3数据仓库的数据具有时间特征。数据仓库随着时间变化要不断增加新的内容,即不断跟踪事务处理系统,将业务数据库的数据变化追加到数据仓库中去。同时也要随着时间变化删去过于陈旧的数据内容。由于数据仓库常用作趋势预铡分析,所以需要保留足够长时间的历史数据(一般为510年)。业务数据库通常只存有3090天的事务处理数据,并且这些历史数据是极少或根本不更新的,般只用于历史信息查询。数据仓库的时间特征表现在用时间码标明数据的历史时期。4数据仓库的数据是相对稳定的。数据仓库是随时问而变化的,但又是相当稳定的。14华北电力大学硕士学位论文数据仓库的这种稳定性指的是数据仓库中的数据主要供企业决策分析之用,决策人员所涉及的数据操作主要是数据查询,一般情况下并不进行数据修改。数据仓库的数据反映的是相当长一段时间内的数据内容,是不同时点数据库快照的集合,以及基于这些快照进行集成、综合而导出的数据,而不是事务型数据。虽然源数据库内的具体事务的处理过程是变化的,但进入数据仓库的数据则是相对稳定的。212数据仓库的体系结构一个典型的企业数据仓库系统通常包含数据源、数据存储与管理、OLAP、DM引擎以及前端工具与应用四个部分。如图21所示:数仓J-t1i体系结构、_一、_。_-_一_,_-,_-r。_一数据_i露l 数据存储与管理OL-¥-P,DM弓I藏前端工其瓣应用图21数据仓库系统体系结构数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于企业操作型数据库中(通常存放在RDBMS中)的各种业务数据和办公自动化(oA)系统包含的各类文档数据。外部信息包括各类法律法规、市场信息、竞争对手的信息以及各类外部统计数据及各类文档等。数据的存储与管理:是整个数据仓库系统的核心。在现有各业务系统的基础上,对数据进行抽取、清理,并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构,同时组织存储数据仓库元数据(具体包括数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息)。按照数据的覆盖范围,数据仓库存储可以分为企业级数据仓库和部门级数据仓库(通常称为“数据集市”,DataMart)。数据仓库的管理包括数据的安全、归档、备份、维护、恢复等工作。这些功能华北电力大学硕士学位论文与目前的DBMS基本一致。OLAP、DM引擎:对分析需要的数据按照多维数据模型进行再次重组,以支持用户多角度、多层次的分析,发现数据趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;而HOLAP是ROLAP与MOLAP的综合,基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。前端工具与应用:前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具以及各种基于数据仓库或数据集市开发的应用。本课题主要涉及的是数据的分析工具和查询工具。213数据仓库的关键名词及处理过程下面我们沿着数据的流向详细说明数据在数据仓库处理的过程,以及一些关键的名词。1数据提取(Data Extraction)从数据仓库的角度来看,并不是业务数据库中的所有数据都是决策支持所必须的。通常数据仓库按照分析的主题来组织数据,我们只需提取出系统分析所必需的那一部分数据。例如,要分析凝汽器的相关数据,就没有必要对从DCS得到的全部数据都进行提取分析,只需要和凝汽器有关的参数就可以。这样,使工作更有针对性和效率性。2数据清洗由于企业常常为不同的应用对象建立不同的业务数据库,比如,电厂Des系统的传感器有很多,传感器偶尔出现失效是比较正常的现象,而失效后错误的数据也被传到了数据库中,如果该时间段的数据是被分析的对象,那这些错误的数据就需要进行处理,从而不影响正常的分析。对于决策支持系统来说,最重要的决策的准确性,因此确保数据仓库中的数据的准确性是极为重要的。从多个业务系统中获取数据时,必须对数据进行必要的清洗,从而得到准确的数据。数据清洗就是将错误的、不一致的数据在进入数据仓库之前予以更正或删除,以免影响决策支持系统决策的正确性。3数据转化由于业务系统可能使用不同的数据库厂商的产品,各种数据库产品提供的数据类型可能不同,因此需要将不同格式的数据转换成统一的数据格式。比如,应分析的需要,有时候要将数值型数据转化成开关量数据。而且,分析结束后,开关量数据也能够转化成原来的数值型数据。4提取仓库16华北电力大学硕士学位论文由于业务数据库系统中的数据和数据格式存在不一致的问题,因此在将数据放进数据库前需要进行缓存,以等待清洗和转换。5提取日志同数据库的日志类似,从业务系统提取数据时,需要记录提取数据的过程,这个过程被记载在提取日志中。提取日志详细记录了数据的来源,数据的转换过程等,它是数据仓库元数据的重要组成部分,它对于保证数据质量非常重要,并且便于数据管理员验证数据的质量。6外部数据源外部数据源就是从系统外部获取的同分析主题相关的数据。对于一个好的决策,不但需要系统内部的信息,还需要来自系统外部的相关信息。因此,一个好的决策支持系统必须综合考虑系统内部和外部的相关数据。7数据仓库存储数据仓库存储就是用于存放数据仓库数据和元数据的存储空间。8数据业务系统中提取的或者从外部数据源中导入的数据经过清洗、转化后成为数据仓库的原始数据,需要注意的是,它们是数据仓库数据的一部分,但不是全部。由于需要对数据仓库进行OLAP分析和数据挖掘,因此需要在原始数据的基础上增加冗余信息,比如进行大量的预运算,建立多维数据库,以求迅速的展现数据。9元数据数据是对事物的描述,“元数据”就是描述数据的数据,它提供了有关数据的环境。比如与读取相关的元数据,它包含数据库系统的所有存储信息、各个数据库和数据表中的字段信息、数据表之间的关联信息、数据索引约束等待。数据仓库的元数据主要包含两类数据:第一种是为了从操作型环境向数据仓库环境转换而建立的元数据,它包括所有源数据项的名称、属性以及在提取仓库中的转化;第二种元数据在数据仓库中是用来与最终用户的多维商业模型和前端工具之间建立映射的,这种数据成为决策支持元数据。10数据集市数据仓库中存放的是整个企业的信息,并且数据是按照不同的主题来组织的,比如设备状态监测与预知维修分析主题主要是由电厂有关设备管理人员使用,我们可以将这部分数据在逻辑上或者物理上分离出来,当设备管理不使用数据时,不需要到数据仓库的巨量数据中检索,而只需在这些数据上进行分析,因此从效率和处理速度的角度出发,这种划分是合理的。把这种面向企业中的某个部门(主题)的,在逻辑上或者物理上划分出来的数据仓库的数据子集称为数据集市。17华北电力大学硕士学位论文214数据仓库的相关概念2141事实表在数据仓库模型中事实表中存储了大量的事实数据,一般事实表中都包含事实表和与维表相关联的外键。事实数据通常是指能用来被分析的数值型数据。在本文中比如说汽包压力、凝结水流量、锅炉负荷、过热器出口蒸汽压力等。DCS产生的实时数据基本上都是事实数据。这些数据日积月累,数量庞大。2142维表维是把数据分类的一种结构,经常由一个或多个层次所组成。在数据仓库中维表包含的是一些相对静态的数据。它们的内容一般变化不大,数量也相对较小。维表中存储的信息常常被用在查询之中。维表中包含的是文本性和描述性的数据。在本文中使用时间、负荷、压力等来作为维。2143层次层次是一种用来组织级别的逻辑结构。一个层次能被用来定义一个数据的汇总。例如在一个时问维中,一个层次可能是一个从月级别到季度级别到年级别的汇总数据。在一个层次内,每个级别都是从逻辑上联结到它上下层级别。低级别的数据值能够被汇总到更高一级的级别中。一个维由一个或几个层次构成。2144级别一个级别代表了在层次中的一个位置。例如,一个时间维有一个层次它包括月,季度、年三个级别。在维中级别被组织成为一个或多个层次。通常我们把一个层次中不同两个级别间的关系定为父子关系。典型的维、层次、级别结构如图23所示:年Jl季度U月图22典型的维、层次、级别结构年、季度、月就是级别。按照“年季度专月”这样组织起来的就是一个层次。可能还有另外的层次,这些层次组织在一起就构成了一个维。2145粒度粒度是数据仓库的重要概念,它是数据仓库中保存数据的细化或综合程度的级别。粒度可以分为两种形式,第一种粒度是对数据仓库中的数据的综合程度高低的一个18华北电力大学硕士学位论文度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。在数据仓库中,多维粒度是必不一可少的。由于数据仓库的一个主要作用是联机分析,因而绝大多数查询都基于一定程度的综合数据之上的,只有极少数查询涉及到细节。所以应该将大粒度数据存储于快速设备如磁盘上,小粒度数据存于低速设备如磁带上。还有一种粒度形式,即样本数据库。它根据给定的采样率从细节数据库中抽取出一个子集。这样样本数据库中的粒度就不是根据综合程度的不同来划分的,而是由采样率的高低来划分,采样粒度不同的样本数据库可以具有相同的数据综合程度。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。粒度越小,数据仓库回答问题的能力就越强,但查询和汇总所要花费的时间也越长,反之,粒度越大,数据仓库回答问题的能力就越弱。数据的粒度和查询效率是矛盾的,细小的数据粒度可以保证信息访问的灵活性,但却降低了查询效率并占用大量存储空间,数据模型的设计必须既可以提供足够详细的数据支持,又能保证查询的效率。本数据仓库采用了双重粒度的设计。一种粒度是以秒级为单位保存DcS系统所产生的数据,是为了能够回答诸如“Whatif”之类的问题。一种粒度是经过轻度汇总的事实。以分钟为单位保存,它可以快速回答需要被聚集汇总类的查询。这两种粒度的事实共享所有维。215数据抽取、转换、清洁在数据仓库构筑中,工作量最大是从业务数据库向数据仓库抽取、清洁、变换、集成数据的作业。原因是为了从各种不同种类和形式的业务应用抽取、变换、集成数据,并将其存储到数据仓库,要求要对数据的质量进行维护和管理。ETL I具就是在数据的抽取处理之后,进行数据的“净化提炼”处理。所谓数据的“净化提炼”就是对从多个不同业务数据库所抽取的数据,进行数据项名称的统一、位数的统一、编码的统一和形式的统一,消除重复数据。现在ETL工具的功能越来越高级。它具有支持数据的“净化提炼”功能、数据加工功能和自动运行功能(包括处理过程的监控、调度和外部批处理作业的启动等),支持多种数据源,能自动实现数据抽取。其次是数据中心构筑方式的进展。数据仓库是面对整个企业的数据应用,而针对各个部门的信息应用是构筑数据中心。数据中心的数据是按部门从数据仓库中抽取,并进行加工处理。数据中心构筑工具,就是提供从数据仓库自动进行数据的抽出、变换功能,具有ETL功能,可以大幅提高运行效率。如果数据挖掘直接从事务数据库上获取初始数据,需要进行ETL过程。如果数据挖掘从数据仓库上获取数据,则可能根据需要对数据进行抽样、取舍、规约等等转换工作,同样可以采用ETL方法和工具。表22是本文涉及的数据仓库的主要字段:19华北电力大学硕士学位论文表22数据仓库的主要字段名称 数据类型 大小 小数位时间 DArE负荷 NUMBER 12 4汽机转速 NUMBER 12 4主蒸汽温度 NUMBER 12 4主蒸汽压力 NUMBER 12 4凝汽器真空 NUMBER 12 4凝结水流量 NUMBER 12 4凝结水泵入口温度 NUMBER 12 4冷凝器循环水入口温度 NUMBER 12 4冷凝器循环水出口温度 NUMBER 12 4循环水泵电流 NUMBER 12 4汽机排汽温度 NUMBER 12 4四级加热器出口温度 NUMBER 12 4除氧器入口蒸汽温度 NUMBER 12 4除氧器入口蒸汽压力 NUMBER 12 4除氧器压力 NUMBER 12 4除氧器箱温度 NUMBER 12 4六号高加入口温度 NUMBER 12 4过热器出口蒸汽压力 NUMBER 12 4末级热器出口蒸汽温度 NUMBER 12 4再热器出口温度 NUMBER 12 4高温再热器蒸汽温度 NUMBER 12 4高压缸差胀 NUMBER 12 4低压缸差胀 NUMBER 12 4。 气缸膨胀 NUMBER 12 4转子偏心度 NUMBER 12 4一号轴振动 NUMBER 12 4二号轴振动 NUMBER 12 4三号轴振动 NUMBER 12 4四号轴振动 NUMBER 12 4五号轴振动 NUMBER 12 4六号轴振动 NUMBER 12 4七号轴振动 NUMBER 12 4一号轴承乌金温度 NUMBER 12 4二号轴承乌金温度 NUMBER 12 4三号轴承乌会温度 NUMBER 12 4四号轴承乌金温度 NUMBER 12 4五号轴承乌金温度 NUMBER 12 4六号轴承乌金温度 NUMBER 12 4七号轴承乌金温度 NUMBER 12 4号冷却油回油温度 NUMBER 12 4华北电力大学硕士学位论文二号冷却油回油温度 NUMBER 12 4三号冷却油回油温度 NUMBER 12 4四号冷却油回油温度 NUMBER 12 4五号冷却油回油温度 NUMBER 12 4六号冷却油回油温度 NUMBER 12 4七号冷却油回油温度 NUMBER 12 4汽包水位 NUMBER 12 4凝汽器水位 NUMBER 12 4除氧器水位 NUMBER 12 4A磨煤机电流 NUMBER 12 4B磨煤机电流 NUMBER 12 4C磨煤机电流 NUMBER 12 4D磨煤机电流 NUMBER 12 4E磨煤机电流 NUMBER 12 4A一次风机运行 NUMBER 12 4B一次风机运行 NUMBER 12 4全火焰丧失 NUMBER 12 4转速分布 VARCIAR2 20负荷分布 VARCFAR2 20216用OWB建设数据仓库2161 0raoIe Warehouse Bu;Ider简介Oracle Warehouse Builder(以下简称OWB)是Oracle公司于1998年宣布的一个用于帮助企业构建数据仓库的集成工具。OWB将从前各自分离的产品提供的功能集成到一个公共的环境。这些功能包括:数据模型构造和设计、数据提取、移动和装载(CTL)、元数据管理、分析工具的整合以及数据仓库的管理。OWB提供了一个框架将数据仓库的各个部分包括关系数据库服务器、多维数据库服务器和前端分析工具相结合,从而产生了一个紧密集成、全面的数据仓库和商业智flE(mS)解决方案。OWB减少了企业建设数据仓库的时间、成本和工作量。开发项目小组成员现在可以在一个单一的环境来实施和管理复杂的数据仓库系统。2162配置0racIe Warehouse Bui Ider资料档案库在开始使用Warehouse Builder之前,必须已经在数据库中建立了Warehouse Builder的资料库,它是用来存储Warehouse Builder元数据的。首先以管理员身份登录,然后创建专用的OWB用户名密码,并提供表空间等信息,最后定义基本语言选项即可完成。OWB资料库其实就是用来存储在OWB中所有建立的关于数据仓库事实表,维表,立方体的元数据的。如图2-3所示为设置好资料库情况后的概要界面。2l华北电力大学硕士学位论文图2-3创建0WB资料库的概要界面2163事实表和维表的设计21631事实表的设计在OWB中创建事实表的过程比较简单,可直接利用向导建立。如图24所示。华北电力大学硕士学位论文图2q新建表向导步骤一:欢迎使用上图综述了创建一个表所需的步骤,选择下一步进入表的名称的设计。图24表的名称设计接着是表的列名、数据类型、长度等属性的设计,如图25所示华北电力大学硕士学位论文图2-5表的列的设置最后建成之后的事实表属性如图2-6所示:21632时间维的设计图2-6事实表结构华北电力大学硕士学位论文在维节点,选择创建维,然后利用向导创建维。下面以创建时间维为例来说明使用OWB创建维和生成代码的详细过程:创建向导的欢迎使用界面如图27所示图2-7欢迎使用界面键入所创建维度的名称如图28所示图2-8维的名称设计键入所要创建的级别如图2-9所示:华北电力大学硕士学位论文图2-9设计时间维的级别如图210所示,配置级别的属性图2-10级别属性的设计在完成了每个级别的前缀和说明以后选择下一步进入维的层次的设计向导。键华北电力大学硕士学位论文入所要定义的层次如图211所示图2一n层次的设计这一步是对维的层次进行设计,由前面部分的探讨可以得知:层次是对级别进行组织的一级单位。在这罩如图所示设计了一个层次:时间层次。完成之后选择下一步,进入维的级别关系的设计。定义级别和层次之问的关系如图212:图2一12级别设计上图即是对维的级别关系进行设计。秒专分钟小时专日专月专年构成了“时华北电力大学硕士学位论文间层次”,选择下一步,就可以看到设计好的时间维的概要说明,如图213所示。对前几步所做工作的概要说明,查看无误之后点击完成就完成了时问维的创建工作:图2-13时间维的概要说明图213是设计好的时间维的概要说明。从中看到时问维的名称是dtime,维有秒、分钟、小时、日、月、年这六个级别,以及“时间层次”这一个层次,这就是使用OWB向导创建时间维的全过程。时问维可以在多个事实表中共享。21633负载维、转速维的设计和时间维的创建不太一样,负载维、转速维的创建需要结合更多专业知识的考虑,下面我以转速维的创建为例进行创建。我们将转速维划分为三个级别:低级别、次级别、高级别。其中,我们把低级别划分为0350转分、350500转分、5001800转分、18002005转分、20052950转分、29503005转分、超过3005转分等7部分,分别可能代表了7种不同的汽机状态。0350转分一般是启机或停机阶段,350500转分是启机过程中,低速暖机检查各类仪表阶段;5001800转分是冲转的过程,这一过程非常迅速,要避开临界转速,以免振动过大;18002005转分是中速暖机阶段,这个时间段要做好各种检查等;20052950转分是冲转过程;29503005转分是机组正常运行时的转速;超过3005转分就属于超速状态,需要特别注意阶段。这个划分必须根据机组的实际情况,以及管理层的需要来划分。不同容量的机组,不同的需要,都可能导致不同的转速划分,级别的划分要根据最有效原则进行。次级别划分为低28华北电力大学硕士学位论文速、中速和高速,其中,低速是0350转分、350500转分、5001800转分的父级别,依此类推,中速、高速各有两个子级别。次级别的划分也是根据需要来划分,比如可以把5001800转分划入中速的子级别。最后,高级别即为总转速,它有低速、中速、高速三个子级别。低级别、次级别、高级别构成了负荷维的层次。22数据挖掘技术221数据挖掘技术的含义及特点数据挖掘(Data Mining)Iml就是从大量数据中发现潜在规律、提取有用知识的方法和技术。因为与数据库密切相关,又称为数据库知识发现(Knowledge Discovery inDatabases,KDD)。数据挖掘不但能够学习已有的知识,而且能够发现未知的知识;得到的知识是“显式”的,既能为人所理解,又便于存储和应用,因此一出现就得到广泛的重视。到目前为止,对数据挖掘还没有统一的定义。目前可见到的有关名词除了数据挖掘外,还有“知识抽取”(Information Extraction)、“信息发现”(InformationDiscovery)、“知识发现”(Knowledge Discovery)、“智能数据分析”(Intelligent DataAnalysis)、“信息收获”(Information Harvesting)等。数据挖掘技术是数据库时代的产物。随着数据库技术的飞速发展以及人们获取数据手段的多样化,人类所拥有的数据急剧增加。可是目前对于这些数据进行处理的工具却很少。数据库系统所能做到的只是对数据库中已有的数据进行存取和简单的操作,通过对数据进行上述处理所获得的信息量是很少的,仅仅是整个数据库所包含的信息量的很少一部分,隐藏在这些数据之后的更重要的信息是关于这些数据的整体特征的描述及对其发展趋势的预测。这些信息在决策制定的过程中具有重要的参考价值。那么,怎样从数据中有效地提取信息,从信息中及时地发现知识,从而为人类的思维决策和战略发展服务,就成为人们迫切需要解决的问题。正是这样的大背景下,数据挖掘(Data Mining)技术应运而生,并逐步显示出强大的生命力。数据挖掘是一门涉及范围很广的交叉学科,它汇集了数据库、人工智能、数理统计、可视化、并行计算等方面的知识。从大量数据中挖掘和发现有价值和隐含的知识,近年来得到国内外极大重视和研究。国外一些著名的科研机构已研究开发出第一代产品。例如: IMMmaden研究中心的Quest等。数据挖掘和知识发现技术已应用于工业、商业、金融、医学、行政管理等领域,如:模糊控制器的建模、故障诊断的建模、I)NA序列分析、金融数据预测、关联特征分析等。美国的信用卡公司和银行通过从客户数据库中挖掘和发现信用卡欺诈或贷款中坏账对象的特征,从而调整其相关政策以减少金融风险14l华北电力大学硕士学位论文222数据挖掘的处理过程数据挖掘是一个需要经过反复的多次处理过程。在实施数据挖掘之前,需要决定采取什么样的步骤,每一步骤做什么,确定达到什么样的目标。有了好的计划才能保证数据挖掘有条不紊的实施并取得成功。研究数据挖掘的处理过程模型就是为了这个目的。合理的处理过程模型能将各个处理阶段有机的结合在一起,指导人们开发和使用数据挖掘系统。许多人把数据挖掘视为数据库知识发现的一个重要步骤,对数据挖掘的处理过程进行了归纳和总结,提出不同的数据处理过程模型。其中Gregory Piateskyshaoiro等人给出了多处理阶段模型是一种通用模型弘1(如下图2-14所示),也是一种最广为接受的一种处理模型。图2一14数据挖掘多处理阶段模型这个处理过程主要包括以下一些处理步骤【3sJ:1数据选取。根据用户的要求从数据库中提取与数据挖掘相关的数据,数据挖掘将主要从这些数据中提取知识。在此过程中,会利用一些数据库操作对数据进行处理,形成真实数据库。比如,要针对汽机系统的凝汽器的相关数据进行分析,就只需要选取凝汽器的相关参数,而DcS数据中的其他数据都可以排除在外,使工作更有针对性。2数据预处理。主要是对第一步产生的数据进行再加工,检查数据的完整及数据的一致性,对其中的噪音数据进行处理,对丢失的数据利用统计方法或者其他方法进行填补,形成挖掘数据库。比如,DES系统中传感器失灵是正常的事情,这时从现场传过来数据就出现各种失真错误,所以,有必要对这些失真的数据进行预处理。3确定数据挖掘的目标。根据用户的要求,明确数据挖掘要发现何种知识。因为对数据挖掘的不同要求会导致在具体的知识发现过程采用不同的知识发现算法。4确定知识发现算法。根据第三步所确定的任务,选择合适的数据挖掘算法,包括30华北电力大学硕士学位论文选取合适的模型和参数,并使得数据挖掘算法与整个数据挖掘的评价标准相一致。5数据挖掘。运用选定的数据挖掘算法,从数据中提取出用户所需的知识,这些知识可以用一种特定的方式表示或使用一种常用的表示方式,如可视化技术。6知识解释与评价。这一过程主要是对所获取的规则进行解释与评价。根据某种兴趣度度量,识别表示知识的真正有趣的模式,这一步主要依靠专家的经验来完成。223基于数据仓库的数据挖掘数据仓库是面向决策分析的,数据仓库从事务型数据中抽取并集成得到分析型数据后,需要各种决策分析工具对这些数据进行分析和挖掘,以便得到有用的决策信息。而数据挖掘技术恰恰具备从大量的数据中发现有用信息的能力,于是数据挖掘就自然成为数据仓库中进行数据深层次分析的一种必不可少的手段。数据挖掘往往依赖于经过良好组织和预处理的数据源,数据的好坏直接影响着数据挖掘的效果,因此数据的前期准备是数据挖掘过程中的一个非常重要的阶段。而数据仓库具有从各种数据源中抽取数据,并对数据进行清洗、聚集和转换等各种处理的能力,这又恰好为数据挖掘提供了良好的进行前期数据准备工作的环境。综上所述,数据仓库和数据挖掘的结合己成为必然趋势。数据仓库为数据挖掘提供经过良好预处理的数据源,而数据挖掘又为数据仓库提供深层次数据分析的手段。目前许多数据挖掘平台都采用了基于数据仓库的技术。其中,由DB Miner Technology公司开发的DB Miner平台和由中国科学院计算技术研究所开发的Ms Mine平台就是两个典型的例子”。下面简单介绍一下基于数据仓库的数据挖掘的体系结构:与传统的数据库相比,数据仓库具有无可比拟的优越性。因为存储在数据仓库中的数据具有如下特征。1是面向主题的:这是与传统数据库面向应用相对的。主题是一个在较高层次将数据归类的标准,每一个主题基本上对应一个宏观的分析领域。2是集成的:数据仓库中的数据在进入数据仓库之前,必然要经过加工与集成,将原始数据结构做一个从面向应用到面向主题的转变。3是稳定的:数据仓库中的数据主要供决策分析之用,所涉及的操作主要是数据查询,一般不进行修改操作。4是随时间变化的:数据仓库中的数据虽然不是实时更新的,但并不是永远不变的,也要随时间的变化而不断地更新、增删和重新综合。5是大量的:数据仓库的数据量一般为IOGB左右,大型数据仓库甚至达到了TB级,是普通数据库的数据量的100倍。可见,数据仓库在纵向和横向都为数据挖掘提供了更广阔的活动空间。一方面,数据仓库完成了数据的收集、集成、存储、管理等工作,使31华北电力大学硕士学位论文得数据挖掘面对的是经过初步加工过的数据,从而更加专注于知识的发现;另一方面,由于数据仓库所具有的新的特点又对数据挖掘提出了更高的要求。因此,数据挖掘要充分发挥其潜力,就必须和数据仓库相结合。下面分别介绍各主要模块的功能。1数据挖掘系统管理器:数据挖掘系统管理器控制并管理知识发现过程。分析员的输入和知识库中的信息,用于驱动以下三个过程:数据选择过程、挖掘算法的选择和使用过程、模式评估过程。2知识库和分析员的输入:知识库源于多方面的必须的信息。分析员可以将元数据输入到数据仓库中,以便描述数据仓库的数据结构。此外,分析员还要在知识库中输入其它相关的数据知识,如数据的关键字段、需求规则、数据层次等,以便按一种有效的方式指导信息的发现,减少可能丢失的有用模式和关系;分析员还要做出权衡,存储新的发现结果,以提高知识发现的能力。3DB接口(数据仓库的数据库接口):数据挖掘系统利用数据库的查询机制从数据仓库中抽取数据。知识库中的元数据指导数据库接口正确地组织数据结构以及数据结构在数据仓库中的存储方式。4数据选择:确定从数据仓库中需要抽取的数据及数据结构。知识库指导数据选择构件选择要抽取的数据及抽取的方式。如果只需要示例数据,数据选择构件必须有能力选择恰当的随机示例。此外,它还要选择算法所需的数据类型,并将数据类型输入到算法中。5知识发现引擎:知识发现引擎将知识库中的挖掘算法提供给数据选择构件抽取的数据,其目的是要挖掘数据元素间的模式和关系。主要使用的方法有信息论的方法集合论的方法、仿生物的方法、公式发现的方法统计分析的方法等pl。6模式评估:分析员根据某种兴趣度度量识别表示知识的真正有趣的信息模式。用于模式评估的技术有支持度度量、置信度度量等。可视化技术:可视化技术采用直观的图形方式将信息模式、数据的关联或趋势呈现给决策者。下面介绍一下基于数据仓库的数据挖掘的主要特征:由于数据仓库本身具有与一般数据库不同的特点,使得基于数据仓库的数据挖掘技术具有了许多新的特征,这些新的特征主要体现如下四个方面。1规模庞大:数据仓库中集成和存储着来自若干分布、异质的信息源的数据。这些信息源本身就可能是一个规模庞大的数据库,可想而知数据仓库会有比一般数据库系统更大的数据规模。目前数据仓库的规模一般都超过50GB,将来会更大。如何从如此巨量的数据中有效地提取出有用信息,需要各方面技术的进步。从当前发展来看,支持并行处理的分布式DBMS、具有大规模并行处理(MPP)能力的计算机、超大规模的存储机构等华北电力大学硕士学位论文技术的发展和协同将使数据仓库走向实用。但要进行数据挖掘我们还必须发展更有效、更快速的算法,因为我们面对的是巨大的数据的“山脉”,要从中找到有价值的矿藏必然难度更高。2历史数据丰富:传统的数据库系统为了获得最大的执彳亍效率,往往存储尽可能少的数据量。因为拥有的数据越多,数据组织、重构、浏览,索引和监控的难度越大。传统数据库系统在“时间”轴上的长度很有限。比较而言,数据仓库的根本特征之一就是进行长时间的历史数据存储,这使得我们可以进行数据长期趋势的分析。数据仓库为决策者的长期决策行为提供了独一无二的支持。数据仓库中的数据在时间轴上的纵深性是数据挖掘不能回避的又一个新难点。3数据集成和综合性高:从一个企业的角度看,数据仓库集成了企业内各部门的全面的、综合的数据。数据挖掘要面对的是关系更复杂的企业全局模式的知识发现。从这一点上讲,基于数据仓库的数据挖掘能更好地满足高层战略决策的要求。而且,数据仓库机制大大降低了数据挖掘的障碍,一般进行数据挖掘要花大量的力量在数据准备阶段。而在数据仓库中数据已经被充分收集起来,并进行了整理、合并,有些甚至还进行了初步的分析处理。这样,使得数据挖掘能更专注于知识的发现。另外,数据仓库中对数据不同粒度的集成和综合,更有效地支持了多层次、多类别的知识挖掘。4实时的查询支持:数据仓库是面向决策支持的。数据仓库的体系结构努力保证查询和分析的实时性。而一般的联机事务处理系统主要要求更新的实时性,对查询的性能要求相对较弱。一般的数据仓库设计成只读方式,最终用户不能直接更新数据仓库。数据更新由专门的一套机制保证,通常由系统自动更新和管理员控制来协同完成。数据仓库对查询的强大支持使得数据挖掘的效率更高、挖掘的过程实时交互,使得决策者的思维保持连续,进而有可能挖掘出更深入、更有价值的知识。海量数据的产生和收集导致了信息爆炸。现代社会的竞争趋势要求对这些数据进行实时的和深层次的分析。虽然现在有了更强大的存储和检索系统,但是使用者发现在分析和使用所拥有的信息方面变得越来越困难。数据仓库提供了容纳大量信息的场所,但只有和数据挖掘技术的应用结合起来才能最终解决用户的困惑,使用户能够从海量繁杂的数据中找出真正有价值的信息和知识。随着数据仓库和数据挖掘集成的进一步深化,必然给用户带来更大的利益。224数据仓库、OLAF与数据挖掘的关系在数据仓库技术中,数据仓库、联机分析处理和数据挖掘是紧密联系,相互关联的。一方面,数据仓库是联机分析和数据挖掘的数据基础,为后两者提供了有效的数据来源,虽然进行联机分析处理和数据挖掘不一定非要建立数据仓库,但是建立在数据仓库之上的联机分析处理和数据挖掘是最容易和最有效果的;另一方面,只有通过联机分析处理华北电力大学硕士学位论文和数据挖掘才能充分地发挥数据仓库的价值,否则数据仓库的起不到决策支持的作用。OLAP与数据挖掘都属于分析型工具,但两者之间有着明显的区别。OLAP是一种自上而下、不断深入的分析工具。用户提出问题或假设,OLAP负责从上至下深入地提取出关于该问题的详细信息,并以可视化的方式呈现给用户。与DM相比,OLAP更多地依靠用户输入问题和假设,但用户先入为主的局限性可能会限制问题和假设的范围,从而影响最终的结论。因此,作为验证型分析工具,OLAP更需要对用户需求有全面而深入的了解。蹦是一种挖掘型工具,它能自动地发现隐藏在数据中的模式(Pattern)。DM是一种有效地从大量数据中发现潜在数据模式、作出预测的分析工具,它是现有的一些人工智能、统计学等成熟技术在特定的数据库领域中的应用。喇与其他分析型工具最大的不同在于:它的分析过程是自动的。DM的用户不必提出确切的问题,而只需DM去挖掘隐藏的模式并预测未来的趋势,这样更有利于发现未知的事实。实际上,但两者最关键的区别在于信息挖掘过程是否是自动的。从对数据分析的深度来看,OLAP位于较浅的层次,而嗍所处的位置则较深。叫可以发现OLAP所不能发现的更为复杂而细致的信息。尽管蹦与oLAP存在着上面的差异,但作为数据仓库系统的工具层的组成部分,两者是相辅相成的。并且,随着OLAP的发展,OLAP与DM问的界限正在逐渐模糊,两者之间正在快速的融合。23软件介绍本课题涉及的软件功能介绍如下:1Macromedia Dreamweaver 8是建立Web站点和应用程序的专业工具。它将可视布局工具、应用程序开发功能和代码编辑支持组合在一起,其功能强大,使得各个层次的开发人员和设计人员都能够快速创建界面吸引人的基于标准的网站和应用程序。从对基于CSS的设计的领先支持到手工编码功能,Dreamweaver提供了专业人员在一个集成、高效的环境中所需的工具。开发人员可以使用Oreamweaver及所选择的服务器技术来创建功能强大的Internet应用程序,从而使用户能连接到数据库、Web服务和旧式系统。2JCreator是一款强劲的Java IDE工具。它为用户提供了大量功能,例如:项目管理、工程模板、代码完成、调试接口、高亮语法编辑、使用向导以及完全定制的用户界面。用户可以使用它直接进行编译或运行你的Java程序,而不需要先开主要文档。JCreator将自动查找文件于main方法或html文件以支持java小应用程序,然后启动相应的工具。3J2sdk是Java的开发环境包,它包含JDK(开发工具包)和JRE(运行时环境包),JDK包含JRE JDK是开发人员必装软件,JRE是客户端运行时必装软件,J2SDK就是JDK,34华北电力大学硕士学位论文J2JRE就是JRE,Jcreator是开发Java的软件(推荐使用),开发Java也可以用记事本开发原程序。4Tomcat是一个免费的开源的Serlvet容器,它是Apache基金会的Jakarta项目中的一个核心项目,由Apache,Sun和其它一些公司及个人共同开发而成。由于有了Sun的参与和支持,最新的Servlet和Jsp规范总能在Tomcat中得到体现。与传统的桌面应用程序不同,Tomcat中的应用程序是一个WAR(WebArchive)文件。WAR是Sun提出的一种Web应用程序格式。下面介绍本课题开发过程中涉及的语言:1JsP通过一个JSP Servlet读取编译成为Java源文件再用javac编译成class文件执行(JSP不是解释执行的)。这个JSPServlet本身就是一个Servlet,对于相应的JSP的请求是被送到了这个Servlet,这个Servlet再读取jsp文件编译执行。其次,jsp其实是建立在Servlet的基础上的。其实jsp的运行效率就是Servlet的运行效率。所有的jsp最终都被编译成为Servlet。当JSPServlet接收到请求后,如果你设置了使用最新的jsp的话,它就会去找jsp文件,检查jsp文件在上次编译后是否改动过,如果改动的话,就会重新编译,最终还是会把请求转交给编译好的Servlet去运行的。2JavaBean是一种JAVA语言写成的可重用组件。为写成JavaBean,类必须是具体的和公共的,并且具有无参数的构造器。JavaBeans通过提供符合一致性设计模式的公共方法将内部域称为属性(数据仓库中称为字段)。众所周知,属性名称符合这种模式,其他Java类可以通过自省机制发现和操作这些JavaBean属性。用户可以使用JavaBean将功能、处理、值、数据库访问和其他任何可以用java代码创造的对象进行打包,并且其他的开发者可以通过内部的JSP页面、Servlet、其他JavaBean、applet程序或者应用来使用这些对象。用户可以认为JavaBean提供了一种随时随地的复制和粘贴的功能,而不用关心任何改变。JavaBean是Sun微系统的一个面向对象的编程接口,它可以让你建可重用应用程序或能在网络中任何主流操作系统平台上配置的程序块,称作组件。像Java applet一样,JavaBeans组件(或“Beans”)能够给予万维网页面交互的能力,例如:计算感兴趣的比率或是根据用户或浏览器的特性改变页面内容。为本课题长远着想,为方便日后对该系统的修改,使用JavaBeans这一组件是正确的。24本章小结本章主要介绍了以下内容:1数据仓库产生的背景、数据仓库的含义及特点、数据仓库的体系结构以及联机分析处理(OLAP)的一些相关知识和概念。通过对数据仓库的这些基本知识的介绍及其电厂数据仓库的一些概念性的介绍,为本课题以后的数据挖掘展现做好理论基础。35华北电力大学硕士学位论文2介绍了数据挖掘技术产生的背景、数据挖掘的处理过程、数据挖掘的功能模式以及需要把数据仓库和数据挖掘相结合的必然性、相应的体系结构和特征。在本章通过对数据挖掘技术的总结和研究,建立了数据挖掘体系的相关模型。加强了数据挖掘的了解,为下一章的数据仓库的数据挖掘展现系统的讲解奠定了理论基础。3本章还简单介绍了本课题需要用的到各种开发软件及插件的功能,为下一章的系统开发做好准备工作。本论文的目标是构建一个基于火电机组数据仓库的数据挖掘展现系统,要开发一个数据挖掘系统,就必须了解和掌握整个数据挖掘的基本知识和相关概念,再结合火电机组的特点,对数据仓库里面的生产数据进行有效的挖掘分析,发现一些蕴涵在海量数据中里面的有用的知识,为优化运行和生产管理提供决策支持。下一章将介绍整个系统的研究过程和流程。华北电力大学硕士学位论文第三章基于电厂数据仓库的数据挖掘系统平台的研究31前言在掌握和理解数据仓库、数据挖掘的基础上,研究一套基于火电机组运行数据仓库的数据挖掘展现系统是本课题的目标,探索性地建立火电机组运行数据仓库,首先建立面向运行特性分析主题的数据仓库,随后逐步完善其它的相关主题的数据仓库。在数据仓库的基础上,研究一套基于火电机组运行数据仓库的数据挖掘系统平台。该平台一旦正式完善结束之后,规模将十分庞大。采用的是BS网络化结构,不但可以运用到电厂级的分析和数据调用,甚至可以安装到各个集团公司总部,可以使集团公司对自己的各个电厂项目的运行和生产进程有全面的了解和现在分析。而本论文所做的工作只是这一平台的很少一部分,主要工作是搭建了该系统平台的基本构架,另外针对凝汽器部分实现了计算分析模块。挖掘展现系统的设计涉及问题较多,主要包括项目的需求分析和目标分析、系统结构设计、0LAP模型设计、数据挖掘的设计等几大部分。本章将详细介绍整个系统的研究过程以及系统的功能。32本课题的需求与分析及准备工作一个新的软件开发要有几个基本的步骤:需求确认概要设计详细设计编码单元测试集成测试系统测试一维护需求确认:需求规格说明书概要设计:系统用例图,用例场景详细设计:系统设计报告,数据库设计报告测试:测试用例报告因为本文只是对该系统做初步的开发研究,所以有些步骤做的不是很完整,甚至有些还没有考虑,比方说集成测试、系统测试、维护。321本课题项目需求因为本课题主要是针对电厂DCS的数据进行的处理,所以要指定该项目的需求,首先要明确建立火电厂数据仓库的常见主题:建设数据仓库的目的是针对数据主题,利用现有生产与管理数据进行分析与推理,为电厂的生产经营提供决策依据,提高经济效益。火电厂数据仓库典型的数据主题有以华北电力大学硕士学位论文下几种。1电力市场决策及电厂生产决策火电厂数据仓库应提供给管理人员足够的电力市场数据,供管理人员做出正确的生产决策。2设备性能预测及故障诊断良好的设备可保证电厂安全、稳定地发电,创造最大的经济效益。设备的维修决策,从某种程度讲,是一种基于数据仓库的状态检修的实现。3机组运行优化机组的运行优化要求机组在安全稳定并且满足外部负荷的条件下,提高锅炉与汽轮机效率,降低机组的热耗率。运行优化可细分为锅炉模块、汽轮机模块、凝汽器模块、回热系统模块、机组运行特性模块、控制系统性能模块、机组试验模块等。4物资管理物资管理是电厂信息化管理中非常关键的一部分,高效经济的物资管理会给电厂带来巨大收益。322概要设计本课题主要针对电厂的运行数据进行操作,主要进行两个模块的操作,一个是数据查询模块,一个是针对凝汽器的一个操作模块。由于数据仓库中的数据太庞大,而我们的硬件又暂时达不到与之相匹配的要求,所以,本课题只针对庞大的数据仓库的两个数据集市进行相应的操作。下面分别简单的介绍两个模块:查询模块主要实现针对数据的二维查询,用户可以根据自己的需求首先在时间段上进行选择,可以任意选择要查询的数据的起始时间和结束时间;在众多的属性(字段名)中,用户可以根据自己的需要选择有用的属性,本课题最多提供了三个同时查询的属性值,用户也可以一对一的查询,那样,查询的速度会更快。结果将会以时间为行,属性值为列的形式显示出来。另一个模块为计算模块,此模块是针对凝汽器的铜管是否需要清洗的一个计算模块。电厂运行中的人员都很清楚,凝汽器中的铜管经过一定时间的使用会使有水垢等杂质保留其中,长期以往,铜管的内径就会越来越细,从而使凝汽器换热的功能大大的降低,影响到机组的正常运行,甚至会发生安全事故。所以本课题针对这一问题,设计了一个针对凝汽器铜管清洁度的一个模块,在此模块中,需要从数据库中提取四个参数用于模块中公式的运算。最终的结果会显示在网页上,而且有相应的文字提示告诉用户当前的凝汽器铜管是否需要清洗。323课题项目的规划电厂数据仓库涉及业务系统比较多、系统数据量大
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 冷冻饮品行业人才培养与职业发展考核试卷
- 品牌声音与品牌形象的协同发展考核试卷
- 2025年中国PPA塑胶原料数据监测研究报告
- 2025年中国PP-R管材数据监测研究报告
- 2025年中国L型收缩包装机数据监测研究报告
- 2025年中国EVA热压眼镜盒数据监测报告
- 2025年中国BOPP哑光膜数据监测报告
- 2025年中国21孔硬胶圈数据监测报告
- 2025至2030年中国黄花梨高靠背椅市场分析及竞争策略研究报告
- 2025至2030年中国雪梅肉市场分析及竞争策略研究报告
- 运输公司交通安全培训课件
- 2025年陕西省中考数学试题(解析版)
- 《康复治疗学专业毕业实习》教学大纲
- 北师大版7年级数学下册期末真题专项练习 03 计算题(含答案)
- 职业卫生管理制度和操作规程标准版
- 小学信息技术四年级下册教案(全册)
- 河道保洁船管理制度
- 【增程式电动拖拉机驱动系统总体设计方案计算1900字】
- 2025年重庆市中考物理试卷真题(含标准答案)
- 高中家长会 共筑梦想,携手未来课件-高二下学期期末家长会
- 中考首字母填空练习67篇含答案
评论
0/150
提交评论