(控制理论与控制工程专业论文)基于数据挖掘的油品调合及配方优化.pdf_第1页
(控制理论与控制工程专业论文)基于数据挖掘的油品调合及配方优化.pdf_第2页
(控制理论与控制工程专业论文)基于数据挖掘的油品调合及配方优化.pdf_第3页
(控制理论与控制工程专业论文)基于数据挖掘的油品调合及配方优化.pdf_第4页
(控制理论与控制工程专业论文)基于数据挖掘的油品调合及配方优化.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(控制理论与控制工程专业论文)基于数据挖掘的油品调合及配方优化.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

y 6 0 2 , 7 8 7 些里些三兰堕堡主丝苎 堇量鍪塑丝塑堕塑鱼塑鱼垦里查垡! l 摘要 汽油是石油炼制企业的一种主要产品,汽油调合是汽油生产过程中 的一个重要阶段,汽油调合在影响成品汽油质量的同时,也影响着成品 汽油的成本,进而影响到整个企业的经济效益。由于影响油品调合的因 素很多,并且,其中一些关键问题仍处在研究阶段,因此在现阶段很难 建立起比较精确的调合质量计算( 预测) 模型。质量计算( 预测) 模型 的计算精度差在影响调合汽油质量预测的同时,也在一定成度上影响了 优化模型所得到结果的可靠性。 针对这一问题,本文在深入研究了汽油调合实际生产过程特点的基 础上,系统地提出了汽油调合质量计算模型建立的思想和方法及相关的 优化算法。主要内容及结果如下: 1 质量计算模型针对目前汽油调合的研究现状和实际生产要求,依 据数据挖掘中预测及机器学习等相关理论,提出基于数据挖掘的汽 油调合质量计算模型。即:首先,选取具有较好理论基础的模型( 由 浙江大学陈新志等提出的汽油调合质量计算模型) 作为基础调合质 量计算模型,在此基础上,根据反馈回来的实际生产数据对基础模 型的组分油相互影响系数进行调整和改进,形成针对多种不同情况 的系列模型,因此,该系列模型具有良好的适用性和精确性。这同 时也为进一步优化提供了一个良好的基础。由于在整个过程中采用 了机器学习的方法,因此,模型能根据实际情况的变化及时做出相 应的调整。 2 配方优化由于采用的系列模型之间往往是一种离散的关系,所以 不能采取通常将质量计算模型同实际约束条件组成的方程联立后, 再使用运筹学当中的相关知识来对配方进行优化的“紧耦合”方法 求解最优配方。本文提出“松耦合”的优化方法是根据汽油调台的 一些特性,针对不同的优化目标,由优化算法提出一定的优化方案, 再由质量计算模型来预测该配方质量指标合格与否,优化算法根据 该结论进行下一步的优化过程。 3 智能油晶调合系统根据以上的质量计算模型及优化算法设计了智 能油品调合系统。从目前对一些实际生产数据的测试结果来看,本 文所提出的质量计算模型具有很高的理论可信度和实际可行性,而 配方优化算法也取得了较好的效果。 关键词: 油品调合、汽油辛烷值、数据挖掘、机器学习豢鲥锗、导,簪同童 1 1 匆全交公布 沈阳化工学院硕士论文 基于数据挖掘的油品调台及耍己方优化 g a s o l i n eb e n d i n gb a s e do nd a t am i n i n g a n ds c h e m e o p t i m i z i n g a b s t r a c t g a s o l i n ei sap r i m a r yp r o d u c to fa no i l r e f i n e r y g a s o l i n eb l e n d i n gi s a n i m p o r t a n ts t e pf o rt h eg a s o l i n ep r o d u c t i o n t h eg a s o l i n eb l e n d i n gc a na f f e c t t h eo c t a n en u m b e ro ff i n i s h e dg a s o l i n ea n dt h ep r o f i to far e f i n e r y t h e r e a r em a n yf a c t o r sc a l la f f e c tt h eo u t c o m eo f g a s o l i n eb l e n d i n g ,a n ds o m ea r e u n c e r t a i n s o ,i ti sv e r yd i f f i c u l tt om a k eam o d e lf o r m u l at h a tc a nb eu s e d t o f o r e c a s t i n g t h ef i n i s h e d g a s o l i n e o c t a n en u m b e r a c c u r a t e l y a n d o p t i m i z i n gt h es c h e m ec r e d i t a b l e t or e s o l v et h eq u e s t i o n ,w ed ot h ew o r ka sf o l l o w s : 1 a f t e rs t u d i e dt h e a n c i e n t l y m o d e lf o r m u l aa n dt h e r e q u i r e m e n t o f p r o d u c t i o n ,w ea d o p tt h em o d e lf o r m u l ab a s e do nt h ed a t am i n i n ga n d m a c h i n e s t u d y t h em a i np r o c e s s e sa r e :f i r s t l y , w e s e l e c tam o r e a c c u r a t em o d e lf o r m u l aa st h eb a s em o d e lf o r m u l a ,a n dt h e na d ju s ti ta n d f o r man e wm o d e lf o r m u l aa c c o r d i n gt h ef a c t u a l b l e n d i n gd a t a f o r d i f f e r e n ts t a t e s ,t h e r ei sac o r r e s p o n d i n gm o d e lf o r m u l a ,s ot h r o u g ht h i s m e t h o dw ec a nf o r e c a s tt h ef i n i s h e dg a s o l i n eo c t a n en u m b e rm o r ea n d m o r e a c c u r a t e l y a d j u s t e db yp r o g r a m ,t h e m o d e lf o r m u l ac a nb e c h a n g e dt i m e l y 2 f o rm o d e lf o r m u l a sa r e0 f t e n d i s c r e t e ,w e a d o p t n e wm e t h o di n o p t i m i z i n g t h e s c h e m e :f i r s t l y , t h eo p t i m i z i n gm o d e lg i v e s a n a m e l y o p t i m i z e d s c h e m e a c c o r d i n g t os o m e p r o p e r t i e s o ft h e g a s o l i n e s e c o n d l y , t h em o d e lf o r m u l af o r e c a s tt h er e s u l to f t h es c h e m ei sr i g h to r n o t t h e na c c o r d i n gt h ef o r e c a s tr e s u l t ,t h eo p t i m i z i n gm o d e ld o e st h e n e x tw o r k 3t o i m p l e m e n tt h e s em e t h o d s ,w ep r o g r a mas o f t w a r es y s t e m t h i sm a k e s i t e a s yf o ru s i n gi np r a c t i c a la n dm o r et e s to nt h em e t h o d s k e y w o r d :g a s o l i n eb l e n d i n go c t a n en u m b e r ,d a t a m i n i n g ,m a c h i n el e a r n i n g n 沈阳化工学院硕士论文 基于数据挖掘的油品调台及配方优化 第一章绪论 随着人类积累数据量的不断增长,现有的数据库技术已经远远不能满足处理 海量信息的要求。于是一项综合了机器学习、人工智能、数据库技术及可视化等 很多学科的崭新技术数据挖掘( d m : 挖掘这一技术进行不断深入探索的同时, d a t am i n i n g ) 应运而生了。人们在对数据 也不断的将研究成果在实际中加以运用 并取得了良好的效果。将数据挖掘的研究成果应用于油品调和生产实际是本文的 一项重要尝试。 本章介绍了本课题“基于数据挖掘的油品调合和配方优化”的课题背景及研 究的内容和目标,最后是本文的内容安排。 1 1 课题背景 1 1 1 数据库技术发展带来的问题 自从1 9 4 5 年第一台计算机诞生以来,至今已有五十多年的时间。在这5 0 多年 的时间里,无论是计算机的硬件还是软件都得到了突飞猛进的发展。作为计算机 应用的一个重要领域数据库技术也随之发展起来了。数据库管理系统被广泛 地应用于各行各业,这一应用同时也推动了各行各业的发展:银行业、保险业和 商业能发展到今天的地步,是与数据库技术在其中起的支撑作用分不开的。 但“凡事有一利,必有一弊”,数据库技术的迅速发展以及数据库管理系统的 广泛应用在给我们带来便利的同时,也为我们带来了很多烦恼:每天,全世界新 存入数据库的数据量超过万兆字节,这些数据来源于商业、科学研究、i n t e r n e t 等和人们生活密切相关的各行各业各个方面,人类积累的数据量正在以指数速度增 长l 虽然,现在单位字节存储的费用可以说微乎其微,但存储、管理海量数据所 需的总体费用却是惊人的。同时,这些海量数据当中所蕴含的有用信息却无法为 人所知、为人所用,也是一种巨大的浪费。传统的数据库系统可以高效地实现数 据的录入、查询、统计等功能,但却无法发现数据中隐含存在的关系和规则,更 无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段, 导致了“数据爆炸但知识贫乏”的现象。据估计,一个大型企业数据库中数据, 只有百分之七得到很好应用。这样,相对于“数据过剩”和“信息爆炸”,人们 又感到“信息贫乏”( i n f o r m a t i o np o o r ) 和“数据关在牢笼中”( d a t ai nj a i l ) 。如今 我们有太多的数据而总嫌知识不够。无怪乎奈斯伯特( j o h nn a i s b e t t ) 惊呼“w ea r c d r o w n i n g i ni n f o r m a t i o n ,b u ts t a r v i n gf o rk n o w l e d g e 。”( 人类正被数据淹没,却饥渴 于知识) 。 1 沈阳化工学院硕士论文 基于数据挖掘的油品调台及配方优化 1 1 2 数据挖掘的兴起及应用 面临浩渺无际的数据,必须有一种能够去粗取精、去伪存真的技术从数据汪 洋中提取出有用信息和知识。在此背景下,知识发现( k d d :k n o w l e d g ed i s c o v e r y i nd a t a b a s e s ) 及其核心技术数据挖掘( d m :d a t am i n i n g ) 便应运而生了。 数据挖掘,顾名思义就是从大量的数据中挖掘出有用的信息。随着计算机应用 的越来越广泛,每年都要积累大量的数据,运用数据挖掘技术,我们可以找出这 些数据当中所蕴含的有用信息。据国外专家预测,在今后的5 1 0 年内,随着数 据量的日益积累以及计算机的广泛应用,数据挖掘将在中国形成一个产业。2 0 0 0 年7 月i d c 发布了关于信息存取工具市场的报告,其中估计1 9 9 9 年的数据挖掘的 市场大概是7 5 亿美元,估计在下个5 年内市场的年增长率( c o m p o u n da n n u a l g r o w t hr a t e ) 为3 2 4 ,其中亚太地区为2 6 6 ,并且预测此市场在2 0 0 2 年时会 达到2 2 亿美元。 采用数据挖掘技术,在“数据矿山”中找到蕴藏的“知识金块”,能够帮助企 业在减少不必要投资的同时提高资金回报。数据挖掘给企业带来的潜在的投资回 报几乎是无止境的。世界范围内具有创新性的公司都开始采用数据挖掘技术来判 断哪些是他们最有价值的客户、重新制定他们的产品推广策略( 把产品推广给最 需要他们的人) ,以最小的花费得到最好的销售成果。 由于数据挖掘的应用为企业带来了显著的经济效益,这促进了数据挖掘的应用 越来越普及。它不仅能用于控制成本,也能给企业带来效益。在商业领域尤为突 出,很多企业都在利用数据挖掘技术帮助管理客户生命周期的各个阶段,这其中 包括:确定新客户的特点,为客户提供针对性的服务;找到流失的客户的特征, 在那些具有相似特征的客户还未流失之前进行针对性的弥补,因为保留一个客户 要比争取一个客户便宜的多。通过这些措施,商家可以达到争取新的客户、保持 住老客户的目的。 数据挖掘还可以应用在其它各个不同领域:电讯公司和信用卡公司是用数据挖 掘检测欺诈行为的先行者;保险公司和证券公司也开始采用数据挖掘来减少欺诈; 数据挖掘在医疗方面应用是另一个有广阔前景的产业:数据挖掘还可以用来预测 外科手术、医疗试验和药物治疗的效果;零销商更多地使用数据挖掘来决定每种 商品在不同地点的库存,通过数据挖掘更灵活的使用促销和优惠等手段;制药公 司通过挖掘巨大的化学物质和基因对疾病的影响的数据库来判断哪些物质可能对 治疗某种疾病产生效果;在基因研究方面,可以通过数据挖掘来对d n a 分子进行 分析。 2 沈阳化工学院硕士论文基于数据挖掘的油品调合及配方优化 1 2 课题内容及研究目标 油品调合是成品汽油生产中一个重要的环节,通过这一环节,将经过不同炼制 工艺生产出的各种“半成品”汽油( 即:组分油) 根据质量指标的要求,按一定 的比例进行充分混合后得到成品汽油。这一环节不仅关系到成品汽油的质量,还 同时关系到成品汽油生产所带来的经济效益。 影响油品调合质量及经济效益的因素很多,主要有以下几方面: 一、原油产地的不同造成的原油价格不同及原油本身质量的存在重大差 异,进而影响到组分油的质量和成本。 二、 原油炼制工艺的不同及不同的工艺参数,直接影响到组分油的质量和 成本。 三、 市场对成品汽油的需求量及成品汽油的价格,对配方有直接影响。 四、其它一些因素如炼油所使用的水、电费用及炼制后的存储费、运输费 用等,都对油品调合生产所带来的经济效益有着很大影响。 由于组分油在进行调合过程中存在一定的加和效应,并且目前对加和效应的 研究仍处在探索阶段,通过现有质量模型通常无法比较准确预测出调合后的结果, 再加之以上提到的几点影响因素,所以,在实际生产中,要想形成一个既满足质 量要求,又具有良好经济效益的配方是非常困难的事。 由于油品调合问题的重要意义,多年来,国内外对此问题都作了深入的研究, 并提出了一些相关的解决方案。这些解决方案虽然起到了一定的效果,但总体说 来还不够理想:在实际应用时,仍存在着质量计算偏差大,优化困难或是计算不 准的问题。 各炼油企业通常都存储着多年的历史调合配方数据,并且在实际生产的同时, 也会产生大量的调合配方数据,这些大量的数据当中一定蕴藏着有关油品调合规 律的知识,等待我们去进一步挖掘。 本课题主要是针对以上问题和实际情况提出的,它是国家8 6 3 高技术研究计 划课题“智能排产与优化调度系统研究”中的一项内容,我们希望通过本课题的 研究,利用数据挖掘和机器学习的理论及成功经验建立一套油品调合质量计算和 配方优化解决方案。并编制出可用于实际使用的软件产品。 本课题的主要思想可概括为: 一、根据前人的研究成果建立基础的质量计算模型。 二、 通过数据挖掘对历史数据和现有数据进行分析,在基础质量计算模型之 上加以拓展,针对不同的情况建立相应的模型( 参数) 。 三、在质量模型的基础上建立相应的配方优化模型。 四、根据研究结果形成实用软件系统智能油品调合系统。 3 鲨堕些三兰堕堡主笙兰 1 3 本文内容安排 基于数据挖掘的油品调台及配方优化 本文详细介绍了作者对基于数据挖掘的油品调合及配方优化技术的研究和 智能油品调合系统实现的情况。其中: 第一章介绍了课题的背景、内容、目标及意义;第二章中对知识发现和数据 挖掘理论进行介绍,包括对知识发现及数据挖掘的兴起与发展,概念比较,以及 数据挖掘的分类和各种挖掘技术都进行了较为系统详细的介绍:第三章介绍了本 课题的研究领域一油品调合。这其中包括了研究背景和基本概念,及其他些 油品调合计算和优化方法。第四、五、六章是全文的重点与核心所在。第四章具 体介绍了如何建立基于数据挖掘的质量计算模型,并根据不同的数据对质量计算 模型进行拓展。第五章具体介绍了建立配套的配方优化过程。第六章介绍了智 能油品调合系统的设计概况。第七章是对课题研究结果的总体评价,给出了今 后研究的发展方向。 4 鎏里些三兰堕堕笙壅 墨主塑塑笙塑塑垫璺塑鱼丝里塑垡些 第二章知识发现与数据挖掘研究综述 数据挖掘是数据库系统和新的数据库应用的一个有希望的、欣欣向荣的学科 前沿。数据挖掘是自动、方便地提取隐藏在大型数据库、数据仓库或其他大量信 息存储中的知识( 又称:模式) 。本章首先对数据挖掘产生的背景及迅速发展做一 介绍;之后对知识发现和数据挖掘两个概念进行比较分析;最后介绍了数据挖掘 的分类及在数据挖掘中使用的方法和技术。 2 1 数据挖掘技术的产生与发展 近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据, 可以被广泛使用。同时,人们迫切需要将这些数据转换成有用的信息和知识。获 取的信息和知识可以广泛的应用于现实生产,如:商务管理、生产控制、市场分 析、工程设计和科学探索等。 数据挖掘是信息技术自然演化的结果。信息技术自然演化的过程由如下及部 分组成( 见图2 一1 ) : 一、2 0 世纪6 0 年代之前的数据收集和数据库创建时期,这一时期的发展为稍候 数据存储和检索、查询和事务处理的开发提供了必要的基础。 二、2 0 世纪6 0 年代之后,数据库和信息技术已经系统地从原始的文件处理演化 到复杂的、功能强大的数据库系统。 三、自7 0 年代以来,数据库系统的研究和开发已经从层次和网状数据库系统发 展到开发关系数据库、数据建模工具、索引和数据组织技术。此外、用户通 过查询语言、用户界面、优化查询处理和事务管理、可以方便、灵活的访问 数据。联机事务处理( o l a p ) 将查询看作制度事务,对于关系数据库技术 的发展和广泛的将关系数据库技术作为大量数据的有效存储、检索和管理的 主要工具做出了重要贡献。 四、自7 0 年代以来,数据库技术的特点是广泛接受关系技术,研究和开发新的、 功能强大的数据库系统。这些使用了先进的数据模型,如:扩充关系模型、面 向对象模型、对象一关系模型和演绎模型。包括空间的、时间的、多媒体的、 主动的和科学的数据库、知识库、办公信息库在内的面向应用的数据库系统 百花齐放。涉及分布性、多样性和数据共享问题被广泛研究。一种数据库和 机遇i n t e m e t 的全球信息系统,如w w w 也己出现,并成为信息产业的生力 军。 5 沈阳化工学院硕士论文 基于数据挖掘的油品调台及配方优化 ! 据收集和数据库创建 ( 2 0 世纪6 0 年代之前) 一原始文件处理 ( 7 0 年代) 据库系统 统 :实体一联系模型等 组织技术:b + 树,散列等 l 等 单、报告等 询优化 复和并发控制等 ( o l t p ) 高级数据库系统 ( 8 0 年代中期一直到现在) 一高级数据模型:扩充关 系、面向对象、对象一关系、 演绎 一面向应用:空间的、时间 的、多媒体的、主动的和科 学的数据库 基于w e b 的数据库系统 ( 9 0 年代到现在) 一基于x m l 的数据库系统 一w e b 挖掘 数据仓库和数据挖掘 ( 8 0 年代后期一直到现在) 一数据仓库和o l a p 技术 一数据挖掘和知识发现 新一代综合信息系统 ( 2 0 0 0 - - ) 图2 - 1 数据库技术的演化 2 2 知识发现的迅速兴起与发展 知识信息处理是实现信息共享和智能化的重要技术。智能系统的迅速发展, 使知识工程成为8 0 年代人工智能发展的主要潮流。 知识获取是信息处理的关键问题之,知识发现过程中包含四类工作,即采 6 数系具库5表查恢理状库工据和:处 网据模数言面理理务和数建和语界处管事次系据引询户询务机层关数索查用查事联 沈阳化工学院硕士论文 基于数据挖掘的油品调合及配方优化 集数据、寻找数据描述、形成解释理论和测试理论。第一阶段是采集数据,包括 自然事件或实验的观察事实。基于事实,人们可以构造公式,它不是完全的,不 能令人满意。必须要经过较长时间的钡4 试和修改,才能得到正确的理论。 随着大量的大规模的数据库迅速不断的增长,人们对数据库的应用已不满足 于仅对数据库进行查询和检索。仅用查询检索不能提取数据中有利于用户实现目 标的带有结论性的有用信息。这样,数据库中蕴藏的丰富知识就得不到充分的发 掘和利用。从而造成信息的浪费,由此也会产生大量的数据垃圾。 但是,从人工智能的角度来看,专家系统的研究虽然取得了一定的进展,但 是知识获取仍然是专家系统研究中的瓶颈。知识工程师从领域专家处获取信息是 非常复杂的个人到个人之间的交互过程,具有很强的个性和随机性,没有统一的 办法和规律可循。其次,知识工程师在整理表达从领域专家那里获得的知识时, 用i f - t h e n 等类的规则表达,约束性太大,用常规数理逻辑来表达社会现象和人的 思维活动局限性太大,也太困难,勉强抽象出来的规则有很强的工艺色彩,差异 性极大,知识表示又成为一大难题。因此,人们开始考虑以数据库作为新的知识 源,从大量的数据中提炼出抽象的知识,从而揭示出蕴含在这些数据背后的客观 世界的内在联系和本质规律,实现知识的自动获取。经历了博弈时期、自然语言 理解、知识工程等阶段的人工智能目前的研究热点是机器学习。机器学习是用计 算机模拟人类学习的一门科学,比较成熟的算法有神经网络、遗传算法等。 用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数 据背后的知识,这两者的结合促成了数据库中的知识发现的产生。实际上,在数 据库中的知识发现是一门交叉性学科,涉及到机器学习、模式识别、统计学、智 能数据库、知识获取、数据可视化、高性能计算、专家系统等多个领域。从数据 库中发现出来的知识可以用在信息管理、过程控制、科学研究、决策支持等许多 方面。 1 9 8 9 年8 月在美国底特律召开的第1 l 届国际人工智能联合会议的专题讨论会 上首次出现k d d 这个术语。随后在1 9 9 1 年、1 9 9 3 年和1 9 9 4 年都举行k d d 专题 讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量 数据分析算法、知识表示、知识运用等问题。随着参与人员的不断增多,k d d 国 际会议由原来的专题讨论会发展到国际学术大会,人数由二三十人到七八百人, 论文收录比例从2 :1 到6 :1 ,研究重点也逐渐从发现方法转向系统应用,并且注重 多种发现策略和技术的集成,以及多种学科之间的相互渗透。1 9 9 8 年在美国纽约 举行的第四届知识发现与数据挖掘国际学术会议不仅进行了学术讨论,并且有3 0 多家软件公司展示了他们的数据挖掘软件产品,不少软件己在北美、欧洲等国得 到应用。目前,世界上比较有影响的典型系统有:s a s 公司的e n t e r p r i s em i n e r 、 i b m 公司的i n t e l l i g e n tm i n e r 、s g i 公司的s e t m i n e r 、s p s s 公司的c l e m e n t i n e 、s y b a s e 鎏堕些三兰堕堡主堡塞 茎主塑塑堡塑塑塑曼塑垒壁墼立! 些 公司的w a r e h o u s es t u d i o 、r u l e q u e s tr e s e a r c h 公司的s e e 5 、还有c o v e r s t o r y 、 e x p l o r a 、k n o w l e d g ed i s c o v e r yw o r k b e n c h 、d b m i n e r 、q u e s t 等a 此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷 纷开辟了k d d 专题或专刊。不仅如此,在i n t e r n e t 上还有不少k d d 电子出版物, 其中以半月刊k n o w l e d g ed i s c o v e r yn u g g e t s l l 9 】最为权威,另一份在线周刊为 d s * ( d s 代表决策支持) ,1 9 9 7 年1 0 月7 日开始出版。在网上,还有一个自由论坛 d me m a i lc l u b ,人们通过电子邮件相互讨论d m k d 的热点问题。而领导整个潮 流的d m k d 开发和研究中心,当数设在美国e m d e n 的m m 公司开发部。 2 3 数据挖掘和知识发现 知识发现和数据挖掘是人工智能、机器学习、与数据库技术相结合的产物。 一般认为,知识发现( k d d ) 指的是从数据中发现有用知识的整个过程。1 9 9 6 年, f a y y a d ,p i a t e t s k y - s h a p i m r 和s m y t h 将k d d 过程定义为:从数据中鉴别出有效模 式的非平凡过程,该模式是新的、可能有用的和最终可理解的。知识发现的过程 过程可用下图表示: 从图中可见,k d d 过程是多个步骤相互连接起来,反复进行人机交互的过程。 而数据挖掘( d m ) 是k d d 过程的一个特定步骤,它用专门的算法从数据中抽取 模式( p a t t e m s ) ,是k d d 最核心的部分,是采用机器学习、统计等方法进行知识 学习的阶段。数据挖掘算法的好坏将直接影响到所发现知识的好坏。 数据挖掘( d a t am i n i n g ) 比较公认的定义为:从大量的、不完全的、有噪声 的、模糊的、随机的实际应用数据中,提取隐含在其中的、先前未知的、但对决 策有潜在价值的知识和规则。这些规则蕴含了数据库中数据之间的特定关系,揭 示出一些有用的信息,可以为经营决策、市场策略、金融预测等方面提供依据。 通过数据挖掘,有价值的知识、规则或高层次的信息就能从数据库中的相关数据 集合中抽取出来,并从不同角度显示,从而使大型数据库作为一种丰富可靠的资 源,为知识归纳服务。人们把原始数据看作是形成知识的源泉,就像从矿石中采 矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化 的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的 方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现 了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于 数据自身的维护。因此,数据挖掘是一门广义的交叉学科,它汇聚了不同领域的 8 鲨里些王兰堕堡主堡苎 研究者,尤其是数据库、 和工程技术人员。 基于数据挖掘的油品调合及配方优化 人工智能、数理统计、可视化、并行计算等方面的学者 特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特 定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统 计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联, 甚至利用已有的数据对未来的活动进行预测。 当前,d m 研究正方兴未艾,预计在2 1 世纪还会形成更大的高潮,研究焦点可 能会集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像s q l 语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发 现的过程能够被用户理解,也便于在知识发现过程中的人机交互;研究在网络环 境下的数据挖掘技术,特别是在i n t e m e t 上建立d m 服务器,与数据库服务器配合, 实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、 多媒体数据。但是,无论怎样,需求牵引,市场驱动是永恒的,d m 将首先满足 信息时代用户的急需,大量基于d m 的决策支持软件工具产品将会问世。 数据挖掘技术目前已经有不少成功的范例。其实在日常生活中我们也可以看 到许多数据挖掘的应用。例如:著名的y a h o o 网站,当浏览者一定的时间内始终 关注某一方面的信息时,那么,网站就会根据这些信息向你提供这一方面其他的 一些相关信息。假设浏览者在一个月的时间内始终关注有关中的价位的日本汽车 的信息时,则网站就会将其他各国的名牌中低档汽车推荐给浏览者,这种针对客 户的做法,效果明显要好于泛泛的广告行为。 2 。4 数据挖掘的功能及模式 数据挖掘的功能是从大量数据中发现模式,作为有用的知识存储在知识库中。 模式是知识的一种表达方式,根据w i l l i a mf r a q l e y 等给出的定义r 7 1 :模式是一个 用语言l 来表示的一个表达式e ,它可用来描述数据集f 中数据的特性,e 所描述 的数据是集合f 的一个子集f e 。e 作为一个模式,它要求采用相对简单的方法描 述数据子集f e 中的所有元素,而非枚举的方法。例如,“与l o o 相比如果差别在 一5 - - - + 5 之间的整数”可称为一个模式,而“9 5 ,9 6 ,9 7 ,9 8 ,9 9 ,1 0 0 ,1 0 1 ,1 0 2 , 1 0 3 ,1 0 4 ,1 0 5 ”就不能称之为一个模式。模式有很多种,按功能可分有两大类: 预测型模式和描述型模式。 预测型模式是可以根据数据项的值精确确定某种结果的模式,通常表现为一种 数学模型或某一数学公式等等。挖掘预测型模式所使用的数据也都是可以明确知 道结果的。例如,根据汽油调合规律建立了某一质量计算模型,且该模型的计算 指标不会大与实际调合后的指标,现要求指标为9 0 ,如果计算出得调合指标为 9 0 1 ,则根据该模型的特性,我们可必预测按该配方进行调合后所得到的汽油满足 口 鲨里些三兰堕堡主堡苎 苎三塑塑垫塑竺塑曼塑鱼墨墼查垡些 质量要求,即实际调合指标一定高于9 0 。 描述型模式是对数据中存在的规则做一种描述,或者根据数据的相似性把数据 分组。描述型模式一般不能作精确预测。例如在某一大型超级市场在第三季度饮 料的销售额,5 0 为啤酒,2 0 为碳酸饮料,2 0 为果汁饮料,1 0 为其它饮料。 在实际应用中,往往根据模式的实际作用细分为以下5 种: 1 分类和预测模式 分类模式是一个分类函数( 或分类器,可理解为一种标准) ,能够把数据集中的 数据项映射到某个给定的类上。分类模式往往表现为一棵分类树,根据数据的 值从树根开始搜索,沿着数据满足的分支往上走,走到树叶就能确定类别。分 类可以用来预测数据对象的类标记。然而,在某些应用中,人们可能希望预测 某些空缺的或不知道的数据值,而不是类标记。当被预测的值是数值数据时, 通常称之为预测。尽管预测可以涉及数据值预测和类标记预测,通常预测仅限 于值预测,并因此不同于分类。预测通常采用的是回归的方法,这其中主要包 括线性回归、多元回归和非线性回归,其它方法还有对数回归和泊松回归等。 2 时间序列模式 时间序列模式是根据数据随时间变化的趋势预测将来的值。这里要考虑到时间 的特殊性质,像一些周期性的时间定义如星期、月、季节、年等,不同的日子 如节假日可能造成的影响,日期本身的计算方法,还有一些需要特殊考虑的地 方如时间前后的相关性( 过去的事情对将来有多大的影响力) 等。只有充分考 虑时间因素,利用现有数据随时间变化的一系列的值,才能更好地预测将来的 值。 3 聚类模式 聚类模式把数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽可 能小。与分类模式不同,进行聚类前,并不存在分类函数,也不知道将要划分 成几个组和什么样的组,也不知道根据哪( 几) 个数据项来定义组,而是完全 根据数据本身特点来划分的。一般来说,业务知识丰富的人应该可以理解这些 组的含义,如果产生的模式无法理解或不可用,则该模式可能是无意义的,需 要回到上阶段重新组织数据。 4 关联模式 关联模式是数据项之间的关联规则。关联规则是如下形式的一种规则:“在无 力偿还贷款的人当中,6 0 的人的月收入在3 0 0 0 元以下”。 5 序列模式 序列模式与关联模式相仿,而把数据之间的关联性与时间联系起来。为了发 现序列模式,不仅需要知道事件是否发生,而且需要确定事件发生的时间。 例如,在购买彩电的人们当中,6 0 的人会在3 个月内购买影碟机。序列模 1 0 鲨堕些三堂堕堡主堡苎 墨主墼塑垄塑盟塑曼塑鱼垦堡塑垡垡 式挖掘往往以关联挖掘为基础。 在解决实际问题对,经常要同时使用多种模式。分类模式和预测模式是使用 最普遍的模式。分类模式、预测模式、时间序列模式也被认为是受监督知识,因 为在建立模式前数据的结果是已知的,可以直接用来检测模式的准确性,模式的 产生是在受监督的情况下进行的。一般在建立这些模式时,使用一部分数据作为 样本,用另一部分数据来检验、校正模式。聚类模式、关联模式、序列模式则是 非监督知识,因为在模式建立前结果是未知的,模式的产生不受任何监督。 2 5 数据挖掘的基本技术和方法 下面介绍1 0 种数据开采和知识发现的方法和技术,它们分别从不同的角度进 行数据挖掘。 1 决策树方法 利用信息论中的互信息( 信息增益) 寻找数据库中具有最大信息量的字段,建立 决策树的一个结点,再根据字段的不同取值建立树的分枝:在每个分枝子集 中重复建树的下层结点和分枝的过程,即可建立决策树。国际上最有影响和 最早的决策树方法是q u i n l a n 研制的i d 3 方法,在i d 3 方法的基础上,后人又发 展了各种决策树方法。 2 神经网络方法 神经网络方法是模拟人脑神经元结构,以m p 模型和h e b b 学习规则为基础, 建立三大类多种神经网络模型。前馈式网络以感知机、反向传播模型、函数 型网络为代表,可用于预测、模式识别等方面。反馈式网络以h o p f i e l d 的离 散模型和连续模型为其代表,分别用于联想记忆和优化计算。自组织网络以 a r t 模型、k o h o l o n 模型为代表,用于聚类。 神经网络的知识体现在网络连接的权值上,是一个分布式矩阵结构;神经网 络的学习体现在神经网络权值的逐步计算上( 包括反复迭代或累加计算) 。 3 盖正例、排斥反例方法 它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。比较典型的有 m i c h a l s k i 的a q l l 方法、洪家荣改进的a q l 5 方法,以及洪家荣的a e 5 方法。 a q 系列的核心算法是,在正例集中任选一个种子,到反例集中逐个比较。如 果字段取值构成的选择子相容则舍去,相斥则保留。按此思想循环所有正例 种子,将得到正例集的规则( 选择子的合取式) 。a e 系列方法是用扩张矩阵 来完成的。 4 粗糙集方法 数据库中,将行元素看成对象,列元素是属性( 分为条件属性和决策属性) 。 沈阳化工学院硕士论文基于数据挖掘的油品调台及配方优化 等价关系r 定义为不同对象在某个( 或几个) 属性上取值相同,这些满足等 价关系的对象组成的集合称为该等价关系r 的等价类。条件属性上的等价类 e 与决策属性上的等价类y 之间有三种情况;( 1 ) 下近似:y 包含e ;( 2 ) 上近 似:y 和e 的交非空;( 3 ) 无关:y 和e 的交为空。对下近似建立确定性规则, 对上近似建立不确定性规则( 含可信度) ,对无关情况不存在规则。 5 概念树方法 库中记录的属性字段按归类方式进行抽象,建立起来的层次结构称为概念树。 如“城市”概念树的最下层是具体市名或县名( 如长沙、南京等) ,它的直 接上层是省名( 如湖南、江苏等) ,省名的直接上层是国家行政区( 如华南、 华东等) ,再上层是国名( 如中国、日本等) 。利用概念树提升的方法可以大 大浓缩数据库中的记录。对多个属性字段的概念树提升,将得到高度概括的 知识基表,然后再将它转换成规则。 6 遗传算法 遗传算法是根据生物进化过程来模拟某些具有生物特性的实际问题的求解, 该过程由三个基本算子组成: ( 1 ) 繁殖( 选择) 是从一个旧种群( 父代) 选出生命力强的个体,产生新种 群( 后代) n 的过程。 ( 2 ) 交叉( 重组) 选择两个不同个体( 染色体) 的部分( 基因) 进行交换, 形成新个体。 ( 3 ) 变异( 突变) 对某些个体的某些基因进行变异( 1 变0 、0 变1 ) 。 遗传算法可起到产生优良后代的作用。这些后代需满足适应值,经过若干代的 遗传,将得到满足要求的后代( 问题的解) 。遗传算法己在优化计算和分类机 器学习方面发挥了显著作用。 7 公式发现 是在工程和科学数据库( 由试验数据组成) 中,对若干数据项( 变量) 进行 一定的数学运算,求得相应的数学公式。比较典型的b a c o n 发现系统完成 了物理学中大量定律的重新发现。 8 统计分析方法 统计分析的方法是根据统计学中的习惯概念和知识,在数据库字段项之间找 寻两种关系:( 1 ) 函数关系:能用函数、公式表示的确定性关系;( 2 ) 相关关系: 不能用函数公式表示,但仍是相关确定关系。对它们的分析采用回归分析、 相关分析、主成分分析等方法。 9 模糊论方法 模糊性是客观存在的一种属性。对于复杂性越高的系统,其精确化的能力也 就越低,这就意味着模糊性越强。利用模糊集合理论对实际问题进行模糊评 1 2 沈阳化工学院硕士论文基于数据挖掘的油品调合及配方优化 判、模糊决策、模糊模式识别和模糊聚类分析,在实践中取得了较好的效果。 1 0 可视化技术 可视化数据分析技术是在传统的图表功能的基础上,把数据库中的多维数据 以多种图形的形式表现出来,使数据的状况、内在本质及规律性更为清晰和 直观,这使得用户对数据的剖析更清楚、明白。 1 3 沈阳化工学院硕士论文基于数据挖掘的油品调合及配方优化 第三章油品调合技术发展综述 油品调合是许多石油制品生产过程中的一个重要阶段。对于成品汽油的生产, 这一阶段有着更加重要的作用:作为生产的最后一个阶段,它首先直接决定了成 品汽油的质量,调合出的汽油质量指标低于质量目标的要求,则是废品;调合出 的汽油的质量指标过高于质量目标的要求,则是一种浪费,所以,控制成品汽油 的质量指标是油品调合的首要目标。同时,当有多种( 大于两种) 类型的组分汽 油参与调合时,对于同一质量目标,往往存在着多种不同的调合方案,由于不同 类型的组分汽油成本、库存量等经济指标不同,每种方案为企业所带来的经济效 益也是不同的,所以,在同样的条件下,能够产生更多的经济效益是油品调合的 另一个重要目标。 如何制定一个既能满足质量指标要求又具有良好经济效益的配方,是人们长期 以来所追求的一个共同目标,但是,由于调合过程中存在的加和效应及其它多方 面因素的影响,使得我们离这一目标尚存在一定距离。 本章主要介绍了与汽油及汽油调合有关的一些概念、影响因素等及油品调合 技术的发展现状。 3 1 汽油辛烷值的确定及影响因素 汽油是石油经过炼制后得到的一种多烃类混合物,衡量汽油属性的指标很多, 如:密度、沸点、敏感度、抗爆性和饱和蒸汽压等。其中,对我们使用汽油影响 最大的因素是汽油的抗爆性。汽油的抗爆性的大小是用辛烷值来表示的。 3 1 。1 汽油的抗爆性 汽油的抗爆性和汽油的燃烧过程有关。点燃式发动机的燃烧状况主要取决于 发动机设计和燃料质量。在理想的条件下、火花塞点燃的火焰穿过燃烧室,使汽 油全部燃烧,但由于火焰使燃烧室温度升高,从而在火焰还未达到时,汽油空气 混合物组成的尾气带压力升高,引起汽油的预热反映。预热产物都是对高温敏感 的过氧化物。当预热产物超过某一临界阈值浓度时,尾气就要在火花塞发出的火 焰到达之前产生爆震。而火焰前锋在过氧化物处于闽线浓度下时到达尾气带,就 不会产生爆震。 因为不同烃类的预热反应情况不同,抗爆性不一样,故各种不同组成的汽油 辛烷值不同。 1 4 沈阳化工学院硕士论文基于数据挖掘的油品调台及配方优化 3 1 2 辛烷值表示法 辛烷值的表示法如下: 对于辛烷值小于l o o 的汽油,是将纯异辛烷( 辛烷值定为l o o ) 和纯正庚烷( 辛 烷值定为o ) 的混合物与样品在c f r 发动机( 美国燃料合作会研究委员会研制, 各国生产的辛烷值机可能略有差别,单均属此类) 中进行比较。抗爆性相等时, 混合物中所含异辛烷的百分数即为该样品的辛烷值。因为每加入1 异辛烷,辛烷 值高的混合物比辛烷值低的混合物抗爆性的改善要大,所以这种刻度是非线性的。 对于辛烷值太于1 0 0 的车用汽油,是将加入四乙基铅的纯异辛烷与样品在c f r 发动机中进行比较,直接给出所加四乙基铅的毫升数。对于辛烷值大于1 0 0 的航 空汽油,是用品度值( 即在同样条件下将航空燃料的最大无爆震输出与一辛烷相 比所得百分比) 表示。因为测定的是相对极限爆震功率,所以刻度是线性的。 3 1 3 影响汽油辛烷值的主要因素 影响汽油辛烷值的因素很多,最重要的两方面是: 1 石油的产地 石油是由沉积在地下的古代生物遗骸经过漫长的地质历史年代所形成的,由于 生物体的不同、所处的地理位置的不同以及地质历史年代的不同,造成了不同 地区甚至同一地区不同油井开采出的石油属性的之间都存在很大的差异。因 此,这些石油经过同样炼制工艺得到的汽油的性质也就存在很大的差异。 2 炼制时的工艺参数 在炼制石油过程中,不同的工艺参数对炼制后的汽油的属性也会产生一定的影 响。 3 2 汽油调合的原则、标准和具体实现方法 通过各种炼制工艺直接得到的汽油,由于性质差别很大,所以通常是无法全 部直接应用于生产、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论