




已阅读5页,还剩62页未读, 继续免费阅读
(控制理论与控制工程专业论文)流程工业中数据挖掘技术应用的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江大学硕士学位论文 摘要 近年来数据挖掘技术在流程工业领域得到了大力的推广,一方面得益于数据 挖掘技术的兴起和快速发展。随着数据库技术的迅速发展以及数据库管理系统的 广泛应用,人们积累的数据越来越多。数据的丰富带来了对强有力的数据分析工 具的需求,在这样的应用需求下,数据挖掘技术应运而生,并且逐步从实验室走 向了现实应用,在商业、工程技术、科学研究等方面得到了广泛的应用。另一方 面信息技术对流程工业的大力推动,过程检测和控制硬件设备的广泛应用,为数 据挖掘技术在流程工业中的应用创造了十分有利的条件。但是由于流程工业数据 的复杂性,这一应用又面临着许多的新难题。 论文以三唑磷合成工业为背景,以粗糙集理论为工具,对数据挖掘技术在流 程工业中的应用进行了研究。 首先对三唑磷合成工业中的生产数据进行数据预处理。流程工业中数据存在 着非常严重的空缺值、噪声和滞后问题。首先对生产数据进行压缩,将数据量控 制在一定范围内,其次建立一个基于最小二乘法的二阶回归函数,以一天内的数 据量为窗口,滑动窗口,对窗口内的数据进行拟合,去除空缺值和噪声。再次通 过对生产数据时间序列的调整,消除滞后,计算得到比较准确的收率值。最后提 出一种基于数据分布特征的全局有监督的离散化方法对连续的生产数据进行离 散化处理,得到离散化数据。 运用基于粗糙集理论的数据挖掘算法对离散化数据进行数据挖掘。首先建立 一个全局的决策系统,通过分析其不一致性,将其分解成一个完全一致决策系统 和完全不一致决策系统。其次对完全一致决策系统,采用了一种面对决策属性的 规则提取方法,简化了规则提取的复杂度。再次针对完全不一致决策系统则直接 生成带粗糙算子的决策规则。最后得出了生产优化的方案。 三唑磷的生产实践证明了优化方案的有效性。 关键词:数据挖掘、数据预处理、回归、离散化、粗糙集、三唑磷 摘要 a b s t r a c t i nr e c e my e a r s ,d a t am i 伍n gb e c o m e si n c r e a s m 翊yi m p o r t a n ta n dh a sw i d e l y a p p l i e di np m c e s si n d u s t r hm a i n l yf o r t w or e a s o n s o no n eh a n d ,d a t am i i l i n g t e c h n j q u ei sd e v e l o p i n gv e r yq u i c k l y d u et om ed e v e l o p m e n to fd a t aa c q l l i s i t i o na n d d a t a b a s et e c l l i l i q u e ,ah l l g es t o c ko fd a t aa r ea c c u m u l a t e d 血h 1 瑚a n sa c t i v i t i e s , m e r e f o r e ,ap o w e r f ma i l a l y s i st 0 0 1i sn e e d e dt 0d e a lw i t ht i l ed a t a d a t am i n i n gi sm e s o l u t i o nf o rt h i sp r o b l e ma n d1 1 a sf o u i l di t s 印p l i c a t i o n si nv 撕o u sa r e a ss u e ha s b u s i n e s s ,e n 酉n e e r i gt e c h n 0 1 0 9 y a n ds c i e m i f i cs t u d y o nt t l eo t h e rh a l l d ,_ 【l l e p h e n o m e n o nm a tt t l ei n f o m a t i o ns y s t e mh a sg r e a t l yf a c i l i t a t e dt h ep m c e s si n d u s 酊 a 1 1 dm ee q 山p m e mo fp r o c e s sc h e c ka n d o c e s sc o n t r o lw i d e l ya p p l i e di nt h e o c e s s m d u s t r yh a sc r e a t e daf a v o r a b l ee n v i r o m e n tt oa p p l yd a 协m i l l i n gt ot h ep r o c e s s i n d u s t r yh o w c v e rt h e r e s t i l le x i s t m a n ya l l i c a t i o np r o b l e m sb e c a u s e o ft h e c o m p l e x i t yo f p r o c e s sd a t a 1 1 1t h j st l l e s i s ,d a t am i n 访gt c c t u l o l o g yb a s e do nr o u 曲s e t sf o r 硒a z o p h o ss y n t h e s i s p r o c e s si sd i s c u s s e d a sf o l l o w s : f i r s t ly ,血ep m d u c t i o nd a 诅o f t h em a z o p h o ss y n t h e s i sp m c e s sa r ep r e p r o c e s s e d b e c a u s et h e r ea r em a n yn o i s y ,r n i s s i n g ,a i l dl a g g e dd a t ai nt h ep m c e s si n d u s 咄 c o n d e n s et h ed a t aa n dr e d u c em e mt oap r o p e r 硼m b e n an o m i n e a rr e 伊e s s i o nb a s e d o nt 1 1 em e t h o do f l e a s ts q u a r e si se s t i m a t e da i l dp o l y f i tt h ed a t ai naw i n d o w ,l u s e l i m i i l a t et i en o i s ya n dm i s s i n gd a t a ,a d j u s tt h et i m es e r i e sd a t a ,e l i m i n a t e 也et i m e d e l a ya n dg e tm ea c c u r a t er e s u l t a n d 丘n a l l ya 西o b a ls u p e i s o r yd i s c r e t i z a t i o nb a s e d o nd a t ad i s m b u t e dc h a r a c t c ri sp r 叩o s e dt ot i l mn u m e r i ca 饱曲u t e si n t od i s c r c t eo n e s t h ed i s c r e t ed a i aa r em i n e db yt 1 1 ea r i t h m e t i cb a s e do nr o u g hs e tt 1 1 e o r yf i r s t l ya g l o b a ld e c i s i o ns y s t e mi se s 诅b l i s h e da n de s t i m a t e da n dt h e d i v i d e di n t ot w op a r t s : o n ei sac o n s i s t e n c ys y s t e ma 1 1 dt h eo t h e ra n o n c o n s i s t e n c ys y s t e m f o rt h e c o n s i s t e n c ys y s t e ma na l g o r i t h mf o ra c q u i s i t i o no fd e c i s i o nm l e st o t h ed e c i s i o n a t 时i b u t e si sp r o p o s e d ;f o rm en o n c o n s i s t e n cy m ed e c i s i o nr u l e sa r eg o td i r e c n y f i i l a l ly ,t 1 1 es 0 1 u t i o nf o rt h ed i s c r e t ed a t ai so b t a i n e d 1 1 1 i ss o l u t i o nh a sb e e np m v e dt ob ee f f e c t i v ei nat r i a z 叩h o sp l a n t k - c yw o r d s :d a t am i l l i n d a t ap r e p r o c e s s i n 备r e f e s s i o n , d i s c r e t i z a t i o n ,r o u g hs e t s ,t r i a z o p h o s 浙江大学硕士学位论文 致谢 值此论文完成之际,首先衷心感谢我的导师苏宏业教授。苏老师为我们创造 了良好的学习和科研条件,引导我在科研工作中步步前进。苏老师扎实稳固的 专业基础,广阔开放的研究视野,深厚的理论修养,敏锐的学术感觉,综合管理 组织的能力以及严谨的治学态度和睿智达观的人生态度,是我学习和工作的榜 样。 衷心感谢我的指导老师张泉灵副研究员。张老师两年来对我孜孜不倦的教育 和指导,为我研究方向的确定提供了珍贵的意见。张老师对工作的认真细致与对 学生的热心负责都给了我及其深刻的印象。两年中,张老师亦师亦友的风范给我 以很大的影响并带给我多方面的收获。 衷心感谢侯卫锋、徐欧官、栗伟、李修亮、傅永峰、赵江、彭娟娟、靳碧、 谷亚宁、周涛,张弈、马朝阳、罗继亮、余青山等同门对我的帮助和支持,他们 给我留下了非常美好的一段回忆。特别感谢5 1 1 寝室里的兄弟,他们给了我非常 多的帮助,这段轻松而愉快的生活令我终生难忘。 对所有关心和帮助过我的同学和朋友们表示感谢。 衷心感i 身十我的父亲母亲在我完成学业过程中对我的理解、支持和关怀。浓浓 亲情,无以言表。 感谢所有亲人对我的关爱。 朱振宇 2 0 0 6 年5 月 予求是园 i j i 浙江大学硕士学位论文 1 2 数据挖掘的定义及过程模型 数据挖掘的定义有很多,与数据挖掘类似的名词还有信息挖掘( h l f o r i n a t i o n m i n i n g ) ,知识抽取( k j l o w l e d g ee x 订a c t i o n ) ,数据库中的知识发现k d d ( k j l o w l e 衄ed i s c o v e r ) r 血d a t a b a s e s ) 等。h a l l d 【3 】认为数据挖掘是指从大量数据 中获取有趣的或者有价值信息的过程,s i m o u d i s 用d m 来代表由大型数据库中 抽取正确的、前所未知的、可理解的并具有可操作性、能用来进行决策的信息的 过程。在文献舯,7 ,8 ,9 1 中都有不完全一致的数据挖掘的定义。许多人认为广义上 d m 是k d d 的同义词,也有人认为数据挖掘仅仅是k d d 中的一个步骤。一般 来说,数据库中的知识发现,是指从数据集中识别出有效的、新颖的、潜在有用 的,以及最终可理解的模式的非平凡过程”1 。而数据挖掘被认为是k d d 中的一 个步骤,是指利用某些特定的知识发现算法,在一定的运算效率限制下,从数据 库中提取出感兴趣的模式。因此从广义上说,数据挖掘与数据库中的知识发现含 义相同。 对数据挖掘过程模型的研究很多,根据这些过程模型,设计和实现了许多相 应的数据挖掘原型系统和商业系统。归纳起来,大致可以将数据挖掘模型分为两 种类型,一种是f a y y a d 1 总结的过程模型,另一种是遵循c r i s p d m “”标准的过 程模型。 f a y y a d 过程模型的主要步骤: 1 ) 数据选择:从现有的数据中,确定哪些数据是和本次数据分析相关的; 2 ) 数据预处理:对于选择出的数据,进行数据清洗工作,将数据转变成“干 净”的数据; 3 ) 数据转换:将干净的数据转换成数据挖掘算法所需要的格式; 4 ) 数掘挖掘:使用合适的数据挖掘算法完成数据分析; 5 ) 解释和评估:以适当的可视化技术和知识表示技术将模式以合适的形式 提供给用户,让用户能够对模型结果作出解释,同时能够评估模型的有 效性。 f a y y a d 数据挖掘过程模型是一个偏重技术的模型,在数据挖掘的实际应用 过程中,存在着两个问题: 1 ) 为什么选择这些数据 第一章数据挖掘概述 2 ) 模型怎么使用 c r i s p d m ( c m s s l n d u s 蛳p r o c e s sf o rd a t am i n i n g ) 全称是交叉行业数据挖 掘过程标准,它很好地解决了f a y y a d 数据挖掘过程模型存在的两个问题。 c r i s p d m 过程模型从数据挖掘技术应用的角度划分数据挖掘任务,将数据挖掘 技术与应用紧密结合,更加注重数据挖掘的模型质量和数据挖掘如何与业务相结 合、如何应用挖掘出的结果等实际应用中用户最关心的问题,因此c r j s p d m 过程模型从商业角度给出了对数据挖掘方法的理解。目前数据挖掘系统的研制和 开发大部分都遵循c r i s p d m 标准,将模型的挖掘和模型的部署紧密结合。 1 3 数据挖掘的任务 数据挖掘的任务一般可分为两类:描述和预测。描述性挖掘任务刻划数据 库中数据的一般特性;预测性挖掘任务在当前数据上进行推断,以进行预测。一 般包括:数据总结、概念描述、分类、聚类分析、相关性分析、偏差分析等。 1 3 1 数据总结 数据总结的目的是对数据进行浓缩,给出它的紧凑描述。传统的也是最简单 的数据总结方法是计算出数据库各个字段上的累加值,平均值,方差值等统计值, 或者用直方图等图形方式表示。数据挖掘主要关心从数据泛化的角度来讨论数据 总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。 由于数据库上的数据或对象所包含的信息总是最原始、最基本的信息,人们有时 希望能从较高层次的视图上处理或浏览数据,因此需要对数据进行不同层次上的 泛化以适应各种查询要求。数据泛化目前主要有两种技术:多维数据分析方法和 面向属性的归纳方法。 多维数据分析方法是一种数据仓库技术1 1 1 旧,也称联机分析处理( o l a p ) 。 数据仓库是面向决策支持的、集成的、稳定的、不同时间的历史数据集合。决策 的前提是数据分析,在数据分析中经常要用到诸如求和、总计、平均、最大、最 小等汇集操作,这类操作的计算量特别大。存储汇集操作结果的地方成为多维数 据库。 多维数据分析方法是针对数据仓库而进行的数据总结,由于数据仓库只存储 4 第一章数据挖掘概述 一种新兴的方法一粗糙集,其知识表示是产生式规则。 对于分类函数一般有三种评价标准或比较尺度: 1 ) 预测准确度 2 ) 计算复杂度 3 ) 模型描述的简洁度 预测准确度是常用的标准,特别是对于预测型的分类任务。需要注意的是, 分类的效果一般和数据的特点有关:有的数据噪声大,有的有空缺值,有的分布 稀疏,有的字段或属性间相关性强,有的属性是离散的而有的是连续值或混合式。 目前还不存在某种方法能适合于各种特点的数据。 1 3 4 聚类分析 聚类是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过 程。聚类目的是使得属于同一类别内的个体之间的距离尽可能的小,而不同类别 间的个体距离尽可能的大。与分类和预测不同,聚类是分析数据对象,而不考虑 已知的类标号。一般而言,训练数据不提供类标号,而聚类可以产生这种标号。 根据最大化类内的相似性、最小化类间的相似性的原则进行聚类或分组,通过这 种方式形成各种聚类,使得在一个聚类中的对象具有很高的相似性,而与其它聚 类中的对象很不相似。所形成的每个聚类可以看作一个对象类,由它可以导出规 则。聚类也便于分类编制,将类似的事件组织在一起。聚类方法包括统计方法、 机器学习方法、神经网络方法和面向数据库的方法。 1 3 5 相关性分析 相关性分析的目的是发现特征之间或数据之间的相互依赖关系。数据相关性 关系代表一类重要的可发现的知识,通过依赖关系存在两个元素之间。如果从一 个元素爿的值可以推出另一个元素b 的值( 彳一,则称b 依赖于爿。这罩所谓 的元素可以是字段,也可以是字段间的关系,数据依赖关系有广泛的应用。常用 的相关性分析技术有回归分析、关联规则、信念网络等。 关联分析用于发现关联规则,关联规则挖掘可以发现大量数据中项集之间有 趣的关联或相关联系,这些规则展示属性一值频繁地在给定数据集中一起出现的 第一章数据挖掘概述 基于索引的w c b 搜索引擎,它可以完成对w e b 的搜索,对w 曲页面的索引,和 建立和存储大量的基于关键字的索引,用于定位包含某关键字的w 曲页面。相 对于w 曲搜索,w e b 挖掘是一个更具挑战性课题,它实现对w c b 存取模式,w e b 结构,和规则和动念的w e b 内容的查找。 1 4 数据挖掘技术的应用现状及发展趋势 数据挖掘技术是人工智能、统计技术、模式识别、数据库等领域交叉研究的 学科。根据实现的功能,数据挖掘可分为描述型数据挖掘和预测型数据挖掘两大 类:描述型数据挖掘是指在预先未知道任何模式的情况下,在数据集内查找模式 的一种技术,描述型数据挖掘技术主要包括统计分析、可视化、聚类分析、概念 描述、关联分析、序列分析等。预测型数据挖掘则是已知一些模式的基础上在数 据中查找特定变量与其他变量之间关系的一种技术,预测型数据挖掘主要包括分 类、回归预测、孤立点检测、规则归纳、时间序列预测等通常所讲的数据挖掘是 探索型数据挖掘。目前数据挖掘的研究主要集中在以下几个方面: 1 ) 数据挖掘模型的研究:数据挖掘的系统构架、组成模块。近年涌现出许 多处理模型“1 、系统框架和原型系统; 2 ) 数据挖掘技术算法的研究:常用的数据挖掘算法包括统计方法“。“。、聚 类“7 “”、决策村。”2 、贝叶斯分类 2 ”3 3 】、关联规则“ “” 、粗糙集 “、人工神经网络“。“删、遗传算法“等: 3 ) 数据挖掘应用研究:包括时间序列挖掘“6 。删、空间数据挖掘“”1 、文本挖 掘咖- “3 、网络数据挖掘”2 - 唧、生物学中d n a 检测等。 由于数据形式、数据挖掘任务及数据挖掘方法的多样性,数据挖掘领域有很 多挑战性的课题:高效有用的数据挖掘方法、数据挖掘语言的设计、交互集成的 数据挖掘环境的建立等众多的问题,所有这些问题是当前数据挖掘研究开发人员 都需要面对的的问题。数据挖掘领域今后的研究焦点和发展趋势可能表现为以下 几个方面: 1 ) 数据挖掘语言的标准化:数据挖掘语言的标准化为数据挖掘项目的系统 化开发提供便利、并有助于提高各个数据挖掘系统和功能模块之间的互 操作,便于在企业中的培训和使用。也许将来数据挖掘语言会象s q l 一样 浙江大学硕士学位论文 标准化和易于使用; 2 ) 数据挖掘过程中的可视化方法:可以使知识发现的过程能够被用户形象 地理解,也便于在知识发现过程中进行有效的人机交互; 3 ) 可伸缩的数据挖掘方法:传统的数据分析方法大部分都是基于内存的数 据,而数据挖掘面对的是大数据量,因此如何有效地、可交互式地处理 大量数据,就成为数据挖掘研究的一个方向,一个好的数据挖掘算法, 其复杂度应该随数据记录数、属性数目数呈线性增长; 4 ) w e b 挖掘:i n t e r n e t 目前已经成为巨大的、全球性的信息服务中心,w e b 上存在有大量的信息,有关w e b 内容的挖掘、w e b 日志的挖掘、w e b 结构的 挖掘,已经成为当前和以后数据挖掘领域最重要的热点之一; 5 ) 复杂数据类型挖掘的新方法:目前地理空间挖掘、多媒体挖掘、时序挖 掘等复杂数据类型的挖掘已经取得了一些进展,但离实际应用还有很大 的距离,因此这一领域的研究也显得很重要; 6 ) 数据挖掘中的隐私保护和信息安全:随着数据挖掘的发展,如何能够确 保隐私安全与信息安全,已经成为当前数据挖掘研究需要面临的一个重 要问题。 1 5 数据挖掘在流程工业中的应用 伴随着以计算机为核心的各种控制系统和各种生产经营管理系统的广泛应 用,产生并积累了大量有关工业生产过程中的历史数据和当前生产的实时动态数 据。由于化工生产过程的复杂性:数据具有海量、高维、强耦合性、不确定性、 不完备性、不一致性、多时标性( 部分不同变量采用不同的采样周期) 和数据类 型多样性、多模态性,如何从数据库中的几乎泛滥成灾的数据中获取有用的知识, 如提取这些数据的整体特征的描述及对其发展趋势的预测等,以帮助决策者提出 问题、发现问题、分析问题和解决问题;如何在现有生产条件下,实现硬件技术 系统( 特别是操作变量与控制规律、生产计划与调度等) 和软件技术系统( 特别 是市场营销、采购等) 的优化,从而使流程工业综合自动化系统达到总体性能的 优化,成为了迫在眉睫的问题。在这种背景下流程工业数据库中的知识发现和数 据挖掘的研究目前在国内外正日益成为一个研究的热点。 第一章数据挖掘概述 流程工业中数据挖掘技术的应用方兴未艾,大多处于针对具体问题展开研究 与应用,在深度和广度上有待进一步研究。现在工业企业实时数据库的主要用途 仅限于档案及事故后的分析,远木实现其潜在的价值。知识发现数据挖掘是从 数据中提取有用的、隐含的、先前未知的和最终可理解的知识的过程,它所提炼 出来的是信息和高度总结性的数据,而非一般意义上的数据,它们可以用来组织 预测模型和分类模型,辨识记录之间的关系,结合智能a g e n t ,为企业管理者提 取这些数据的整体特征的描述及对其发展趋势的预测,提供基于知识的决策,如: 通过变量维数约简和关联消去,简化过程监控数据的操作界面:从流程工业生产 运行的实时数据中挖掘有用信息,实现软测量、提供操作参数优化值和最佳原料 配比等最佳生产条件、故障诊断与故障预测、爆炸预测与生产产量、产品质量和 能耗的关系,实现设备运行状态监控和维修;通过规则提取实现基于规则的模糊 控制和控制方案的改进等;结合原料、产品供销情况,作出产品结构、供货源、 销售方法的策略调整等,使企业的各个生产与管理环节有机地协调运作,产生最 大的经济效益1 5 4 。 数据挖掘理论与技术的研究已经较为广泛,国外已广泛应用于商业、金融、 电信和企业管理中。在工业过程中也有应用成功的报道,z h a i l g 掣”】采用组合神 经网络方法来预测间歇聚台反应器聚合物质量,即利用组合神经网络建立表示聚 合配方与聚合物质量变量轨迹之间关系的数学模型,通过计算组合神经网络模型 的预测置信区间,改善其泛化能力,并成功应用于一个间歇异丁烯酸甲酪聚合反 应器的研究中。t i a n 等【5 6 】利用建立组合神经网络模型的方法来进行间歇聚合反应 器的建模和优化控制研究,并得到了聚合反应器的最优温度控制轨迹。z o i z e t t o 等【5 7 将混合神经网络应用于啤酒生产的建模研究中,其中通过将生产过程的经 验、知识引入到模型中,提高了所建模型的外推能力。l e e 等【5 剐则对一个工业废 水处理过程进行了混合神经网络建模研究,首先根据已有的过程经验、知识建立 了一个简化机理模型,然后根据实际操作数据建立了一个神经网络模型,最后采 用并行方法将神经网络模型和简化机理模型组合在一起,通过与常规方法比较, 表明混合神经网络模型具有更佳的预测能力和外推性能。x i o n g 等1 5 9 进行了一个 化工过程的混合神经网络建模研究,通过与常规神经网络比较,表明混合神经网 络可利用更少的训练数据,并以更快的训练收敛速度,便可以得到具有良好性能 浙扛大学硕士学位论文 的化工过程模型,该方法已成功应用于许多化工过程的仿真研究中。 l a k s h m i n a r a y a n a n 等【6 0 】在一个多变量化工过程系统的建模和控制研究中采用了 动态p l s 方法,并将该方法成功应用于3 个以上变量线性和非线性系统的建模和 仿真中,应用结果表明了该方法的可行性。m i n 等【6 l 】采用迭代非线性p l s 方法进 行非线性化工过程的建模研究,并将该方法成功应用于3 个典型的化工过程,通 过与其他类似方法进行比较,表明该方法更适用于非线性过程建模,使用该方法 还可显著提高所建模型的预测能力。w a n g 等人利用数据挖掘技术进行了压缩机 的故障诊断和催化裂化装置仿真数据的自动分类【6 3 及确定组成的软件传感器 开发删。z h u 等附6 6 舯荆用关联规则和粗糙集理论等数据挖掘技术在洗涤剂、苯 酐等生产过程操作优化与决策支持中开展实际应用,取得较好效果。 流程工业中的数据挖掘是流程工业系统工程中的一种新技术,无论从理论研 究还是具体应用方面,处于起步阶段,还有许多问题有待研究解决。尽管如此, 数据挖掘技术已经显现出巨大的发展潜力与活力,为实现过程操作、管理与控制 一体化创造了新的机遇,是值得深入和广泛研究的新领域。 1 6 本文主要的研究内容 本文根据流程工业的特点,在具体分析了生产工艺的基础上提出了一系列新 的数据表现、数据分析、生产优化挖掘方法,设计了一个具体的流程工业数据挖 掘系统三唑磷合成过程数据挖掘系统。 本文的具体组织结构如下: 第一章是绪论,对数据挖掘进行较为全面的概述,首先介绍了数据挖掘的产 生和发展、数据挖掘的定义和过程模型,然后比较详细地介绍了数据挖掘技术的 应用,尤其是数据挖掘在流程工业中的应用现状; 第二章详细介绍了三唑磷合成过程数据挖掘系统,包括三唑磷生产的工艺流 程和三唑磷生产信息系统的架构,着重介绍了数据挖掘系统( 生产优化系统) 的 模块设计,以及数据挖掘系统的目标; 第三章介绍数据预处理的方法,包括数据清理、数据离散化等步骤,并针对 三唑磷生产数据,进行数据导入,数据清理和数据离散化处理,并得到令人满意 的“干净”数据; 第一章数据挖掘概述 第四章以粗糙集理论的数据挖掘算法为基础,对经过预处理后的三唑磷合 成过程的生产数据进行数据挖掘,并对算法进行改进,提出了一种基于一致性决 策系统面向决策属性的决策规则提取算法,简化了规则的提取; 第五章总结已有工作内容,并对未来的研究方向进行了展望。 1 7 小结 在本章中,我们对数据挖掘的历史发展和现状进行概述。前4 小节我们介绍 数据挖掘的起因发展,数据挖掘的一般过程以及目前流行的数据挖掘方法技术。 1 5 节特别介绍了数据挖掘在流程工业中的应用。最后,1 6 节说明本文的主要研 究内容及之间的相互关系。 第一章数据挖掘概述 o b s e n ,a t i o n p r o c 5 hb e r k e l e y s y m p m a t h s t a t i s t p r o b ,19 6 7l ,2 8l 乏9 7 19kaufhlanl ,r o u s s e e u wpj f i n d i n gg r o u p sm data:ani 1 1 廿o d u c t i o nt oc l u s t e r a n a l y s i s n y :j o l l i lwileyso璐,1990 2 0 ,h 啪gz e x t e n s i o n s t oh ek m e a n s algorit皿for c l u s t e r i n gl a 略ed a t as e t sw i t hc a t e g o r i c a 】v a l u e s d a 协m i n i n ga i l d knowle趣e d i s c o v e m1 9 9 8 ,2 :2 8 3 3 0 4 2i m o r g a l lj n ,s o n q u i s t ja p r o b l e m s 抽t h e analysiso f s u r v e yd a t aa n dap r o p o s a l j o u r n a lo f m ea m e r i c a ns 诅t i s t i c a l a s s o c i a t i o n ,1 9 6 3 ( 5 8 ) :4 1 5 4 3 4 2 2 q 1 1 i l a njr c 4 5 :p r o g r a m sf o r m a c h j n e learningca:morgan k 肌硒a 1 1 n ,1 9 9 3 2 3 b r e i m a i l l ,e ta 1 c l a s s i f i c a n o na i l d regression仃eesca:wadswonh s t a t i s t i c a lp r e s s 1 9 8 42 4 g e h r k eje ,r a m a k r i s h n a n r,gantj v r a i n f o r e s 一a 劬m e w o r kf o r 体td e c i s i o nt r c ec o n s 订u c t i o no f1 a r g e datasetsproceedingso fme2 4 t hh l t e m a t i o n a lc o n f e r e n c e o n v e r y l a r g e d a t a b a s e s ( v l d b 9 8 ) ,1 9 9 8 :4 1 6 _ 4 2 72 5 r a s t o g ir ,s h j mk p u b l i c :ad e c i s i o n1 y e e class浦er m a ti n t e g r a t e s b u i l d i n ga n dp n l l l i n g p r o c e e d i i l g so fm e2 4 m hnematio越1 c o n f e r e n c eo nv 醯yl a 唱e d a t a b a s e s ( v l d b 9 8 ) ,l 9 9 8 :4 0 5 _ 4 1 52 6 q u i l a nj r i i l d u c t i o n o f d e c i s i o n t r e e s m a c l l i n e l e a l i n g ,1 9 8 6 ( 1 ) :8 l 一1 0 62 7 s c h l i m m e r jc ,f i s h e r d ac a s e s t u d yo f i n c r e m e n t a l c o n c 印ti n d u c t i o n p r o c e e d m g so f5 “n a t i o n a lc o n f e r e n c eo n anificial h l t e l l i g e n c e ( a a a i 8 6 ) ,1 9 8 6 :4 9 6 _ 5 0 1 2 8 ,u t 9 0 f rpei d 5 :细i n c r e r n e n t a l id3pmceedingso f 妇f i f h li n t e m a t i o n a lc o n f h - e n c eo n m a c h i n e l e 唧血g c a :m o r g a n k a u 加a n n ,1 9 8 8 :1 0 7 一1 2 02 9 d u d ar ,h a r tp p a t t e mc l a s s m c a t i o na 1 1 ds c c n e analysjsnyjollll w i l e y & s o n s ,1 9 7 3 3 0 w e i s s sm ,k u l i k o w s k ica c o m p u t e r systems t h a tl e a n l :c l a s s 讯c a t i o na n dp r e d i c t i o nm e t h o d s 丘o m s 协t i s t i c s ,n e u i 训n e t s ,m a c h i n el e a m i n g 髓de x p e n s y s t e m s c a :m o r g a nk a u 如啪,1 9 9 131 m i t c h e l lt mmachine1 e a m i n 吕n y :m c g r a w - h i l l ,1 9 9 73 2 j o h ngh 。e n h a i l c e m e n t st ot h ed a t am i n i n gp m c e s s p h d t h e s i s ,c o m p u t e r s c i e n c ed 印t s t a n f o r du n i v e r s i 吼1 9 9 7 1 4 浙江大学顿十学位论文 3 3 ,h e c k e m a nd b a y e s i a nn e t w o r k sf o rk n o w l e d g ed i s c o v e 彤a d v a n c e si n k n o w l e d g ed i s c o v e r ya i l dd a t am i n j n 函m a :m i tp r e s s ,1 9 9 6 3 4 ,a f a w a lr ,i m i e l i n s k it ,s w a n l ia m i n i n ga s s o c i a t i o nn 1 1 e sb e t w e e ns e t so f i t e m si n1 a r g ed a t 曲a s e s p m c e e d i n g so f 血ea c ms i g m o dc o n f e r e n c eo n m a n a g e m e n to f d a 诅,1 9 9 3 : 2 0 7 2 1 6 3 5 ,a g r a w a lr , s h a f e rj p a r a l l e l m i n i n g o fa s s o c i a t i o n r u l e s : d e s i g n i m p l e m e m a t i o n ,a i l de x p e r i e n c e t e c h n i c a lr e p o r tf j l 0 0 0 4 ,i b ma 1 m a d e n r e s e a r c hc e n t e r ,s a nj o s e ,c a 9 5 1 2 0 ,1 9 9 6 3 6 陆丽娜,陈亚萍挖掘关联规则算法的优化处理计算机工程与应用2 0 0 0 8 3 7 邓小妮,罗雪山一种基于a p r i o r i 的动态关联规则挖掘方法电脑与信息技 术2 0 0 3 5 3 8 z p a w l a l c r o u 曲s e t s ,t h e o r e t i c a la s p e c t so fr e a s o n i n ga b o u td a t a b o s t o n : u w e ra c a d e m i cp u b l i s h e r s 19 9l 3 9 w z i a l ( o t h ed i s c o v e ma i l a l y s i s ,a n dr e p r e s e n t a t i o no fd a 诅d e p e n d e n c i e si n d a t a b a s e s i i lgp i a t e t s k y s h 印i o ra n dw j f r a w l e y ,e d i t o r s ,k n o w l e 电e d i s c 0 v e r yi nd a t a b a s e s ,p a g e s1 9 5 2 0 9 m e i l l op a r k :a a a ip r e s s ,1 9 9 l 4 0 苗夺谦王珏基于粗糙集的多变量决策树构造方法软件学报v 0 1 8 ,n o 6 4 1 d e r l 瑚e m a n ,g eh i n t o n ,a i l dr j w i l l i 拗s l e 姗i n gi n t e m a lr 印r e s e n t a t i o l l s b ye r r o rp r o p a g a t i o n i nd e r 啪e l h a r ta i l dj l m c c l e l l a n d ,e d i t o r s ,p a r a l l e l d i s 埘b u t e dp m c e s s i o n g ,c a m b r i 姑e ,m a :m l tp r e s s ,l9 8 6 4 2 h l u ,r s e t i o n o ,a 1 1 dh l i u n e l l r o m l e :ac o l l l l e c t i o n i s ta p p r o a c ht od a t am i n i n g kp r o c 1 9 9 5i m c o f v 田l a r g ed a 诅b a s e s ,p a g e s4 7 8 _ 4 8 9 ,z 嘶c h , s w i t z e l l a n d ,s e p t 19 9 5 4 3 ,r h r u s c t l l ( a ,n e l s o n fu s i n gac 1 u s t e 血gg e n e t i ca 1 9 0 r i m mf o rr u l ee x 订a c t i o n 丘o ma n i f i c i a ln e u r a ln e t w o r k si e e ep r e s s ,w h s h i n g t od c ,l9 9 9 4 4 m m i t c h e l l a ni n t m d u c t i o nt og e n c t i ca 1 9 0 r i t l l m s c a m b r i d g e ,m a :m t tp r e s s , 1 9 9 6 4 5 ,傅景广,许刚基于遗传算法的聚类分析计算机工程v 0 1 3 0n o4 4 6 c h e l l l l gym ,l e u n gwm ,x ul a r p c l c l pa r c h j t e c m r ef o rn n a n c i a lt i m e s e r i e s f o r e c a s t i n g p m c e e d i n g so fi e e ei n t e n l a t i o n a lc o n f e r e n c eo nn e u r a l 1s 浙江人学硕士学位论文 第二章三唑磷合成过程数据挖掘系统 摘要全文的研究都同绕着三唑磷合成过程数据挖掘系统展开的,本章详细介绍了三唑磷 合成过程的工艺流程。三唑磷生产过程是一个典型的流程工业生产过程,有连续生 产和大滞后的特点。挖掘数据主要集中在三唑磷合成上段。该工段已经完成了信息 化改造,配备了d c s 控制系统和实时数据库系统,可以实时记录生产状况。在该数 据库系统的基础上,进行数据挖掘功能开发。 关键词三唑磷、实时数据库、数据挖掘系统 2 1 产品介绍 三唑磷( t r i a z o p h o s ) 化学名称为0 ,o 一二乙基- o 一3 一 1 一苯基( 1 ,2 ,4 三唑基) d p 。絮i 5 5 蒸汽压为1 3 m p a ,油水分配系数3 3 4 ,水中溶解度为3 9 m l l o h 7 ,2 0 ) ,在 丙酮、乙酸乙脂、乙醇、甲苯中的溶解度 5 0 0 9 依g ,溶于大多数有机溶剂。对光 第二章三唑磷合成过程数据挖掘系统 2 2 生产工艺 2 2 1 基本流程工艺 国内三唑磷合成路线全部采用苯肼路线,即以苯肼( 或盐酸苯肼) 与脲缩合 成苯氨基脲,然后与甲酸反应生成1 苯基- 3 羟基1 ,2 4 三唑( 苯唑醇) ,再与o o 二乙基硫代磷酰氯缩合得到三唑磷。根据三唑磷合成路线,工业生产中将苯氨基 脲的合成称为缩合工序,苯唑醇的合成称为环合工序,三唑磷的合成称为合成工 序。 三唑磷合成一般分三步进行,反应式如下: 第一步反应由苯肼与尿素反应,脱去一分子氨生成1 苯基氨基脲, ! j ) n h 2 c n h 2 第二步苯基氨基脲在酸性催化剂作用下脱水环合,得到苯唑醇 丁黝。h 一蛳叫吗。 第三步乙基磷酰氯与l - 苯基一3 一羟基1 ,2 ,4 三氮唑的反应是一个亲核取代反 应,羟基化合物的酸性越强,越容易提供o
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 明星考试题及答案
- 风雨考试题及答案
- 咖啡考试题及答案
- 中级财务会计(山东工商学院)知到智慧树答案
- 建筑起重机械防御台风培训考试试题(附答案)
- 国家基层高血压、糖尿病防治管理指南培训考核试题及答案
- 2025版新能源汽车租赁及代购一体化服务合同
- 2025年工业自动化设备购销合同样本
- 2025年全新建材代购代理合同
- 2025版市政道路施工合同gf
- 2025年建筑工程-安全员C证-安全员(C证·上海)历年参考题库典型考点含答案解析
- 光伏项目施工组织设计方案
- 2025政府采购评审专家入库题库与答案
- 2025至2030医学混合成像系统行业产业运行态势及投资规划深度研究报告
- 2025年内蒙古交通集团考试笔试试题(含答案)
- 低压安全隐患排查
- 学堂在线 高技术与现代局部战争 章节测试答案
- 水费收缴使用管理办法
- 《研学旅行指导师实务》课件-第1章 研学旅行指导师职业基础
- 广东省汕头市金平区2023-2024学年七年级下学期期末数学试题(无答案)
- PWM控制技术的最新科技成果-介绍ISL6752
评论
0/150
提交评论