已阅读5页,还剩58页未读, 继续免费阅读
(模式识别与智能系统专业论文)生产过程质量控制动态数据挖掘平台的研究开发.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江大学硕士学位论文 摘要 生产过程质量控制对于生产企业提高产品质量具有非常重要的意义。生产企 业生产过程通过大量传感器的采样,获得了海量的生产历史数据,而这些生产数 据中必然隐藏着和质量有关的知识。本文将数据挖掘运用于生产过程质量控制 中,针对生产过程的特点,如间歇型生产与连续型生产、历史数据为时间序列、 各工艺参数采样时间不同等,给出了一般的动态数据挖掘方法,用于解决生产过 程的质量预测问题和质量分析问题。具体包括以下几个内容: 1 通过大量的中外文献阅读,对数据挖掘的基本知识、挖掘对象、方法技 术以及数据挖掘领域的挑战和发展趋势进行了综述。同时,对于本文研究所关心 的现有的数据挖掘工具、数据挖掘工具的评价标准以及数据挖掘工具的发展方向 进行了分析探讨。 2 提出了生产过程质量控制的两个基本问题,即质量预测问题和质量分析 问题。针对生产过程的特点,给出了将动态数据挖掘技术应用于生产过程的一般 方法。 3 将面向生产过程质量控制的动态数据挖掘方法应用于连续铸造过程,用 于解决以连铸铸坯表面裂纹为质量指标的质量预测问题和质量分析问题。仿真结 果显示出方法的正确性和有效性。 4 研制开发了生产过程质量控制动态数据挖掘平台d m p l a f f o r m 。针对某钢 铁企业的实际情况,制定了四套挖掘方案,用于该钢铁企业的数据分析部门使用, 并显示出良好的性能。 关键词数据挖掘;时间序列;生产过程质量控制;钢铁生产过程;连铸;数据 挖掘工具 塑垩叁堂堡主堂竺丝塞 坐 a b s t r a c t p r o d u c t i o nq u a l i t yc o n t r o li sav e r yi m p o r t a n ti s s u et ot h ei m p r o v e m e n to f p r o d u c tq u a l i t yi nt h em a n u f a c t u r ee n t e r p r i s e s l a r g ea m o u n to fd a t ai sa c q u i r e db y n u m e r o u ss e n s o r sa n dt h e r ei ss u r e l ym u c hi n f o r m a t i o nr e l a t e dt oq u a l i t yt h i st h e s i s e x p o u n d so nt h eu s eo fd y n a m i cd a t am i n i n gi nq u a l i t yc o n t r o lb a s e do np r o c e s s p r o p e r t i e s i nm a n u f a c t u r e e n t e r p r i s e s t h ed y n a m i cd a t am i n i n gt e c h n i q u e i s d i s c u s s e di nt h i st h e s i st os o l v eaq u a l i t yp r e d i c t i o np r o b l e ma n daq u a l i t ya n a l y s i s p r o b l e m t h em a i nc o n t r i b u t i o n so f t h i st h e s i sa l ea sf o l l o w s : 1 i n t r o d u c i n gt h eb a s i cc o n c e p t sa n dm e t h o d so fd a t am i i l i r 培,a n dt h e ng i v i n gab r i e f v i e wo ft h ef u t u r ed e v e l o p m e n to fd a t am i l l i n 吕f u r t h e r m o r e ,t h ec r i t e r i o no fd a t a m i n i n gt o o l si si n t r o d u c e d 2 t h eq u a l i t yp r e d i c t i o np r o b l e ma n dt h eq u a l i t ya n a l y s i sp r o b l e ma r ep r o p o s e d b a s e do nt h ep r o c e s sp r o p e r t i e si nm a n u f a c t u r ee n t e r p r i s e s ,t h et h e s i sp r e s e n t st h e m e t h o do f h o wt os o l v et h et w op r o b l e m su s i n gd y n a m i cd a t am i n i n gt e c h n i q u e 3 a p p l y i n gt h em e t h o dt ot h ec o n t i n u o u sc a s t i n gp r o c e s si no r d e rt oi m p r o v et h e q u a l i t yo f t h es l a b t h ee x p e r i m e n t a lr e s u l t ss h o wt h ev a l i d i t yo f t h em e t h o d 4 ad a t am i n i n gt o o l :d m p l a t f o r mi sd e v e l o p e df o rp r o d u c t i o nq u a l i t yc o n t r o li n m a m f f a c t u r ee n t e r p r i s e s 4d i f f e r e n td a t am i n i n gs c h e m e sa r eu s e df o rt h eq u a l i t y c o n t r o lo f4m e t a l l u r g i c a lp r o c e s s e s t h i ss o f t w a r et o o li sa p p l i e di nt h ed a t aa n a l y s i s s e c t i o no f as t e e l m a k i n ge n t e r p r i s ea n dg a i n sg o o dr e s u l t s k e y w o r d s :d a t am i n i n g ;t i m es e r i e s ;p r o d u c t i o nq u a l i t yc o n t r o l ;s t e e l m a k i n g e n t e r p r i s e ;c o n t i n u o u sc a s t i n g ;d a t am i n i n gt o o l 浙江大学硕士学位论文 v 致谢 值此论文完成之际,首先向我的导师吴铁军教授致以最诚挚的敬意和感谢。 吴老师学识渊博、思维敏捷,见解独到,且传授知识深入浅出,颇显师者之儒: 吴老师治学严谨,工作踏实,且勇于开拓创新,颇有学者之风;吴老师平易近人, 阻身作则,处事公平合理,颇具领导之才。感谢他在论文选题、研究方法和思路 上的悉心指导,感谢他对我独立从事科研的能力的培养。吴老师的人品、学识和 工作作风为我树立了学习的榜样,必将使我终身受益。 衷心感谢智能所的其他老师。感谢戴连奎教授,他渊博的知识和敏锐的思维 给予了我学习科研上的帮助和启迪。感谢杜树新老师,他从本科毕业设计7 二始就 一直给予我科研工作上的支持。感谢李艳君老师和刘山老师,在学习、科研和生 活上给予我很大的帮助。 同时感谢已经离开智能所的郭斯羽老师,论文研究工作的完成离不开他的指 导、帮助和鼓励。 衷心感谢周黔、付克昌、任世锦、李成安、陈迎迎、俞峰、徐德刚、蒋峥、 常爱英、孙丽丽、徐伟强、宣琦、崔承刚、杜方、宋春跃、范玉刚、郑恩辉等博 士以及胡敏、江文德等硕士,他们在学习和科研中给了我全力的支持和无私的帮 助,在此表示诚挚的谢意。 感谢上海宝信软件公司所提供的支持与帮助。 对所有关心和帮助过我的老师、同学和朋友们表示感谢。 最后要感谢我的父亲、母亲和其他亲人,感谢他们多年来对我的关心和爱护, 我人生的每一步都离不开他们的默默支持。 吴以凡 2 0 0 6 年1 月 于求是园 浙江大学硕士学位论文 第一章绪论 摘要本章是数据挖掘技术的综述。首先介缁了数据挖掘的起因和基本概念;然后对当前数 据挖掘技术应用的对象和主要方法进行了综述,特别地对动态数据挖掘技术进行了展开描 述;接着介绍了数据挖掘的发展趋势和当前热点问题;由于本论文的一个重点是数据挖掘软 什的开发,因此简单介绍了当今热门的数据挖掘软件以及数据挖掘软件的评价标准;最后是 本论文的研究内容和结构安排。 关键词数据挖掘;数据挖掘软件;时间序列 1 1 引言 在过去的数十年里,计算机硬件惊人的进步导致了功能强大的计算机、数据 收集设备与存储介质的大量供应,而这些技术又大大推动了数据库与信息产业的 发展,使得我们产生和搜集数据的能力迅速提高。超量的数据充斥着我们的电脑、 网络和生活,政府机构、科研机构和企业都投入大量的资源去搜集和存储数据。 然而,实际上这些数据中只有一小部分将被用到,因为在很多情况下,要么数据 量太大了,难于管理,要么就是数据结构太复杂,不能进行有效分析。这种情况 出现的根本原因就是人们创建一个数据集时,往往把精力都集中在如数据的存储 效率的问题上,而没有去考虑数据最终是怎样使用和分析的。存储数据的爆炸性 增长业已激起对新技术和自动工具的要求,瞳便让我们能从海量的数据中获取有 用的信息和知识。 对于大型的、复杂的、信息丰富的数据集的理解,实际上是所有的商业、科 学、工程领域的共同需要。在商务领域,公司和客户的数据逐渐被认为是一种战 略资产。在当今的竞争世界中,吸取隐藏在这些数据后面的有用知识并利用这些 知识的能力变得愈加重要。 过去对数据的分析主要依赖人类分析员来进行。从而对数据的分析工作也就 变为简单的由数据库查询和获得数据,将数据显示给人类分析员,然后依赖人类 分析员根据其专家知识来做出决策。这种方法的缺点是:当数据量变得越来越大 时,对人类分析员的依赖成为整个决策过程中最主要的瓶颈;更重要的是,对于 人类分析员而言,有些知识和模式是很难发现的,比如高维数据的模式( 如关联、 分类、聚类等) ,统计模型的建立以及统计意义下才会出现的模式与知识( 如孤 立点( o u t l i e r ) 检测等) 【f a y 9 6 】;另外,随着网络技术与i n t e m e t 的发展,大量的 数据分散地存在于全球数以百万计的主机中,而对这样的数据进行分析和利用, 在1 0 年前是完全不可想象的。 因此,数据挖掘是数据库技术与信息技术发展到一定阶段的必然趋势,是经 浙江大学硕士学位论义 历数据搜集和存储阶段后分析数据、获取知识的必然要求。 1 2 数据挖掘技术概述 1 2 1 数据挖掘的基本概念 所谓的数据挖掘,目前并没有一个非常严格的定义。“数据挖掘( d a t am i n i n g ) ” 与“数据库中的知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) ”这两个术语 经常不加区分地使用。事实上,从数据中发现有用的、隐藏的模式这一过程还有 许多其他名字,例如知识抽取( i n f o r m a t i o ne x t r a c t i o n ) 、信息发现( i n f o r m a t i o n d i s c o v e r y ) 、智能数据分析( i n t e l l i g e n td a t aa n a l y s i s ) 、探索性数据分析( e x p l o r a t o r y d a t aa n a l y s i s ) 、信息收获( i n f o r m a t i o nh a r v e s t i n g ) 、数据考古( d a t aa r c h e o l o g y ) 和无指导模式识别( u n s u p e r v i s e dp a t t e r nr e c o g n i t i o n ) 等【s h i 0 2 ,d u n 0 3 】。 f a y 9 6 给出了k d d 的一个简单定义:所谓数据库中的知识发现,是指从 数据中识别正确的、新的、有潜在使用价值并最终是可以理解的模式的复杂过程; 而数据挖掘则是k d d 过程中使用智能方法提取数据模式的个步骤。【s i m 9 6 】 中,数据挖掘用来代表由大数据库中提取正确的、前所未有的、可理解的并具有 可操作性、能用来进行决策的信息的过程。h a n 则简单地称数据挖掘为从大量的 数据中提取或“挖掘”知识,同时也承认数据挖掘是知识发现过程的一个步骤 【h k 0 l 】。 典型的k d d 过程如图1 1 所示【s h i 0 2 ,f p s 9 6 a : 图1 1 k d d 过程 整个k d d 过程由以下5 个步骤组成【s l l i 0 2 ,d u n 0 3 】: 1 ) 选取( s d e c f i o n ) :数据挖掘过程所需要的数据可能从不同的异构数据源 获取,因此,第一步就是从各种数据库、文件和非电子数据源中获取数 据。数据选取的目的是确定发现任务的操作对象,即目标数据( t a r g e t d a t a ) ,它是根据用户需要从原始数据中抽取的一组数据; 浙江大学硕士学位论文 2 ) 预处理( p r e p r o c e s s i n g ) :数据预处理一般町能包括消除噪音推导计算 缺值数据、消除重复记录、完成数据类型转换等; 3 ) 变换( t r a n s f o r m a t i o n ) :数据变换的目的主要是消减数据维数或降维,即 从初始特征中找出真正有用的特征咀减少数据挖掘时要考虑的特征或变 量个数。另外,从不同数据源获取的数据必须转换成统一的格式,一些 数据可能需要编码或者变换成更容易使用的格式。这些都是数据变换的 工作: 4 ) 数据挖掘( d a t am i n i n g ) :基于所执行的数据挖掘任务,这一步骤就是对 变换后的数据应用算法柬产生期望的挖掘结果; 5 ) 解释评估( i n t e r p r e t a t i o n e v a l u a t i o n ) :数据挖掘的结果经过用户或机器的 评价后,通常使用可视化工具和图形用户界面来展现结果, 需要指出的是,图1 1 中的可视化存在于k d d 的每个步骤中,且发挥者重要 的作用。如在数据准备阶段,用户通过散点图、直方图等统计可视化技术来对数 据有一个初步的理解,从而为更好地选取数据打下基础:在挖掘阶段,用户使用 与时间域问题有关的叫视化工具;在结果解释阶段,也要用到可视化技术辅助用 j o 理解挖掘结果。 尽管数据挖掘仅仅是整个知识发现过程中的个重要步骤,但在产业乒、媒 体和数据库研究界,“数据挖掘”一词已被广泛使用和普遍接受,不加区分地表 币整个知识挖掘过程【g h s 0 1 ,b s t 0 1 】。因此,本文中仍采用数据挖掘的广义观 点;数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有 趣知识的过程。数据挖掘是一个多学科交叉领域,必须从数据库技术、人工智能、 机器学习、神经网络、统计学、模式识别、知识库系统、知识获取、信息提取、 高性能计算和数掘可视化等学科领域汲取营养。 1 2 2 数据挖掘的任务及主要方法 数据挖掘任务一般可以分为两类:描述和预测 h k 0 1 】。描述性挖掘任务刻 画数据的一般特性,预测性挖掘任务是在当前数据上进行推断,以进行预测。如 图1 2 显示了几类基本的数据挖掘任务: 俐1 2 显示了几类基本的数据挖掘任务: 浙江大学硕士学位论文 图1 2 数据挖掘任务 下面简要介绍一下这些数据挖掘任务及其主要方法: 1 ) 分类和预测 数据分类( d a t ac l a s s i f i c a t i o n ) 和预测( p r e d i c t i o n ) 可用于提取描述重要数据 类的模型或预测未来的数据趋势。对于数据分类,在建立分类模型时,会选取一 些其所属类别已知的数据元组来形成训练数据集,然后在该训练数据集上应用分 类算法来学习分类模型。由于提供了训练集中各个元组所属的类别,因此,这一 过程也称为有指导的学习( 相对的,聚类是一个无指导的学习过程) 。而在学习 得到分类模型后,即可利用这个模型来预测分类未知的数据元组。对于预测,在 数据挖掘界被广泛接受的看法是:分类用于预测所属类别,预测用于预测连续值。 常用的方法有统计方法、机器学习方法、仿生学方法等。统计学方法包括贝 叶斯法【c b 9 8 】和非参数法( 如邻近学习、基于范例的学习) ,对应的知识表示 为判别函数和原型事例;机器学习方法包括决策树法和规则归纳法,前者对应的 表示为决策树或判别树,后者则一般为产生式规则,粗糙集方法的知识表示即为 产+ 生式规则 m a 0 3 】。仿生学方法包括神经网络方法和遗传算法。神经网络方法 主要是b p 算法,它的模型是前向反馈神经网络模型,其本质是非线性判别函数 【b m p 9 6 】; 2 ) 回归 回归是指将数据项映射到一个实值预测变量。事实上,回归涉及学习一个可 以完成该映射的函数。回归首先假设一些已知类型的函数( 如线性函数、对数函 数等) 可以拟合目标数据,然后利用某种误差分析确定一个与目标数据拟合程度 最好的函数。 3 ) 概念类描述 数据可以与类或者概念相关联,用汇总的、简洁的、精确的方式来描述每个 类和概念可能是有用的,这种类或者概念的描述称为概念类描述( c o n c e p t c l a s s d e s c r i p t i o n ) 。有两种典型的描述:特征描述和判别描述。特征描述是从与学习相 关的一组数据中提取关于这些数据的特征式,这些特征式表达了该数据集的总体 特征:而判别描述则描述了两个或更多个类之间有何差异。 浙江大学硕士学位论文 4 ) 关联分析 关联分析,即关联规则挖掘的目的是发现特征之间或者数据之间有趣的关联 或相互依赖的关系。一个它的最初形式是所谓的购物篮分析,即用于零售业以了 解哪些商品频繁地被顾客同时购买。 一个依赖关系存在于两个元素之间。如果从一个元素a 的值可以推出另一个 元素b 的值( a j b ) ,则称b 依赖于a 。这里所谓的元素可以是字段,也可以 是字段间的关系。若两个或多个数据项的取值之间重复出现且概率很高时,它就 存在某种关联,可以建立起这些数据项的关联规则 z l z 9 8 】。 关联分析的一个分支是序列分析,也称序列发现。它用于确定数据之间与时 间相关的序列模式。与其他关联分析中的模式不同的是,这些序列模式都是与时 间相关的。 关联分析的结果有时可以直接提供给最终用户,也可以被其他模式抽取算法 使用 a s 9 6 | 。常用的技术有回归分析、机器学习、信念网络等。 5 ) 聚类分析 将物理或抽象对象的集合分组为由类似的对象组成的多个类的过程被称为聚 类。由聚类所生成的簇是一组数据对象的集合,这些对象将与同一个簇中的时象 彼此尽可能相似,与其它簇中的对象尽可能相异。 聚类分析是统计学的一个分支,多年来已得到广泛的研究。这些研究主要集 中在基于距离的聚类分析。而在数据挖掘领域,研究工作集中在为大型数据库的 有效而实际的聚类分析寻找适当的方法。数据挖掘对聚类的典型要求有:可伸缩 性,处理不同类属性的能力,发现任意形状的聚类,用于决定输入参数的领域知 识最小化,处理噪声数据的能力,对于输入记录的顺序不敏感,高维性,基于约 束的聚类,以及可解释性和可用性。【g u 0 0 2 】 聚类方法主要包括统计方法、机器学习方法、神经网络方法和面向数据库的 方法。统计方法有基于欧式距离或基于海明距离的方法。在机器学习中,相对于 分类,聚类又被称为无监督或无指导的学习过程。其中的距离不再是统计方法中 的几何距离,而是根据概念的描述来确定。神经网络方法主要是自组织特征映射 方法,如a r t 模型、k o h o n e n 模型等。 1 2 3 数据挖掘的对象 数据挖掘涉及的范围非常广泛,涵盖了科学研究、商业应用、社会问题等各 个方面的数据。它们的数据结构也各不相同,可以是层次的、网状的、关系的和 面向对象的数据。 过去的数据挖掘技术,主要面向的是以结构化数掘为主的关系数据库、事务 浙江大学硕士学位论文 数据库和数据仓库。随着数据处理工具、先进数据库技术以及w w w 技术的迅 速发展,大量形式各异的复杂数据类型不断涌现,包括时间序列数据、文本数据、 空间数据、多媒体数据、和w e b 数据等等。下面简单介绍一下这些数据挖掘的 对象和它们的一些问题。 1 ) 数据库,对数据库进行数据挖掘就是从数据集中识别出有效的、新颖的、 潜在有用的,以及最终可理解的模式的非平凡过程。从关系数据库中进 行数据挖掘是当前研究比较多的一个方面【f p s u 9 6 。目日f 研究的主要 问题是:海量数据、动态变化的数据、噪声、数据不完整、冗余信息、 数据稀疏等: 2 ) 时间序列,是指随着时间顺序取得的一系列观察值。时间序列是一种十 分常见的数据形式,在工业、气象、医学、金融、交通等领域广泛存在。 目前,对时间序列中的数据挖掘已成为一个热点问题。对于与时间序列 的有关问题讨论将在1 3 节中迸一步展开; 3 ) 文本数据,是指存在着大量以文本或文档形式存储着的信息,如书籍、 技术论文、电子邮件、w e b 页面等。文本分析过程就是通过分析文本, 从中找出一些特征,以利于将来的使用【h s 9 7 j 。文本挖掘超过了基于 关键字和基于相似度的信息检索范畴,而是利用基于关键字的关联和文 档分类等方法从半结构化的文本数据中发现知识; 4 ) 空间数据,是指具有空间特征的数据,如地图、遥感数据、医学图像数 据等。空间数据挖掘是指对空间数据库中非显式存在的知识、空间关系 或其他有意义的模式等的提取。基于地理信息系统( g i s ) 的空间数据 挖掘近年来获得了广泛的关注。空间数据挖掘的主要问题有:空间数据 特征比较、空间聚类分析、空间分类、空间关联、空间模式分析、空浏 趋势与孤立点分析等; 5 ) 多媒体数据,是指包括音频数据、图像数据、视频数据、超文本数据等 在内的多媒体数据。通常的模式识别与图像处理中采用人工分析寻找规 律的方法不可避免地漏掉很多有用信息,多媒体数据挖掘的目的就是期 望能找出这类有用信息。它的研究问题包括:基于内容的检索和相似度 检索、概化和多维分析、分类和预测分析以及多媒体数据的关联分析等; 6 ) w e b 数据,包含了丰富和动态的超链接信息和访问及使用信息,其规模 随着网络不断发展而呈指数级增长。w e b 信息挖掘技术是根据面向 i n t e r n e t 的分布式信息资源的特点的一种模式抽取过程,它不仅能查找到 分布式信息资源中已存在的信息,还能识别出大量存在予数据中的隐含 的、有效的规律 b r i 9 8 】。结合近年来飞速发展的w e b 搜索技术,w e b 挖掘将是今后一段时期内的研究热点。w e b 挖掘的问题主要包括:对 浙江大学硕士学位论文 w e b 内容的挖掘、对w 曲链接结构的挖掘和对w e b 访问模式的挖掘。 1 2 4 数据挖掘方法和技术 对于数据挖掘各种不同的任务和对象,有很多实现方法和技术。一般来说有 参数化方法和非参数化方法。参数化方法用参数模型来描述输入输出的关系,是 一个很好的理论论题而且有时也能应用于实际,但它常常过于简单化,而且在建 模前需要大量有关数据的知识。非参数模型是由数据驱动的模型,它不使用显示 的方程来确定模型。相比参数化方法,非参数化方法更适用于数据挖掘应用。 现有的多种数据分析方法从总体上来说可归类为统计学习方法、机器学习方 法以及仿生学方法这三大类。在应用上这些方法各有利弊,需要针对具体挖掘问 题选择合适的技术 f p s 9 6 b ,z m z + 0 1 】。对于复杂的数据挖掘系统,还常常采用 多种数据挖掘技术或整合多种数据挖掘技术以弥补不同数据挖掘技术所存在的 不足【l a r 9 6 ,g w 9 8 】。 l - 2 4 1 统计学习方法 统计方法是从事务的外在数量上的表现去推断该事务可能的规律性。数据处 理的最初阶段就是用人工方法进行统计分析。传统的统计方法在解决机器学习问 题中起着基础性的作用。常见的统计方法有回归分析( 多元回归、自回归等) 、 判别分析( 贝叶斯判别、费歇尔判别、非参数判别等) 、聚类分析( 系统聚类、 动态聚类等) 以及探索性分析( 主元分析法、相关分析法等) 。 在传统的统计学习方法基础上,已经形成了多种新型的统计学习分析方法, 如模糊集、支持向量机( s v m ) ,粗糙集等。 1 2 ,4 2 机器学习方法 机器学习的方法是目前研究的重点。从采用的技术上看,可以分为两大类: 基于决策树的技术和基于决策规则的方法。基于决策树的技术以信息论的原理为 基础建立决策树,最后获得的知识表示形式是决策树。基于决策规则的方法又可 以细分为两种,一种是在决策树基础上加入规则求取步骤获得决策规则的方法; 另外一种则是直接具有规则求取能力的方法。 目前较为常用的机器学习方法有:归纳规则、决策树、范例推理、贝叶斯信 念网络、科学发现等。 l ,2 4 3 仿生学方法 仿生学方法的典型技术是神经网络和遗传算法,这两种技术已经形成了独立 的研究体系,在数据挖掘中发挥了重要的作用。 神经网络是模仿人脑神经网络的结构和工作机制而建立的一种计算模型。这 种计算模型的特点是,利用大量的简单计算单元连接成网络,以此实现大规模并 浙江大学硕士学位论文 行计算。神经网络的优点是联想记忆、优化计算,可以用于聚类、预测及模式识 别等。 遗传算法是按照自然进化原理提出的一种优化策略。它是进化计算方法的实 例,是优化型算法。在数据挖掘中,遗传算法可以用于聚类、预测甚至是关联分 析。可以认为这些技术是从一组表示数据的模型中发现“最适应的”模型。 1 3 动态数据中的数据挖掘 时问序列是指按时间顺序排列的一组观测值【c h a 8 4 。时间序列是一种十分 常见的数据形式。在金融、工业、气象、医学、交通、计算机网络等领域,有大 量的数据都是以时间序列的形式存在的。我们将从海量时间序列数据中寻找规律 和知识的数据挖掘方法称为动态数据挖掘。 对于时间序列的研究已经开展了很久,在 c h a 8 4 ,w u 0 4 ,z q 0 3 】中,对时 涮序列模型、模型参数估计、模型定阶等的成熟方法都有详细介绍。但是,传统 的时间序列分析方法一般着重于构造全局的数学模型,以此对系统行为进行验 证、预测和控制,这需要对系统有深入的了解,并且往往还要基于很多明显同现 实不符的假设,如平稳性假设,正态分布假设,独立性假设等。而数据挖掘直接 以数据为驱动,由计算机自动去发现一些规律和模式,这些规律不一定代表全局, 但往往是非常有价值的【l m w 0 1 】。同时,数据挖掘领域的时间序列研究问题, 即动态数据挖掘问题,更多地是从现代信息技术的角度考虑,比如时间序列的查 询、编码、分类等等。这些问题与经典的时间序列研究的问题有着显著的差别, 从而也导致了对新方法和新技术的要求。 一般来说,动态数据挖掘包含以下几个不同的问题: 1 ) 相似序列的查询问题 相似的时间序列的查询是时间序列数据挖掘中的一个具有基础性作用的问 题。很多进一步的分析和挖掘都是建立在查询的基础之上的,而在数据挖掘领域 中较早对时间序列进行的研究,也大都是集中在时间序列的查询上。这个问题至 今仍然是领域中的研究的一个主要问题。 该问题的另一个重点,是如何定义“相似”。针对不同领域的实际问题,相 似的定义往往有着很大的区别。因此,提出不同的相似的定义,以及在这种定义 下如何完成查询任务,仍将是研究的主要方向之一。 相似序列的查询问题包括:时间序列的全匹配问题,子序列搜索问题,存在 噪声、平移及伸缩时的序列相似性,时间差下的序列相似性等。 2 ) 时间序列中的知识发现 这里所指的知识相对于前述的查询、搜索等更进一层。这些知识包括时间序 浙江大学硕士学位论文 列中的趋势发现、异常情况的发现、时间序列中的复杂对象的描述性表达、时间 序列的分类与聚类以及规则产生等。它们与经典的时间序列分析问题相比,更能 体现出时间序列的数据挖掘在知识工程等计算机领域上所具有的特点。 3 ) 时间序列的符号化 在时间序列的符号化方面所作的工作并不是很多,主要工作都集中在对时间 序列本身的符号化上。【l t z + 0 0 】的方法使符号化后的时间序列比原序列更加易 于理解,也便于进一步的分析、挖掘,但是由于符号化时没有保留各分段在时间 序列中的位置信息,因此,符号化后的各个符号所对应的时间段难以确定。 另外还有少量的工作是在关于时间序列的规则符号化以及复杂对象的描述 性表达方面。 - 1 4 数据挖掘的技术难题与发展趋势 数据、数据挖掘任务和数据挖掘方法的多样性,给数据挖掘提出了许多挑战 性的课题。从数据角度看,噪声数据、缺失数据、冗余数据、海量数据以及动态 数据等,都是尚待解决和完善的课题。从数据挖掘方法的角度看,数据挖掘算法 必须是高效的和可扩展的,算法的运行时间必须是可预测和可接受的。挖掘语言 的设计,高效而有用的数据挖掘系统的开发,交互和集成的数据挖掘环境的建立, 以及应用数据挖掘技术解决大型应用问题,都是目前数据挖掘研究应用所面临的 挑战。以下是一些数据挖掘的发展趋势,以及面对这些挑战的应对策略【h k d l 】: 1 ) 应用的探索:早期的数据挖掘应用主要集中在帮助企业提升竞争能 力。随着数据挖掘的日益普及,数据挖掘也开始探索其他应用范围, 如生物医学、金融分析和电信等领域。此外,电子商务和电子市场逐 渐成为零售业新的热点,数据挖掘也在不断扩展其在商业领域的应用 面。通用的数据挖掘系统在处理特定应用问题时有其局限性,因此目 前的一种趋势是开发针对特定应用的数据挖掘系统; 2 )可伸缩的数据挖掘方法:与传统的数据分析方法相比,数据挖掘必须 能够有效地处理大量的数据,而且尽可能是交互式的。由于数据量是 在不断激增的,因此针对单独的和集成的数据挖掘功能的可伸缩算法 显得十分重要。一个重要的方向是所谓基于约束的挖掘。它致力于在 增加用户交互的同时如何改进挖掘处理的总体效率。它提供了额外的 控制方法,允许用户说明和使用约束,引导数据挖掘系统对感兴趣模 式的搜索; 3 ) 数据挖掘与数据库系统、数据仓库、w e b 数据库系统的集成:数据库 系统、数据仓库系统和w w w 已经成为信息处理系统的主流。保证 浙江大学硕士学位论文 4 ) 5 ) 6 ) 7 ) 8 ) 数据挖掘作为基本的数据分析模块能够顺利地集成到此类信息处理 环境中,是十分重要的。数据挖掘系统的理想体系结构是与数据库和 数据仓库系统的紧耦合方式,事务管理、查询处理、联机分析处理和 联机分析挖掘应集成在一个统一框架内。这将保证数据的可获得性, 数据挖掘的可移植性、可伸缩性、高性能,以及对多维数据分析和探 察的集成信息处理环境; 数据挖掘语言的标准化:标准的数据挖掘语言或其他方面的标准化工 作将有助于数据挖掘的系统化开发,改进多个数据挖掘系统和功能问 的互操作,促进数据挖掘系统在企业和社会中的教育和使用; 可视化数据挖掘:可视化数据挖掘是从大量数据中发现知识的有效途 径。系统研究和开发可视化数据挖掘技术将有助于推进数据挖掘作为 数据分析的基本工具; 复杂数据类型挖掘的新方法:复杂数据类型挖掘是数据挖掘中一项重 要的前沿研究课题。虽然在地理空间挖掘、多媒体挖掘、时间序列挖 掘以及文本挖掘方面取得了一些进展,但它们与实际应用的需要仍存 在很大的距离。对此需要进一步研究,尤其是把针对上述数据类型的 现存数据分析技术与数据挖掘方法集成起来的研究; w e b 挖掘:w e b 在当今社会扮演着越来越重要的角色,因此,有关 w e b 内容挖掘、日志挖掘和i n t e m e t 上的数据挖掘服务将成为数据挖 掘中一个最重要和繁荣的子领域; 数据挖掘中的隐私保护与信息安全:随着数据挖掘工具和电信、计算 机网络的日益普及,数据挖掘要面对的一个重要问题是隐私保护和信 息安全。需要进一步开发有关方法,以便在适当的信息访问和挖掘过 程中确保隐私保护和信息安全。 1 5 数据挖掘的工具及评价标准 由于数据挖掘技术在企业经营管理、政府行政管理决策支持以及科学研究等 领域获得了广泛的应用,许多软件开发商或研究机构纷纷推出了各种数据挖掘商 品化工具。 1 5 1 常用的数据挖掘工具 按照数据挖掘应用的范围可将数据挖掘工具分成专用型数据挖掘工具和通 用型数据挖掘工具两类。 15 1 _ 1 专用型数据挖掘工具 浙江大学硕士学位论文 专用型数据挖掘工具主要用于某个特定领域,它是数据挖掘方法的一般性原 理与特定的数据挖掘应用领域的结合,如针对生物医学与d n a 数据分析的数据 挖掘,针对金融与证券数据分析的数据挖掘,针对零售业的数据挖掘,针对电信 业的数据挖掘等等。这些领域中的实践将数据挖掘技术与特定的领域知识相结 合,提供了满足不同领域的特定任务的数据挖掘方案。由于专用型数据挖掘工具 的针对性较强,采用一些特殊的算法对特定的数据集进行处理,数据挖掘的效率 较高,挖掘出的知识可靠性也较高,但是应用范围受到限制。 1 ) s k i c a t ,由美国加州理工学院与日本k a y y a d 联合设计,能够对大规模的空 间数据进行分析,识别遥远空间的星体; 2 ) t a s a ,由芬兰赫尔辛基大学所研制的t a s a ,能够采用特殊算法处理网络通 信中的数据,对网络通信故障发出警报; 3 ) a d v a n c e ds c o u t ,由m m 公司推出的一套针对n b a 数据进行分析的系统,帮 助教练优化战术组合。 1 5 1 2 通用型数据挖掘工具 通用型数据挖掘工具一般不考虑所挖掘对象的实际含义,只提供各种通用挖 掘算法,允许用户自定义数据源进行多模式挖掘。由于它的通用性特点,其应用 范围较广,而且用户可以针对自己的数据挖掘对象编制特定的数据挖掘方案,灵 活性很大。但是,通用型数据挖掘工具中的挖掘算法为了提高其通用性,一般都 很难再进行优化,因此数据挖掘的效果往往不如专用型数据挖掘工具。 1 ) i m 智能挖掘器,是由m m 公司推出的一套包括e x p l o r e r 、d i a m o n d 和q u e s t 在内的软件产品,可以用来提供高端数据挖掘解决方案; 2 ) s p s s 统计软件包,是s p s s 公司的主产品,在统计领域处于领先地位。它的 挖掘工具采用的是传统统计方法,如线性回归分析等。另外s p s s 公司的 c l e m e n t i n e 是一套全面的数据挖掘工具包,使用g u i 方法和客户一服务器模型; 3 ) r e db r i c k 数据挖掘工具,是由r e db r i c k 系统公司生产的第一个将数据挖掘 解决方案与数据库集成在一起的数据挖掘软件产品。与数据库的联结,减少了传 统数据挖掘中需要的大量数据准备时间,并且提供了扩展的s q l 语言: 4 ) e n t e r p r i s e m i n e r ,是s a s 公司出品的一套全面的数据挖掘集成工具集。除了 统计方法外,s a s 数据挖掘方法还包括神经网络、决策树等; 5 ) b u s i n e s sm i n e r ,美国b u s i n e s so b j e c t 公司的一种单策略、易使用的基于决策 树的工具。 1 5 2 数据挖掘工具的评价标准 在数据挖掘技术的日益发展的同时,出现了很多数据挖掘工具。如何选择满 浙江大学硕士学位论丈 足用户需要的数据挖掘工具,成为了数据挖掘应用中首要解决的问题。在挖掘工 具选择中,一般可以参照以下评价标准:【c h e 0 2 】 1 ) 模式种类的数量,数据挖掘工具能够提供的模式越多,它的知识发现能力就 越强: 2 ) 解决复杂问题的能力,由于挖掘数据量一般都比较大,因此,算法的时空复 杂性成为许多挖掘工具实际应用中的重要限制因素。一般可以从挖掘工具的模式 应用、数据选择和转换能力、可视化程度、扩展性等方面考察它解决复杂问题的 能力大小; 3 ) 操作性能,这是一个影响挖掘工具性能的重要因素。引导用户执行挖掘任务、 嵌入挖掘工具、程序设计语言接口等等都可以极大地提高挖掘工具的易操作性; 4 ) 数据获取能力,数据挖掘工具的使用基础是数据库或数据仓库。具有与大部 分数据库的通用接口的挖掘工具不但可以简化数据准备工作,而且将具有更大的 使用范围; 5 ) 挖掘结果的输出。挖掘结果应该能以多种方式输出,而且输出的结果要便于 用户理解。同时,挖掘工具能否提供与传统工具集成的简易途径和接口,也是衡 量数据挖掘工具好坏的标准: 6 ) 挖掘工具的鲁棒性。大多数情况下,数据源都包含有噪声。数据挖掘工具应 能对携带噪声的数据进行挖掘。另外,挖掘工具要有较强的容错能力,能够处理 非法输入、内存空间不足等异常情况。 1 5 3 数据挖掘工具的发展方向 目前的数据挖掘工具不但需要人来定义需求,而且还要人来解释结果。随着 数据挖掘工具越来越完善,集成度越来越高,人的参与程度将会越来越低。 另外,由于数据挖掘应用的多样性,迫切需要发展一个全面的数据挖掘模型。 这方面主要的进展可能是一个复杂的“查询语言”的产生,它既包括了传统的 s q l 功能,同时也包括了一些更复杂的需求。目前已提出的一个基于s q l 的数 据挖掘查询语言( d a t am i n i n gq u e r yl a n g u a g e ,d m q l ) 是一个很好的示范。 知识与数据发现管理系统( k n o w l e d g ea n dd a t ad i s c o v e r ym a n a g e m e n t s y s t e m ,k d d m s ) 这个术语被用来描述下一代数据挖掘系统,它不仅包括数据挖 掘工具,而且包括管理数据的技术。 目前还出现了一个被称作数据挖掘的跨行业标准过程( c r o s s i n d u s t r y s t a n d a r dp r o c e s sf o rd a t am i n i n g ,c r i s p d m ) 的k d d 处理模型。该模型可以应 用于许多不同领域,强调的是k d d 过程中的所有步骤,包括商业需求理解、数 据理解、数据准备、建模和评价使用,挖掘结果的维护等。 浙江大学硕士学位论文 1 6 论文的研究内容与结构 本文将数据挖掘运用于生产企业的生产过程质量控制中,针对生产企业生产 过程的特点,如问歇型生产与连续型生产、历史数据为时间序列、各工艺参数采 样时间不同等,给出了一般的动态数据挖掘方法,用于解决生产过程的质量预测 问题和质量分析问题。 第一章是关于数据挖掘的综述,通过大量的中外文献阅读,对数据挖掘的基 本知识、挖掘对象、方法技术以及数据挖掘领域的挑战和发展趋势进行了较为系 统完整的阐述,特别是对时间序列数据挖掘进行了进一步的介绍。同时,对于本 文研究所关心的现有的数据挖掘工具、数据挖掘工具的评价标准以及数据挖掘工 具的发展方向进行了分析探讨。 第二章提出了生产过程质量控制的两个基本问题,即质量预测问题和质量分 析问题。针对生产企业生产过程的特点,给出了将动态数据挖掘技术应用于生产 过程的一般方法,并着重阐述了数据协调和时间序列模式提取两个问题的解决方 法。 第三章是将第二章中提出的面向生产过程质量控制的动态数据挖掘方法应 用于连续铸造过程,用于解决以连铸铸坯表面裂纹为质量指标的质量预测问题和 质量分析问题。使用空值处理、滤波和模式提取等对原始数据进行预处理,使用 朴素贝叶斯( n a i v eb a y e s ) 分类方法解决质量预测问题,使用a p r i o r i 算法进行 关联分析以解决质量分析问题。给出的仿真结果证明了第二章提出的方法的正确 性和有效性。 第四章是基于第二章中提出的方法,研制了生产过程质量控制动态数据挖掘 平台d m p l a t f o r m 。该平台已经在某钢铁企业的数据分析部门使用,用以生产数 据的挖掘和分析。第三章中的一些仿真是基于该平台的。 第五章对本文工作进行了总结,并提出了未来的研究方向和工作展望。 1 。7 小结 本章对数据挖掘技术进行了综述。介绍了数据挖掘的起因和基本概念;列举 了当前数据挖掘技术应用的对象和主要方法,特别地对动态数据挖掘技术进行了 展开描述;介绍了数据挖掘的发展趋势和当前热点问题;简单介绍了当今热门的 数掘挖掘软件以及数据挖掘软件的评价标准;最后是论文研究内容的概览和结构 安排。 浙江大学硕士学位论文 第二章面向生产过程质量控制的 动态数据挖掘方法 摘要质量控制对提高企业产品质量具有重要的意义。本章提出了生产过程质量控制的两个 基本问题,即质最预测问题和质量分析问题。并针对生产企业生产过程的特点,如问歇型生 产与连续型生产、历史数据为时间序列、各工艺参数采样时间不同等,将动态数据挖搠运用 于质量控制中,给出了解决生产过程质量控制问题的一般方法,并着重阐述了如何解决数据 协调和时间序列模式提取这两个问题。 关键词质量控制;动态数据挖掘;数据协调;模式提取 2 1 引言 随着原材料、能源价格上升以及市场竞争日益激烈,生产企业对于其产品质 量的要求越来越高。质量控制的传统方法是对产品进行人工检验,这种方法耗时 耗力,并且含有由主观因素引起的不确定性。同时,由于是事后的离线检验,当 发现产品质量出现问题后再对生产过程进行调整时,已经造成了大量的生产浪 费。 统计质量控制( s t a t i s t i c a l
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年宣城辅警协警招聘考试备考题库及答案详解(新)
- 2024年安庆辅警协警招聘考试备考题库含答案详解ab卷
- 2023年衡水辅警招聘考试题库附答案详解(研优卷)
- 2023年葫芦岛辅警协警招聘考试真题含答案详解(轻巧夺冠)
- 2024年安徽辅警协警招聘考试真题及1套参考答案详解
- 2023年鸡西辅警招聘考试真题附答案详解(精练)
- 2023年芜湖辅警招聘考试真题含答案详解(完整版)
- 2024年南京辅警协警招聘考试真题及答案详解1套
- 2024年吴忠辅警招聘考试真题含答案详解(研优卷)
- 上海市市北中学2025-2026学年高二上物理期末学业质量监测试题含解析
- 南京夫妻离婚协议书模板
- 2025年事业单位工勤技能-广西-广西造林管护工三级(高级工)历年参考题库典型考点含答案解析
- 商标代理人业务水平考试经典考题含答案
- 2025年商标代理人业务水平考试题库附答案
- 水利PPP项目可行性分析-洞察及研究
- 2.5 玩玩在线交通小游戏-在线游戏 教学设计 三年级上册《信息科技》(安徽版2024)
- 2025医学高级职称(副高)历年真题及答案
- 2025年浙江省高中自主招生考试数学试卷试题(含答案详解)
- 发电厂电气安全知识培训课件
- 桂林银行面试题目及答案
- 2025年浙江省中考科学试题卷(含答案解析)
评论
0/150
提交评论