(计算机应用技术专业论文)棉纺质量数据挖掘技术的研究.pdf_第1页
(计算机应用技术专业论文)棉纺质量数据挖掘技术的研究.pdf_第2页
(计算机应用技术专业论文)棉纺质量数据挖掘技术的研究.pdf_第3页
(计算机应用技术专业论文)棉纺质量数据挖掘技术的研究.pdf_第4页
(计算机应用技术专业论文)棉纺质量数据挖掘技术的研究.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(计算机应用技术专业论文)棉纺质量数据挖掘技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江人学硕十学位论文摘要 摘要 随着数据库技术的迅速发展,以及数据库管理系统的广泛应用,各个应用领 域积累的数据越来越多,激增的数据背后隐藏着许多重要的信息,用户希望能够 对其进行更高层次的分析,以便更好的利用这些数据。虽然目前的数据库系统可 以高效实现数据的录入、查询、统计等功能,但无法发现数据之间的关联以及蕴 含的信息,无法根据现有的数据预测未来的发展趋势,缺乏挖掘数据背后隐藏的 知识的手段,导致了“数据爆炸但知识贫乏 的现象。 中国棉纺织业是纺织工业中基础最好的传统产业,在国民经济中占有重要地 位。信息技术的发展,使得棉纺业在生产管理和生产过程中积累了大量的业务数 据。如何充分利用这些数据为企业创造效益,是纺织企业目前期待解决的重要问 题,数据挖掘技术的诞生,为解决这类问题提供了一条有效的途径。 本文以浙江春江棉纺企业的质量数据为基础,对棉纺企业成纱等级分类问题 的技术难点进行分析,介绍了常用的分类方法如决策树分类、神经网络分类、支 持向量机分类、遗传算法分类和朴素贝叶斯分类,给出了决策树分类算法和朴素 贝叶斯分类算法在成纱等级分类问题上的具体实现。在决策树分类算法中通过计 算训练集中各个属性的信息增益判断决策树中各个属性节点的顺序,以哈夫曼编 码建立决策树,提出了决策树裁剪算法,提炼出成纱等级分类中用到的规则。朴 素贝叶斯算法是在假设训练集各个属性之间相互独立的前提下进行的,首先计算 各个训练属性与成纱等级之间的条件概率,通过贝叶斯理论计算出测试数据在每 个成纱等级下的条件概率,将测试数据归入某个成纱等级。在本论文中,通过决 策树和贝叶斯分类算法的实验数据的对比,分析了两种分类算法的优异。并在实 验数据的基础上提出了改进的贝叶斯分类算法。 关键词:数据挖掘,决策树,贝叶斯方法,分类 浙江人学硕十学位论文 a b s t 髓c t a b s t r a c t w i t ht h er a p i d d e v e l o p m e n to fd a t a b a s et e c h n o l o g y ,a n dd a t a b a s e m a n a g e m e n ts y s t e mw i d e l yu s e di nv a r i o u sa p p l i c a t i o n so ft h ed a t a a c c u m u l a t e dm o r e a n dm o r ed a t ah i d d e nb e h i n dt h es u r g ei nt h en u m b e ro f i m p o r t a n ti n f o r m a t i o n ,t h euserw a n t st h e mt ob eh i g h e rl e v e lo fa n a l y s i s i no r d e rt ob e t t e ru s eo ft h e s e d a t a a l t h o u g ht h ec u r r e n td a t a b a s es y s t e m c a na c h i e v eh i g he f f i c i e n c yo fd a t ae n t r y ,q u e r y ,s t a t i s t i c s a n do t h e r f u n c ti o n s ,b u tc a n tf i n dt h el i n kb e t w e e nd a t aa n d t h ei n f o r m a t i o n c o n t a i n e d ,a c c o r d i n gt ot h ea v a i l a b l ed a t ac a n tp r e d i c tt h ef u t u r et r e n d o fd e v e l o p m e n t ,l a c ko ft h ed a t am i n i n go f t h eh i d d e nk n o w l e d g e ,l e a d i n g t ot h e 。e x p l o s i o no fd a t ab u tt h el a c ko f k n o w l e d g e 一 t h ec o t t o nt e x t i l ei n d u s t r yo fc h i n ai sb a s e do nt h e b e s to ft r a d i t i o n a l i n d u s t r i e si nt h et e x t i l ei n d u s t r y i to c c u p i e sa ni m p o r t a n tp o s i t i o ni n t h en a t i o n a le c o n o m y t h ed e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g ym a k e st h e c o t t o n i n d u s t r y i n p r o d u c t i o nm a n a g e m e n ta n dp r o d u c t i o n p r o c e s s o f a c c u m u l a t i o no fal a r g en u m b e ro fb u s i n e s sd a t a h o wt om a k ef u l lu s eo f t h e s ed a t af o rc o m p a n i e st oc r e a t ee f f i c i e n c y i sl o o k i n gf o r w a r dt ot h e c u r r e n tt e x t i l ee n t e r p r i s e ss o l v ei m p o r t a n tp r o b l e m s t h eb i r t ho fd a t a m i n i n gt e c h n o l o g y ,i no r d e rt os o l v es u c hp r o b l e m sh a sp r o v i d e da ne f f e c t i v e w a y h o wt om a k ef u l lu s eo ft h e s ed a t af o rc o m p a n i e st oc r e a t ee f f i c i e n c y , i sl o o k i n gf o r w a r dt ob es o l v e di m p o r t a n tp r o b l e m so ft h ec u r r e n tt e x t i l e e n t e r p r i s e s t h eb i r t ho fd a t am i n i n gt e c h n o l o g yh a sp r o v i d e da ne f f e c t i v e w a yt os o l v es u c hp r o b l e m s t h i sp a p e rt a k e st h eq u a l i t a t i v ed a t ao fz h e j i a n gc h u n j i a n gc o t t o ns p i n n i n g e n t e r p r i s ea saf o u n d a t i o n b e c o m e st h eg a u z er a n kc l a s s i f i c a t i o nq u e s t i o n t ot h ec o t t o ns p i n n i n ge n t e r p r i s et h et e c h n i c a ld i f f i c u l t yt o c a r r yo n t h ea n a l y s i s i ti n t r o d u c e st h ec o m m o n l yu s e dt a x o n o m i ca p p r o a c hl i k et h e d e c i s i o nt r e ec l a s s i f i c a t i o n ,t h en e u r a ln e t w o r kc l a s s i f i c a t i o n ,t h e s u p p o r tv e c t o rf u s e l a g ec l a s s i f i c a t i o n ,t h eg e n e t i ca l g o r i t h m c l a s s i f i c a t i o na n ds i m p l eb a y e s i a nc l a s s i f y t h ed e c i s i o nt r e es o r t i n g a l g o r i t h ma n dt h es i m p l eb a y e s i a ns o r t i n ga l g o r i t h mi nb e c o m e si nt h eg a u z e r a n kc l a s s i f i c a t i o nq u e s t i o nc o n c r e t er e a l i z a t i o nw a sg i v e n i nt h e d e c i s i o nt r e es o r t i n ga l g o r i t h mt h r o u g ht h ec o m p u t a t i o nt r a i n i n g r e g u l a t i o n si ne a c ha t t r i b u t ei n f o r m a t i o ng a i nj u d g m e n td e c i s i o nt r e ee a c h a t t r i b u t en o d e 。so r d e r ,c o d e st h ee s t a b l i s h m e n td e c i s i o nt r e eb yh u f f m a n c o d e - p r o p o s e dt h ed e c i s i o nt r e ec u t t i n go u ta l g o r i t h m r e f i n e sb e c o m e s t h er u l ew h i c hi nt h eg a u z er a n kc l a s s i f i c a t i o nu s e s i tp r o p o s e dt h e d e c i s i o nt r e ec u t t i n go u ta l g o r i t h m ,r e f i n e sb e c o m e st h er u l ew h i c hi n t h eg a u z er a n kc l a s s i f i c a t i o nu s e s t h es i m p l eb a y e s i a na l g o r i t h mi su n d e r t h ei n d e p e n d e n tp r e m i s ec a r r i e so nm u t u a l l yb e t w e e ns u p p o s i t i o nt r a i n i n g r e g u l a t i o n se a c ha t t r i b u t e ,f i r s tc a l c u l a t e se a c ht r a i n i n ga t t r i b u t ew i t h t ob e c o m eb e t w e e nt h eg a u z er a n kt h ec o n d i t i o n a l p r o b a b i l i t y ,t h r o u g h b a y e s i a nt h e o r e t i c a lc a l c u l a t i o nt e s td a t a ,i ne a c hb e c o m e su n d e rt h e g a u z e r a n kt h ec o n d i t i o n a lp r o b a b i l i t y ,t h et e s td a t aw i l lb e l o n gt o s o m et o b e c o m et h eg a u z er a n k 工nt h i sp a p e r ,t h r o u g ht h ec o n t r a s tb e t w e e nt h e d e c i s i o nt r e ea n dt h eb a y e s i a ns o r t i n ga l g o r i t h m h a s a n a l y z e dt w ok i n d o fs o r t i n ga l g o r i t h m i tp r o p o s e dt h ei m p r o v e m e n t b a y e s i a ns o r t i n g a l g o r i t h mb yt h ef o u n d a t i o no ft h ee m p i r i c a ld a t a k e y w o r d s : d a t am i n i n g ,d e c i s i o nt r e e s ,b a y e s i a n ,c l a s s i f i c a t i o n l l 浙江大学硕士学位论文 图目录 图目录 图1 - 1 数据,信息,知识的转化2 图1 2 数据挖掘过程3 图2 - 1 神经网络分类模型示意图。1 1 图4 1 决策树裁减1 2 7 图4 2 决策树裁减2 2 7 图4 3 基于决策树的成纱等级分类算法流程图2 8 图5 1 朴素贝叶斯分类算法结构示意图3 1 图5 2s n b c 分类算法结构示意图3 2 图5 3b a n 分类算法结构示意图3 5 图5 - 4b m n 分类算法结构示意图- 3 6 图5 5 主动选择优先实例增量分类过程3 8 图5 - 6 基于朴素贝叶斯分类算法流程图4 1 图6 - 1 计算机配棉系统的结构图5 1 图6 2 系统功能设计图5 3 图6 3 原棉质量检验数据采集界面5 4 图6 4 混棉排队方案5 5 图6 5 成品质量检验数据采集界面5 5 图6 6 数据挖掘模型选择界面5 6 图6 7 数据挖掘模型结果输出界面5 6 图6 8 贝叶斯各个属性在成纱各类别的条件概率5 6 图6 - 9 贝叶斯预测结果输出5 7 图6 1 0 决策树结点顺序判断5 7 图6 1 1 决策树编码结果输出界面5 8 图6 1 2 决策树规则输出界面5 8 图6 1 3 决策树简化规则输出界面5 9 图6 1 4 决策树预测结果输出界面5 9 i i i 浙江大学硕士学位论文 表目录 表目录 表3 - 1 训练集属性分类1 9 表3 2 成纱检验值分类1 9 表6 - 1 每个属性分类在成纱不同等级下的条件概率4 7 表6 2 决策树分类和朴素贝叶斯分类比较实验4 8 i v 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得浙江大学或其他教育机构的 学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示谢意。 学位论文作者签名:王整签字日期:丑赡 年6 月7 同 学位论文版权使用授权书 本学位论文作者完全了解浙江大学有关保留、使用学位论文的规定,有权 保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借 阅。本人授权浙江大学可以将学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:王怨 签字日期:埘8 年参月9 日 导师签名: 签字日期: 学位论文作者毕业后去向: 工作单位:浙江电子口岸有限公司 通讯地址:中国杭州杭大路9 号聚龙大厦西9 f 电话:1 3 6 5 6 6 8 2 4 6 7 邮编:3 1 0 0 0 7 浙江人学坝 :学位论文第1 章绪论 第1 章绪论 随着数据库技术的迅速发展,以及数据库管理系统的广泛应用,各个应用领 域积累的数据越来越多,激增的数据背后隐藏着许多重要的信息,用户希望能够 对其进行更高层次的分析,以便更好的利用这些数据【l l 。虽然目前的数据库系统 可以高效实现数据的录入、查询、统计等功能,但无法发现数据之间的关联以及 蕴含的信息,无法根据现有的数据预测未来的发展趋势,缺乏挖掘数据背后隐藏 的知识的手段,导致了“数据爆炸但知识贫乏”的现象。 中国棉纺织业是纺织工业中基础最好的传统产业,在国民经济中占有重要地 位。信息技术的发展,使得棉纺业在生产管理和生产过程中积累了大量的业务数 据。如何充分利用这些数据为企业创造效益,是纺织企业目前期待解决的重要问 题,数据挖掘技术的诞生,为解决这类问题提供了一条有效的途径。 1 1 数据挖掘技术概述 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据 中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过 程。其中数据源应该是大量的,真实的,含有噪音的;所发现的信息和知识是潜 在的并隐藏在大量数据背后的,是用户感兴趣的,可理解,可运用的知识1 2 1 。所 以,有时候人们也称数据挖掘为知识挖掘,知识提取,知识发现等。 1 1 1 数据挖掘定义 基于数据库的知识发现( k d d :k n o w l e d gd i s c o v e r y i nd a t a b a s e s ) 与数据挖掘 是两个息息相关的概念。人们从不同的层面提出了不同的k d d 定义,其中一种 比较全面的定义形式是k d d 是识别存在于数据库中有效的,新颖的,具有潜在 价值的乃至最终可以理解形式的非平凡过程。它包括从数据库中对数据的选取和 采样,清理和预处理,转换和必要的简化,从数据中挖掘产生模式,直到对得到 的模式进行解释和评估等过程【3 】。这里所说的数据是一系列事实的集合,可以是 浙江人学颂十学位论文 第1 章绪论 一个或一组数据库、数据仓库、电子表格或其他类型的信息库,在数据上进行数 据清理、集成和规约后的数据这是k d d 处理的最常用的数据形式。过程是在k d d 中包含的步骤,如数据的预处理、模式搜索、知识表示及知识评估、过程优化等。 模式是对一个数据子集的狭义描述,是对数据集合的某个子集所采用某种语言进 行的表述,不同于模型。非平凡是指它已经超越了一般封闭形式的数量计算,包 括对结构、模式和参数的搜索。提取的知识表示为概念、规则、规律、模式、约 束和可视化等形式。 从概念可以看出,数据挖掘的范围比k d d 广泛,k d d 是面向数据库的,而 数据挖掘面向的数据形式可以有多种多样,它可以是数据库,还可以是图像,声 音等媒体数据。从过程上看,数据挖掘又可以被看作是从数据库中提取有用信息 这一过程的同义词,它是k d d 的一个步骤。由于现在的工作大部分是基于数据 库的,所以在实际研究与应用过程中提起更多的是k d d 。 在进行数据挖掘和知识发现过程中,数据,信息,知识是直接接触的三个概 念,三者之间有联系又有区别在受到其他因素的作用时,它们之间将会进行转化 如图1 1 所示。 图1 - 1 数据,信息,知识的转化 数据挖掘的本质是知识发现,它所有发现的知识都是隐藏在大量数据之中的 关联信息,所有的知识都是有特定前提和约束条件的,是面向特定领域的,而且, 2 浙江大学硕i j 学位论文第1 章绪论 这些知识还要能够易于被用户理解,能用自然语言表达所发现的结果。 一般来说,数据挖掘的过程由3 个主要阶段组成:数据准备、挖掘操作、结 果表达和解释【4 1 。知识的发现可以描述为这3 个阶段的反复过程,如图1 2 。 图1 - 2 数据挖掘过程 1 1 2 数据挖掘技术的研究现状和发展趋势 目前,对数据挖掘的研究主要体现在以下几个方面:对知识发现方法的研究 进一步发展,如近年来注重对b a y e s ( i j i 叶斯) 方法以及b o o s t i n g 方法的研究和提 高传统的统计学回归法在d m 中的应用;d m 与数据库的结合越来越紧密。在应 用方面:k d d 商业软件工具不断产生和完善,注重建立解决问题的整体系统,而 不是孤立的过程。用户主要集中在大型银行、保险公司、电信公司和销售业。国 外很多计算机公司非常重视d m 系统的开发应用,i b m 与微软都成立了相应的研 究中心进行这方面的工作。许多著名的计算机公司开始尝试着k d d 软件的开发, 比较典型的有s a s 公司的e n t e r p r i s em i n e r ,i b m 公司的i n t e l l i g e n tm i n e r ,s g i 公司的s e t m i n e r ,s p s s 公司的c l e m e n t i n e 等。w e b 数据挖掘产品有n e t p e r c e r p t i o n s ,a c c r u ei n s i g h t 和a c c r u eh i tl i s t ,c o m m e r c e t r e n d s 等。 与国外相比,国内对d m 的研究稍晚,目前进行的大多数研究项目是由政府 资助进行的,如国家自然科学基金、8 6 3 计划、“九五 、“十五”计划等。1 9 9 3 年国家自然科学基金开始对数据挖掘研究进行支持。国内从事数据挖掘研究的人 员主要集中在大学,也有部分在研究所或公司。所涉及的研究领域很多,一般集 浙江大学硕十学位论文 第1 章绪论 中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。 如北京系统工程研究所对模糊方法在数据挖掘中的应用研究、北京大学对数据立 方体的研究、华中理工大学、复旦大学、浙江大学等对关联规则的研究等。但是 到目前为止,国内还没有比较成熟的数据挖掘产品。 数据挖掘的发展趋势主要有以下几个方面: 1 数据挖掘将成为企业信息系统基础设施的一种标准能力。随着数据挖掘 的广泛应用和深入开展,企业已经把数据挖掘作为提高自己竞争力的有 效手段。 2 数据挖掘过程将走向标准化一项技术只有标准化了才能获得广泛应用, 数据挖掘也是一样标准化数据挖掘过程将使得数据挖掘成为类似关系 型数据库一样的工业标准技术,有助于大规模的分工开发,有利于企业 和个人的使用。 3 数据挖掘的全面可视化。可视化可以帮助人们从大量的数据中发现知识, 帮助人们对所挖掘的知识的理解数据挖掘的可视化包括数据可视化,数 据挖掘结果可视化,数据挖掘过程可视化和交互式的可视化等等经过全 面的可视化,数据挖掘工具更加易于使用。 4 处理大量数据的能力数据挖掘面对的是大量的海量数据,有些挖掘算法 在数据量小的时候表现不错,但是当数据量增加时,性能却下降的很快 需要我们探索新的算法,使得数据挖掘系统在海量数据面前可以保持合 理的性能,即具有可伸缩性。 5 将致力于多媒体数据,文本数据,地理空间数据等复杂数据类型的处理 技术。 6 与未来的网格技术相结合,研究基于网格的数据挖掘技术,其研究需要 将随着网格技术的发展而日益紧迫。 1 1 3 数据挖掘中的分类问题 分类在数据挖拥中是一个非常重要的课题,目前在商业上应用最多。分类的 4 浙江人学坝i 学位论文第1 章绪论 任务是找出一个类别的概念描述( 通常称之为分类器) ,它代表了这类数据的整体 信息,即该类的内涵描述,一般用规则或决策树模式表示。该模式能够把数据库 中的元组映射到给定类别集中的某一个。例如:可以建立一个疾病诊断分类器, 用于根据病症特征集自动判断该病症所对应的疾病,以帮助医生诊断。 一个类的内涵描述分为:特征描述和辨别性描述。 特征描述是对类中对象的共同特征的描述:辨别性描述是对两个或多个类之 间的区别性描述1 5 1 。特征描述允许不同类中具有共同特征;而辨别性描述对不同 类不能有相同的特征。分类就是寻找合适的辨别性描述的过程。 我们可以将分类模型都抽象成用分类函数的形式来表示。这样一来可以用如 下规范化的形式来定义分类: 分类要学习的分类器就相当于一个函数f ( x ) ,它给需要分类的实例x 赋予类 标签c ,c ( j = 1 ,2 , - - - , m ) ,实例x 由一组属性值a a , a2 ,a 。描述,c 是类变量集 合,取有限值。本文所涉及的分类模型就建立在上述定义之上。 数据分类一般分为两个步骤: 第一步:建立分类模型,描述预定的数据类集或概念集。通过分析有属性描 述的数据库元组来构造模型。通常分类器用分类规则、判定树或数学公式的形式 提供。常用的分类器模型有决策树、贝叶斯方法、神经网络、遗传算法等。 第二步,使用创建的模型将类别未知的元组归入到某个或者某几个类中。使 用模型进行分类需要评估分类模型的预测准确率评估的方法很多通常使用创建 的模型在一个测试集进行预测,并将结果和实际值进行比较,得出预测准确率。 测试集是随机选取得样本集,并独立于训练集。 1 2 本文的研究背景 本文结合杭州市重点科技项目基于x m l 技术的棉纺企业信息系统,以该 系统在春江轻纺集团有限责任公司( 简称春纺集团) 生产中的应用为背景。 项目的总体目标是:建立支持基于企业制造资源优化配置的集成数据库以及 具有棉纺制造知识的模型知识库;研发具有国内先进水平的、基于企业制造资源 浙江人学坝f :学位论文第1 章绪论 优化配置企业综合信息管理系统;研发客户关系管理系统;建立支持棉纺织制造 过程实时在线数据采集系统,实现数据采集和质量管理:从而提高企业的生产管 理效率,减少原材料库存,降低产品库存,节约产品生产成本。根据企业需求, 基于x m l 技术的棉纺企业信息系统由五个子系统构成,分别为:工艺管理子系 统、质量管理子系统、计算机配棉子系统、生产辅助管理子系统以及客户关系管 理子系统。 计算机配棉子系统有查询、配棉方案库、新品种配棉、接批棉配棉、混棉报 表五个功能模块,质量管理子系统包括对化纤、原棉、半制品、纱线等棉纺企业 生产过程中的质量检验数据进行维护,包括增删改查等功能。随着系统在企业中 不断推广,棉纺企业中的质量数据越来越庞大,本论文的研究以质量管理子系统 中的原棉、成品质量检验数据和配棉子系统的混棉报表数据为数据源,结合棉纺 企业质量分类标准,通过对数据进行预处理,探索挖掘混棉排队方案对成品等级 的影响。 通过原材料质量数据和混棉排队方案进行训练,建立合适有效的分类算法对 成纱等级进行预测,实现棉纺企业质量数据的挖掘。企业可以在未生产成纱前通 过分类算法预测成纱等级,判断成纱的质量,有助于领导层和技术人员及时对混 棉排队方案进行修正,达到了借助数据挖掘技术引导决策的效果。由于企业目前 只是完成对质量数据的汇总统计,混棉排队方案的维护等工作,而质量数据和混 棉排队方案中各个属性之间的关系,两者之间的相互关系,以及混棉方案对成纱 质量的影响,都是依靠技术人员的经验进行评判,而这些经验并没有成文的说明。 因此,本文研究的难点体现在以下四个方面。 1 数据集难以选择。数据集的选择是进行数据挖掘的基础和数据准备,由 于企业中的生产的纱线品种的多样性,质量标准的不一致性,以及纱线品种生产 时间不不连续性,如何选择比较适用的,具有普遍性的数据集就成为质量数据挖 掘的一个难点。 2 数据空缺值、重复值,噪声值过多。在质量原材料和成品质量的检验过程 中,企业由于工作安排调整,人员工作质量等一系列的因素影响,照成企业成纱 6 浙江大学硕 ? 学位论文第1 章绪论 质量数据部分数据不齐全,或者有重大偏差。如何在挖掘过程中处理空数据、排 除误差数据,是棉纺质量数据挖掘需要考虑的问题,这关系到数据挖掘的质量。 3 数据差异少,分级困难。棉纺企业的原材料和成品的检验数据之间的差 异比较小,在数值上比较接近,如何对原材料、成品数据进行分级也是质量数据 挖掘中的重点难点。 4 如何建立评估模型。采用不同的数据挖掘分类模型对质量数据进行分析, 而如何评判各个模型的优劣,也是数据挖掘的重要内容,同时也是难点。 1 3 本文的研究内容和组织结构 本文主要是对棉纺企业质量数据挖掘技术进行研究,分析了成纱等级分类问 题的难度,并给出了解决方法,阐述了现行解决分类问题常用的方法:决策树分 类、神经网络分类、支持向量机分类、贝叶斯分类等。并将决策树和朴素贝叶斯 分类算法应用到成纱等级分类问题上,最终通过实验对比,从算法耗用时间和预 测准确度等方面分析决策树和朴素贝叶斯分类算法的优异,并提出了改进的贝叶 斯分类模型。 全文的主要内容和章节结构如下: 第一章:绪论。介绍数据挖掘技术的概念,研究现状和发展趋势,描述了数 据挖掘中的分类问题。阐述了本论文的研究背景、研究内容和组织结 构。 第二章:分类问题常用算法。介绍了目前常用的分类算法:决策树分类、神 经网络分类、支持向量机分类、贝叶斯分类。并阐述了各类方法的优 缺点。 第三章提出了棉纺企业中成纱等级分类问题。并对此问题的难点进行分析, 给出解决方法。 第四章利用决策树模型来解决质量分类的问题。 第五章利用朴素贝叶斯模型来解决质量分类问题。 第六章对决策树和朴素贝叶斯模型产生的结果进行比较,并提出新的分类模 7 浙江火学硕十学位论文 第1 章绪论 型。 第七章对本文的工作进行了总结,并分析了存在的问题和需要进一步研究的 内容。 浙江大学硕t 学位论文第2 章分类问题常用算法 2 1 决策树分类 第2 章分类问题常用算法 决策树是较早应用于数据挖掘分类问题的一种方法1 1 1 1 。它是一种树型结构, 其每一个内部结点表示在一个属性上的测试,并且该结点的每一个后继分支对应 于该属性的一个可能值,每个树叶结点表示类或类分布,树的最顶层结点为根结 点分类实例的方法采用自顶向下的递归式,在决策树的内部结点进行属性值的比 较并根据属性值确定从该结点向下的分支,在决策树叶子结点得到该实例的类 别。 在数据量较大时,决策树方法能较快地构造出分类器;其树型结构可以很方 便地转化为s o l 语言形式,以便用来更有效地访问数据库:且i f t h e n 规则可 以很容易地从这种结构转化中得到,因此这种方法引起了研究者的广泛兴趣【1 2 】。 绝大多数决策树分类方法分两步构造分类器:树的生成与树的剪枝。在树的 生成阶段,决策树是通过反复地分拆训练集而成。在每一次分拆时,都是利用某 种分拆准则选择一个属性。由所选属性值不同将训练集分成多个子集。然后在每 个子集上重复同样的分拆过程,直到每个分拆后的训练集的子集样本均属于同一 类别为止。 对树的剪枝操作是为了避免出现模型的过分拟合现象。因为如果完全按训练 集中的样本生成决策树,那么当样本数据存在噪声时,就会出现过分拟合的现象, 即把噪声数据当作正确的样本而同样要求决策树拟合。这实际会导致决策树泛化 能力的下降,甚至可能会使生成的决策树几乎不可用。因此必须对过分拟合的分 支进行修剪。通常的修剪方法有两种:一是利用测试集,选择使得对测试集分类的 误差最小的子树:另外的一种方法是借助于u d l ( 最小描述长度) 原理进行剪枝, 它是从概率描述的层面来验证决策树的结构。上述两种方法的基本思想和目的是 一致的,都是为了弱化噪声数据的消极影响,提高分类模型的表达能力。 决策树分类方法是应用较为广泛的一种分类方法,已经成功应用到医疗诊 9 浙江人学硕1 j 学位论文 第2 章分类问题常用算法 断,评估贷款申请的信用风险等领域。其原因是:决策树既支持离散数据也支持 连续数据;速度快,精度高;易于转换为分类规则,而且决策树学习过程不需要太 多的领域知识。但是其缺点是训练的耗费大。 决策树方法最突出的优点是: 1 ) 可以生成可以理解的规则; 2 ) 计算量相对来说不是很大; 3 ) 可以处理连续和种类字段; 4 ) 决策树可以清晰的显示哪些字段比较重要。 分析不同的影响因素对分析目标的影响,找到关键的影响因素。决策树法的 优点是直观,但随着数据复杂性的提高,其分支树也会增多,管理困难。而且很 难基于多个变量组合发现规则。不同决策树分支之间的分裂也不平滑。另外,对 连续性的字段比较难预测,而且当类别太多时,错误可能就会增加的比较快。一 般的算法分类的时候,只是根据一个属性来分类。 2 2 神经网络分类 神经网络方法是基于生物神经系统结构和功能而建立起来的,模拟人脑神经 元的方法以m p 模型和h e b b 学习规则为基础,可以建立三大类神经网络模型: 前馈式网络,反馈式网络,自组织网络利用神经网络所具有的固有的并行结构和 并行处理,自适应性,知识的分布存储,较强的容错性,本质的非线性系统等特 性,通过网络训练,建立数据库信息的非线性模型,并从中提取出相应的规则。 神经网络模仿生物神经元对信息的传递特性构建分层网络模型。可以用图形 的方式说明其分类思想。图2 1 是一个三层神经网络模型。数据属性从其中的输 入层进入网络,输出层反应了对其分类的预测信息。其中的每个点就是神经网络 中的“神经元”。 1 0 浙江大学硕i ? 学位论义第2 帚分类问题常用算法 输出层 隐含层 输入层 图2 1 神经网络分类模型示意图 基于神经网络的数据分类关键性问题是:网络的构建和训练,依据属性的数目 和类型确定网络的输入输出模式,并形成合适的网络结构基于神经网络的分类通 常具有较小的分类误差和噪声较强的鲁棒性。 神经网络的优点是:大规模的并行处理和分布式的信息存储,良好的自适应、 自组织性,以及很强的学习功能、联想功能和容错功能。与当今的冯诺依曼式计 算机相比,更加接近人脑的信息处理模式。 主要表现如下: 1 ) 神经网络能够处理连续的模拟信号。例如连续灰度变化的图像信号。 2 1 能够处理混沌的、不完全的、模糊的信息。 3 ) 传统的计算机能给出精确的解答,神经网络给出的是次最优的逼近解答。 4 1 神经网络并行分布工作,各组成部分同时参与运算,单个神经元的动作 速度不高,但总体的处理速度极快。 5 ) 神经网络信息存储分布于全网络各个权重变换之中,某些单元障碍并不 影响信息的完整,具有鲁棒性。 6 ) 传统计算机要求有准确的输入条件,才能给出精确解。神经网络只要求 部分条件,甚至对于包含有部分错误的输入,也能得出较好的解答,具 有容错性。 7 ) 神经网络在处理自然语言理解、图象模式识别、景物理解、不完整信息 浙江大学硕:七学位论文 第2 章分类问题常用算法 的处理、智能机器人控制等方面有优势。 神经网络也有其不足之处: 1 ) 神经网络对分类模型比较适合,但是,神经网络的隐藏层可以说是一个 黑盒子,得出结论的因素并不十分明显。同时其输出结果也没有任何解 释,这将影响结果的可信度及可接受程度。 2 ) 神经网络需要较长的学习时间,因此当数据量很大时,性能可能会出现 问题。 2 3 支持向量机分类 统计学习理论是目前针对小样本统计估计和预测学习的最佳理论,它从理论 上系统地研究了经验风险最小化原则成立地条件、有限样本下经验风险与期望风 险的关系及如何利用这些理论找到新的学习原则和方法等问题,在很大程度上解 决了模型选择与过学习问题、非线性和维数灾难、局部极小点问题等,因此称为 研究的热点。支持向量机是在统计学习理论的v c 维理论和结构风险最小化原理 基础上,根据有限样本信息在模型的复杂性和学习能力之间寻求最佳折中,以获 得最好的推广能力。它脱离传统方法中降维的定式,利用反转技术有目的增加问 题空间的维数,使得分类问题变得相对容易。 它能构造相当复杂的模型,其中包含大量的神经网络,r b f 网络和作为特例 的多项式分类器。但是它的基本思想又是相当简单的,因为它对应于高维空间中 的线性方法。对线性可分问题,由支持向量构造的具有最大间隔的分类超平面将 样本分开,而对非线性可分问题则通过选择适当的核函数将样本空间投影到高维 特征空间,在特征空间中构造最优分类超平面,将样本分开。 作为统计学习理论的实现方法,支持向量机受到广大研究者的关注,在数据 挖掘、手写体识别、疾病诊断、图像分类、函数逼近等许多领域得到成功的应用。 2 4 遗传算法分类 遗传算法是模拟生物进化过程的全局优化方法,通过繁殖、交叉、变异在求 1 2 浙江大学硕十学位论文第2 章分类问题常用算法 解空间按一定的随机规则迭代搜索,直到求得问题的最优解。根据适者生存的原 则,形成当前群体中最适合的规则组成新的群体,以及这些规则的后代规则的适 合度是用它对训练样本集的分类准确度来进行评估。后代通过使用交叉和变异等 遗传操作来创建。在交叉操作中,来自规则对的子串交换,形成新的规则对;在 变异操作中,规则串随机选择的位被反转,由先前的规则群体产生新的规贝l j 群体 的过程继续,直到群体p 进化,p 中的每个规则满足预先指定的适合度闽值。遗 传算法易于并行,并且已用于分类和其他问题的优化,但遗传算法过于复杂。 2 5 贝叶斯分类 贝叶斯分类模型是一种典型的基于统计方法的分类模型。贝叶斯定理是叶斯 理论中最重要的一个公式,是贝叶斯学习方法的理论基础,它将事件的先验概率 与后验概率巧妙地联系起来,充分利用先验信息和样本数据信息确定事件的后验 概率。贝叶斯分类器分为两种: 一种是朴素贝叶斯分类器,它是贝叶斯分类模型中一种最简单、有效的而且 在实际使用中很成功的分类器,其性能可以与神经网络、决策树相媲美。朴素贝 叶斯分类模型基于假定特征向量的各分量间相对于决策变量是相对独立的,即条 件独立性假设。尽管这一假定在一定程度上限制了朴素贝叶斯分类模型的适用范 围,但在实际应用中,降低了贝叶斯网络构建的复杂性。朴素贝叶斯分类模型己 成功地应用到聚类、分类等数据挖掘的任务中。当然朴素贝叶斯分类模型仍有需 要改进的地方,条件独立性假设在一定程度上限制了朴素贝叶斯分类模型的使用 范围,因此人们开始研究放松独立性条件的限制,以提高朴素贝叶斯分类器的分 类性能。为了突破朴素贝叶斯分类器的独立性假设条件的限制,人们通过改变其 结构假设的方式来达到目的。例如半朴素贝叶斯分类器s n b c ( s e m i n a i v e b a y e s i a nc l a s s i f i e r ) 、树扩张型贝叶斯分类器t a n ( t r e e a u g m e n t e db a y e s i a n c l a s s i f i e r ) 及增强型贝叶斯分类器b a n ( b a y e s i a nn e t w o r ka u g m e n t e dn a i v eb a y e s ) 等。 另一种是贝叶斯网络分类器,贝叶斯网络又称为信念网络,它是基于后验概 浙江大学硕 :学位论文第2 章分类问题常用算法 念的贝叶斯定理。贝叶斯网络是一个有向无环图,其中结点代表论域中的变量, 有向弧代表变量的关系,变量之间的关系强弱由结点与其父结点之间的条件概率 来表示,通过贝叶斯网络可以准确地反映实际应用中变量之间的依赖关系。贝叶 斯网络可用于分类、聚类、人工神经网络、预测和因果关系分析等。贝叶斯网络 分类器具有很强的学习、推理能力,能很好地利用先验知识。 贝叶斯方法也存在着不足之处, 1 贝叶斯方法最有争议之处就是先验信息的使用。先验信息来源于经验或 者以前的实验结论,没有确定的理论依据作支持,因此在很多方面颇有 争议。由于很多工作都是基于先验信息的,如果先验信息不正确,或者 存在误差,那么最后导致的结论就会是不可想象的。尤其是在数据挖掘 中,挖掘出的知识也是不可预知的,就是说不知道挖掘出的知识是有用 的还是无用的,甚至是错误的。虽然知识发现中有一步是进行知识评估, 但是这种评估并不能总是知识的可用性和有效性,特别是不能确定先验 信息是否正确时,这种评估更带有不确定性。 2 处理数据复杂性高,因此时间和空间消耗也比较大。贝叶斯方法要进行 后验概率的计算、区间估计、假设检验等,大量的计算是不可避免的。 2 6 本章小结 本章介绍了目前常用的分类算法:决策树分类、神经网络分类、支持向量机 分类、贝叶斯分类,并阐述了各类方法的优缺点。 1 4 浙江入学影川j 学位论义第3 章成纱等级分类问题与难点分析 第3 章成纱等级分类问题与难点

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论