(计算机应用技术专业论文)基于区间方法的可拓分类知识挖掘的研究.pdf_第1页
(计算机应用技术专业论文)基于区间方法的可拓分类知识挖掘的研究.pdf_第2页
(计算机应用技术专业论文)基于区间方法的可拓分类知识挖掘的研究.pdf_第3页
(计算机应用技术专业论文)基于区间方法的可拓分类知识挖掘的研究.pdf_第4页
(计算机应用技术专业论文)基于区间方法的可拓分类知识挖掘的研究.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(计算机应用技术专业论文)基于区间方法的可拓分类知识挖掘的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学位论文数据集 嗍1 | 1 1 1 1 1 1 1 1 1 1 l ! | 1 | l i l 眦洲 y 18 7 7 4 0 5 中图分类号 t p 3 9 l 学科分类号 5 2 0 6 0 论文编号 1 0 0 1 0 2 0 1 1 0 7 4 l密级 公开 学位授予单位代码 l o o l o 学位授予单位名称北京化工大学 作者姓名吕超学号 2 0 0 8 0 0 0 7 4 1 获学位专业名称计算机应用技术获学位专业代码 0 8 1 2 0 3 课题来源基金项目研究方向可拓数据挖掘 论文题目 基于区间方法的可拓分类知识挖掘的研究 关键词可拓分类知识,综合关联函数,值域覆盖,区间映射,可拓变换 论文答辩日期 2 0 1 1 5 2 6+ 论文类型 基础研究 学位论文评阅及答辩委员会情况 姓名 职称 工作单位学科专长 指导教师朱群雄教授北京化工大学智能系统与数据挖掘 评阗人l许南山 副教授 北京化工大学 过程工业实时监控 评阅人2李辉 副教授 北京化工大学 密码学理论与应用 评阅人3 评阅人4 评阅人5 椭员蝴赵瑞蓬教授北京化工大学软件测试 答辩委员1许南山副教授北京化工大学过程工业实时监控 答辩委员2李辉副教授北京化工大学密码学理论与应用 答辩委员3王雪晶副教授北京化工大学 图像处理与模式识别 答辩委员4肖亮副教授北京化工大学核磁共振,医学成像 答辩委员5 注:一论文类型:1 基础研究2 应用研究3 开发研究4 其他 二中图分类号在中国图书资料分类法查询。 三学科分类号在中华人民共和国国家标准( g b 厂r1 3 7 4 5 9 ) 学科分类与代码中 查询 四论文编号由单位代码和年份及学号的后四位组成。 摘要 基于区间方法的可拓分类知识挖掘的研究 摘要 可拓数据挖掘利用可拓学理论和方法挖掘企业数据库中的潜在有用 知识,为企业竞争、生产决策和解决矛盾问题提供帮助。目前,可拓分类 知识挖掘是可拓数据挖掘的主要研究内容。传统的可拓分类知识挖掘使用 的综合关联函数的权值需要由相关领域的专家给出,具有一定的主观性和 不确定性;同时,该领域中可拓集合和可拓变换相关内容还处于概念阶段, 缺乏具体的操作方法。 针对上述不足,本文采用了基于区间的方法来挖掘可拓分类知识,主 要工作如下: 1 、提出了基于值域覆盖确定关联函数权值的方法。该方法根据关联 函数的原理,以不同类别的属性取值范围的覆盖程度作为获得权值的依 据,从数据本身入手,寻找能够得到最佳分类效果的属性权重。 2 、提出了基于区间映射的可拓变换方法,为可拓变换提供一条具体 的实施办法,同时将可拓变换的作用域从全体论域缩小到某一类别的数 据,进而改进可拓集合的表示。 3 、将传统的可拓集合只针对二元分类的情况进行了改进。当数据样 本为多元分类的情况时,为可拓变换作用的类别与其他所有类别之间建立 质变域和量变域。进而对多元分类数据的可拓集合进行了演示。 经过u c i 数据验证,改进的关联函数方法不仅在准确率上优于其他 北京化工大学硕十学位论文 经典分类算法,在运算速度上同样占有优势。而本文提出的可拓变换以及 改变后的可拓集合也能够为决策者提供决策方案。 关键词: 可拓分类知识,综合关联函数,值域覆盖,区间映射,可拓变 换,可拓集合 i i a b s t r a c t r e s e a r c ho ne x t e n s i o nc l a s s i f i c a t l o n k n o 、v l e d g em i n i n gb a s e do ni n t e r v a lm 【a n n e r a b s t r a ct e x t e n s i o nd a t am i n i n gt a k e sa d v a n t a g eo fe x t e n s i o nt h e o r i e sa n dm a l l i l e r s t oe x p l o r ep o t e n t i a lk n o w l e d g e si ne n t e 印r i s ed a t a b a s e s a n dt h e ni to f - f e r s h e l p si nc o m p e t i t i o na m o n gb u s i n e s s e s ,d e c i s i o n st op r o d u c ea n dr e s o l v i n g c o n t r l d i c t o r yp r o b l e m s c u l l r e n t l y ,t h em a i nr e s e a r c hc o n t e n to fe x t e n s i o nd a t a m i n i n gi st h ee x t e n s i o nc l a s s i f i c a t i o nk n o w l e d g em i n i n g h o w e v e r ,t h e r ea r e a l s os o m ed i s a d v a n t a g e si nt h et r a d i t i o n a le x t e n s i o nc l a s s i f i c a t i o nk n o w l e d g e m i n i n g t h ef i r s tp o i mi st h a tt h ew e i g h to fi n t e g r a t e dc o r r e l a t i o nf h n c t i o n n e e d st ob ep r o v i d e db yt h ee x p e r ti nt h ef i e l d s t h a tc o u r s e ss u b j e c t i v i t ya n d u n c e r t a i n t yi nt h ea p p r o a c h e s t h e nt h er e l a t e dr e s e a r c h e sa b o u te x t e n s i o ns e t a n de x t e n s i o nt r a n s f o r i n a t i o ns t i l l s t a yi nt h en o t i o np h a s e ,l a c l ( i n go ft h e s p e c i f i c 印p l i c a t i o nm a l l l l e r t os o l v et h ep r o b l e m sm e n t i o n e da _ b o v e ,t h ep a p e ra d o p t st h em a i m e r b a s e do ni n t e r v a l st om i n em ee x t e n s i o nc l a s s i f i c a t i o nk n o w l e d g e t h em a i n w o f l ( sa r ea sf o l l o w s : f i r s to fa l l ,t h ep 印e r p r o p o s e dan e wm e m o df o rw e i g h ta s s i 粤m e n tb a s e d o ni n t e r v a lc o v e r s i tf i n d st h eb e s t w e i g h t sw h i c hc a nm a k et h eb e s t c l a s s i f i c a t i o ne f f e c t s 行o mt h ed a t ai t s e l 北京化1 = 大学硕士学位论文 s e c o n d l y ,t h ep a p e rp r o p o s e dm ee x t e n s i o nt r a n s f o r m a t i o nb a s e do n i m e r v a l s m a p p i n g ,o f f e r i n g a s p e c i f i c印p l i c a t i o n m a l l l l e rf o re x t e n s i o n t r i m s f o 吼a t i o n m e a n w h i l e ,t h ea c t i o ns c o p ei sr e d u c e dt od a t ab e l o n g so n e c l a s s ,a n dt h e ni m p r o v et h ee x p r e s s i o no fe x t e n s i o ns e t l a s t l y ,t h et m d i t i o n a le x t e n s i o ns e tw h i c hc a no n l ys h o wt h ed a t ao ft 1 1 a t c o u l db ec l a s s i f i e d i n t ot w oc l a s s e si s i n l p i o v e d w h e nt h ed a t ac o u l db e c l a s s i f i e d i n t om o r et h a nt 、7 i ,o t y p e s ,t h em e t h o db u i l d sq u a l i t a t i v ea n d q u a n t i t a t i v ec h a n g ef i e l d sf o rt h ec l a s sw h i c hw a sc h a n g e db ye x t e n s i o n t r a n s f o r m a t i o na n de v e 巧o t h e rc l a s s s ot h ed a t ao fm o r ec l a s s e sc a nb e d i s p l a y e d a r e rv e 订f i e db yu c i d a t a s e t s ,n o to n l yt h ei i n p r o v e dc o r r e l a t i o n 向n c t i o n i ss u p e r i o rt os o m eo t h e rc l a s s i cc l a s s i f i c a t i o na l g o r i t h m so nt h ea c c u r a c y ,b u t a l s oh a s a d v a n t a g e o nt h e o p e r a t i n gs p e e d f u r t h e m o r e , t h ee x t e n s i o n t r a n s f o m a t i o np r o p o s e dh e r ea n dt h ei m p r o v e de x t e n s i o ns e tc o u l do f f e r s o l u t i o n st ot h ed e c i s i o nm a k e r 1 ( e yw o r d s :e x t e n s i o nc l a s s i f i c a t i o n k n o w l e d g e ,i m e g r a t e dc o 丌e l a t i o n 如n c t i o n , i m e a l c o v e r s , i n t e r v a l s m 印p i n g , e x t e n s i o n t r a n s f o n i l a t i o n , e x t e n s i o ns e t 目录 目录 第一章绪论。l 1 1 课题的研究背景1 1 1 1 可拓数据挖掘的产生1 1 1 2 可拓数据挖掘的概念2 1 1 3 可拓数据挖掘的研究现状及发展趋势3 1 2 课题的研究内容4 1 3 论文组织结构。6 第二章背景知识7 2 1 数据挖掘中的分类算法。7 2 1 1 决策树= 7 2 1 2 简单贝叶斯分类8 2 1 3 人工神经网络1 0 2 2 可拓数据挖掘1 2 2 2 1 挖掘可拓分类知识1 2 2 2 2 挖掘传导知识1 3 2 3 本章小结1 4 第三章关联函数分类1 5 3 1 数据预处理1 5 3 1 1 去除离群点1 5 3 1 2 物元描述1 7 3 2 改进的综合关联函数分类方法1 9 3 2 1 传统的关联函数分类方法1 9 3 2 2 获取值域覆盖程度。2 l 3 2 3 获取权值2 2 3 3 本章小结2 4 第四章获取可拓知识2 5 v 北京化工大学硕士学位论文 4 1 建立可拓变换。2 6 4 1 1 可拓变换的目的和意义2 6 4 1 2 基于区间映射的可拓变换方法2 7 4 2 建立可拓集合一2 9 4 2 1 传统的可拓集合3 0 4 2 2 可拓变换的选择3l 4 2 3 质变域和量变域的描述、3 5 4 2 4 完整的可拓集合3 7 4 3 可拓分类知识表示3 9 4 4 本章小结4 0 第五章u ci 数据集验证4 3 5 1u c i 数据集介绍4 3 5 2 改进的关联函数分类算法结果比较4 4 5 3u c i 数据集的可拓分类知识表示4 5 5 4 本章小结4 8 第六章总结与展望4 9 6 1 工作总结4 9 6 2 工作展望4 9 参考文献5 1 致j 射。5 5 研究成果及发表的学术论文5 7 作者和导师简介5 9 c o n t e n t s co n t e n t s c h a p t e r 1i n t r o d u c t i o n 1 - 1b a c k g r o 吼do f t l l er e s e a r c h 1 1 1r e s o u r c e so fe x t e i l s i v ed a t am i i l i n g 1 1 2c o n c 印to f e x t e l l s i v ed a t ai i l j m n g 1 1 3r e l a t e dr e s e a r c hs t a n l sa i l dd e v e l o p m e i l tt e l l d e l l c y 1 2r e s e a r c hc o n t e 】n t s 1 3o r g :l n i z a t i o no fc h a p t e r s c h a p t e r 2b a c l 噜r o u n dk n o w i e d g e 。 2 1s o n i n ga l g o r i m mi i ld a t am i i l i n g 。 2 1 1 i e c 【s i o n 缸。e e 2 1 2n a i v e i b a y e sm e m o d :。: 2 1 3a r t i f i c i a ln e l l r a ln e t w o r k 2 2e x t e n s i o nd a t am i n i l 唱。l2 2 2 1e x t e n s i o nc l a s s i 矗c a t i o nk n o w l e d g e 1 2 2 2 2e x t e n s i o nc o r l d u 嘶v ch o w l e d g e 13 2 3s u 】:1 1 m a r y 1 4 c h a p t e r3c l a s s i n c a t i o nb yc o r r e l a t i o nf u n t i o n 。15 3 1d a t ap r 印r o c e s s i n g 1 5 3 1 1d e i l o i s i n g 15 3 1 2m a t t e re l e m 咖d e s 嘶p t i o n 1 7 3 2h n p r o v c dc o m p r e h e n s i v ec 0 玎e l a t i o nf h 】n t i o n 19 3 2 1t h e 把a d i t i o n a lc 0 r r e l a t i o n 如n t i o n 1 9 3 2 2g e tt 1 1 ec 0 v e r a g ed e 黟e eo fa 1 1i n t e a l s 21 3 2 3g e tm ew e i 曲t s 2 2 3 3s u n n a r y 2 4 c h a p t e r 4g e te x t e n s i o nc i a s s i 6 c a t i o nk n o w l e d g e 。2 5 v n 北京化工人学硕士学位论文 4 1b u i l dm ee x t e n s i o n 胁1 s f o m a t i o n 2 6 4 1 - 1t 1 1 e 呻o s ea n di i l l p o r t a i l c eo f e x t e i l s i o nt r a i l s f o r m a t i o n 2 6 4 1 2e x t e n s i o n 抚a i l s f o m a t i o nb a s e do ni n t a r v a l m 印p i i l g 2 7 4 2e i u i l de x t e n s i o ns e t 2 9 4 2 1t t a d i t i o n a le x t e n s i o ns e t 3 0 4 2 2s e l e c t i o no fe x t e t l s i o nn 郴f i o 皿a t i o n 31 4 2 3t l l ed e s 嘶p t i o no f 删i t a t i v ea n dq 眦t i t a t i v ec h 锄g ef i e l d 3 5 4 2 4t h ee 【1 t i r ee x t e n s i o ns e t 3 7 4 3e x p r e s s i o no f e x t 锄s i o nc l a s s i f i c a t i o nk n o w l e d g e 3 9 4 4s u m m a r v 4 0 c h a p t e r 51 陀s tw o r kb yu c id a t as e t s 。”4 3 5 1h l 仃o d u c t i o no f u c id a t as e t s 4 3 5 2r e 叭l t so fi m l r o v e dc 0 盯e l a t i o n 如n t i o n 4 4 5 3e x t e i l s i o nc 1 嬲s i f i c 啦n k n o w l c d g ee x p r e s s i o no f u c id a t as e t s 4 5 5 4s u i 啪a r y 4 8 c h a p t e r 6c o n c l u s i o na n df h t l l r ew o r k 。4 9 6 1c o n c l u s i o n 4 9 6 2f u t l 】r ew o f k 4 9 r e f e r e n c e 。 a c k n o w i e d g e m e n t s ” 5 1 。5 5 r e s e a r c ha c h i e v e m e n t sa n dp u b l i s h e dp a p e r s 。5 7 l ;r i e fi n t r o d u c t i o no fa u t h o ra n ds u p e i 弋r i s o r 。5 9 第一章绪论 1 1 课题的研究背景 1 1 1 可拓数据挖掘的产生 第一章绪论 在网络化的时代里,通信、计算机以及网络等相关技术正在日新月异地服务 于人类和社会。同时,各行各业也正在利用这些技术积累了海量的信息,呈现出 数据爆炸的现象,如医疗,气象和金融等领域。如此大量的数据在给人们带来方 便的同时也带来了一大堆问题:一是信息过量,难以消化;二是信息真假难以判 断;三是信息形式不尽相同,难以统一处理。为解决这些难题,数据开采和知识 发现( d m l ) 技术【l - 2 】应运而生,并显示出强大的生命力,并由此逐渐演化产生并 完善了数据挖掘技术【3 】。 但并非所有海量数据问题都能够由传统的数据挖掘方法获得良好的解决。某 些知识呈现出相互矛盾的外表以及动态变化的性质:某些有效的关联规则实际上 仅仅是两个互斥项的特例,如商场中彩电和游戏机的销售;许多模型是根据时间 条件不断发展变化的,如相同症状在不同时期是由不同病理造成;甚至连一度被 专家们津津乐道的“啤酒与尿布 的故事,如今也发生了诸多的改变。如何正确 识别并处理这些信息,为数据挖掘提出了新的要求。 为解决矛盾问题,蔡文研究员于1 9 8 3 年提出了可拓理论【 】。该理论研究事物 拓展的可能性和开拓创新的规律与方法,并用以解决矛盾问题,有别于生物学、 机械学、电工学等纵向学科,是与数学,系统论,信息论,控制论等相类似的横 断学科。它以矛盾问题为研究对象,建立了把问题进行形式化描述的模型,并根 据事物不断变化发展的特征,建立科学理论来描述事物的可拓性和可拓变换【6 】,并 根据这些建立了解决矛盾问题的可拓方法和可拓工程方、法【7 1 。该理论为数据挖掘技 术提供了新的研究方法和工具。 在数据挖掘和可拓学的基础上,可拓数据挖掘理论【舯】应运而生。自从该理论 于2 0 0 4 年提出以来,经过了数年的研究探索,逐步明确了其研究对象和目标。它 研究用可拓学的理论和方法,去挖掘数据库中解决矛盾问题的变换有关的知识, 包括可拓分类知识【l o - 1 1 】、传导知识以及其他有关变换的知识,统称可拓知识【1 2 】。 在信息发生变化时,该理论可以识别这种变化,并进行处理,为企业竞争、生产 决策提供帮助。 可拓数据挖掘理论自提出以来,便得到了国家的大力支持。2 0 0 4 年至今,国 家自然科学基金用3 个项目支持可拓数据挖掘的研究,分别为广东工业大学杨 北京化工大学硕士学位论文 春燕教授的获取变化知识的可拓数据挖掘理论、方法及其实证研究、北京化 工大学朱群雄教授的面向过程工业节能降耗优化操作的可拓工程方法以及 广东工业大学张新政教授的珠江三角洲河涌水质复杂大系统的建模与预测控 制研究。 1 1 2 可拓数据挖掘的概念 可拓数据挖掘是指为了处理矛盾和不相容问题在数据挖掘中引入可拓变换方 法,并在数据挖掘获得静态知识的基础上,通过可拓变换,获取变化知识,即包 含可拓变换的规则知识【1 3 】。它与传统数据挖掘有一个重要的差异:传统数据挖掘 是知识的发现,而可拓数据挖掘不但可以挖掘知识,还可以挖掘相关规则和可拓 变换,从而挖掘变化的知识, 可拓学中的可拓集合【1 4 d 6 】是可拓数据挖掘理论的基础。它与传统的康托集【1 7 】 和模糊集【1 8 j 9 】不同,可拓集合采用( 一,+ ) 范围内的实数来表达一个事物属 于某一个类的程度。并且,可拓集合是一个关于变化的集合,它用质变域和量变 域【2 0 1 来划分在可拓变换条件下集合中元素变化的程度。除可拓集合外,可拓学中 用以和数据挖掘结合的理论还包括可拓变换和关联函数【2 1 也】。其中,关联函数是 用来定量化描述元素是否属于某一集合的工具【2 3 】;可拓变换则是建立可拓集合的 必要条件。 可拓数据挖掘所挖掘的关于变换的知识包含两类:可拓分类知识以及传导知 识。可拓分类知识以可拓集合为依托,将事物分为正质变域,负质变域,正量变 域,负量变域以及拓界五种【2 4 】;传导知识则既要考虑某一变换对产生它的主体的 影响,又要考虑其相关对象的传导作用,以表达可拓变换对与不同物元之间的相 关作用。本文所研究内容以挖掘分类知识为主。 可拓数据挖掘已经成为策略生成的重要工具【2 5 1 。一个完整的可拓策略生成系 统的结构如图1 1 所示。 基于可拓数据挖掘的策略生成系统包含以下几个方面的关键技术: 第一,基于可拓理论的知识库的构建。知识库是基于可拓数据挖掘的策略生成 系统的基础。通过可拓数据挖掘方法得到的可拓知识存储在该知识库中,同时使 用数据仓库技术对数据进行管理。 第二,可拓数据挖掘方法。通过可拓数据挖掘方法从数据( 仓) 库中得到的 知识称为可拓知识。这些知识能够用于处理矛盾和不相容问题。 第三,建立基于可拓理论的知识推理方法。实际问题都是使用基于可拓推理 方法的知识推理系统来解决的。可拓推理方法中用于决策的知识来自于可拓知识 库。 2 1 1 3 可 据挖掘 学科包 李立希 掘中的 创立时 的发展 文 挖掘出 文献 2 7 】将可拓数据挖掘方法引用到高校教学质量评价中,挖掘出了潜藏在教 学评价书中的影响教学质量的关键因素和教学质量与教师特征之间的关联规则, 有助于教学质量的改进和提高。 文献 2 8 2 9 将可拓数据挖掘运用到经济金融领域,分别在国家消费者物价指 数( c p i ) 的变换对产品销售数据的影响,以及成品油税费改革对股票市场的影响 中挖掘传导知识,为企业的决策者在目前的市场环境下提出更加合理的策略提供 有效依据。 文献 3 0 为使电信企业达到利润最大化,采用可拓数据挖掘中的分类方法对所 有用户进行划分,进而对不同的用户群实施相应的决策。 文献【3 1 】提出了一种获取渔场知识的数据挖掘模型及知识表示方法。该方法首 先使用传统方法获得静态知识,再通过可拓数据挖掘将静态知识转换为动态知识, 北京化工大学硕士学位论文 建立本体知识库。并在上述方法的基础上建立了以印度洋大眼金枪鱼为例的鱼情 预测原型系统,并证实了其有效可行。 文献 3 2 3 6 】也在不断改进并完善着可拓数据挖掘理论及其方法,标志着该理 论的不断成长。 与其他所有学科理论类似,可拓数据挖掘理论的成长可以分为如下三个阶段: 第一阶段是孕育阶段。自1 9 8 3 年到2 0 0 4 年,可拓学提出并不断发展,在解 决矛盾问题上技术趋于可行有效。与此同时,数据挖掘技术在世界各个行业领域 异军突起,迅速得到了国际社会的认可。并伴随不断发展,二者在解决矛盾问题 上走到了一起。 第二个阶段是理论与方法的研究。这一阶段的主要任务是初步确定学科的研 究范围和对象,创立学科的基础理论,提供解决问题的途径和手段,最终形成自 己的解决方案。 第三个阶段是应用与推广阶段。学科在理论趋于成熟的条件下得到广泛的认 可,并运用到各个领域。 目前,可拓数据挖掘的研究正处于从第二阶段到第三阶段过渡时期。虽然得 到了一定的认可和发展,但是可拓数据挖掘仍然是一门“年轻”的学科。这是因 为该学科内仍然以理论研究为主,应用研究与推广次之。在分门别类,种类纷繁 的各个领域中,矛盾问题广泛存在,这就给了可拓数据挖掘技术广泛的发展空间。 同时,对该理论的研究和应用主要以大陆为主。台湾地区,日本以及许多其他西 方国家学术领域内,该学科依旧方兴未艾。可拓数据挖掘必将肩负着走向世界的 重任。实现这些目标,还需要国家的大力帮助与各位学术界同仁们的不懈努力和 支持。 1 2 课题的研究内容 到目前为止,学者们对可拓数据挖掘已经做出了许多研究,也提出一些针对 特定模型的可拓数据挖掘决策支持系统阳。但这些系统存在着不同程度的缺陷。 如大部分的决策支持系统尚属于研究性原型系统,还不能投入实际的应用;对关 联函数的应用存在一定的主观性和不确定性;对于可拓变换和传导变换的应用相 对欠缺等。可拓数据挖掘中还有许多问题有待解决。 本文以理论研究为主,研究的主要内容为:改进综合关联函数方法,在使用 综合关联函数对数据准确分类的基础上,寻找不同类别问特征的映射关系,由此 建立起可拓变换,划分可拓集合,获得可拓知识的表达,为将来的应用提供决策 第一章绪论 研究流程如图1 2 所示: 原始二一物 尸一 网 数据i 描 建 l 变换l 立 特 土 征同 关联函数l 。 映 i 集合i 分类r 、旧j 五翮- 射 上 i 知识l 1 墨璺广 1 里签堕垡r l 表达l 图l - 2 司拓分类数据挖掘流程图 f i g 1 - 2t h ef l o wd i a g m mo fe x t e i l s i 、,ec l 髂s i f i c a t i o nd a t am i l l i n g 结合上述难点与流程,本文采用的技术方案分为如下步骤: 1 寻找数据源,在u c i 标准数据集中筛选合适数据; 2 选取数据评价特征,规范数据; 3 对数据进行物元描述; 4 采用改进的综合关联函数方法对数据进行分类; 5 给定变换t 使当前状态物元发生变换; 6 对发生变换的物元重新进行分类; 7 对两次分类结果进行比较,找出质变域和量变域; 8 分别对质变域和量变域提取特征,挖掘知识。 同时,本文还完成了如下学术上的创新: 一、针对传统的综合关联函数分类方法中权值分配所具有的主观性和不确定 性的不足,本文从数据本身入手,以各属性在不同类别之间的覆盖程度作为分配 权值的依据,从而使数据的分类具备客观性和确定性,并一定程度上提高了分类 的准确率。 二、到目前为止,可拓数据挖掘中可拓变换方法还处于概念阶段,鲜有改进 和创新。其应用也主要以与其他理论或方法相结合为主。本文针对可拓变换本身, 设计了一套基于属性区间映射的可拓变换方法,得出了多个可拓变换的方案,并 进行效果对比,供决策者选择。 三、传统的可拓集合都是基于二元分类,即在两个类别上建立的质变域,量 变域和拓界。而本文所验证的数据需要将数据分为多类,在每一对儿类别之间分 别建立可拓集合,实现了可拓集合从二元到多元的拓展,并据此对可拓变换的作 用域以及可拓集合进行了适当的改进。 5 北京化工大学硕士学位论文 1 3 论文组织结构 全文共分6 章,具体内容如下: 第一章绪论 首先介绍了可拓数据挖掘的产生,概念以及目前的研究现状,最后给出了课题 的研究内容,方案以及创新点。 第二章背景知识 本章主要介绍课题相关的背景知识。首先介绍了传统数据挖掘中的几个经典的 分类算法,包括决策树算法、简单贝叶斯网络、人工神经网络等。然后介绍可拓 数据挖掘的相关内容。 第三章关联函数分类 本章内容为算法的前半部分,首先对数据进行预处理,包括数据清理,属性筛 选。之后对数据对象进行物元描述。最后用改进的综合关联函数方法对物元进行 分类,在获得准确的分类结果同时,为提取数据中的可拓分类知识奠定基础。 第四章建立可拓变换、可拓集合 本章在关联函数分类的基础上,为实现物元在个各类之间进行转换,建立基于 区间映射的可拓变换,得出多个可拓变换的方案,并对比效果。最后采用可拓变 换表和质变域、量变域描述表的方式对可拓分类知识进行表达。 第五章实验结果与分析 本章主要对提出的方法进行实验。首先选取适合于本方法的u c i 数据集加以 介绍,然后进行分类效果的对比和可拓变换的知识表示。 第六章总结与展望 本章主要对所做的工作进行总结,并展望了可拓数据挖掘需进一步展开的工作 以及发展方向。 第- 二章背景知识 第二章背景知识 本章主要介绍可拓数据挖掘的相关背景知识。首先介绍了数据挖掘中用于分 类的几种经典算法,这些算法主要用于对改进的关联函数的分类效果进行比较; 然后介绍了目前可拓数据挖掘中主要理论。其内容主要分为挖掘可拓分类知识以 及挖掘传导知识两大部分。 2 1 数据挖掘中的分类算法 知识发现( h o w l e d g ed i s c o v e 巧i i ld a t a b 硒e ,) d ) 是从数据中发现有用知识的 整个过程。数据挖掘是k d d 过程中的一个特定步骤。现有数据挖掘的任务有六项: 关联分析、时序模式、聚类、分类、偏差检测和预测。其中分类是数据挖掘中应 用最多的任务。它对已确定的类找出该类别的概念描述,它代表了这类数据的整 体信息,即该类的内涵描述。 目前,常用的分类算法有决策树算法、简单贝叶斯网络、人工神经网络等。 本文将采用这三种算法与改进后的综合关联函数分类算法进行对比。接下来简单 介绍这三种算法。 2 1 1 决策树 决策树【3 8 。9 1 是一种树形状结构图,其中每个节点表示在一个属性上的判定,每 一个分枝代表一个判定的输出,每一个树叶节点代表一个类的分布。决策树一般 都是自上而下生成的。以某公司客户信息的关系数据库为例,一颗典型的决策树 如图2 1 所示: 图2 1 一颗典型的决策树 f i g 2 - lat y i ,i c a ld i s i 阻缸 其中叶结点中的归和n o 是对b l l y sc 删e r s 分类属性的判定。 7 北京化工人学硕上学位论文 构造决策树的基本算法是贪心算法,它采用自顶向下的方式建立各个节点。 其中最著名的一种为i d 3 版本,它也是本文用来进行效果对比的决策树算法。该 算法采用信息增益的基于熵的度量作为将样本分类的启发信息;同时它也要求所 有的属性都是分类的或离散的,连续值必须进行离散化操作。 具有最高信息增益的属性可以使样本分类所需的信息量最少,并能够尽量减 少分类所需样本,确保找到一颗简单的树。 设s 为样本集合,该样本定义m 个不同类c o = l ,朋) ,邑是类q 中的样本数。 一个给定样本分类的期望信息由下式给出: j ( s l ,j 2 ,s 。) = 一p fl o g2 ( p i ) ( 2 - 1 ) f = l 其中b 是某一样本属于c :的概率,用墨s 估计。 设属性么具有的,个不同值可将s 划分为,个子集 墨,是,母) ,勖是子集s , 中类e 的样本数。那么由彳分裂成子集的熵由下式给出: e ( 彳) = 窆华如p ,) ( 2 2 ) = l - ) 其中,对子集s ,进行划分的期望信息为: 三生 ,( 吼,s 2 ,j 喇) = 一p l o g2 ( p ) ( 2 3 ) 其中岛是子集邑中的样本属于g 的概率。那么使用属性彳进行分裂所获得的信息 增益为: g 口觑( 彳) = ,( 而,s 2 ,) 一e ( 彳)( 2 - 4 ) i d 3 算法计算所有属性的信息增益,具有最高信息增益的属性作为分裂属性, 在此创建节点和分枝,划分数据样本。 随着数据量及属性的增多,实际生成的决策树可能非常复杂。即使如此,每 一条从根节点到叶子节点的路径所描述的含义仍是容易理解的。同时,决策树方 法非常适用于处理离散型数据,但处理连续型数据时要进行离散化处理。并且, 随着数据被划分得越来越小,决策树会面临碎片、重复和复制的问题。为避免这 些问题,需要对生成的树形结构进行剪枝操作。 2 1 2 简单贝叶斯分类 贝叶斯分类方法【4 0 。4 1 1 是一种统计学分类方法。它通过贝叶斯定理预测样本属 于某一特定类的概率。 8 第二章背景知识 设x 为未分类的数据样本,日为工属于某类c 的假定。该分类方法通过确定 在条件x 下,的后验概率p ( 日ix ) 来判定假设日是否成立。类似地,p ( x | 日) 是在条件日下,x 的后验概率。后验概率是指那些在得到信息之后再重新加以修 正的概率。与之相对的,先验概率是指对以往的数据进行分析后得到的概率。 当以x1 日) ,尸( x ) 和p ( 日) 给定时,贝叶斯定理如下: 删= 等 ( 2 5 ) 简单贝叶斯分类又称作朴素贝叶斯分类。为简化计算,它假设样本的各个属 性之间相互独立,故称为“朴素的 。它的工作过程如下: ( 1 ) 将数据样本用刀维特征向量x = “,而,毛) 表示。 。( 2 ) 给定朋个类c l ,c 2 ,e 和未分类数据x ,当且仅当 p ( gl x ) p ( c ,i x ) ,l 研,f( 2 6 ) 简单贝叶斯网络将该样本分配给q ,即选取p ( glx ) 的最大值。只gx ) 最大的 类c 叫做最大后验假定。该数值可以通过贝

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论