(计算机应用技术专业论文)粗糙集理论在数据库知识发现中的应用研究.pdf_第1页
(计算机应用技术专业论文)粗糙集理论在数据库知识发现中的应用研究.pdf_第2页
(计算机应用技术专业论文)粗糙集理论在数据库知识发现中的应用研究.pdf_第3页
(计算机应用技术专业论文)粗糙集理论在数据库知识发现中的应用研究.pdf_第4页
(计算机应用技术专业论文)粗糙集理论在数据库知识发现中的应用研究.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(计算机应用技术专业论文)粗糙集理论在数据库知识发现中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

尔人学硕】:学位论文 摘要 数掘挖掘和知u v s 叟j :l 见址从数j j l :小扶墩,i 1 谚! 的利一新技术。相1 糙集作为 币i 处理不完全、f i 精确及f i 确定信息的有效乃法,和数据挖掘和矢识垃现领域人 7 yj h 武之地。 粗糙集理论c 1 m 1 t 1 :以术,尤沦是存理论或成川t :都是一种新的、最匾要的 并且迅速发展的研究领域。它和知讨 发现、机器学习、决策分析、决策支持系 统、归纳推理、模糊控制等疗i 面的成功应用,引起了各国学者的泛关注。f :l 6 7 9 t 糙集理论已成为信息科学蛾为活跃的研究领域之一。半n 糙集研究存我斟的 发展也很快,f , t l 糙集的理 垒- 1 i j d u 支j ;r 用也取得了一定的研究成果。 本文就拳| 1 糙集理论及其在数据挖捌中的心刖进行了较为深入系统的研究。 完成的工作和取得的成果任1 : 提出了在z i a r k o 变精度粗糙集模型基础上的+ 种摹于分类正确度的羊h 糙集模 型,可以让 别出标准柑糙集模型无法识别出的数据项之l q 的依赖关系,该模型 已用于作者研制的数掘挖掘方法m i e r s 上。 作为粗糙集理论的一个应j 1 j 领域,本文分析了信息表和决策表中的数据分析 与数掘挖掘,研究了属性约简及决策规则牛成的相关问题,并提出了从不致 决策表中挖掘最简规则的糊糙集e i m i e r s 。通过分类1 f 确度有效处理了决策 农i i 9 4 :致陆,采川j r ;发馆趔i ,挖掘满足给定柑确嫂的蜮简f 。牛。规则知 u5 。作扦构造r h a s h 两数求实现3 7 - i k ,仃效降低了 :( 法的时n i j 复杂度。j i :川多 t i c l 数捌集进“了测试,+ _ 并杉的r o s e i t a4 :k 什进行了戈验刈比,绵粜说叫 m i e r s q 以人人挺;i 总的数捌约的托仃教地简化最终得到的规则芸识。 尔人学硕十:学位论文 小文| | 勺研究成粜,剥j :“,诧祠【糙集的_ i ! 沦及荆l 糙集仡数据挖捌i 0j 、v _ f f | j , f j 定的删沦和实践意义。 关键词:粗糙集,知识发现,数据挖掘,粗糙集扩展模型,规则知识 弼l i 叭 尔人! ”j - 7 f 硕i :学位沦文 a b s t r a c t d a l am i n i n ga n dk n o w l e d g ed i s c o v e r yi nd a t a b a s e si sad e wt e c h n o l o g yf o r d r a w i n gk n o w l e d g et l o md a t a a sa l le f f e c t i v ea p p r o a c bt op r o c e s s i n gi n c o m p l e t e i m p r e c i s eo ru n c e r t a i ni n t b r m a t i o n ,r o u g hs e th a sb e e np l a i n ga ni m p o r t a n tr o l e i n t h ea r e ao f d a t am i n i n ga n dk n o w l e d g ed i s c o v e r y r o u g hs e tt h e o r yi san e wa n dv e r yi m p o r t a n tr e s e a r c ha r e aw h i c hi sd e v e l o p i n g r a p i d l yb o t hi n i t st h e o r ya n di ni t sa p p l i c a t i o n se v e rs i n c ei tc o n t e si n t ob e i n g b e c a u s eo fi t ss u c c e s s f f da p p l i c a t i o n si nk n o w l e d g ed i s c o x ? e l y m a c h i n el e a r n i n g d e c i s i o na n a l y s i s d e c i s i o ns u p p o r ts y s t e m i n d u c t i v er e a s o n i n g f u z z yc o n t r o l ,e t c i t h a sd r a w nal o to fa t t e n t i o nf r o mr e s e a r c h e r si nd i f f e r e n tc o u n t r i e s n o w a d a y sr o u g h s e tt h e o r yh a sb e c o m eo r l eo ft h em o s tp r o m i s i n gr e s e a r c ha r e a si ni n f o r m a t i o n s c i e n c ei ta l s oh a sb e e nd e v e l o p i n gr a p i d l yi nc h i n aw i t hq u i t eaf e wo f n e wr e s u l t s , t h i st h e s i sa d d r e s s e sc o m p l e t e l 3a n ds y s t e m a t i c a l l yt h em a i nr e s e a r c hc o n t e n t s o fr o u g hs e ta n di t sa p p l i c a t i o ni nd a t am i n i n g t h ep r i m a r yc o n t r i b u t i o n so ft h i s t h e s i si n c l u d e : b a s e d0 i 1t h ez i a r k ov a r i a b l ep r e c i s i o nm o d e l t h et h e s i sp r o p o s e sar o u g hs e t m o d e lb a s e do nc l a s s i f i c a t i o na c c u r a c y i tc a ni d e n t i f yd e p e n d e n c er e l a t i o n sa m o n g d a t ai t e m sw h i c hc a nn o tb ei d e n t i f i e db ys t a n d a r dr o u g hs e tm o d e l t h em i e r s d a t am i n i n ga p p r o a c hg i v e nl a t e ri sb a s e d0 l lt h em o d e l a sa na p p l i c a t i o no fr o u g hs e tt h e o r y ,t h et h e s i se x a m i n e sd a t aa n a l y s i sa n dd a t a m i n i n gi ni n f o r m a t i o nt a b l e sa n dd e c i s i o nt a b l e s ,s t u d i e st h eg e n e r a t i o no fa t t r i b u t e r e d u c t sa n dd e c i s i o nr u l e s ,a n dp r o p o s e sa r o u g hs e ta p p r o a c ht or n i n i n gm i n i m a l r u l e si ni n c o n s i s t e n t d e c i s i o nt a b l e sm i e r s w ed e a lw i t ht h ei n c o n s i s t e n c yt h r o u g h c l a s s i f i c a t i o na c c m a c y u s i n gh e u r i s t i ca l g o r i t h m sw ec a ng e tas e to fm i n i m a l p r o d u c t i v er u l e ss a l i s i j :i n gt h eg i 、e l lc l a s s i f i c a t i o na c c u r a c y w i t hr e s p e c tt o t i m e i m p l e n l e n to fo u ra l g o r i t h m 1 ec o n s t r u c tf n dh a s hf u n c t i o n st or e d u c et h et i m e c o m p l e x i t y s e v m a lu c id a t as e l s a r eu s e dt o t e s tt h ea p p r o a c h c o m p a r e dw i t h r o s e t t at o o l k i t o u rm e t h o di n c r e a s e st h ed a t ar e d u c t i o nr a t eg r e a t l ya n ds i m p l i f i e s t h er e s u l tr u l e se f f e c t i v e l y 笫i i i 页 l l l 尔人学硕一卜学位沦文 r h ea c h i e v e m e n t so ft h i st h e s i sh a v eg r e a tt h e o r e t i ca n dr e a l i s t i cs i g n i f i c a n c ei n e x p a n d i n gt h er o u g hs e tt h e o r ya n di t sa p p l i c a t i o ni nd a t am i n i n g k e y w o r d s :r o u g hs e t ,k n o w l e d g ed i s c o v e r y , d a t am i n i n g ,g e n e r a l i z e dr o u g hs e t m o d e l ,d e c i s i o nr u l e s 埔i v 贝 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名:痞丛生 日期:垫丝兰! 王 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:锰堡生导师签名: 尔人0 硕一l 学位沦文 第一章绪论 存肖时的知讪 经济时代,随带:计算机科学和技术,特别址数据库技术n 勺小断 发展棚一泛j 世j 1 1 ,数扑ij l - li ,存储的数据量急剧j ;f l 火。人类而对菥数捌的海洋,r 口 足用丁对这些数j :l i 迸仃分析处理n 勺一i 。j 却很少。j 口大部分数掘库系统所能做到 的只怒刈数j : ;席小l 仃的数掘进行办墩,人们迎过这。数掘所获得的信息最仅仅 是整个数掘库所包禽的俯息齄n 0 部分,隐减在这些数掘之后的更霍要的信息足 关j :这些数据的墼体特征的捕述及对其发展趋势的预测,这些信息在决策q i 成的 过程中具有重要的参考价值。为了能有效地从数据库中挖掘出这些具有潜在价值 的信息和知识,数抓库”的知识发现( k n o w l e d g ed i s c o v e r ) , i nd a t a b a s e s k d d ) 技术逐渐发展起来。 知识发现方法的研究足k d d 研究领域的热点和主要内容。知识发现的方法 币i i 技术有很多,桐糙集方法是巾比较有影l 晌的方法之一,近年来它存k d d 中 得到了成功的应用,受到幽际上广泛灭 p - 。本文将对粗糙集方法的理论和j 哑用进 行深入的研究,探讨卡r 糙集在数据挖掘方血的应用。 本章1 1 节首先介绍数据库知识发现的研究现状:粗糙集作为数据挖掘中的 个方法,是本文的j i 要研究内容,1 2 节介绍了卡h 糙集理论的兴起:1 3 节对粗 糙集理论的特点作了一个分析:1 4 节初步介绍了术文的工作和内容安排。 1 i 知识发现的研究现状 1 1 1 知识发现的研究背景 随特际o f :联i q 的“迷镟啵舯也j i 向务的r 泛心川,企q p ,政府部fj 羁一、引引 第l 蚝 尔人学硕1 ? 学位论文 体j i :i n f 刈,i _ _ f 信息移 祟的n d 题。j 吐il ,都7 j 人l j ( - f l , j 数狮:j 。生,信息量以姆一二卜个,】翻 侨的速度剧增。大最的数据储存存联机数拥库中。信息技术的发展而临精如何从 n 人的信息海洋i j 找剑合通的数圳分析方法,获墩有用的知u 模式米帮助企业、政 府做l i i 确的决策。数扒痒口 发脱应运| f f ,j i 。 知i j 发现就是从人:i i i = 数捌i i ,发j :地潜在舰钓! 、提h 义有川知识的方法和技术。知 以发现4 i 仍能够学习已仃的j = | l u ,丽| 麓够发现未知的知以,得到的知谤 楚“丝 j i i = ”的,忧能为人所圳解。义便j :仃储牙j 迎川,凶此一 眦就得到j 、泛的重视。 知讨 发现是应用需求推动f 多种科融合的结梁。 随着数据量的急增,人们希望决策支持系统能够提高更高层次的数掘分 析功能,更加方便和有效的获取能带来效益的信息。而数据库技术的发 眨使得这一需求成为町能。 山】:数据库技术的发展和数据存储成本的降低以及数据库管理系统的广泛应 h j ,大型数据库系统已经存各行备业普及,数据库中存储的数据量急剧增大。在 大量的数据背后隐减省诌:多重要的升i 被人所知的信息,而这些信息可以很好地辅 助人们进行决策。可是 j 前用于对这些数据进行分析处理的工具却很少。目前人 们用到的主要足数掘庠的存储功能和简单的查询分析功能,而隐减在这些数据之 后的更重要的信息则没有被充分发现和利用。这些信息是关于数据的整体特征的 描述及列发展趋势的预测,稿;决策生成的过程。”具有重要的参考价值。例如,银 行俯川k 的发放和il l 价埘的客j 、,俯川淄j 以通过a 询弃户数抛库束发现恶意欺 骗f l ,j 俯川j 迈0 i 好的客、模,。5 外通过数w 挖抛,埘以处理高维的数抓,为川 p 挺供州讹化 j ,7 i 协川发脱隐减1 ,| :i :b 纠暇i m 的校。对数艏进 r 叮视化的 神f j 投丘法址僻肌j j 数甜- :j 窆抓,j “;史脱。例如l 聚炎锥法能从- 岛维。孙1 j 找m 第二i ;! : 尔人0 :硕,l j :位论义 i i i 有别于其他类别的特征数乱ij i 集,通过其提供n 勺可视化图形,l j 以f r 容易发现数据 楔,。此外,d 门i 数据集的上f l j 加,化统的菜,圳葵,数拊分析投术已不能满足。峡m ; 的; j 求。特别址划时l i l j 列n 0 数捌,传统的数j l i 分析技术只能用到数据的极少部 分,人部分的数抛没被利川。n 崩j ”今信息意味荇尚机的充满竞予的时代,谁能 获得更多的信息,濉就能掌水i - 。i , q - i :x , j 新n 勺数抓分析方法和知u 发现方法仃 了延迫切的要求。数折j 库技术的f 1 觞成熟和数抓仓库的发喂为知泌发现提 i j t t 发 挥n 0 、r 台。 在数据库技术飞迷发腱的i - 驯n 人l i 智能领域的 个分支 l 器学刊 的研究也取得很大进展。 自5 0 年代丌始机器学爿的研究以来,先后经历了神经模型和决策理论、 l ! : 念 符号获取及知识加强车i i 沦域专j 学习三个阶段,根据人类学习的不同模式a e j 提 出了很多机器学习方法,如:示例学习、观察和发现学习、神经网络和遗传算法 等等。其中某些常用h 较成熟的算法已被人们运用于实际的应用系统及智能计算 机的设计和实现巾。数据挖掘,扣的许多方法就来源于机器学习。 数据库产品存各行各q k 得到了广泛的应川。 由r 数据存储技术的1 渐成熟,数据库和联机事务处理( o l t p ) 已经被广泛j 哑 用于余融、证券、保险、销售以及天气预报、工、f k 生产、分子生物学、基冈工程 研究等各行各业:在:r 业领域,天键设备的在线监测系统和定期巡检系统闩益普 及。这些都积祟了人嚣数捌,岍稿。乍? f 更多的数据。对r 这些数据人们l l 经4 i 满足1 。传统的统汁分析于段,l f i j :l ;婴发现哑深。:次f l ,j m 补,提供r 巫f j 效的决 策支持。 【:所述,知u 发脱址j 衄川j ;求推z 力f 跨学科发展的,。物。hi j d ,i ) 1 i 仪 前3 页 l 、l 尔人学硕l :学位论文 被 ,| :多研究人员石作j j _ ! = 数据j 蓦;系统承i 机器学爿办1 1 i 承要的研究课题,i 而f j 被许多 商羿人:1 + 看作是一一个能带来巨大回报的霞要领域。从数据库中发现出来的知以 ,以j | j 彳1 齐息管理、夼咖响成、决策支持、过程控制等鞠:多力厕。f 1 前,已经确 多冻知谚 发现商i k7 “,i 投入1 1 j 场,并取得成功纳应用。 1 1 2 知识发现的定义 数捌库知识发现( k i ) i ) ) 这个术滑一先肌张1 9 8 9 年8 川花荚罔底特律召丌的第 聪幽际人:l 二智能联合会议的号题讨论会i :,1 9 9 1 、1 9 9 3 , f 1 1 1 9 9 4 年又接着继续举行 k d d 专题讨论会。随管参加会议人数的增多,从1 9 9 5 年开始,每年都要举办一次k d d 国际会议。另外从9 7 年1 :始。k d d j 7 t j 有了自己的专门杂志( k n o w l e d g ed is c o v e r ya n d d a t a 、 in i n g 。随着互联网的发展,网络 :设立了很多关于k d d 研究的网站、论坛 以及新闻组。除了研究外,也h 现了相当数量的k d d 产品和应用系统,并且获得了 一定的成功,得到了业界o r , j ;“泛关注。 特别是数掘挖掘技术作为知识发现研究领域的一个重要部分,已经得到了国 内许多行业的高度重视。国家“十:矗”8 6 3 计划在信息技术的每个主题都涉及到 了数掘挖掘,并且在生物信息领域也涉及到了数据挖掘;国家“- 1 五”科技重大 攻关项目“金融信息化”也把数掘仓库数据挖掘技术作为七大课题之一;证券交 易5 所和主要的证券公司也都已经建立或i f 着手建立数据仓库,并在下一步将应用 数据挖扭 技术;商、l k 牲也l ! i 经把数捌仓库数扒挖拥 列为“i “”信息化工作的重 点发地披术1 3 i 。 j :k d d 怂f j 新兴的、术f f 符种4 q , d 坝域的变义f i - , 7 :科,w 此仃7 | ! ;! 多不 帅0 术沿彩称除了鬟u 发现称i 呼外,1 i 缨还仃“知u 抽墩”t i n f o n n a t i o n e x t r a c t i o n ) 、“倍,想发现”( 1 n f o n n a t i o n d i s c o v e r ) ) 、“知识发现”( k n o w l e d g e 筑4 吹 i i i 东人。拳硕士学位沦义 d i s c o v e r y ) 、“。疗数州分 r ( i n t e l l i g e n t d a t a a n a l y s i s ) 、“信息收获”( i n f o m i n t i o n h a r v e s t i n g ) 等等称;上。从k d di t 1 私称i 以看,k d d 哑媸渊j 数捌厍旧联 系。 k d d 至今仃多利r l - 义,m i , ! 剑公认的定义足f a y y a d 等给: 1 的f 2 数掘库中的j = 识发观足从数捌始pu l 别m 彳r 效的、新颖的、潜在有t 的,以 及最终可理解的模0 高级过科。 1 1 3f a y y a d 给出的知识发现过程模型 选择 原始数据 评价 剖】1 f a 5 y a d 定义的数据库知识发现过程 ,? 警 - - - - _ _ - - 二- 知识 f a y y a de t ,a 1 1 9 9 6 年给m 了如冈1 1 所示的k d d 知识发现处理过程。是公认 的通用的知谚 发现过祝定义。 作j = | | 识发现过利,h 数圳被仃f i f m 数 l l :阼lr ,f l ! 捌数掘挖掘钎浊的坚求从数 扒阼- t ,选取数圳挖捌所j 6 ;1 婴n 数扒,化数扒预处川! 阶段埘数州【泶阿利锚谍数据进 仃处川l ,然后刈数川进行娈换满足数捌挖圳算法的蛆求,选扦合适的数据挖抓鲆 法进行数捌挖抛以发现知u 港b ,这足j = l i 以发观的核心阶段,域厉对锭观的梭 捕5 厦 ri!j呵i l 上 掘、_|u 一 枷嘶 | | 帘i :一 瓷 一 鬻日 鼍玎- 盟 1 鼢抟 为:人学硕一| j 学位沦文 ,进行胛释和评制 埸引涂j c 余昶i 九天的榄,) f :殁对发现的模式进行可视化把 结果转换成用户易悻的表示办,。 我们一叮以看出k d d 过袱i :篮i i 【数训处邶。数掘挖掘_ 手i 】结果分析j 个# 要部 分自i 成。 数据处理 数据处理义可分为:三个子步骤:数据选取( d a t a s e l e c t i o n ) 、数掘预处理( d a t a p r e p r o c e s s i n g ) 和数j i i 变换( d a t at r a n s f o m a a t i o n ) 。 数州选玎义的同的足确定发现任务的操作对象,即f f 标数掘( t a r g e td a t a ) ,是 根掘j j 户的需要从原始数据库中抽取的一组数据。数据预处理一般可能包括消除 噪卢、推导计算缺值数据、消除重复记录、完成数据类,弘转换( 如把连续值数据 转换为离散型的数据,以便j :符l ;归纳,或足把离散型的转换为连续值型的,以 便丁神经网络) 等。当数据挖掘的对象是数据仓库时,一般来说,数据预处理已 经在生成数据仓库时完成了。数掘变换的主要目的是消减数据维数或降维 ( d i m e n s i o nr e d u c t i o n ) ,即从初始特征中找h :5 真i f 有用的特征以减少数掘挖掘时 要考虑的特征或变量个数。 数据挖掘 数据挖掘阶段酋先根据刈问题的定义j 确挖掘的任务或目的如分类1 4 , 5 1 、聚 类m i 、义联规则发现1 7 8 0 1 或序列模发现【州等。确定了挖掘任务后,就要决定使用 什么”的弹法。选抒史脱算法彳j 鹏个学虑j 川崇:越一i m 的数据彳。4 i 川的特点, 刈此1 j 业川j 之千天的钳j _ i 米挖川:址川p 或实际运行系统的要求,_ i 的川户 j 能希q ! 扶取描述型的( d e s c r i p t i v e ) 、容埸川。州的知识( 采门j 规则挺,j 硼q 挖掘山 i i i ! 然巫rj 褂纤h 络之类n 0 办浊) 咖仃f 门川户j 址希q i 捩墩硼例0 准确度尽r 一, 筇6 瓠 l l i 尔人学硕l j 学位沦义 i i 能l ? 釉0 预测掣【p r c d i c t i v e ) 矧u ,j i :- l ;2 i i 意状1 1 ) ( 的女lj 订! 是百功r 州解。哭r 数批 挖 j ;i 渺i 采n 的 此常川j 盯浊,我们mi - y u ;t t 。l ,将给+ 1 l - f l t l 的= f f i 述。 结果解释和评估 数据挖掘阶段发现m 米的梭一,经过评估,可能仔柑兀余或无关的模式,这 州露要将其剔i 5 = :也耵r 1 - 能模j 1 i 满足用户要求,这时则需要抟个发现过程明退 剑前续阶段,如, 1 i - ;7 j 7 选取数扒、采川新的数捌变欹力法、设定新的参数值,块年 换1 f i | 算法等等。j 外,k d d j i 最终是丽向人类用j = t 的,陶l - f l e 婴对发现的 模式进行可视化,或行把结粜转换为用户容易理解的其它表示形式,如把分类决 策树转换为“i f t h e n ”规则。 数据挖掘仅仅是整个过程r - 的一个步骤。数据挖掘质量的好坏有两个影响要 素:一一是所采用的数据挖拥 技术的仃效盹,:足川r 挖掘的数据的质景和数最( 数 搬量的大小) 。细果选抒了错以n 0 数抓或彳i 适j7 | n 0 艟性! ,或对数据进行了小适当 的转换,i j u j j _ 窆掘的效果不会好。 1 1 4 知识发现的研究内容 目6 u 对知识发现的研究相! 上1 活跃而杂乱。针对知口 发现的处理过程、功能模 璎、算法研究、应用等可;同层面,i 目内外每勺i 都有火量的研究文献涌现,并举行 众多的有关知识发现瑚i 沦与应刖研究的学术会议“。一些著名的软件商丌发出 吼k j 枷0 知i _ ! 发现系统和j ? i 忆例f c | l :q u o s 【”址i i ii 洲a i i n h t i o n 研究中,d , 7 1 :发 h 数批- 挖捌系统,它川以从人| _ l ! 数“- i l i ,发现天联j 埘则、分类胤| j ! | j 、序l t t 幔、 t i l i lj 列模j 等:i ) l l v l i 【,r 址加拿人l i i n l ;1 h ( 、i 人。、产的髯: 知b 发现p 家、il w c ii i l n 教授邻! 甘n 0 小纠i 技n 0个数j l l ;挖j ) f | f 系统;, s k i c a i 、系统址 卜,i :j l v v m 等人玎发j | 勺知i 1 4 ,r j 址泰镜。它将 纠像处! _ j | ! 、数引分炎等功能艇成f 第7 哑 东火学硕= 卜学位沦文 起,能够门动地刈天兮h 像进行搜索和分类。另外,_ 与流 j :的迎 j j 商业数搬分 析软f l 如s a “,s i ,s 妒等,也都集成了知识发现和数据挖掘的功能。 知u 发现的方法卡螗,魁按照功能分为预测模型和描述模,。存预测模型。 删水预测的称为独讧变 遘,婴预测的称为年h 灭变:邑或f 1 标变量。预测模型包括分 类模型、回归模型和时m 序列模型;拙述模型包括聚类模型、天联模型和序列模 型。前者有时又称为有监督学习后者称为无监督学习。 分类模型( cj n i “i o n ) , l o d e l ) 在知识发现中,分炎模型通过对已知类别的个体进行归纳,找出各类的特征 属性,即分类模式。川于提取能代表群体的特征属性。在有些情况下,先山领域 专家对个体进行分类,再通过分类模型提耿分类模式。分类输出的是离散的类别 值。 叫归模型( r e g r e s s i o n 、i l o d e l ) 叫归模型用属性的历史数据预测未来趋势。住最简单的情况下,可以用标准 统计方法,如线性回 = f 等。但现实。 嚏昕t q l :线性问题据多,如股票价格的涨跌、 机械系统故障的发生等由于受许多因素的影响,问题变得非常复杂。回归模型 的侄务就是找出对这些变化的准确描述。叫归的输出是连续数值。 时间序列模型( t i m es e r i e sm o d e l ) 。 时叫序列模型用已有的数据序列预测未来。从这一点【:看,与回归模型很相 似。m ! l i j 模。州4 ;强i l , , 1 放4 z , i f n j l ? , j 先后顺序,而时m 序矿0 祓,性要考虑时问特性,尤 j 婴母啦时f l i j 川j c | j f n7 。;次,如尺、圳、,f i 等,仃州还篮考虑f 1 历的影响如 聚类模型( c 1u s t 。r in gm o l e i ) ! 第8 页 东人。j o 硕t 位论义 聚类模,弘址将个 洋体分成多个类,使川类个体尽一叮能1 1 i i 以l f l i d :b0 类n i j 个体 ,j 片j s 可能人。j 分类模,弘1 i 州n 0 址柴类模,耻从未知i 始,既4 - :,i h 通j l 休的分 类标玳,也小知通会仃_ b 什么类。按j | c l 给定的聚类参数( 如趴离等) 进行分解、介 许。褂到的结粜1 1 l 领城0 家进行蛳:l j | j ,如果1 i 满足标,j l j 嘤投功聚类参数,币 新聚炎。| | 达到il 标,分类枷! j ! | j 止姚迎过聚类参数得到。 天联模。科( a s s o c i ,1 l i o n l n d e l ) 荚联模型川j i 发现。物n | j i in 0 关联胤则,或称川父狸度。父联舰则的般形,弋 足:如果a 发乍,m 0 】;了i l 可分之c 的可能发7 i z ,c 称为关联规则的支持艘 如果i b m 的股票价格卜丌,有7 0 的i , j 能微软n 勺股票价格要下降。 序列模型( s e q u e n c e ( d e i ) 天联模,惭m 州似,不同的足序列顿攫i | 1 9 别 象是在时域9 4 i f l :o ,发现的舰则也与先后顺序有关。 1 1 5 知识发现与相关学科的区别与联系 ! j k d d 有关的研究领域仃:机器学爿、统i i - , 数据昨、模式识别、机器发现、 人1 智能、知u 获取、神经网络、数捌町视化、不确定性推理、智能数据分析等等。 f 、面我们来论述k i ) i ) j 机器学习、统计和数掘库f 内天系。 机器学习4 q i k d i ) 1 i | j 研究如何从数拟 叫一抽取模式和模型的理论和算法。k d i ) q 、的小 少疗法起源十机器:习。从算法角度看,) 与机器学习相比,k d d 要研究真实l i t ”i0 人胤模数圳0 。爿或发脱 浊。从系统榄一弘f f j 度7 1 ,k i ) i ) 义心整个发现过 袱,小仪仪越数 l : 窆川 泄:,还姒ij l l i | 数州f i j f l i :箭羊发址纠i 粜n 0 州释干许似以及人 l 辽博臀山。j 吱卜,除了机器:+ j j ,k 1 ) 1 ) l l j i 他从数扒i h 取幔二戈吁楼,判 门,j ;上之m j 九0 】x ! j j l j 也炎似,撕i 奠一ij ! 州垌i 钏i 1 t q i f 。 第9 虹 l i 东人学硕一二学位论文 统计 i i k i ) d 有很多研究的d 之处。“数川挖捌”这个术语是6 ( ) 年代mj i 0 i 入 汁算机进行数据分析l m :统汁1 譬界传播j | 来的。数抛分析足应川统计学的:卜要仃 务,特别足探索性数j 1 _ i :分析,脱钮义现了智能数据分析的慨念,都足和k i ) d 关系 密剀。统计方法既可征k d d t | 1 的 采阶段姓供建模手段,还可在数据预处理和数抓 转换阶段h 二消除噪p i 和消减维数。 数捌库为k d d 提f i 数扒操纵镑理的理论和技术綦础。这方嘶日t i j l j k d d 最4 h 关的 当_ i 越 f j :的数掘仓库技术,建江数据仓库的l j 的就是为了l | _ m 决策支持和联机分 析。为了充分适应k i ) i ) 技术的要求,数据库应该在更多的地方( 不应仅仅是数据仓 库技术) 进行研究。 1 2 粗糙集研究的兴起 粗糙集理论是一种处理含糊、不精确性问题的新型数学工具,由波兰数学家 z p a w l a k 在1 9 8 2 年首先提出的。在知弘。1 :举。! 研究中,直存在着信息的含糊 性( v a g u e n e s s ) 等问题,含糊性有。 种,术语的模糊性,如高矮:数掘的不确定 性如噪声引起的:知识自身的4 i 确定性,如规则的前后件问的依赖关系并不是 完全可靠的。人 :智能的摹础理论之一的经典逻辑不足以解决这些不确定性问 题。为此,人们提出了一些解决方法,包括统计方法、模糊集理论,以及 d e m p s t e r - s h a f f e r 证据理论,但这螳方法都有一些内在缺陷或限定范围,例如模糊 集方法f f 在一个本质问题即如何确定成抛求幅度。斗日比之下, 1 1 糙集力浊只有很 人的优血【! j j l i j j 篮预先知道额外信息,如统汁,j 法t lr 婴求| 1 勺党验 9 【牢利模糊集 i 要求n 0 求心度。 稍l 糙集,唯论( 1 问以米, 二论址n :理沦或心川卜鄙址利- 新的、最重要的并 迅述发腱的研究0 见域。它,f :u l 发j 姒帆器。学二j 、知以挟收、决策分析、譬家 筇1 0 瓤 尔人学硕十学位论文 系统、决策支持系统、归纳摊妇! 、矛盾归结、模式u 蝴u 、模削j 控制等方而的成功 应 j ,引起t e - v i 学扦的j 、泛关注。1 9 9 1 年p a w l a kz 出版了号著,系统个f f f l 地阐述了粗糙集理论,奠定了严密的数学荩础。该书与1 9 9 2 年洲l 奴f :j 栅糙集州 论应川争集i ”i j 交灯地总结了这一州删枞糙集理沦j 。实践的研究成粜,促进了它的 进步发腱,现已成为学j j 和飚 j 鞠【糙集理论的承要文献。f 。t1 9 9 2 年存波” k i e k r z 召丌了第m 州l 糙集f i l l , j i l of i t 会后,每年郝召j i :以桐褴集为i - 芷鲢的蚓琢会 议推动了粗糙集理论1 1 | i 拓腱和应用。1 9 9 4 年国际上成赢了粗糙集学会 ( i n t e r n a t i o n a lr o u g hs e ts o c i e t y ) ,参加的成员来自波兰、荚固、加拿大、几本、 挪威等多个因家。1 9 9 5 年a c mc o m m u n i c a t i o n 将粗糙集列为新出现的计算机科 学的研究课题。 _ ij u 拳h 糙集胖论已成为信息科学最为活跃的研究领域之一。我圜 在粗糙集的理论研究及应刷方研也取得了一定的研究成果,出现了一定数量的相 关文献【1 6 1 1 1 7 i 。 半h 糙集和k d d 关系密切,为k d d 提供了一种新的方法和工具。粗糙集町支 持k d d 的多个步骤,如数探预处理、数据约简、规则生成等。首先,k d d 研究 的实施对象多为关系型数据库。关系表可被看作为耔i 糙集理论中的决策表,这给 料l 糙集方法的应用带来极大的方便。第二,现实世界中的规则有确定性的,也自 小确定性的。从数掘库中发现不确定性的知识,为粗糙集方法提供了用武之地。 第三,从数据中发现异常,排除知 _ 发现过程中的噪声干扰也是羊h 糙集方法的特 长。第删,运川j :| 【糙集山法得i 0 的矧u 发脱锋法f r 利j :并 _ j = 执行,这- t r 板夫地捉 i j i 发现敏二棼。对j :人胤模数抓”0 鬟谚 发脱术说,这i i 址求之一i 得的。第。f k d d 1 采j 的j 它披术,如种经州i 舯0 乃弘i ,小能l j 功地选择合适的腻性馔,1 f 1 】 利川甜【糙集山浊进行坝处t l l l ,上掉多余腻性,j 捉l 曲发脱设j 簪,降低错误率。第 第1 1 页 【j i 为;人学硕l 学位论文 六,料糙集方法比模书集方法或神经网络方法在得到的决策规则和推理过程方而 更易j :被证实和检测。 1 3 粗糙集理论的特点 小呵分辨关系 粗糙集理论根掘对象所具有的信息( 属1 p t 值) 将j 划分剑不同的类刖。若两 个对象具有榍同的信息( 属。r f :值) ,那么它们就是不- 一r 分辨的,即根据已有的信 息刁:能够将其划分,f :,漫然这足种等价关系。刁i 可分辨关系是栅糙集理论的最 基本的概念在此基础上引入了成贝关系,上近似和下近似等概念来划分不精确 性和模糊性。 新型的成员关系 洋h 糙集理论与传统的集合理论有菥相似之处,但它们的出发点完全不同。传 统集合理论认为,一个集合完全姓i 其元素所决定,一个元素x 要么属于这个集 合a ,要么不属于这个集合a ,即它的成员函数u 。( x ) o 1 。模糊集合对此进 行了拓广,它给成员赋予个隶属度,即ua ( x ) o 1 】,使得模糊集合能够处理一 定的模糊和彳;确定数据,但是其隶属度的确定往往具有人为因素,这给其应用带 来一定的才:便。而且,传统集合论和模糊集合论都把成员关系作为原始概念来处 理,集合的并和交就建立在其元素的隶属度的m a x 和m i n 操作上,因此其隶属度 必须事先给定( 传统集合隶属皮默认为1 或0 ) 。m 粗糙集r h 成员关系不再足 个原始概念,因此尤需人为给鬃指定个求槭度从i n j 避免了主脱洲索的影u 向。 没a g ui ix c u ,儿崇x j 集合a 之mn 0 成员天系函数定义为 x ,2 料 第l 二页 东人学硕士学位论文 其中r 是1 i 可分辨火采,【x 】r 表示不可分辨关系r 产q 二n 勺包含元素x 的等价 类。显然有ua ( x ) 【0 ,1 。这1 i t 的成_ ! ,_ ! 关系足楸抛已有的分类知讨 客观训算米的, 而一i 是主观给定n 勺。 概念的边界 知识的粒度性足造成使用已有失识不能够精确地表示某些概念的原因。这就 产,l 了所谓的关j 二小精确的“边界”思想。洋h 糙集理论中的模糊性就足一种基r 边界的概念,【! | _ i 个模糊的概念具有模糊的一i 可被明确划分的边界。为刻划模糊 性,每个一:精确概念山一对称之为卜 近似与上近似的精确概念来表示。集合x 的 下近似包含了可确切分类到x 的元素一e 近似则包括了所有那些可能是属于x 的元素。上近似引:近似的差就是此概念的边界区域。它由不能肯定分类到这个 概念或其补集q t 1 , 7j j 7 7 n ,i 素组成。皿然若边界非空,则集合x 就足个模糊概念。 信息表与数据分析 为了用粗糙集疗法进行数掘分析,一般采用信息表或称属性一值系统来表示数 掘。信息表通过有限的属性描述对象,表达了关于对象的所有可获得的信息和知 识。其实信息表在很多领域罩都得到过应用如决策理论、模式识别、机器学习、 数据挖掘、数据库及信息检索等。信息表类似于关系数据库模型的表达方式。粗 糙集理论在信息表i :通过分析属性之问的依赖关系,定义了属性集约简与核等概 念。 采1j 毕兀糙集方 i 作为数捌分析和j = i i u 发现的i :l 具有如下特点i h i : ) 槲糙集处州小f i f | 定rj :题4 i j j 喽先验知u 。模糊集和 | ! ! 牢统计疗法址处刖 小确定f l i 息的常川疗法,f f i 这u b 方法需要一此数据的附加信息或先验知乩如模 糊隶属函数剃:f | 2 c 牢分柏,等,这u i ,n 仃时并小容埸得到。羊h 糙集分析方法仪利j ;_ i 第1 3 页 尔人。学颂 j 学位论文 数抓本身提供的信息,厄绷仟何先验知谚5 2 ) h 糙集是一个强大的数抓分析r 只,钳着严密的数学 忆它能表达和处理 4 i 确定价息:能仃保钟火谜t j 息f j i 】h 捉f 时数槲进行化简片求得知谚 的最小表 达;能谚 刖f = 评估数扒之叫的依赖爻系,揭1 出描述简- n 的模,:能从经验数栅 叶l 捩墩易j 二证实的翅 j l 【j 知谚 ,特埘适f 钾能控制。 3 ) 籼糙集与模糊集分别刻划了4 :确定信息的两个方而l 如i :粗糙集以不可分辨 关系为埏础,侧重分类:摸糊袋臻j :死索对集合隶属税度的一i 网,强调集会本身 的含糊1 ( ! ( v a g u e n e s s ) 。从栩糙集的则t i 霸,料糙

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论