已阅读5页,还剩127页未读, 继续免费阅读
(计算机应用技术专业论文)基于粗糙集理论的不确定信息处理与知识获取方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西南交通大学博士研究生学位论文第1 页 摘要 随着计算机技术与i n t e m e t 的飞速发展,使得各个领域的数据和信息正 以惊人的速度增长。不同领域的人们都期待着从这些大量的、杂乱无章的数 据中得到自己想要的信息和知识。这给人类的智能信息处理能力提出了新的 挑战,由此产生了人工智能研究的一个重要领域数据挖掘。 在数据挖掘诸多方法中,粗糙集理论与方法对于处理复杂系统不失为一 种较为有效的方法。与概率论、模糊集和证据理论等其它处理不确定问题的 理论和方法相比,它可以不需要提供解决问题所需的数据集合之外的先验知 识。它已在模式识别、智能控制、医疗数据分析、故障诊断等领域获得了较 成功的应用。 但是,作为数据挖掘研究领域的一个重要课题,现有的粗糙集理论及其 方法仍然存在一些至今还没有很好解决的问题。例如,它对原始数据本身的 模糊性及不确定性缺乏相应的处理能力、计算复杂度高及对连续值属性的决 策信息系统处理能力较弱等问题。如何扩展现有的粗糙集理论模型及方法, 以适应原始模糊、不确定数据是目前粗糙集理论的一个重要研究方向,正受 到学术界的广泛关注。 本文首先分析了粗糙集理论的国内外发展现状和存在问题,然后,以粗 糙集处理原始数据本身的模糊性与不确定性存在的问题为主线,对经典粗糙 集理论进行了一系列扩充。归纳起来,本文的主要研究工作和创新内容表现 在以下几个方面: ( 1 ) 提出了模糊决策信息系统中的属性约简及其知识获取方法。 为了有效地解决z i a r k o 变精度粗糙集模型( v a r i a b l ep r e c i s i o nr o u g hs e t , v p r s ) 对原始数据本身模糊性缺乏处理机制这一问题,建立了一种变精度 模糊粗糙数据模型( v a r i a b l ep r e c i s i o nf u z z yr o u g hd a t am o d e l ,v p f r d m ) , 该模型对v p r s 进行了推广;基于v p f r d m ,以属性重要性为启发式信息, 给出了模糊决策信息系统中的属性约简方法;通过计算各模糊模式类相对于 决策类的分类能力,给出了模糊决策信息系统中的知识获取方法。这些理论 与方法为经典粗糙集理论处理原始模糊数据提供了新的途径。 第l f 页西南交通大学博士研究生学位论文 ( 2 ) 构建了粗糙集理论与v a g u e 集理论相结合的v a g u er o u g h 集模型 及r o u g hv a g u e 集模型。 v a g u e 集理论是对模糊集理论的扩充,是当前模糊信息处理研究的热点 问题之一。本文研究了利用v a g u e 集理论扩充r o u g h 集理论的方法:首先, 把p a w l a k 近似空间对经典集合的近似扩充到对v a g u e 集合的近似,构建了 v a g u er o u g h 集模型;其次,用v a g u e 关系扩充p a w l a k 近似空间中的等价关 系,构建了r o u g hv a g u e 集模型,并分析得到了这2 种模型的代数性质。 ( 3 ) 提出了v a g u e 决策信息系统及v a g u e 目标信息系统中的属性约简 及其知识获取方法。 基于v a g u er o u g h 集及r o u g hv a g u e 集分别对v a g u e 决策信息系统 ( v a g u ed e c i s i o ni n f o r m a t i o ns y s t e m s ,v d i s ) 及v a g u e 目标信息系统( v a g u e o b j e c t i v ei n f o r m a t i o ns y s t e m s ,v o i s ) 中的上、下近似集的表示方法进行了定 义,并提出了v d i s 与v o i s 中属性约简的概念及分明矩阵的计算方法;以 此为基础,提出了v d i s 与v o i s 中的属性约简及知识获取方法。 ( 4 ) 提出了连续值属性决策信息系统中的属性约简及知识获取方法。 经典粗糙集理论处理连续值属性决策信息系统时,首先必须对连续值属 性进行离散化处理,这会造成一定的信息损失。本文对这一问题进行了研究: 首先,把p a w l a k 决策信息系统中的近似分类质量的表示方法扩充到连续值 属性决策信息系统中;其次,针对连续数据的特点,给出了连续值属性重要 性的度量方法;以属性重要性为启发式信息,提出了连续值属性决策信息系 统的属性约简方法,这些理论和方法不需要对连续值属性作离散化处理:最 后,用聚类代替p a w l a k 粗糙集理论中的等价类,提出了连续值属性决策信 息系统中的知识获取方法。实验结果表明,这些理论与方法能够较好地适用 于连续值属性决策信息系统中的知识获取,并具有较好的性能。 关键词:数据挖掘;知识获取;粗糙集;属性约简;v a g u e 集 西南交通大学博士研究生学位论文第1 ii 页 a b s tr a c t w i t ht h ee x p l o s i v eg r o w t ho ft h ec o m p u t e rt e c h n i q u e sa n di n t e m e t ,d a t aa n d i n f o r m a t i o nh a v eb e e ng e n e r a t e dv e r yr a p i d l y t h i se x p a n s i v eg o s ho fd a t a l e a d st oar e q u i r e m e n to ft h ed e v e l o p m e n to fm o r ep o w e r f u lt e c h n i q u e st o c o n v e r tt h eh u g ea n dm e s sd a t ai n t ov a l u a b l ei n f o r m a t i o na n dk n o w l e d g e i ti sa c h a l l e n g ef o rt h es t u d yo fi n t e l l i g e n ti n f o r m a t i o np r o c e s s i n g t h u s ,d a t am i n i n g b e c o m e so n eo ft h ek e yr e s e a r c hf i e l d si na r t i f i c i a li n t e l l i g e n c e a m o n gm a n ym e t h o d so fd a t am i n i n g ,r o u g hs e tt h e o r yi s a ne f f e c t i v e m e t h o df o rh a n d l i n gc o m p l e xs y s t e m sb e c a u s ei t ss i g n i f i c a n ta d v a n t a g eo fn o t r e q u i r i n ga n yp r i o rk n o w l e d g ee x c e p td a t a s e t sc o m p a r e dw i t hs o m eo t h e r t h e o r i e sl i k ep r o b a b i l i t yt h e o r y ,f u z z ys e ta n de v i d e n c et h e o r y , e t c i th a sb e e n a p p l i e ds u c c e s s f u l l yi nm a n yd o m a i n ss u c ha sp a t t e mr e c o g n i t i o n ,i n t e l l i g e n t c o n t r o l ,m e d i c a ld a t aa n a l y s i s ,f a u l td i a g n o s i sa n ds oo n h o w e v e r ,t h e r ea r es t i l ls o m ei m p o r t a n tp r o b l e m so fr o u g hs e tt h e o r yt ob e a d d r e s s e da sam e t h o df o rd a t am i n i n g f o re x a m p l e ,n om e c h a n i s mt oh a n d l et h e u n c e r t a i n t yo ri m p r e c i s eo fo r i g i n a ld a t a ,h i g hc o m p l e x i t yf o rp r o c e s s i n gh u g e d a t as e t sa n dl o wp e r f o r m a n c eo np r o c e s s i n gd e c i s i o nt a b l e sw i t hc o n t i n u o u s v a l u ea t t r i b u t e s i ti sb e c o m i n ga ni m p o r t a n tr e s e a r c ht o p i ci nr o u g hs e tf i e l d st o e x t e n dt h ee x i s t i n gt h e o r i e sa n da p p r o a c h e so fr o u g hs e tt od e a lw i t hi m p r e c i s eo r u n c e r t a i n t yo r i g i n a ld a t a m o r ea n dm o r e r e s e a r c h e r sa r ei n t e r e s t e di ni t i nt h i sd i s s e r t a t i o n ,w es u m m a r i z et h er e s e a r c hs t a t u so ft h e o r i e sa n d m e t h o d sa b o u tr o u g hs e ta tf i r s t t h e n ,w eh a v eac l u ew h i c ht h ee x i s t i n gr e s e a r c h p r o b l e m so fr o u g hs e tf o rh a n d l i n gt h eu n c e r t a i n t yo ri m p r e c i s eo fo r i g i n a ld a t a a n dp r e s e n tt h er e s e a r c hc o n t e n t sa n do b j e c t i v e so ft h ed i s s e r t a t i o n t h em a j o r r e s e a r c hr e s u l t sa c h i e v e di nt h i sd i s s e r t a t i o na r ea sf o l l o w s : ( 1 ) a p p r o a c h e sf o ra t t r i b u t er e d u c t i o na n dk n o w l e d g ea c q u i s i t i o nf r o mf u z z y d e c i s i o ni n f o r m a t i o ns y s t e m sa r ep r o p o s e d av a r i a b l ep r e c i s i o nf u z z yr o u g hd a t am o d e l ( v p f r d m ) i sp r o p o s e db y e x t e n d i n gz i a r k o sv a r i a b l ep r e c i s i o nr o u g hs e tt h e o r y ( v p r s ) av p f r d m b a s e dh e u r i s t i ca l g o r i t h mf o ra t t r i b u t er e d u c t i o nf r o mf u z z yd e c i s i o ni n f o r m a t i o n s y s t e m si sd e v e l o p e d t h e n ,t h r o u g hc a l c u l a t i n gt h ec l a s s i f i c a t i o nq u a l i t yo fe a c h f u z z yp a t t e mc l a s s e st ot h ed e c i s i o nc a t e g o r i e s ,am e t h o df o r k n o w l e d g e a c q u i s i t i o nf r o mf u z z yd e c i s i o ni n f o r m a t i o ns y s t e m si sd e v e l o p e d s i m u l a t i o n e x p e n m e n tr e s u l t s s h o wt h a tv p f r d mi s e f f e c t i v ea n dh a sb e t t e rd a t a g e n e r a l i z a t i o na b i l i t yc o m p a r e dw i t hz i a r k o sv p r s ( 2 ) t h r o u g hi n t e g r a t i n gr o u g hs e tt h e o r ya n dv a g u es e tt h e o r y , t h em o d e l so f v a g u er o u g hs e ta n dr o u g h v a g u es e ta r ep r o p o s e d a sa l le x t e n s i o no f f u z z ys e tt h e o r y , v a g u es e tt h e o r yi so n eo ft h em o s t v i t a l i t yr e s e a r c ha s p e c t so ff u z z yi n f o r m a t i o np r o c e s s i n g ,a n di sa t t r a c t i n gm o r e a t t e n t i o no fr e s e a r c h e r s i nt h i sd i s s e r t a t i o n ,t w og e n e r a l i z e dm o d e l so fp a w l a k a p p r o x i m a t i o ns e t s ,r o u g hv a g u es e ta n dv a g u er o u g hs e t ,a r ep r o p o s e dt h r o u g h i n t e g r a t i n gr o u g hs e ta n dv a g u es e t t h et w om o d e l sc o u l db eu s e dt oi m p r o v et h e p e r f o r m a n c eo fr o u g hs e tt h e o r yb a s e dd a t am i n i n go no r i g i n a lf u z z yd a t a t h e a l g e b r ap r o p e r t i e so ft h e s et w om o d e l sa r ea l s os t u d i e d ( 3 ) b a s e do nr o u g hv a g u es e ta n dv a g u er o u g hs e t a t t r i b u t er e d u c t i o na n d k n o w l e d g ea c q u i s i t i o nm e t h o d si nv a g u eo b je c t i v ei n f o r m a t i o ns y s t e m s ( v o i s ) a n dv a g u ed e c i s i o ni n f o r m a t i o ns y s t e m s ( v d i s ) a r e d e v e l o p e dr e s p e c t i v e l y t h r o u g hd e f i n i n gt h er o u g hv a g u el o w e ra p p r o x i m a t i o nd i s t r i b u t i o na n dt h e v a g u er o u g hl o w e ra p p r o x i m a t i o nd i s t r i b u t i o n ,t h ec o n c e p t so fa t t r i b u t er e d u c t i o n a r ep r o p o s e di nv o i sa n dv d i sr e s p e c t i v e l y t h e n ,a l g o r i t h m sb a s e do n d i s c e r n i b i l i t ym a t r i xf o rc o m p u t i n ga t t r i b u t er e d u c t i o na r ed e v e l o p e d a tl a s t ,t h e v i a b l e a p p r o a c h e sf o re x t r a c t i n gd e c i s i o nr u l e sf r o mv o i sa n dv d i sa r e p r o p o s e d t h e s er e s u l t se x t e n d e dt h et r a d i t i o n a lm e t h o d so fc l a s s i c a lr o u g hs e t s t h e o r y , a n dp r o v i d e dan e ww a yf o ru n c e r t a i nf u z z yk n o w l e d g e a c q u i s i t i o n ( 4 ) a t t r i b u t er e d u c t i o na n dk n o w l e d g ea c q u i s i t i o nf r o md e c i s i o ni n f o r m a t i o n s y s t e m sc o n t a i n i n gc o n t i n u o u sv a l u ea t t r i b u t e sa r ep r o p o s e d r o u g hs e tb a s e da t t r i b u t er e d u c t i o na n dk n o w l e d g ea c q u i s i t i o nm e t h o d sa r e m a i n l ya p p l i c a b l et oi n f o r m a t i o ns y s t e m s c o n t a i n i n gd i s c r e t ev a l u e s f o r k n o w l e d g ea c q u i s i t i o nf r o md e c i s i o ni n f o r m a t i o ns y s t e m sw i t hc o n t i n u o u sv a l u e a t t r i b u t e s ,an e wd e f i n i t i o no fp o s i t i v er e g i o no fr o u g hs e ti sp r o p o s e d u s i n g r e l a t e ds t a t i s t i c a lm e t h o d s ,ac r i t e r i o n f o rm e a s u r i n gt h es i g n i f i c a n c eo f c o n t i n u o u sa t t r i b u t e si sp r o p o s e d t h e n ,a na p p r o a c hf o rk n o w l e d g ea c q u i s i t i o n f r o md e c i s i o ni n f o r m a t i o ns y s t e m sc o n t a i n i n gc o n t i n u o u sv a l u e s ( c d i s k a ) i s d e v e l o p e d s i m u l a t i o ne x p e r i m e n tr e s u l t ss h o wt h a tt h ec d i s k aa l g o r i t h mh a s b e t t e rp e r f o r m a n c ei nc l a s s i f i c a t i o na c c u r a c yc o m p a r e dw i t ht h ec l a s s i c a lr o u g h s e ta p p r o a c h e sa n dd e c i s i o nt r e ea p p r o a c hi np r o c e s s i n gd e c i s i o ni n f o r m a t i o n s y s t e m sc o n t a i n i n gc o n t i n u o u sv a l u e sa t t r i b u t e s k e yw o rds :d a t am i n i n g ;k n o w l e d g ea c q u i s i t i o n ;r o u g hs e t ;a t t r i b u t er e d u c t i o n ; v a g u es e t 西南交通大学博士研究生学位论文第1 x 页 西南交通大学曲南父逋大罕 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规 定,同意学校保留并向国家有关部门或机构送交论文的复印件和 电子版,允许论文被查阅和借阅。本人授权西南交通大学可以将 本论文的全部或部分内容编入有关数据库进行检索,可以采用影 印、缩印或扫描等复印手段保存和汇编本学位论文。 本学位论文属于 1 保密口,在年解密后适用本授权书; , 2 不保密瓯使用本授权书。 ( 请在以上方框内打“4 ) 学位论文作者签名:湾牛 日期:g 洳扩伊7 指导老师签名:眶己毒叠 日期:炒嘲乡 西南交通大学曲南父逋大罕 学位论文创新性声明 本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作 所得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体, 均已在文中作了明确的说明。本人完全意识到本声明的法律结果由本人承 担。 本学位论文的主要创新点如下: ( 1 ) 利用模糊集对z i a r k o 变精度粗糙集模型进行了扩充,构建了一种 变精度模糊粗糙数据模型;以属性重要性为启发式信息,给出了模糊决策信 息系统中的属性约简方法:通过计算各模糊模式类相对于决策类的分类能 力,提出了模糊决策信息系统中的知识获取方法。这些理论与方法能较好地 解决变精度粗糙集对原始数据本身模糊性缺乏处理机制这一问题;( 第2 章) ( 2 ) 把p a w l a k 近似空间对经典集合的近似扩充到对v a g u e 集合的近似, 构建了r o u g hv a g u e 集模型,并对定义在该模型上的代数运算的性质、r o u g h v a g u e 集等价及r o u g hv a g u e 集关系进行了研究;然后,基于r o u g hv a g u e 集,定义了v a g u e 目标信息系统的上、下近似集;以此为基础,提出了v a g u e 目标信息系统中属性约简的概念及分明矩阵的计算方法;最后,给出了v a g u e 目标信息系统中的知识获取方法;( 第3 章) ( 3 ) 用v a g u e 关系扩充p a w l a k 近似空间中的等价关系,提出了v a g u e r o u g h 集模型;并对定义在v a g u er o u g h 集上的代数运算的性质进行了研究; 基于v a g u er o u g h 集,给出 v a g u e 信息系统的上近似、下近似集的表示方法; 以下近似分布约简为基础,提出t v a g u e 决策信息系统中分明矩阵的计算方 法;最后,给出t v a g u e 决策信息系统知识获取方法; ( 第4 章) ( 4 ) 为避免离散化过程对原始信息系统造成的信息损失,把p a w l a k 决 策信息系统中的近似分类质量的表示方法扩充到连续值属性决策信息系统 中;针对连续数据的特点,定义了连续值属性重要性的度量方法;用聚类代 替p a w l a k 粗糙集理论中的等价类,提出了连续值属性决策信息系统中的知 识获取方法。实验结果表明:这些方法能较好地适用于连续值属性决策信息 系统中的知识获取,并具有较好的性能。( 第5 章) 学位论文作者签名:以芽卜 日期:z 帕净f 2 月哆日 西南交通大学博士研究生学位论文第1 页 第1 章绪论 近二十几年来,随着i n t e m e t 技术的飞速发展和普及,世界上的数据正 以惊人的速度增长,“丰富的数据与贫乏的知识”问题也日渐突出。要想在 这浩如烟海的数据中找到自己所需的信息,传统的数据分析工具已不能满足 要求。为了摆脱这种困境,人们追切需要一种能够发现数据之间内在关系的、 隐含的信息的工具,数据挖掘技术便应运而生了。 1 1 数据挖掘概述 数据挖掘( d a t am i n i n g ,d m ) 也称知识发现( k n o w l e d g ed i s c o v e r yi n d a t a b a s e s ,k d d ) 或知识获取( k n o w l e d g ea c q u i s i t i o n ) ,是从大量的、不完 全的、有噪声的、模糊的、随机的数据集中抽取隐含在其中的、人们事先不 知道的、但又是潜在有用的信息和知识过程h ,。一个k d d 的全过程定义 描述如图1 1 所示“,。 图1 1 知识发现全过程描述 第2 页西南交通大学博士研究生学位论文 由图1 1 可见,整个k d d 过程是由若干挖掘步骤组成,而数据挖掘仅 是其中的一个主要步骤,但由于目前工业界、媒体、数据库研究领域中,“数 据挖掘 一词用来表示整个k d d 过程已被广泛使用并普遍接受。 整个k d d 大致归纳为如下步骤: ( 1 ) 数据准备:了解k d d 应用领域的有关情况,明确系统目标; ( 2 ) 数据筛选:数据选取的目的是确定目标数据,即从原始数据库中 选取相关数据或样本。在此过程中,将利用一些数据库操作对数据库进行相 关处理; ( 3 ) 数据预处理:对步骤( 2 ) 中选出的目标数据进行再处理,检查数 据的完整性及数据一致性,消除噪声,滤除与数据挖掘无关的冗余数据,根 据时间序列和已知的变化情况,利用统计学等方法填充丢失的数据; ( 4 ) 数据变换:根据知识发现的任务对经过预处理的数据进行再处理, 主要是通过数据约简和投影,寻找依赖于获取目标的表达数据的有用特征, 以约简数据模式; ( 5 ) 确定k d d 目标:根据用户的要求,选择一种与( 1 ) 步所选目标 相应的数据挖掘方法,如分类、综合、回归、聚类等: ( 6 ) 选择数据挖掘算法:根据确定的任务选择合适的知识发现算法, 包括选取合适的模型和参数。 ( 7 ) 实施数据挖掘算法:得到分类规则或聚类等形式来表达的感兴趣 的模式; ( 8 ) 模式解释:对在数据挖掘步骤中发现的模式( 知识) 进行解释。 经过用户或机器评估后,可能会发现这些模式中存在冗余或无关的模式,此 时应该将其剔除。如果模式不能满足用户的要求,就需要重复第( 1 ) 步到 第( 7 ) 步的迭代过程; ( 9 ) 知识评价:将发现的知识以用户能了解的方式呈现给用户。 当数据挖掘技术应用于网络环境下的w e b 中就成为w e b 挖掘,它是数 据挖掘技术中的一个崭新论域。w 曲挖掘一般可分为三类h 引:w e b 内容挖掘 ( w e bc o n t e n tm i n i n g ) 、w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) 和w e b 使用 记录挖掘( w e bu s a g em i n i n g ) 。w 曲内容挖掘是从w e b 文档内容及其描述 中获取有用知识,对w e b 页面内容及后台交易数据库进行挖掘,包括文本挖 西南交通大学博士研究生学位论文第3 页 掘和多媒体挖掘;w e b 结构挖掘是从网页的超级链接中发现其结构及其相互 关系;w e b 使用记录挖掘是通过挖掘相应站点的日志文件和相关数据来发现 该站点上浏览者的行为模式,根据其兴趣调整网站结构”1 。 数据挖掘研究的范围非常广泛,可以是经济、工业、农业、军事、社会、 商业、科学的数据或卫星观测到的数据。数据的形态有数字、符号、图形、 声音等。数据组织方式也各不相同,可以是有结构、半结构或非结构。因此, 数据挖掘是一门交叉学科,它汇聚了数据库、人工智能、机器学习、统计学、 模式识别、可视化、并行计算、粗糙集、神经网络和模糊集等不同学科和领 域,近年来受到各界的广泛关注,形成新的技术热点阳,。 数据挖掘的功能用于指定数据挖掘任务中要寻找的模式类型。数据挖掘 的主要任务可分为以下几种类型: ( 1 ) 概念描述( c o n c e p td e s c r i p t i o n ) :用汇总、简洁、准确的方式描述 每个概念。获得概念描述的方法主要有2 种:一是利用更为广义的属性,对 所分析数据进行概要总结( d a t ac h a r a c t e r i z a t i o n ) ;另一种是对两类所分析的 数据特点进行对比并对对比结果给出概要性总结( d a t ad i s c r m i n a t i o n ) ; ( 2 ) 关联分析( a s s o c i a t i o na n a l y s i s ) :用来发现关联规则,这些规则 指出“属性一值”频繁地在给定数据集中一起出现的条件。最著名的关联规 则算法是a p r i o r i 算法归,; ( 3 ) 分类( c l a s s i f i c a t i o n ) :用来找出一组能够描述数据集合典型特征 的模型( 或函数) ,以便能使用模型预测类标记未知的对象的过程; ( 4 ) 聚类( c l u s t e r i n g a n a l y s i s ) :它与分类不同,它主要分析数据对象, 而不考虑已知的类标记。聚类的原则是“最大化类内的相似性、最小化类间 的相似性”: ( 5 ) 孤立点分析( o u t l i e ra n a l y s i s ) :是指数据库中的那些与数据的一 般行为或模型不一致的数据对象。大部分数据挖掘方法将孤立点视为噪声或 异常而将其丢弃,然而,在一些实际应用中( 如欺骗检测、军事情报分析等) , 罕见点事件可能比正常出现的那些更值得关注; ( 6 ) 数据演化分析( e v o l u t i o na n a l y s i s ) :就是对随时间变化的对象的 规律或趋势进行分析,并对其建模描述。演化分析建模手段包括:概念描述、 对比概念描述、关联、分类或聚类,最主要的演化分析方法有:时间序列数 第4 页西南交通大学博士研究生学位论文 据分析、序列或周期模式匹配和基于相似性的数据分析。 一个典型的数据挖掘系统的体系结构如图1 2 所示【8 1 。各部分的主要功 能描述如下: 数 图1 2 典型的数据挖掘系统结构 ( 1 ) 数据库、数据仓库:这是一个或一组数据库、数据仓库、电子表 格或其它类型的信息库,是数据挖掘的工作对象,可以在数据上进行数据清 理和集成: ( 2 ) 数据库或数据仓库服务器:根据用户的数据挖掘请求,负责提取 相关数据; ( 3 ) 知识库:主要用来指导挖掘的过程、评价挖掘出来的候选模式等; 西南交通大学博士研究生学位论文第5 页 ( 4 ) 数据挖掘引擎:是整个系统的核心部分,由以下功能模块组成: 关联分析、分类分析、聚类分析、演化分析和孤立点分析等; ( 5 ) 模式评估模块:使用兴趣度度量,并与数据挖掘模块交互,以便 将搜索聚焦在有趣的模式上; ( 6 ) 图形用户界面:主要是为方便用户与数据挖掘系统的交互,由用 户提出挖掘任务、指定重要的挖掘参数以及由当前返回的结果指导进行更进 一步的挖掘工作。 1 2 不确定集合理论概述 不确定性是客观存在的大量现象和事物的特征,是智能问题的本质特 征。对于现实生活中的不确定问题,我们需要有有效的工具来表达和处理。 本节中,我们将对不确定集合理论体系中的模糊集、v a g u e 集、可拓集和粗 糙集进行介绍。 1 2 1 模糊集 德国数学家c o n t o r 于1 9 世纪创立了经典集合论。在经典集合论中,集 合可以表示概念,而集合的运算和变换又可以表示判断和推理。一个对象对 于一个集合来说,要么属于,要么不属于,二者必居其一,且仅居其一,决 不允许模棱两可。即一个对象对于一个集合来说,它只能在 o ,1 ) 中取值。若 取0 ,表示该对象不属于集合;若取l ,则表示它属于该集合。因此,一个 集合包含的对象是确定的,即集合的外延必须是明确的,这是经典集合论最 起码的要求。由这里可以看出,c o n t o r 的集合论只能处理“非此即彼的现 象,而不能处理“亦此亦彼”的不确定问题。我们知道,概念反映对象的本 质属性,它有内涵和外延两个逻辑特征。概念的内涵是对象本质属性的反映, 而概念的外延是被它所指的对象范围。从集合论的角度,内涵就是集合的定 义,而外延则是组成该集合的所有元素。经典集合所表达的概念的内涵和外 延都必须是明确的“。 经典集合论是对现实世界经过高度抽象后所创立的一种数学理论。随着 人类社会的进步和科学技术的发展,人们已经充分地认识到:如此丰富多彩 第6 页西南交通大学博士研究生学位论文 地世界不是经典集合论所能描述的。例如“胖和瘦、“快和慢、“美和丑 等概念。这就要求有一种新的数学工具,以处理日常生活中的“亦此亦彼 的不确定概念,即需要将经典集合论加以扩充,使之能够处理这种客观事物 差异的中间过渡中的“不分明性”。z a d e h 】于1 9 6 5 年提出的模糊集理论就是 用来解决这一问题的数学方法,它将特征函数的取值从 0 ,1 ) 扩充到【o ,l 】中取 值。 定义1 1 模糊集合是带有隶属程度的元素的集合。设【厂是论域,u 上的 一个模糊集合户由隶属函数矛描述: 作:uj o ,1 】 设x u ,则雠( x ) 表示x 属于户的程度,称作( x ) 为x 关于模糊集合户的 隶属度。 【,上的一个模糊集合户也可以用序偶集来表示: f = ( x ,作( x ) ) i xeu 此外,z a d e h 还提出了一种更为方便的表示方法: ( 1 ) 当u 为有限论域“,而,吒) 时,模糊集合户可用和式记为: ( 1 2 ) f = 户( ) 而+ u :( x 2 ) x 2 + + 户( ) :窆作( 誓) t 1 3 当户( t ) = 0 时,上式中相应的项t 户( t ) 薯可以省略。 ( 2 ) 当u 为无限集时,模糊集合户可用积分记为: 户= ,雠( x ) x , ( 1 - 4 ) 西南交通大学博士研究生学位论文第7 页 在模糊集合的抽象表示中,户通常用积分符号表示。 例1 1 设c ,为正整数的集合,户表示接近5 的整数集合,户可以表示为: p :0 2 2 + 0 4 3 + 0 7 4 + 1 5 + 0 7 6 + 0 4 7 + 0 2 8 。 定义1 2 设论域u 中的两个模糊集j 和雪,对任意的x u , a = ( x ,j ( x ) ) ) j ( x ) e 0 ,1 】, b = ( z ,心( z ) ) l 雪( x ) e o ,l 】。 则j 和舌之间的运算可用它们的隶属函数心 ) 和心( x ) 之间的运算来 表示。 ( 1 ) 模糊集j 和后相等,记为j = 雪,当且仅当对任意的z u ,有 心( x ) = 心( x ) ( 2 ) 模糊集彳是雪的子集,记为j 雪,若对任意的工u , t j ( x ) 心( x ) ( 1 - 5 ) ( 1 - 6 ) 若彳雪且存在x 【厂,使心( x ) 心( x ) 成立,称j 是雪的真子集。 ( 3 ) 模糊集j 和它的补集匀。满足如下关系 心,( x ) = 1 心( x ) ( 4 ) 模糊集j 和雪的交,记为力r 、雪,满足 ( 1 7 ) 第8 页西南交通大学博士研究生学位论文 j n h ( x ) = m i n ( 比j ( x ) ,后( x ) ) x u ( 5 ) 模糊集匀和云的并,记为ju 雪,满足 j 。雪( x ) = m a x ( g j ( x ) ,雪( x ) ) x u ( 1 8 ) ( 1 9 ) 同时,论域u 上的模糊集合对于厂、u 、补的操作具有交换律、结合律、 分配律、摩根律、吸收律、幂等律等性质。 1 。2 2v a g u e 集 在模糊集理论中,论域上的对象z 隶属于模糊概念户的程度t 是定义在 【o ,l 】上的一个单值,这个精确的单值既包含了x 隶属于模糊概念户的支持程 度t ,也包含了x 隶属于模糊概念,的反对度厂= l t ,即有l t 一厂= 0 。然 而,现实生活中,还存在一类模糊概念f ,一方面,x 隶属于此模糊概念户 的精确值往往难以得到;另一方面,x 属于模糊概念户的支持度t 与x 属于模 糊概念户的反对度厂之间存在关系厂l t ,即有l t 一厂0 。这说明人们 对模糊概念户的认识还有一个未了解的程度,这个未知度可能由人们的认识 能力有限或各种不确定性因素影响而引起。以下两个实例能说明这些问题, 如某药厂对新药m 进行临床试验,药物m 对疾病d 的治愈率是一个模糊概 念,通过多次临床试验,得出药物m 对疾病d 的治愈率能达7 0 8 0 ,传统 模糊集理论的单一隶属度无法对此模糊概念正确描述:又如“张三的个子很 高”是一个模糊概念,在对1 0 0 个人的抽样调查中,6 0 个人认为张三“个子 高,2 0 个人反对,2 0 个人拿不定主意,则张三隶属于“高个子”的支持程 度t 为0 6 ,张三属于“高个子”的反对程度厂为0 2 ,显然,l t f = 0 2 0 。 类似的例子,现实生活中还可以举出很多。 于是,针对这类特定的、不能用z a d e h 模糊集理论合理描述的模糊概念, g a u 等人】于1 9 9 3 年提出了v a g u e 集理论。在v a g u e 集理论中,给论域上的 每个对象x 同样分配一个隶属度,不同的是该隶属度是【o ,l 】的一个子区间, 这个子区间既给出了支持x 的证据,同时也给出了反对x 的证据。 西南交通大学博士研究生学位论文第9 页 在模糊隶属度雠( x ) 中,v a g u e 集采用一个真隶属函数0 和一个假隶属 函数后来表示它的下界,这两个下界用来构造 o ,1 】的- 4 7 = e 间,即 眸( x ) ,l - f :f x ) ,这样对模糊集的隶属函数进行了推广和扩充。这个子区间 的下界和上界分别是0 ( x ) 和l - f p ( x ) ,它们可以从作( x ) 推导出来: 户( x ) 户( x ) 矗( x ) p ( x ) 营矗( x ) 1 一户( x ) 亡u p ( x ) 1 一厶( x ) 从公式( 1 1 0 ) ,我们可以得到: f 户( x ) i t 户( x ) 1 一厶( z ) 很明显,区间 0 ( x ) ,1 一厶( x ) 】是【o ,1 】的一个子区间。 ( 1 - l o ) 定义1 3 设u 是对象集合,u 上的一个v a g u e 集矿用一个真隶属度函数 杉和一个假隶属度函数乃表示,( x ) 是支持z 【,) 的证据所导出的x 的隶 属度
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公务员行测资料分析试卷及分析
- 营养师注册营养基础题库及答案
- 铜匠铜器錾刻题目及分析
- 机械工程金属工艺试题及解析
- 年产1万吨棉秆皮纤维水刺无纺布生产项目可行性研究报告模板立项申批备案
- 新生儿体温异常的护理
- 银行零售业务综合营销活动方案
- 防毒口罩打包采购合同
- 2026年3D打印珠宝的企业合作模式创新与实践
- 2026年心理咨询师远程咨询服务协议
- 2026重庆黔江区公开选拔社区工作者49人考试备考试题及答案解析
- 2026北新路桥集团第四批次全社会招聘1人笔试参考试题及答案详解
- 精装修工程典型错误案例解析(可编辑版)
- 2026年广东汕头市中考历史试卷含答案
- 2020年国企风控岗笔试试题及答案
- 2026年国家电网招聘《计算机类》题库综合试卷含答案详解【培优】
- 跨文化交际中的语境偏差-洞察与解读
- 学校化粪池清理管理制度(3篇)
- 3.1 地球是我们的家园 课件(内嵌视频) 2025-2026学年教科版科学三年级下册
- 茶楼员工工作制度
- 2026年院内发生急性卒中的应急预案和处理流程
评论
0/150
提交评论