(计算机应用技术专业论文)面向海量数据的粗糙集理论与方法研究.pdf_第1页
(计算机应用技术专业论文)面向海量数据的粗糙集理论与方法研究.pdf_第2页
(计算机应用技术专业论文)面向海量数据的粗糙集理论与方法研究.pdf_第3页
(计算机应用技术专业论文)面向海量数据的粗糙集理论与方法研究.pdf_第4页
(计算机应用技术专业论文)面向海量数据的粗糙集理论与方法研究.pdf_第5页
已阅读5页,还剩115页未读 继续免费阅读

(计算机应用技术专业论文)面向海量数据的粗糙集理论与方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 粗糙集理论自提出以来,其理论与方法不断得到发展,在许多方 面克服了传统数据分析理论显现出的诸多不足,表现出其独特的优 势,受到了国内外学术界的广泛关注。本文面向海量数据从多个层面 对粗糙集理论进行了学术探讨,评述了国内外研究进展,深入研究了 基于粗糙集的约简,可变精度粗糙集模型,动态约简,规则集决策分 析,多知识库决策融合等方面的问题。 ( 1 ) 基于归并的约简分析,描述了归并为属性约简的最本质特 征,给出了约简的细分层次关系,体现为偏序格结构,从实质上把握 了一个决策信息系统的约简特征。根据分类特性,探讨了信息熵、决 策熵和条件熵的思想,给出了它们的性质,以及相互之间的关系,分 析了他们对决策信息系统不确定性和约简的影响。对时序决策信息系 统,重点研究了时序信息系统的获取及约简等基本问题,提出了时间 重要性约简策略。 f 2 ) 深入分析了可变精度粗糙集模型的约简异常,通过引入条件 类包含度阀值的概念,描述了包含度与分类率的区间关系,分析了包 含度区问的动态变化和正区域变化引起的约简异常,提出了消除异常 的区间约简基本思想,并构造了区间约简算法,完善了可变精度粗糙 集模型约简。 ( 3 ) 阐述了动态约简基本思想,进一步描述了多层次的形式化动 态约简模型,提出了f 族计算的新方法,把约简精度系数引入到对抽 样的估计中,并进行了深入细致的特性分析,获得了良好的结果。提 出了动态核概念,研究了动态核的多层次形式化定义,探讨了动态核 具有的基本性质,论证了动态约简交集对动态核的包含性,该思想对 各层面的动态约简形式化定义都具有一致的适应性,从而说明动态核 真正具备了属性核的本质特征。 ( 4 ) 研究了决策规则的多种度量,分析了度量体现的性质,提出 了规则集合的决策度量,从整体上体现了一个规则集合的性能,为多 知识库模型选择奠定了基础。针对目前值约简方法的不足,提出了基 于规则分辨矩阵的值约简思想,从整体上体现了一个规则集的性质, 完整地阐述了值约简,为决策分析奠定了基础。 ( 5 ) 基于模型集成的基本理论,给出了模型的形式化表示,提出 了模型组合关系与模型集成方法,把规则知识库作为一个单元决策模 第l 页 型,通过模型集成实现决策融合,以及组合优化,从而在模型一级实 现了综合的决策过程。研究中通过模型集成的存在性分析,给出了在 满足给定条件下模型集成的构造思想,论证了复合模型的可构造性充 分条件。 关键词海量数据,粗糙集,变精度粗糙集模型,动态约简,决策融合 第u 页 a b s t r a c t s i n c er o u g hs e th a sb e e np r e s e n t e di t st h e o r ya n dm e t h o dg e t d e v e l o p m e n tc o n t i n u e l y i ns o m ea s p e c t sr o u g hs e to v e r c o m e sm a n y d e f i c i e n c i e si nt r a d i t i o n a ld a t aa n a l y s i s ,s oi th a sb e e ng i v e ne x t e n s i v e a t t e n t i o na th o m ea n da b r o a d t h ed i s s e r t a t i o nm a k e sa c a d e m i cr e s e a r c h o nr o u g hs e tt h e o r yf o rt r e m e n d o u sa m o u n t so fd a t a ,a n dg i v e sa c o m p r e h e n s i v ec o m m e n ta b o u tt h er e s e a r c hd e v e l o p m e n t t h ee m p h a s e s c o m p r i s er e d u c ta n a l y s i s ,v a r i a b l ep r e c i s i o nr o u g hs e tm o d e l ,d y n a m i c r e d u c t ,d e c i s i o na n a l y s i so f r u l es e t ,r e d u n d a n tk n o w l e d g ed e c i s i o nf u s i o n a n ds o o n f o rt h er e d u c ta n a l y s i sb a s e do nt h em e r g i n g ,i ts h o w st h em o s t e s s e n t i a lp r o p e r t ya n dt h es u b d i v i s i o nh i e r a r c h yr e l a t i o na b o u ta t t r i b u t e s r e d u c t t h a ti sp a r t i a l l yo r d e r e dl a t t i c ec o n s t r u c t i o n t h e nt h ei m p a c to f c o n d i t i o nc l a s sm e r g i n gt oc o n s i s t e n c eo fd e c i s i o nt a b l ei sa n a l y z e d a c c o r d i n gt ot h ep r o p e r t i e so fp a r t i t i o nt h ei n f o r m a t i o ne n t r o p y ,t h e d e c i s i o ne n t r o p ya n dt h ec o n d i t i o ne n t r o p ya r es t u d i e d t h ep r o p e r t i e s a n di n t e r r e l a t i o n sa m o n gt h e ma r ed e s c r i b e da sw e l l t h e nt h ei m p a c t so n u n c e r t a i n t ya n dt h er e d u c ti nd e c i s i o ni n f o r m a t i o ns y s t e ma r ea n a l y z e d f o rt i m ed e c i s i o ni n f o r m a t i o ns y s t e mt h ee m p h a s e sa r ea c q u i r e m e n ta n d r e d u c t ,a n dt h et i m es i g n i f i c a n c er e d u c ts t r a t e g yi sp u tu p b yi n t r o d u c i n gt h ei n c l u s i o np r o p o r t i o nt h r e s h o l dv a l u ef o re a c h c o n d i t i o nc l a s s ,i tm a k e sal u c u b r a t i o no nr e d u c ta n o m a l ya b o u tv a r i a b l e p r e c i s i o nr o u g hs e tm o d e l ,a n dd e s c r i b e s t h er a n g er e l a t i o nb e t w e e n i n c l u s i o np r o p o r t i o na n dq u a l i t yo fc l a s s i f i c a t i o n t h e ni t a n a l y z e st h e r e d u c ta n o m a l yw h e ni n c l u s i o nd e g r e ev i b r a t e sa n dp o s i t i v ea r e ac h a n g e s t h eb a s i ci d e a sa r ep r e s e n t e dt oe l i m i n a t er e d u c ta n o m a l y a tt h ee n di t g i v e st h er a n g er e d u c td e f i n i t i o n ,a n dr e a l i z e st h er a n g er e d u c ta l g o r i t h m a l lo f t h i sd e v e l o p st h er e d u c to f t h ev a r i a b l ep r e c i s i o nr o u g hs e tm o d e l t h ed i s s e r t a t i o nd e s c r i b e st h em o d e lo ft h ed y n a m i cr e d u c ta n d d i s c u s s e sv a r i o u sf o r m a ld y n a m i cr e d u c t s i tp r e s e n t st h en e wm e t h o df o r ff a m i l yc o m p u t a t i o n 。a n dt h ep r e c i s i o nc o e f f i c i e n ti si n t r o d u c e dt o s a m p l i n gp r o b l e m ac o m p l e t ed y n a m i c r e d u c tf r a m e w o r ki s 第1 i i 页 c o n s t r u c t e d ,a n dt h ep r o p e r t ya n a l y s i si sm a d ei nd e t a i l t h i st h e s i sf i r s t l yp r e s e n t st h ed y n a m i cc o r ec o n c e p ta c c o r d i n gt ot h e d y n a m i c r e d u c tm o d e l t h e ni t d e s c r i b e sm u l t i h i e r a r c h i e sf o r m a l d e f i n i t i o no fd y n a m i cc o r e ,a n dd i s c u s s e ss o m ep r o p e r t i e so fd y n a m i c c o r e e s p e c i a l l y i t p r o v e s t h a tt h ei n t e r s e c t i o no fd y n a m i cr e d u c t c o m p r i s e sd y n a m i cc o r e 。w h i c hm e a n st h a td y n a m i c c o r eh a st h e e s s e n t i a lc h a r a c t e ra b o u tf e a t u r ec o r e t h ea r t i c l ed e s c r i b e sm a n ym e t r i c so fd e c i s i o nr u l e sa n da n a l y z e st h e p r o p e r t i e sf o rt h e s em e t r i c s t h e ni tp r e s e n t st h em e t r i c sf o rr u l es e t w h i c hs h o w st h ep r o p e r t i e so far u l es e ti ng e n e r a l a l lo ft h e mp l a ya n i m p o r t a n tr o l ef o rd e c i s i o no f r e d u n d a n tk n o w l e d g e f o rt h ed e f i c i e n c yo f a t t r i b u t ev a l u e si tp r e s e n t st h er u l ed i s c e r n i b i l i t ym a t r i x ,w h i c hs h o w st h e p r o p e r t i e so far u l es e ti ng e n e r a l 。a i lo ft h e mr e a l i z ea t t r i b u t ev a l u e s r e d u c ta n dp l a ya i li m p o r t a n tr o l ef o rd e c i s i o na n a l y s i s b a s e do nb a s i ct h e o r yo fm o d e li n t e g r a t i o n ,af o r m a l i z a t i o n r e p r e s e n t a t i o no fm o d e li sg i v e n t h et h e s i sa l s op r e s e n t sc o m p o u n d m o d e lr e l a t i o na n dm o d e li n t e g r a t i o nm e t h o d e a c hk n o w l e d g e b a s ec a l l b ev i e w e da sas i n g l ed e c i s i o nm o d e l ,t h e nd e c i s i o nf u s i o ni sr e a l i z e db y m o d e li n t e g r a t i o n i ta c h i e v e sac o m p r e h e n s i v ed e c i s i o na tm o d e ll e v e l a d d i t i o n a l l y t h ee x i s t e n c eo fm o d e li n t e g r a t i o ni sa n a l y z e di nd e t a i la n d s e v e r a ls u f f i c i e n tc o n d i t i o n sa r ep r o v e d k e yw o r d s p r e c i s i o nr o u g h t r e m e n d o u sa m o u n t so fd a t a ,r o u g hs e t ,v a r i a b l e s e tm o d e l ,d y n a m i cr e d u c t ,d e c i s i o nf u s i o n 第1 v 页 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名:墨趁咀目 日期:上塑丘年止月么日 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位 论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论 文;学校可根据国家或湖南省有关部门规定送交学位论文。 作者签名:五垒驾导师签名 期:丝煎年卫月丛日 博士学位论文 第一章绪论 第一章绪论 粗糙集理论自提出以来,其思想在数据分析中凸显出其独特的魅力,包容 的内涵也越来越丰富,在学术研究领域更是受到了国内外的广泛关注,粗糙集 理论也不断得到发展。本章介绍粗糙集理论与方法的背景,评述相关的国内外 研究进展,最后为本文的研究内容和全文结构。 1 1 引言 随着信息的不断快速增长,从海量数据中获取知识的理论越来越凸显重要, 对数据分析方法要求也越来越高,虽然已有较多的数据分析相关技术,但有效 的智能数据分析理论与技术方法还远没有成熟,特别是数据信息的规模与对它 们的深入理解还存在很大差距。 上世纪6 0 年代由l a z a d e h 提出的模糊集理论,使得含糊概念有了具体的 数学描述,但模糊集理论没有给出含糊概念的计算方法,其应用基础很大程度 上还要依赖人们的某些先验知识,从而限制了其应用的客观实际性。 z p a w l a k 提出的粗糙集理论“1 针对不精确范畴概念,借鉴了逻辑学中不精确 与模糊的多种思想,是一种新型的处理不确定知识的基础理论,建立了数据自 主式分析的基本思想,更是有效地分析和处理不精确、不一致、不完整等不完 备信息的有效数学方法。在粗糙集的理论中,知识被认为是一种对对象进行分 类的能力,知识库是分类方法的集合”1 ,这些描述虽然不是十分完备严格,但却 非常清晰地体现了粗糙集模型的基本思想,为粗糙集理论奠定了基础,并逐步 形成了自身理论体系。 粗糙集理论以不可分辨关系为基础,通过集合的近似来描述粗糙概念,随 着近似空间由决策信息系统来表示,扩展到在一个决策信息系统上用属性来定 义粗糙集合,决策信息系统强调论域中的对象,属性是关于对象特征的描述, 有些对象可能具有相同的描述,这是它与数据库的不同。对决策信息系统形式 表示的数据,粗糙集理论具有基于示例学习的特点,很适合于进行数据约简。 基于粗糙集理论的数据约简基本原理通过求属性重要性并排序,在泛化关系中 找出与原始数据具有同等决策能力的极小相关属性集合,实现信息简约,以获 得更简洁的知识。 知识的粒度性与新型成员关系是粗糙集理论具有的基本观点,粗糙集理论 第1 页 博 学位论义第一章绪论 认为知识的粒度性是造成已有知识不能精确地表示某些概念的原因。粗糙集的 成员关系是客观计算的,在缺少数据的先验知识的情况下,仅仅以对观测数据 的分类为基础,实现不确定性数据的分析处理,获得数据中的隐含知识,具有 一些优良的特性,主要体现在: ( 1 ) 知识的客观性。模糊集和概率统计方法是处理不确定信息的常用方法, 但这些方法需要一些数据的附加信息或先验信息,如模糊隶属函数和概率分布 等。粗糙集理论分析方法无需先验知识,数据的成员关系是根据所给的数据集 合客观计算出来的,很大程度上避免了主观因素的影响。 ( 2 ) 数据分析能力。粗糙集能表达和处理不完备信息,仅依靠数据本身提供 的信息进行数据分析。在保留关键信息的前提下对数据进行化简并求得知识的 极小表达式,即数据之间的依赖关系,从经验数据中获取规则知识,且知识形 式具有很好的可理解性。 f 3 1 数学理论基础。粗糙集理论提供了一套数学方法来严格地处理数据分类 问题,具有严密的逻辑基础,包括了一种知识形式模型,使得知识具有了一种 清晰定义的数学模式,可用数学方法来分析处理。 粗糙集理论及其应用的研究近年来发展很快,涉及的领域不断广泛,包括 模式识别、机器学习、决策分析支持、知识获取、知识发现等,粗糙集同模糊 集、神经网络o “”等其它理论一起,成为不确定性计算的一个重要分支。粗糙集 作为一种重要的数据分析方法,通过信息约简求得知识的最小表达和各种不同 粒度层次,从数据中揭示出概念模式,其导出的知识精炼且便于存储和使用, 实现知识的自动获取“。 1 2 国内外研究评述 粗糙集理论是传统集合理论的扩展。是进行数据分析的一种较新思想方法, 更是有效地分析和处理不精确、不一致、不完整等各种不完备信息的数学工具, 并从中发现隐含的知识,获取潜在的规律m ,。 1 9 9 1 年p a w l a kz 出版了专著”,较系统地阐述了粗糙集基础理沧思想,奠 定了粗糙集的数学基础,该书与1 9 9 2 年出版的粗糙集理论应用专集”1 较好地概 括了这一时期粗糙集理论与实践的研究成果,促进了它的进一步发展,成为了 学习和应用粗糙集理论的重要文献。1 9 9 2 年在波兰k i e k r z 召开了第一届国际粗 糙集合理论研讨会,着重讨论了集合近似定义的基本思想及其应用,粗糙集环 境下的机器学习基础研究是这次会议的重要主题。1 9 9 3 年在加拿大b a n f f 召开 了第二届国际粗糙集与知识发现研讨会,积极推动了国际上对粗糙集理论与应 第2 页 博上学位论立第一章绪论 用的研究,许多著名的k d d 学者参加了这次会议,介绍了许多应用扩展粗糙集 理论的知识发现方法和系统。1 9 9 6 年在日本东京召开了第五届国际粗糙集研讨 会,促进了亚洲地区对粗糙集理论与应用的研究。从1 9 9 2 年至今,每年都召开 以粗糙集为主题的国际会议,成立了粗糙集学术研究会,推动了粗糙集理论的 发展和应用。二十世纪末以来,我国学者也开展了对粗糙集合理论与方法的深 入研究,取得了许多研究成果,在该领域的研究取得了令人瞩目的成绩,与国 际学术界之间的交流也日趋广泛。 粗糙集理论作为一种新型的数据分析理论与方法提出以来,在面向海量数 据分析方面体现了其独有的特征,以集合整体直接逼近的方式,实现非确定与 不完整信息条件下的知识处理。基于粗糙集的数据分析,其基本思想在于通过 对冗余属性的约简,进行属性的泛化,从而得出满意的决策规则。国内外对属 性约简算法和相关问题作了许多研究,特别是基于属性重要性的启发式算法思 想的提出具有十分重要的标志意义。 最初提出启发式算法思想的是h ux 9 1 ,使用核作为约简计算的基础“,以 属性重要性作为启发信息,按属性重要性的大小逐个将属性加入约简集合,直 到该集合是一个约简为止。按照加入属性的不同,可以计算出多个属性约简集, 最终得到一个较好的或满意的约简。 h ux 等还提出了一种将基于属性的归纳方法和粗糙集相结合的方法o “,该 方法使用面向属性的概念树爬升技术对属性进行泛化,用一个内部属性来记录 泛化过程中的被合并的元组个数,并滤除内部属性值低于噪音门限的元组,从 而大大降低了数据库学习过程的计算复杂度,然后使用粗糙集方法计算约简并 生成规则,提供了从决策信息系统中分析冗余属性的简变途径“。 文献 1 3 提出了基于粗糙集理论的缺省规则的分析方法,该方法把粗糙集 理论与默认推理结合起来,从而实现信息不完备的情况下仍能根据缺省规则进 行推理,得出当前合理的决策。文献 1 4 提出了一种发现基于粗糙集理论的最 大泛化规则和约简的增量自适应算法,算法将决策规则和约简的计算转化为一 组相关联的布尔表达式的化简和修改,而无需搜索算法来寻找与修改规则。文 献 1 5 使用粗糙集理论进行多层次规则的挖掘方法,将粗糙集方法与表示领域 知识的数据分类层次相结合,使分析的效率和针对性有了较大的提高。 在数据分析领域中,采用粗糙集合理论作为研究知识发现的工具有许多优 点。它将知识认定为不可分辨关系的一个族集合,提供了丰富的处理不确定性 问题的理论与方法,对知识发现过程有较强的支持,使得知识具有了一种清晰 的数学意义,可用数学方法进行运算。在这里我们对与本研究课题相关的主要 方面进一步分析阐述。 第3 页 博士学位论义第一章绪论 ( 1 ) 在许多领域进行的数据分析,其数据具有时间相关性,带有时间关系信 息,且信息量特别巨大“,如果没有合适的分析手段,将给其后的决策和新 数据的预测带来困难。文献 1 8 提出了实时实态逻辑的框架,使用时问变量来 表示时态序列;文献 1 9 使用动态编程方法来检测时间序列的模式等,这些都 体现了对时间序列数据处理的基本思想。 基于粗糙集理论来分析时间序列,已有关于这方面的相关研究文献。文 2 0 采用粗糙集合方法,对市场数据进行了分析,取得了较好的效果;文 2 1 ,2 2 对股票时间序列数据进行了分析,并对时间序列信息系统转换为决策信息系统 思想进行了讨论,文 2 3 ,2 4 讨论了实时时序决策信息系统的转换方法。 决策信息系统中时间相关数据的出现,使得有必要针对这一特殊形式的数 据分析,给出相应的策略,发现在某时间区段内连续记录的数据变化规律,以 及它们的变化给决策信息系统带来的影响,特别是针对具有时间关系的数据分 析,是粗糙集理沦的重要研究内容。 ( 2 ) 可变精度粗糙集模型。标准粗糙集合理论缺乏对复杂系统的处理机制, 对于模糊概念的边界区域刻划过于简单,特别是对噪声数据的干扰十分敏感, 缺乏抵御噪声的能力。研究扩展粗糙集模型一直是这一领域的主题之一,一方 面扩充近似空间的概念,加强粗糙集模型的适应性,另一方面也有利于发现数 据之间的弱相关性。 z i a r k o 给出了关于可变精度粗糙集合模型的定义。“2 “,它是基于预先给定 包含度的形式模型,描述了对固定包含度值的变精度约简。z i a r k o 指出,可变 精度粗糙集模型分析了属性间统计意义上的数据模式,或者存在概率上的不确 定关系时的分类问题,而不是严格意义上的属性函数依赖关系。z i a r k o 进而还 研究了包含度最优值的选择问题“,这些研究都在于努力寻求一个特定的包 含度最优实际取值,有时甚至由决策者根据具体精度要求来给出,带有强烈的 主观性。 a ne ta 1 对可变精度粗糙集模型包含度概念作了适当调整,并通过可变精 度粗糙集模型产生概率规则,实现了水资源预测”。b e y n o n 分析了变精度粗糙 集模型的约简异常情况+ ,从样例上直观讨论了分类率与包含度的关系,但 没有透彻考虑约简过程中的包含度区间变化动态性,以及这种变化对正区域的 影响,进而由此产生的分类异常,导致约简后信息系统不能正确体现原信息系 统的基本特征,使产生的规则知识失去了意义。 采用可变精度粗糙集理论求得的规则为概率性规则,g r z y m a l a - b u s s e 比较 了同时使用可能规则及确定规则和只使用确定规则的性能。”1 ,发现前者产生规 则的决策有效性较高,可变精度粗糙集理论优于标准粗糙集模型,说明可变精 第4 页 博士学位论文第一章绪论 度粗糙集模型提高了数据分析能力。 ( 3 ) 动态约简。根据粗糙集理论的静态建模,从已成型的信息系统导出属 性间关系,显示了粗糙集理论对数据分析的有效性,但在实际应用中也体现了 其中的不足,静态算法在面对海量决策信息系统和变化决策信息系统时,反映 出所获得的约简不够稳定,描述决策信息系统局部变化规律的能力不充分,重 复工作开销大等弱点。 针对动态建立数据库的需要和粗糙集约简存在的问题,在粗糙集理论的基 础上提出的动态约简思想,提供了一种新的途径,用以解决海量数据在静态约 筒时得出的决策规则不够稳定的实际问题,并且对于变化的决策信息系统在规 则提取上具有其突出的优越性。 动态约简的特点主要体现在对海量数据的处理,当所给定的决策信息系统 规模较小,动态约简的优势可能并不容易体现,但当决策信息系统十分庞大时, 动态约简的优势得到了突出体现,实现从小样本到大数据集的建模。海量数据 在静态约简时得出的决策规则由于噪声干扰,往往具有不稳定性,动态约简从 给定决策信息系统中随机抽样形成的子表中获取最常出现的约简,在某种意义 上是给定决策信息系统中最稳定的约简,提高了约简的稳定性,这也正是动态 约简追求的目标。 由于决策信息系统的约简是不稳定的,对于对象的随机变化十分敏感3 , 针对粗糙集静态约简存在的问题,j a ng b a z a n 在粗糙集基本理论的基础上提 出了动态约简的基本思想”“,建立了f 族动态约简、( f 一曲动态约简和广义动态 约简思想体系,在理论上为决策信息系统寻求稳定约简奠定了初步基础。 目前关于动态约简的研究还极不充分,b a z a n 的理论体系在抽样策略和稳定 性分析等关键问题的描述上都还显得过于简单,缺乏充分性,有关动态约简方 面的文献也屈指可数,在国内的相关文献上更是鲜见,许多问题的研究上都有 待深化完善。 针对动态约简,我们的研究工作首次提出了动态属性核的概念,并对其进 行了完整的形式化描述,证明了其有关的特性。同时,在动态约简的抽样和稳 定性分析方面,也做了大量的基础研究工作,所做工作在该项研究领域具有前 沿性。 ( 4 ) 基于粗糙集的规则知识研究。多年来的研究已经产生了很多方法来进行 归纳学习,决策树学习技术是最广泛被研究与应用的。q u i nl a n 成功地开发了 i d 3 ,以及后来的版本c 4 5 和c 5 0 等等,它的最大优点是归纳出来的规则既简 单又精确,但它不能很好地处理数据集不一致的情况,而在分类的过程中,一 般会碰到对象描述是不确定、不精确或不完整的情况。 第5 页 博士学位论文 第一章绪论 粗糙集方法在一致性决策信息系统的情况下,已经提出很多规则知识获取 的有效方法,取得了许多相关成果。5 。但现实中却存在大量的不一致性( 以及 不确定性) 信息,不一致性的存在,缘于很多因素,如选择的描述属性不充分、 采样中的误差以及数据的随机变化等,这时在规则知识获取中,必须充分考虑 决策信息系统的不一致性,采取近似决策规则学习方法,目的是获得更一般、 更完备,且具有相当泛化能力的规则集合,适应于含噪声的海量数据集分析, 这方面的研究也取得了一些成果”7 3 8 3 。粗糙集理论是进行不确定性数据分析 一个强大工具,在许多知识发现问题中,特别是学习分类与决策分析等,近年 来已研究了许多基于粗糙集的理论与方法“。”1 。 为了得到具有良好适应能力、使所得规则在对待识对象进行识别的时候具 有最大的匹配能力,s k o w r o n 对于从包含不一致信息的决策信息系统中获取不确 定规则知识的问题进行了研究“,具有较为典型的代表性,他提出的规则知识 获取思想,对从不一致决策信息系统中得到规则的问题作了相关研究工作。 粗糙集方法能够从决策信息系统中导出决策规则集合,并用于分类新的对 象。方法的关键是数据约简,生成一个最小约简集合,进而产生最小规则集合, 其中每一条规则包含了最佳属性子集,最小规则集合意味着对数据进行分类所 需要的最少知识。 最小规则集合用于数据分类时可能发生错误,因为每一个最小规则集合仅 仅代表知识库系统不同范围的不同准则,它们对噪声比较敏感,而且如果依据 的规则数太少,在对新对象分类时可能出现不确定性。自然地,基于粗糙集的 约简特性,产生了多知识库决策思想,这其中的突出问题在于对知识库的衡量, 目前在这方面的研究还十分的缺乏。我们的研究工作提出的衡量体系,从多方 面阐述了对知识库的度量,对于模型选择与组合具有良好的特性。 ( 5 ) 多知识库模型集成信息融合。信息融合是上世纪末形成和发展起来的 一种自动化信息综合处理技术,它利用多源数据的互补性和计算机的高速运算 与智能来提高处理信息的质量“。信息融合以往的研究主要在物理数据一级的 融合,已取得许多成果,新的研究主要围绕在基于知识获取和自动推理的理论 与方法,目的是获得满意的知识库,以及象人类专家一样的推理能力,关键问 题是知识库的建立,然而目前对认知的了解尚浅,认知领域的问题难以很好地 建模“”,很多问题有待深入的研究工作。 关于模型集成已有相关的研究“6 ,最初的研究工作主要集中在模型表示 上,提出了一些经典的模型表示法,例如结构化建模、逻辑建模、基于图的表 示法等。模型表示的研究是模型管理研究工作的起点。但是仅仅对模型表示研 究还不足解决模型管理中的许多问题,如多个模型组合运算问题,因此随着模 第6 页 博士学位论文 第一章绪论 型研究的深入,逐步形成发展了对模型集成的研究,以实现决策的综合。 g e o f f r i o n 提出了结构化建模概念”,给出了基于结构化建模的模型定义部 分的集成方法。将不同的模型以结构化建模图表示,确认不同的图中那些部分 可以连接,将图中可连接的部分进行连接,修改连接后的图,以确保该图结构 化的一致性,最后生成一些关联数据模式的数据,这些数据用来存储集成后该 模型的具体内容。 文 4 9 提出了一种面向对象的模型表示,更确切地说,是一种面向对象的 模型类表示。每个模型类包含输入输出参数、计算方法等,通过模型类定义复 合模型类,复合模型类既是一种子模型类的集成,复合模型类由五部分组合: 输入输出参数、所含子模型类、接口方式和耦合方式。因此,该方法是一种模 型定义上的集成方法。 根据决策信息系统粗糙集约简特征,k o n o n e n k o 等提出了多知识库概念”1 , 目标是为了提高分类决策性能,其思想是根据决策信息系统建立多个知识库, 并按某种方式适当组合各个知识库的决策结果。g a m e s 等人按此思想进行的实验 表明”“,只要这些知识库尽可能准确可靠,在同一时问相互不同,以及解决好 相互之间的协同与融合,多知识库方法能够改善分类准确性。这些思想的基本 点可看成是知识库模型的集成融合,在多知识库基础上,采用模型集成思想实 现知识库模型的集成信息融合。 1 3 本文主要研究内容 数据的巨量性、不完全性、含噪声和随机性是海量数据的基本特征,人们 期望对海量数据集合进行无须人工的分析,自动地从数据中获取潜在关联模型, 提取隐含在其中的知识。海量数据建模分析主要的问题体现在:由于数据量十 分的庞大,存在噪声数据干扰,影响了数据分析结果的可靠性;在海量数据集 合下,数据本身具有一定的随机性,得出的知识模型具有不稳定性;由于获取 的知识模型具有一定统计特征,在决策上有着不确定性,存在如何实现决策融 合的问题。 从已有的数据分析基本方法看,在含噪声数据分析的有效性、海量数据分 析的稳定性与分类决策的可靠性等方面,传统数据分析理论与方法仍然显现出 多方面的不足,有很多亟待深入研究的问题。目前的数据分析方法还很不适应 大规模的带噪声海量数据集合,对于多源不确定性决策缺乏有效的理论指导思 想,数据分析与决策还期待具有智能性的自主式方法,数据信息的规模和对它 们的深入理解之间还存在差距,研究能够从海量数据集合中形成实际概括与归 第7 页 博l 学位论文第一章绪论 纳的理论与方法显得越来越迫切,这些是我们开展该项研究工作的初衷与动机, 本文面向的研究工作重点内容为如下的几个方面。 ( i ) 约简深入分析及时序决策信息系统 这是本文的基础性研究工作。基于归并的约简分析在于从整体上把握一个 决策信息系统的约简特征。对决策信息系统的熵进行了详细分析,讨论多种熵 的形式描述,以及它们之间的关系。时序决策信息系统研究的重点在于时序信 息系统的获取与约简问题。 f 2 ) 可变精度粗糙集模型 通常情况下的决策信息系统,特别是海量数据决策信息系统,其属性之间 一般不存在严格的函数依赖关系,而只是表现出近似依赖的关系,近似依赖性 是粗糙依赖性的推广,它并不能解释为属性间的严格函数依赖或部分依赖,只 是表示数据之间较弱的近似依赖关系。基本粗糙集理论缺乏对复杂系统的处理 机制,对边界区域的刻划过于简单,对分析的样本数据有较高要求,极不适应 对海量数据的分析。 研究的核心内容在于充分分析约简异常的原因,构造基于包含度区间的可 变精度粗糙集约简。可变精度粗糙集模型约简的区间性描述了在一个区间范围 内,任意取定一个包含度值,都对应着相同分类率的约简,把对给定包含度值 的约简,扩展到了包含度区间值的约简,同时也完全消除了约简异常,扩充可 变精度粗糙集约简的基本概念,从而更好地体现数据之间的相关性,提高了数 据分析的有效性。 ( 3 ) 动态约简 就动态约简来说,约简过程的动态性主要体现在子决策信息系统的抽取是 随机动态的,以及动态约简结果为各子决策信息系统约简的交集合。因此,如 何抽取符合要求的子决策信息系统是动态约简的前提,并且抽取镱略的优劣将 直接影响到最终约简结果的精度,而约简的稳定是我们追求的目标,以提高数 掘分析的稳定性,主要研究内容为: 抽样分析 一般而言,决策信息系统抽取的子决策信息系统越多,单个子决策信息系 统的规模越接近原决策信息系统,则求得的约简稳定性就越高。但是,过多地 划分原决策信息系统,决策信息系统规模越大,必然导致极大的计算量。依据 大量的实验测试结果,当信息予表的抽取量达到足够多时,继续抽取对约简稳 定性产生的影响很小,子决策信息系统数目对动态约简结果所产生的影响趋于 饱和。 因而动态约简需要解决的一个关键问题是子决策信息系统抽取问题,以及 第8 页 博十学位论文 第一章绪论 如何形式化的方法来表现,这些问题基本上还没有实质性成果,文献极其少见, 我们将深入探讨这一问题。 动态核 许多文献对决策信息系统的静态约简的静态核有了较为全面的论述,但对 于动态约简下核的描述以及性质的讨论仍然是很值得探讨的问题。动态核概念 是动态约简概念的进一步深化,文中详细研究了动态核的基本特征。 ( 4 1 信息系统决策分析 研究决策规则的信息度量问题,目的在于规则集性能评价与精简。对于决 策信息系统的一般规则的信息度量问题,现实数据由于受到噪声等因素个干扰, 使得规则具有不确定性,体现在必须对决策的信息度量进行多角度的分析。 虽然已有一定的相关文献对决策规则的性质进行各种分析,然而在度量概 念的定位和相关性描述上,体系化和整体性都有所欠缺,在一些基本概念的阐 述上还存在着模糊性,有待于清晰准确的描述。另外,针对目前决策规则值约 简方法的不足,寻求形式化地描述决策信息系统的值约简,以及新的值约简思 想,具有更好的适应能力,使得规则泛化程度更高。 ( 5 ) 多知识库模型决策融合 主要研究基于模型操纵的集成决策信息融合,目标在于提高决策的可靠性。 概念上多知识库与粗糙集合理论中的属性约简一致,只要这些知识库尽可能准 确可靠,在同一时间相互不同,以及解决好相互之间的协同,多知识库方法能 够改善分类性能,主要研究点为: 数据分析中的模型集成。对给定问题的模型库,其中包含有已构造的知 识库模型及其他辅助模型,推出模型库中模型在限定条件下的关联性,采用模 型集成理论分析在预定前提下可否进行模型集成,从而解决模型集成的两个基 本问题:模型能否集成及如何集成。 模型集成的形式化。研究模型的形式化表示方法,对模型集成的存在性 进行分析,探讨复合模型的可构造性充分条件及其构造方法,同时讨论复合模 型构造选择的基本策略,并将规则集度量运用于模型集成的选择策略中。 1 4 全文结构 第一章对粗糙集合理论的发展、特点进行了简单扼要的回顾,对国内外研 究现状作了全面分析,阐述了本文研究工作的核心意义,并对论文研究内容进 行了介绍。 第二章研究了基于归并的粗糙集约简表现方法,分析了约简的基本性质。 第9 页 博j 二学位论文第一章绪论 通过对信息熵、决策熵和条件熵的分析,从不同的角度描述了决策信息系统的 特征。讨论了时间信息系统的相关概念,研究基于时间特性的属性约简。 第三章研究了包含度与分类率的相关性,分析了约简异常问题,提出了消 除异常的基本思想,完善了可变精度粗糙集模型。 第四章研究了多层次的形式化动态约简,对动态约简的抽样方法进行了深 入研究,发展了其思想体系,描述了动态约简的特征属性集合,更实质地体现 了动态约简的特征。 第五章研究了决策规则的相关问题,讨论了规则集合的决策度量,从整体 上体现了一个规则集合的性能,同时深入系统地研究了属性值约简问题。 第六章研究了多知识库决策融合方法。以模型的形式化表示为出发点,提 出了模型组合关系和复合模型的概念,详细分析了复合模型的存在性,并由此 给出了复合模型的构造方法。 第七章对电力负荷分析中的一些关键思想进行了描述,这是本文理论研究 与实际课题的结合。 第八章总结了本文的工作,分析了进一步的研究工作。 第1 0 页 博l 学位论文第二章籼糙集约葡分析 第二章粗糙集约简分析 粗糙集理论作为一种数据分析思想方法,以集合整体直接逼近的方式,构 成了非确定不完整条件下的知识处理。本章对约简归并问题进行了深入研究, 描述了约简的基础特征,系统地分析了决策信息系统的多种熵,探讨了时序决 策信息系统的约简。 2 i 引言 决策信息系统约简主要是使信息量减少,将一些无关或多余的信息去掉, 并不影响其原有特征。约简是不含多余属性并保持原分类性质的最小条件属性 集,或者说是保持了足够粒度性的最大知识颗粒度。约简一方面可以减少规则 的数量,另一方面可以简化规则的左部分,从而达到泛化数据集合,简化逻辑 规则。将约简后的信息重新组合而产生新的决策规则,能经推理而得到相同或 相近的结果。 依据粗糙集基本理论,决策信息系统s = ( u ,q = c u d ,v ,f ) ,决策属性集 i p o s r c d 1 | d 对条件属性集c 的依赖度或论域u 的分类率为“c ,d ) = 上 j 二 ,其中 l u l p o s ( c ,d ) = u g = u xlx c y a x e u c a y e u d ,表示了u c 在u d 中的 y u d 正区域,描述了一个分类关于另一个分类的区域包含性,分类率y 则体现了决策 信息系统的不确定性程度。正区域p o s ( c ,d ) 越小,分类率y 就越小,不确定性 越大。对于决策信息系统s = ( u ,q = c u d ,v ,f ) ,条件属性集合c 的约简b 是c 的一个非空子集合,满足( 1 ) 7 ( b ,d ) = “c ,d ) ;( 2 ) 对于任意属性a b , y ( b 一 a ) ,d ) y ( c ,d ) 。 由约简的概念,属性集b c c 是决策信息系统s 的一个约简,当且仅当b 中 的每一个属性对于d 都是不可缺少的( b

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论