




已阅读5页,还剩101页未读, 继续免费阅读
(模式识别与智能系统专业论文)基于不确定理论和机器学习的知识发现研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 髓着计算机、通信和网络技术的发展,数据呈指数级增长,这些数据已经 远远超出了人的能力,如何在海量的数据中发现有用的或感兴趣的知识,是一 个追切需要解决的阏题。知识发现便应运而生。知识发现是从数据集中抽取和 精化的新模式。本文的数据集是基于农业知识背景。期望通过知识发现研究来 获取薪麴农业知识模式或改善传统豹农业知识,从而更好地为农照生产服务。 本文首先综述了知识发现的发生发展以及知识发现的方法。随之针对农业 生产中存在的问题,运焉不阕知识发现的方法加以解决。本文知识发现的方法 有不确定性理论和机器学习方法。不确定性理论主要是粗糙集理论和证据理论; 机器学习方法主要是神经网络方法和支持向量机方法。 鉴于植物病害诊断涉及的植物属性很多,包括植物的根、茎、叶、花、果, 症状纷繁复杂,不同的病害之间的症状且有相似之处,非专业人员有时很难区 分。为此本文分别绘出基于糨糙集的酥梨病害知识发现系统构建与基于神经网 络的酥梨病害分类器设计,解决非专业人员难以根据复杂相似病害症状进行诊 断的问题。 传统的植物营养诊断方法如d r i s ,m d r i s ,d o p ,各有所长,在进行诊断时会 出现不同的诊断结果,致使用户难以做出决策。证据理论是信息融合技术中一 种非常有效的不确定理论方法,根据其证据合成公式可以融合不同的专家知识, 为用户做出决策提供良好的途径。本文基于证据理论的优势,构造了营养诊断 方法融合模型,对三种诊断方法d 砒s 、m d 砒s 、d o p 进行融合处理,结果表示 该模型是切实可行的。 钎对现有的作物水分生产函数模型拟合精度低,本文提出基于支持目量回 归机的方法拟合作物水分生产函数,并与现有的模型进行比较,拟合结果显示, 基于支持向量枧的模型拟合明显优于现有模型。 通过对已有的不完备信息系统粗集扩展模型进行分析,并针对王国胤的限 制容差模型存在条件限制宽松和严格的不足,对其加以改造,提嬲了改进的程 限制容差关系模型,通过实例比较,验证其更具有实用性,在划分容差类时更 具合理性有效性。其农业应用有待进一步研究。 囊蓉秦| 冀? 童墓雾萋 蓊蓁誉蓥离晒翼褰 疆 鬓黼群雹主l 霉羞薹童霪蠹露孚雩州霎雾i 霪譬。毫薹誊霎善薹羹i 冀蕊妻季霉攀嚣l 斗i 笔萋;i 篓羹薹蚕喜;耋奏霉i 囊鏊 ! 藩篓篓蠹l 謦速髻萋薯! 量i 霎冀耋墓i a 8 s 善 乏轰c 善 a b s 下r a c t w 主也t k & v e l o p m o n to fe o m p u t e f 、e o 翻熬u n i e 蕊o na n d i n t e 糯e tt e e h n o l o g y ,d 獭 i sd e v e l o p e dw i t ht h es e a l eo fe x p o n e n t ,址正c hi sb e y o 越t l l ea b i l 诹o f p e 。p l e 。h o w t of - m dm eu s e f u lk n o w l e d g eo ri n t e r e s t i n gk n o w l e d g e 矗o m 也e s ed a t ai st h eu 曙e n t p r o b l e m r i 酌ta 盈e rt h i s 王( 1 1 0 w l e d g ed i s c o v e 巧h a p p e n st ob eb o m t h ee x 缸a c t e da n d 是鬻d 鞋e w x a b s t r ac t s h o w sl ! :sf l g hca n df e a s l i ) ! c b e c a u s eo ft h el o w 丘t t i n gp r e c i s i o no ft h ep r e s e n tm o d e l ,t h i sp 乏巾e rp r o p o s e st h e f i t t i n gm e t l l o db a s e do ns u p p o r tv e c t o rr e 伊e s sm a c h i n ef o rc r o pw a t e rp r o d u c t i o n 如n c t i o n c o m p a r e dw i t ht h ep r e s e n tm o d e l ,t h er e s u l ts h o 、v st h em e t h o db a s e do n s u p p o r tv e c t o rr e g r e s sm a c h i n ei sb e t t e rr e m a r k a b l y e x i s t i n ge x t e n s i o n s o fr o u g hs e tm o d e la r ea n a l y z e di nt h i sp 印e ru n d e r i n c o m p l e t ei n f o n n a t i o ns y s t e m t h i s p a p e rm o d i f i e s l i m i t e dt o l e r a n c em o d e i p r o p o s e db yw a n gg u o y i na sf a ra st h el i m i t a t i o no nr e l a x a t i o na 1 1 dr e s t r i c t i o no f c o n d i t i o nc o n s t r a i n ti sc o n c e m e d c o m p a r e db ye x 锄p l e ,t h em o d i f i e dm o d e lb a s e d o nl i m i t e dt o l e r a n c em o d e ls h o w st h a ti ti sm o r ea p p l i c a b l e 、r e a s o n a b l ea n de 虢c t i v e w h e nt h eu n i v e r s eo fd i s c o u r s ei s p a r t i t i o n e di m ot o l e r a n c e c l a s s i f i c a t i o n s i t s a g r i c u l t u r ea p p l i c a t i o nw i l lb et h en e x t k e yw o r d s : m a c h i n el e a m i n g ,k n o w l e d g ed i s c o v e r o u 曲s e t ,n e u r a ln e t w o r k s , d e m p s t e r s h a f e rt 王l e o r y ,s u p p o r t v e c t o r m a c h i n e , i n c o m p l e t e i n f b n n a t i o ns v s t e m 1 i m i t e dt o l e r a n c er e l a t i o n i v 孛国科学技术大学学位论文原它i | 兰j 蜀授权使用声稿 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除己特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究 所做的贡献均己在论文中作了明确的说明。 本人授权中圈科学技术大学拥有学位论文的部分使愚权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名:越 o 譬年c 玛fo 日 绪论 1 1 知识发现 第l 章绪论 从上世纪6 0 年代数据库技术诞生以来,以计算机和通信为代表的信息技术, 对世界的经济、科技、军事、教育等方面产生了深刻的影响,许多行业积累了 大量数据。如商遭上每天积累数以万计顾客购买交易数据;各种圆步卫星每小 时传回地球的高达5 0 9 i g a ( 千兆) 字节的遥感图像数据;证券市场的客户交易数 据;基灏瘴数据;瓤e 豫e 的异常迅猛筋各静资源信息库。理解这些海量数据已 经远远超出了人的能力,而传统的统计技术及数据管理工具面对如此洪大的数 据库也无能为力。这种“数据海洋,知识孤麓”的局蕊迫切需要新的技术方法, 从而能在这些海壁数据中获取有用或感兴趣的知识。知识发现的方法便随运而 生。知识发现过程可粗略地理解为:数据准备、数据开采以及结果的解释评估。 数据准备又可分为数据选取、数据预处理和数据变换。数据选取的目的是确定 发现任务的操作对象,即目标数据,它是根据用户的需要从原始数据库中抽取 的一组数据。数据预处理一般可能包括消除噪声、推导计算缺僮数据、消除重 复记录、完成数据类型转换。数据变换的目的是消减数据维数或降维。数据挖 掘阶段是针对挖掘的任务确定采用什么挖掘算法。数据挖掘阶段发现出的模式, 经过用户或机器的评价,可能存在冗余或无关的模式,这时需臻将其剔除;也 可能不满足用户需求,则要重新进行数据挖掘。挖掘的模式最好是用户易于理 解的表达。 知识发现是从数据集中抽取和精化的薪模式。知识发现的范围非常广泛, 可以是经济、工渡、农业、军事、社会、商业、科学的数据或卫星观测到的数 据。数据的形态有数字、符号、图形、图像、声音等。数据的组织方式也各不 相同,可以是有结构、半结构或非维构的。知识发现的结果可以表示成各种形 式,包括规则、法则、科学规律、方程式或概念网等。 由予关系数据痒应用非掌广泛,并且具有统一的组织结构,一体化的查询 语言,关系之间及属性之间具有平等性等优点。因此,数据库知识发现 ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ,k d d ) 的研究非常活跃忱 绪论 k d j ) 术语f 门定义:k d d 是从数折 集;f t 识别有效的、新颖的、潜在行用 的,以及最终可理解的模式的非平凡的过程。数据集是一组事实f ;模式是用一 个语言l 来表示的一个表达式e ,它可用来描述数据集f 的某个子集f e ,e 作 为一个模式要求它比对数据子集f e 的枚举要简单;过程在k d d 中通常指多阶 段的处理,涉及数据准备、模式搜索、知识评价以及反复修改求精。该过程要 求是非平凡的,意思是要有一定程度的智能性、自动性;有效性是指发现的模 式对于新的数据仍保持有一定的可信度;新颖性要求发现的模式应该是新的; 潜在有用性是指发现的知识将来有实际效用。 由于知识发现是一门受到来自不同领域的研究者关注的交叉科学,因此导 致了很多不同的术语名称。除了k d d 外,还有:数据挖掘、知识抽取、信息发 现、智能数据分析、探索式数据分析、信息收获、数据考古等。 k d d 一词是在1 9 8 9 年8 月于美国底特律市召开的第1 1 届人工智能联合会议 的专题讨论会暨第一届k d d 国际学术会议上正式形成的。国际k d d 学术会议起 初每两年召开一次,1 9 9 3 年后每年召开一次。1 9 9 5 年,在加拿大蒙特利尔市召 开了第一届知识发现和数据挖掘( d a t am i n i n g ) 国际学术会议。由于数据库中的数 据被形象地喻为矿床,因此数据挖掘一词很快流传开来。1 9 9 5 年以后每年召开 一次知识发现与数据挖掘国际学术大会。迄今为止,由美国人工智能协会主办 的k d d 国际研讨会已经召开了7 次,人数由二三十人到七八百人,论文收录比例 从2 :1 到6 :1 ,研究重点也逐渐从发现方法转向系统应用,并且注重多种发现 策略和技术的集成,以及多种学科之间的相互渗透。与此同时,其他内容的专 题会议也把数据挖掘和知识发现列为议题之一。 从国际i d 学术会议的议题来看,目前k d d 研究的主要方向有:知识发现方 法;知识发现过程中的预处理和后处理;基于约束的知识发现方法;数据挖掘 与数据仓库;复杂数据对象( 多媒体数据、空间数据、半结构非结构化数据等) 的知识发现;文本知识发现;知识表示与知识可视化;增量式知识发现;交互 式、在线式知识发现系统;知识发现系统的应用等。 我国在知识发现方面开展的研究工作起步较晚,但步伐较快。1 9 8 7 年,我 国召开了第一届全国机器学习研讨会:1 9 8 9 年成立了全国机器学习理事会;从 九十年代后期开始,知识发现研究己经在我国蓬勃开展。1 9 9 8 年国家自然科学 基金设立了知识发现研究的重点项目。每年有不少论文发表,主要集中在知识 发现方法与应用方面。 2 绪论 1 i 王知识发现的任务 知识发现的任务可分为:数据总结、概念描述、分类、聚类、相关性分析、 偏差分析、建模l 。 数据总结的目的是对数据进行浓缩,给出它的紧凑描述。数据挖掘主要从 数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低 层次抽象到高层次上的过程。数据泛化哥蓠主要有两种技术:多维数据分析方 法和面向属性的归纳方法。多维数据分析针对的是数据仓库,数据仓库存储的 是脱机酶历史数据。面向属性的方法是针对联机数据,直接对联枧的用户感兴 趣的数据视图进行泛化。 概念描述是指:用户常常需要抽象的有意义的描述。经过麴纳的抽象描述 能概括大量的关于类的信息。目前有两种描述方法:特征描述和判别描述。特 征描述是从与学习任务相关的一组数据中提取关于这些数据的特征式,这些特 征式表达了该数据集的总体特征;而判别描述则描述了两个或更多个类之间有 何差异。 分类是数据挖掘中一项非常重要的任务,嚣前在商业上应用最多。分类的 目的是提出一个分类函数或分类模型即分类器,该模型能把数据库中的数据项 映射到给定类别中的某一个。分类器的构造需要一个训练样本数据集终为输入, 该样本集具有类别标记。分类器的构造有统计方法和机器学习方法等。 聚类是根据数据的不同特征,将其划分为不同的数据类。它的署的是使得 属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽 可能的大。聚类方法包括统计方法和机器学习方法等。在机器学习中,聚类稼 律无监督学习。和分类相比,聚类不带有分类标记。 相关性分析的目的是发现特征之间或数据之间的相互依赖关系。数据相关 性关系代表一类重要的可发现的知识。常用的技术有回烟分析、信念掰络等。 偏差分析包括分类中的反常实例、例外模式、观察结果对期望值的偏离以 及量值随时间的变化等,萁基本思想是寻找观察结果与参照量之间的有意义的 差别。通过发现异常,可以引起人们对特殊情况加倍注意。异常包括:不满足 常规类的异常例子;趣现在其他摸式边缘的奇异点;与父类或兄弟类不同的类; 在不同时刻发生了显著的某个元素或集合;观察值与模型推测出的期望值之间 有显著差异的事例等。偏差分析的一个重要特征就是它可以有效地过滤大量的 绪论 不感兴趣九勺模式。 建模就是通过数据挖掘,构造描述一种活动或状态的数学模型。 1 1 2 知识发现的对象 知识发现的范围非常广泛,可以是社会科学、商业数据、科学处理产生的 数据或卫星观测的数据。它们的数据结构也各不相同,可以是层次的、网状的、 关系的和面向对象的。主要对象包括数据库、文本、w e b 信息、空间数据、图像 和视频数据l l j 。 目前从数据库中进行知识发现主要是从关系数据库中进行数据挖掘比较 多,研究的问题主要有:( 1 ) 超大数据量。数据库中的数据的迅速增长是数据 挖掘得以发展的原因之一,也是对数据挖掘的挑战。( 2 ) 动态变化的数据。一 个联机系统应能够保证数据的变化不会导致错误的发生。( 3 ) 噪声。由于认为 因素的影响,如数据的手工录入及主观选取数据等引起的错误数据,使得数据 具有噪声。带噪声的数据会影响抽取的模式的准确性,可造成最终结果的不确 定性。( 4 ) 数据不完整。数据库中某些记录其属性可能存在空值现象。另外对 某一发现来说还可能完全不存在其所必须的记录域。( 5 ) 冗余信息。数据库中 同一信息有时存储在多个地方。函数依赖就是一个通常的冗余形式。冗余信息 可能造成错误的知识发现。( 6 ) 数据稀疏。数据库对应于可能的巨大的发现空 间,它的实际数据记录的密度非常稀疏。 页面模式抽取需要经过文本分析过程。文本分析过程就是分析文本,从中 找出一些特征,以利于将来的使用。一般文本分析经过以下几个基本过程:语 种识别、特征提取、聚类、分类。语种识别是指语种识别工具能自动发现文本 使用的是何种语种。特征提取主要是识别文本中词项的意义,提取过程是自动 的。分析一个文本时,特征识别工具采取两种模式:一个时单独分析该文本; 另一个是首先根据其他相似的文本自动建立一个词典,然后在该文本中找到词 典中的出现的词项。聚类是把一个文本集合分成几组的过程。每组中的文本在 某种情况下相似。如果把文本内容作为聚类的基础,那么不同的组就对应文本 集中不同的主题。因此聚类可用来找到集合包含的什么内容,即通过识别在文 本组中常用的一系列术语或单词来描述主题。聚类也可以通过文本的长度、日 期等特征来进行。因此,聚类可以描述整个文本集的内容,找到其中隐含的相 似关系,从而更容易找到相似或相关的信息。聚类后,组内的文本相似度极大, 4 绪论 绀问的文木棚似度极小。分类一具足把文本分辨芒到已存在的类r t ? 即已存在f 1 , 主题中。人工分类是不切实际的。通过自动分类组织是一种有力的数据组织手 段。 随着网络韵不断发展,霹络的数据兹规模里指数级增长。如何从如此纷繁 复杂的信息资源中找到有用的或感兴趣的数据信息是一个迫切需要解决的难 题。鉴如此,基于w 曲信息挖掘技术的诞生也就是自然兹事情。万维嬲结构复 杂数量庞大,其页面复杂性远远高于传统的文本文档,并且用户群体多样,对 w _ c b 挖掘是一个更具挑战性的课题,它实现对w 曲存取模式、w 曲结构和规则, 以及动态的w r e b 内容的查找。一般地,w e b 挖掘可以分为三类:w 曲内容挖掘、 w 曲结构挖掘和w _ e b 使用记录的挖掘,其中较为重要的几个分支包括w r e b 链接 结构挖掘、w e b 文档的宣动分类和融b 使霜记录的挖撅。 空间数据包括地图、遥感数据、医学图像数据等,在地理信息系统、医疗 系统、交通控制、环境研究等领域有广泛的应用。由于空闯数据的大数据量和 空间数据类型和空间访问方法的复杂性,空间数据挖掘面临的主要挑战是研究 高效的空闻数据挖掘技术。空间数据挖掘的任务有空闻数据特征比较、空间聚 类分析、空间分类、空间关联和空间模式分析。 用数据挖掘方法可以从图像和视频数据中挖掘出尽可能多的有用信息供专 家参考,这一方法的关键问题是图像和视频数据的信息表示,这也是图像处理 和模式识别中的关键问题。一般说来,我们可以用颜色、纹理、形状等来表示 图像和视频的基本特征。高级概念可麓是某种物体的存在、某种现象的发生等。 底层基本特征和高层概念之间存在某种映射关系,可以用数据挖掘技术发现。 1 2 知识发现的方法 1 2 1 不确定性理论的方法 随机性和模糊性是不确定性最基本的两个方面翻。随机性和模糊性是客观世 界存在的固有特性,而人类的认知是客观世界在人脑的反映,这种认知必然带 有随机性和模糊性。这种世界的客观属性首先反映在入类的语言当中,语言是 知识的载体,因而人们在对客观世界的认知当中获得的知识或常识也必然带有 随机性和模糊性。如同一个词语在不同的环境中表达不同的含义,这就表现了 绪论 语义的随机。r t 。如概念中的高矮、长短等等,都没有确定的界限,埘应不同的 环境就会有不同的标准。这就表现了知识概念的随机性和模糊性。除了随机性 和模糊性,知识还有其他不确定性,如不完备性、不谐调性和非恒常性。知识 的不完备性包括知识内容的不完整、知识结构的不完备等。内容的不完整,可 能来源于获取知识时观测不充分、设各不精确,只获取了局部信息,因此对部 分信息内容根本不知道,或者知道应该有某一个具体的信息值,但不清楚其大 小;知识结构的不完备,可能因为人的认识不全,忽略了一些重要因素。知识 的不谐调性是指知识内在的矛盾,不谐调的程度可以依次为冗余、干扰、冲突 等。知识的非恒常性是指知识随时间的变化而变化的特性。 知识的不确定性,归根到底来源于客观世界的不确定性。客观世界中的绝 大部分现象都是不确定的,所谓确定的、规则的现象,只会在一定的前提和特 定的条件下发生,只会在局部或较短的时间内存在。无论是自然科学的发展还 是社会科学的发展,虽然有很多人在从事确定性的研究,但已经很难有人对世 界的不确定性本质提出实质性的怀疑。越来越多的科学家相信,不确定性是这 个世界的魅力所在,只有不确定性本身是确定的。不确定性越来越受到人们的 重视。处理不确定性知识的理论归列如下: 传统的统计方法:传统的统计方法所研究的是渐近理论,即当样本趋向于 无穷多时的统计性质,它依赖于经典的概率理论【3 】。常见的统计方法有回归分析 ( 多元回归、自回归) 、判别分析( 贝叶斯判别、费歇尔判别、非参数判别) 、 聚类分析( 系统聚类、动态聚类) 以及探索性分析( 主元分析、相关分析) 等。 目前国际上流行的统计软件有:s a s ( s t a t i s t i c sa n a l y s i ss y s t e m ) ,s p s s ( s t a t i s t i c s p a c l ( a g ef o r t h es o c i a ls c i e n c e s ) 等。在概率推理方法中,主要应用贝叶斯公式法。 如有以下产生规则:i fet h e nh ,设证据即前提条件e 的不确定概率为p ( e ) , 概率方法不精确推理的目的就是求出在证据e 下结论h 发生的概率p ( h l e ) 。把 贝叶斯方法用于不精确推理的一个原始条件是:已知前提e 的概率p ( e ) 和h 的 先验概率p ( h ) ,并己知h 成立时e 出现的条件概率p ( h l e ) 。若只使用这一条 规则做进一步的推理,则有: n ,n 、 一p ( e i h ) p ( h ) p r w i f 、:兰! :! :! :! u 尸7 p ( e ) 若一个证据e 支持多个假设h i ,h 2 ,h 。,即 6 绪论 则贝叶斯公式 i fe1 1 i e n h 。( i = 、2 ,n ) p 簿i | e ) = 堡墼鲨堕上( i :l ,2 ,蟛; p ( h j ) ( p 嘲 j ;i 若有多个证据e ,譬2 ,e 。和多个结论h ,h :,h 。,并且每个证据都以一定程度 支持结论,则: p ( h iie ,e :e m ) :_ 三墅垦竖墨望璺璧圣壁墨2 二i 璺兰二壁盟, p ( e l l h j ) p ( e 2 h j ) p ( e 。l h j ) p ( h j ) = l 这时,只要已知h i 的先验概率p ( h i ) 及h i 成立时证据e ,e :,e 。出现的条件概 率p ( e 。 h i ) ,p ( e :i h i ) ,p ( e m i h i ) ,就可利用上述的公式计算出在e l ,e :,e 。出 现的情况下的h i 条件概率p ( h | 嚣;e :嚣。) 。 主观贝叶斯方法f 4 l :直接用贝叶斯公式求结论h :在有证据e 时的条件概率 p 强| e ) ,需要知道h i 的先验概率p 僻i ) 及条 牛概率p ( e 眠) 。对于实际应用,这 是不容易做到的。d u d a 和h 撕等人在贝叶斯公式的基础上,于1 9 7 6 年提出了 主观贝时斯方法,建立了不精确推理模型,并成功应用到p r o s p e c 阳r 专家系 统。 在主观贝叶斯方法中,用下列产生式规则表示知识: i fet e n ( l s ,l n ) h 式中( l s ,l n ) 表示该知识的静态强度,称l s 为上式的充分因子,l n 为必要性因 子。有条件概率公式得: 呈剿望:塑里堕 p ( h | e ) p ( e | h ) p ( 一 | ) p ( h | e ) p ( e l h ) p ( ) p ( h 卜dp 卜e 卜h ) p ( 一h ) 绪论 令鲻一器2 揣= 器棚x ,= 器。器 p ( e 卜h )p ( e 卜h )l p ( 毯卜h ) 、。 l p ( x )1 ) ( x ) p ( x ) = 器。概率瀚数。) 称为x 的几率。代入上两式得: o ( 捌e ) = l s o ( 园o o ( h l e ) = l n o ( h ) ; 由上两式可知:l s 表示e 为真时,对h 为真得影响程度,表示规刚 i fet h e nh 成立的充分性;l n 表示e 为假时,对h 为真的影响程度,表示 规则i fet e nh 成立的必要性。在实际系统中,l s ,蹦的值是赢专家凭经 验给出的,而不是根据其定义来计算的。 后验概率的计算: p ( h | 驴一堡型l ; 、。7 ( l s 1 ) p ( h ) + l p ( h l e ) 2 i 器; 在上述公式的计算警都有一仑臆0 ( e ) = 器2 器魁实弛 证据往往是不确定的。比如说“证据有6 0 的可能为真”,意思是在所有观察s 下,诞据e 出现的概率可能为6 0 ,即p ( 捌s ) = o 6 。如果说s 是对证据e 酶所 有观察,且o p ( e l s ) p ( h ) ,m d ( h ,e ) = 0 ; 当m d ( h ,e ) o 时即p ( h e ) p ( ) p ( h l e ) = p ( p ( h e ) o ;当证据肯定为真,c f ( e ) = 1 ;当证据某种 程度为假时,c f ( 嚣) 0 ,蹦j ;睡i :5 ; 以菜,p t 为:度为互c “、,萸i c f ( h ) = c f ( h ,e ) c f ( e ) ;若c f ( e ) = 1 ,即证据为真,则c f ( h ) = c f ( h ,e ) ,这说明, 当证据为真时,结论h 的可信度为规则的可信度。当c f ( e ) 0 ,即证据以某种 程度为假,规则不能使用时,则c f ( h ) = o 。已知两条规则推出同一结论,但可信 度各不相同,则结论的综合可信度求法如下:i fe lt h e nh ( c f ( h ,e 。) ) ; i fe 2t h e nh ( c f ( h ,e 2 ) ) 。首先求出: c e ( h ) = c f ( h ,e 1 ) m a x o ,c f ( e 1 ) ) ; c e ( h ) = c f ( h ,e :) m a x 0 ,c f ( e 2 ) ;再求e l 和e 2 对h 的综合影响所形成的可信度 c e 王( h ) : q 2 睁 q ( 母呱哪呸,q 0 ,哑o q 嗍蛔哑,q ,呸 ,流形学习就是在给定观察样本集 五 的条件下重构厂耜 r ) 。 流形学习方法的基本思想是每个高维空间内的流形都有一个低维空间内的流形 与之对应,并试图找出一个光滑映射,把高维源数据映射成其低维露标空间内 的对应。其主要目的是找出产生数据集的内在规律性,即从观测的现象找到本 质。流形学习的另一个星的是去除更多的先验假设,如属性闯相互独立、分布 近似满足正态分布等,从而完成一般意义下针对数据集的各项任务如数据挖掘、 机器学习等。 参考文献 【l 】史忠植知识发现【m 】。北京:清华大学出版社,2 0 0 2 【2 】李德毅,轻鹚不确定性人工智熊【m 】。北京:国防工业出版享,2 0 弼 【3 】蔡自兴,徐光祜人工智能及其应用研究生用书 m 】北京:清华大学出版社,2 0 0 4 【4 】石纯一,赞昌宁,王家糜。人工智能原理【m 】= | 匕京:清华大学出版社,1 9 9 3 【5 j 敖志雕。入工智能与专家系统簿论【m 】冶肥:中国科学技术大学,2 2 6 】杨纶标,高英仪模糊数学原理及应用 m 】广州:华南理工大学出版社,2 0 0 1 【7 】d e m p s l e fa pu p 弦r 勰dl o w e rp f o b 曲i l i i e si 珏d u c e 纛酚鑫m l l l i v 鑫l u e d 撵颦p i 珏g 凌,a 鼹a l s o fm a t h e m a t i c a ls t a t i s t i c s ,1 9 6 7 ,3 8 :3 2 5 3 3 9 【8 】s h a f e fgam a t h e m a t i e a lt h e o 秽o fe v i d e n c e f m 】。p f i n c e t o nnj :p r i n c e t o 娃u l l i 垤悠i 移 h s s ,1 9 7 6 ,1 2 4 9 】段新生证据理论与决策、人工智能 m 】_ 匕京:中国人民大学出版社,1 9 9 3 1 0 】如w l 蔽z ,b 珏s s ejqs l o w i n s k ir ,z i a 翩iw 爻o u g hs e 雠霹c o m m u n i c a t i o no f 舭a c m , 1 9 9 5 ,3 8 ( 11 ) :8 9 9 5 1 量】张文修,奖伟志,梁言娩等。獾糙集理论与方法【醚】。就豪:科学出版社,2 0 0 1 2 曾黄麟糨集理论及其应用一关于数据理论的新方法 m 】重庆:熏庆大学出版社,1 9 9 6 1 3 王国胤r o u 曲集理论与知识获取【m 】西安:嚣安交通大学出版宰,2 l 【1 4 】刘清r o u 曲集及r o u 曲集推理【m 】北京:科学出版社,2 0 0 1 1 5 离隽智能信息处理方法导论 m 】。北京:机械工业出版社,2 0 0 4 【l6 】k 拶s z k i e w i c zm r o u g hs e ta p p r o a c ht ol n c o m p i e t ei n f o r m a t i o ns y s t e m s 【j 】i n f o r n l a t i o n s y s t e m s ,1 9 9 8 ,11 2 :3 9 4 9 1 7 绪论 :7 1s t e 话| 1 ( ) w s k ij ,1 s ) l l k i a sa o nt 1 1 e e x t e n s i o no fr o t i g hs e t su n d c ri n c o n l p l e t cf n f o i m a t i o n 1 1 1 :z h o n gn ,s k o w r o na ,o h s u g ase d p r o c e e d i n g so ft h e7 mi n t e m a t i o n a iw 6 r k s h o po n n e wd i r e c t i o n si nr o u 曲s e t s ,d a t am i n i n g ,a n dg r a n u l a r - s o rc o m p u t i n g ,y a m a g u c h i : s p r i n g e r v e r l a gg m b h ,19 9 9 ,7 3 - 8 2 1 8 王国胤r o u 鲈集理论在不完备信息系统中的扩充 j 】计算机研究与发 展,2 0 0 2 ,3 9 ( 1 0 ) :1 2 3 8 - 1 2 4 3 1 9 】黄兵,周献中不完备信息系统中基于联系度的粗集模型拓展 j 】系统工程理论与实 践,2 0 0 4 ,8 8 9 2 【2 0 】刘富春基于限制容差关系的集对粗糙集模型计算机科学【j 】,2 0 0 5 ,3 2 ( 6 ) :1 2 4 1 2 8 2 l 】何钦铭,王申康机器学习与知识获取 m 】浙江:浙江大学出版社,1 9 9 7 2 2 】韩力群人工神经网络理论、设计及应用 m 】,北京:化学工业出版社,2 0 0 7 【2 3 】陈世福,陈兆乾等人工智能与知识工程 m 】南京:南京大学出版社,1 9 9 9 2 4 】阐新,周露,王丹力,熊晓英m a t 【,a b 神经网络应用设计【m 北京:科学出版社,2 0 0 0 【2 5 】丛爽m a t l a b 工具箱的神经网络理论与应用【m 】合肥:中国科学技术大学出版社,2 0 0 3 2 6 】飞思科技产品研发中心m a n ,a b 7 神经网络理论与实现 m 】北京:电子工业出版社,2 0 0 5 2 7 】那乃扬,田英杰数据挖掘中的新方法一支持向量机【m 】北京:科学出版社,2 0 0 5 2 8 】v l a d i m i rn 、r a p n i k 张学工译统计学习理论的本质【m 】一匕京:清华出版社,2 0 0 0 2 9 】n e l l oc r i s t i a i l i n i ,j o h ns h a 、v e t a y l o r a ni n t r o d u c t i o nt os u p p o r tv e c t o rm a c h i n e sa n do t h e r k e m e l - b a s e di e a m i n gm e c h o d s 【m 北京:机械工业出版社,2 0 0 5 【3 0 】郑守志2 0 0 6 基于流形学习理论的空间信息源研究及应用( m 】:【硕士】北京:中国科学院 计算技术研究所,1 0 1 1 1 8 薹子褪糙集熬酥鬃满害知识发现系统誊每建 第2 章基于粗糙集的酥梨病害知识发现系统构建 褪糙集理论由波兰科学家z 。p a w l 放在1 9 8 2 年提出的一种耨型的处瑷不精 确、不确定知识的数学工具f l 】,已经成为人工智能领域的一个重要的技术之一。 其主要思想是在保持信息系统的分类能力不变的前提下,通过知识约简,导出 问题的决策或分类规则。西前,粗糙集理论己被成功地应用于机器学习、过程 控制、决策分析、模式识别与数据挖掘等领域f 2 ,3 ,4 ,5 ,6 1 。 2 1 粗糙集理论的产生和发展 2 1 1 粗糙集理论的发展概况 粗糙集理论由于最初的研究是用波兰文发表的,因此,这项研究当时并未 引起国际学术界的重视。研究地域限东欧各国。 到了二十世纪八十年代末期,这个理论弓| 起了各国学者的注意。1 9 9 1 年 p a w k i kz 教授的第一本关于粗糙集专著和1 9 9 2 年s l o w i n s k ir 主编的关于粗糙 集应用与相关方法沈较研究的论文集髂出舨,推动了对糖糙集理论的深入研究。 1 9 9 2 年在波兰k i e 妣召开了第一届国际粗糙集学术讨论会,主要讨论了集合近 似定义的基本思想及英应用。l9 9 3 年在热拿大8 鑫霞召开了第二届糨糙集和翔识 发现研讨会。这次会议的主题是粗糙集、模糊集与知识发现。1 9 9 4 年在美圈s a n j o s e 召开了第三属国际粗糙集与软计算研讨会,这次会议主要讨论了粗糙集与模 糊逻辑、神经网络、进化理论等融合问题。1 9 9 5 年召开的第四届模糊理论与技 术国际研讨会,主要针对粗糙集与模糊集之间的关系进行了讨论,促进了粗糙 集的发震。1 9 9 8 年,匿际信息科学杂志为粗糙集理论的研究出了一期专辑。1 9 9 9 年在日本召开第七届粗糙集、模糊集、数据挖掘和粒度软计算国际会议,主要 阐述了当前粮糙集、模糊集的研究现状和发展趋势。2 0 0 0 年在加拿大召开了第 二届租糙集和软计算的当前趋势学术会议。2 0 0 3 年1 0 月,重庆邮电学院成功承 办了第九届国际粗糙集、模糊集、数据挖掘和粒度计算学术研讨会。2 0 0 3 年1 1 月,+ 中国人工智能学会正式成立了粗糙集与软计算专业委员会。2 0 0 4 年6 月在 瑞典举行第四届国际粗糙集和软计算学术会议。此外,1 9 9 2 年至今,每年都翟 1 9 基于租糙集的酥梨病害知识发现系统构建 - ;:以r o 啦曲鞑 为:卜题的潮际会议,刚琢i :j 菠勺:了糊挞集学术研究会,加速了誊娃 糙集理论的发展。 2 。量2 粗糙集理论的研究现状 粗糙集理论的特点是:无需提供除问题所需处理的数据集合之外的任何 先验信患。比如统计学中的藏率分布。d e m p s 据r s h a f e r 证据理论中的基本概率 赋值,模糊集理论中的隶属度,这些信息有时并不容易得到。粗糙集是一个 强大的数据分析工具,它能表达和处理不完备信息,能在保留关键信息的前提 下对数据进行约简并求得知识的最小表达;能识别并评估数据之间的依赖关系; 能从经验数据中获取易于证实的规则知识。粗糙集和模糊集分别刻画了不宠 各信息的两个方面:粗糙集以不可分辨关系为基础,侧重分类;模糊集基于元 素对集合隶属度的不同,侧重集合本身的含混性。从粗糙集的观点看,粗糙集 合不能清晰定义的原因是缺乏足够的论域知识,僵讶以用一对清晰集合逼近。 目前,对粗糙集理论研究集中在其数学性质、粗糙集拓广、粗糙集理论中 的度量、与其他不确定方法的关系和互补以及有效算法磅究等方面。在粗糙集 理论数学性质方面的研究,主要讨论粗糙集的代数结构和拓扑结构,以及粗糙 集的收敛性等问题。一些新的数学概念也不断出现,如粗糙半群等,随着粗糙 结构、代数结构、拓扑结构、序结构等各种结构的不断整合,必将引出新的富 有生枕的数学分支。在粗糙集拓广方面的研究主要涉及变精度粗糙集模型、模 糊粗糙集模型、粗糙模糊集模型、基于相似关系的粗糙集模型、基于一般关系 的粗糙集模型、基于优先关系的粗糙集模型、不完全信息系统下的粗糙集模型 等。在粗糙集瑗论的度量方面主要研究粮糙集数据分析中的度量、知识不确定 性度量、以及粗糙集与粗糙关系数据库的信息度量等。在粗糙集理论与其他处 理模糊性或不确定性方法之闻的研究中,主要讨论它与模糊集理论和证据理论 的关系与互补。神经网络与粗糙集方法对于数据中进行特征提取的关系的研究 也是十分有趣的课题。在粗糙集鸯效算法方蘧的研究,主要集中于掬取最优决 策规则算法、导出规则的增量式算法、约简的启发式算法,以及粗糙集基本运 算的并行算法等。另外,由于基于粗糙集的逻辑是关于粗糙集的不确定推理的 基础,发展这类逻辑的理论基础也是目前粗糙集理论研究的重要课题。国外舀 前在粗糙集领域的研究主要集中在约简的优化算法、粗糙集理论和模糊理论, 粗糙集理论同神经网络理论等其他人工智能技术的结合、粗糙逻辑等课题上。 基予粗糙集躬酥梨瘸害熬识发褒系统梅建 我团从:。一1 - 1 f i = 纪几十年代丁! :始丁对:般糙臻圳论的研究。在这个研究领域一 t , 我国学者主要集中在对其数学性质、有效算法的研究,舞粗糙集理论的知识表 迭、知识约简算法、粗糙逻辑等,并出版了粗糙集理论中文专著。曾黄麟、王 国胤、刘清、张文修等先后出版了关于粗糙集理论的专著。清华大学、蘸安交 通大学、哈尔滨工业大学、重庆邮电学院、中国科学院自动化研究所等研究机 构和大学有较为深入的研究。这些研究人员多来自计算规科学领域,也有来叁 信息科学、数学、系统科学、管理科学、控制科学等领域的学者,他们已经形 成了一支较强的研究队伍。 粗糙集理论已经广泛应用于医疗分析诊断、经济、金融、商业、环境保护、 工程设计、信息科学、决策分析等许多领域。 2 1 3 粗糙集试验系统 粗糙集理论为信息处理论域提供了完备有效的处理方法,而建立在越种方 法上的r o u 曲集理论工具则为各种算法的实现提供了方便,现今随着r o u 曲集 理论的不断扩充,出现了几种较有影响的系统工具孙咄 e n o u g h ,r o s e ,i 己o s e t t a ,k d d r ,l e r s 等。 r o s e 系统是由波兰p o z n 弧工业大学计算机科学研究所智能决策支持系统实 验室开发的模块化软件系统,它实现了r o u 曲集理论的基本框架和规则获取技 术,它由几个独立模块组成,这些模块可以独立地进行重新设计和开发。系统 接受信息表输入后按照一定的文本格式存
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 水土保持效益分析-洞察及研究
- 动态膜生物反应器中溶解性有机物强化去除策略与机制探究
- 店面租赁合同模板下载打印5篇
- 冠脉介入中造影剂用量与尿微量白蛋白的关联性探究
- Sn4+、Sb3+、Nb5+掺杂二氧化钛纳米材料:制备工艺与光电特性的深度解析
- 机器学习在元数据质量评估中的应用-洞察及研究
- 创业产品迭代与设计思维-洞察及研究
- 二母宁嗽片与其他药物的耐药性相互作用研究-洞察及研究
- 浮游植物光合作用效率研究-洞察及研究
- 测验标准与教师专业发展-洞察及研究
- 4.1夯实法治基础教学设计 2025-2026学年度九年级上册 道德与法治 统编版
- 连铸工岗位操作规程考核试卷及答案
- 2025兵团普通职工考试试题及答案
- 第一单元 第2课《童真时光》 【人教版】美术 三年级上册
- 广州市公安局天河分局招聘辅警考试真题2024
- 2025年全国货运驾驶员职业技能资格考试试题(基础知识)含答案
- GB/T 46150.2-2025锅炉和压力容器第2部分:GB/T 46150.1的符合性检查程序要求
- 2025年甘肃省高考历史真题卷含答案解析
- 中华优传统文化(慕课版)教案
- 《中国老年危重患者营养支持治疗指南(2023)》解读 4
- 2025年广东国家公务员申论考试真题及答案-地市级
评论
0/150
提交评论