




已阅读5页,还剩60页未读, 继续免费阅读
(计算机应用技术专业论文)粗糙集理论在糖尿病诊断分析中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 糖尿病引发的糖尿病性视网膜病变、肾脏及神经病变、心血管病变等并发 症,严重威胁人类健康和生命。 当前,地区医疗水平的差异,医院医生水平的差异,以及同一医生在不同 条件下的诊断决策也有差异,必然导致临床上不能保证稳定的高水平医疗专家 队伍和良好的医疗设备,而对于大量已确诊的病例有待更好的利用。为了更好 的对糖尿病及其并发症进行诊断和治疗,本文探索性地进行了粗糙集理论在糖 尿病诊断分析中的应用研究,对于利用好专家确诊病例,辅助临床医生诊断, 提高诊断水平,尽早、尽多诊治糖尿病人,为促进人类健康事业具有积极意义。 本文所做的主要工作和贡献有: 第一,通过对确诊糖尿病例数据的收集与相应的预处理,从而为基于粗糙 集理论应用于糖尿病诊断分析提供有效的数据源; 第二,基于粗糙集方法和按照医学专家诊断思维模式,提出用粗糙包含法、 粗糙排斥法和粗糙对比法给确诊糖尿病例提取诊断规则,实验结果显示正确率 可达9 7 6 ; 第三,根据医学临床实际,即临床上存在假阳性和假阴性等现象、不同医 生对诊断要求不同、糖尿病合并症的共性和异性、以及糖尿病的多种合并症的 并发性可能等因素,。提出用容假度法匹配规则,一定意义上能减少漏误诊; 第四,在基于上述规则提取和分析的成果基础上,按照临床诊断需要,设 计了辅助诊断模式,开发了辅助诊断系统,实验验证了所提出的方法的可行性 和有效性,系统测试结果能达到辅助临床医生对糖尿病并发症诊断的效果。 关键词:粗糙集;粗糙包含;半h 糙排斥;粗糙对比;诊断规则;辅助诊断 a b s t r a c t a bs t r a c t d i a b e t e sc a nc a u s ed i a b e t i cr e t i n o p a t h y , k i d n e yd i s e a s e s ,d i a b e t i cn e u r o p a t h y , c a r d i o v a s c u l a rd i s e a s ea n do t h e rc o m p l i c a t i o n s ,w h i c ha r es e r i o u st h r e a t st oh u m a n h e a l t ha n dl i f e c u r r e n t l y , d i f f e r e n c e si nt h el e v e lo fr e g i o n a lh e a l t hc a r e ,i nt h es k i l lo fd o c t o r s , i nt h ed i a g n o s i so fd e c i s i o n m a k i n go ft h es a m ed o c t o ru n d e rd i f f e r e n tc o n d i t i o n s , w i l li n e v i t a b l yr e s u l ti nt h a tt h e r ei sn og u a r a n t e eo ft h eh i g hl e v e lo fm e d i c a l e x p e r t i s ea n dg o o dm e d i c a le q u i p m e n tw i t hc l i n i c a ls t a b i l i t y , w h i c hc o u l dh a v e b e e n b e t t e rm a d eu s eo ff o rl a r g eq u a n t i t i e so fc o n f i r m e dc a s e s i no r d e rt ob e t t e rc a r r yo u t d i a g n o s i sa n dt r e a t m e n to fd i a b e t e sa n di t sc o m p l i c a t i o n s ,a ne x p l o r a t o r yr e s e a r c hi s m a d ei n t h i sp a s s a g ei nt h ea p p l i c a t i o no ft h er o u g hs e tt h e o r yo nt h ed i a g n o s t i c a n a l y s i so fd i a b e t e s ,w h i c hh a sap o s i t i v es i g n i f i c a n c eo nt h ep r o m o t i o no fh u m a n h e a l t hc a r e e rb ya s s i s t i n gt h ed i a g n o s t i cp r o c e s so fc l i n i c a ld o c t o r s ,r a i s i n gt h el e v e l o fd i a g n o s i s ,a n dd i a g n o s i n gp a t i e n t so fd i a b e t e sa se a r l ya n dm o r ea sp o s s i b l e ,i n t e r m so fc o n f i r m e dc a s e s t h em a i nw o r ka n dc o n t r i b u t i o ni nt h i sp a s s a g ea r e - f i r s t l y , p r o v i d i n ga ne f f e c t i v ed a t as o u r c e ,i nt h el i g h to fc o l l e c t i o no fc o n f i r m e d d i a b e t i cc a s e sa n dr e l e v a n tp r e s p r o c e s s i n g ,f o rt h ea p p l i c a t i o no ft h er o u g hs e t t h e o r yo nt h ed i a g n o s t i ca n a l y s i so fd i a b e t e s s e c o n d l y , b a s e do nr o u g hs e t m e t h o d sa n di na c c o r d a n c ew i t hd i a g n o s e d m o d e o f - t h i n k i n go fm e d i c a le x p e r t s ,p r o p o s i n gt h em e t h o dt h a tt h ed i a g n o s t i cr u l e s f o rd i a b e t i cc a s e sa r ee x t r a c t e db yr o u g hi n c l u s i o n ,r o u g he x c l u s i o na n dr o u g h c o n t r a s t ,t h ea c c u r a c yu n d e rw h i c hi s9 7 6 s h o w nb yl a b o r a t o r yd a t a t h i r d l y , a c c o r d i n gt o t h ec l i n i c a lp r a c t i c e i n c l u d i n gt h ef a l s e p o s i t i v e a n d f a l s e n e g a t i v ep h e n o m e n a ,d i f f e r e n td i a g n o s t i cr e q u i r e m e n t sb yd i f f e r e n td o c t o r s ,t h e h o m o g e n e i t ya n dh e t e r o g e n e i t yo fd i a b e t i cc o m p l i c a t i o n sa n dt h e i rp o s s i b i l i t yo f s y n c h r o n i z a t i o n ,t h ee r r o r - t o l e r a t i n gd e g r e ei sp r o p o s e dt om a t c ht h er u l e s ,r e d u c i n g m i s s e dd i a g n o s i sa n dm i s d i a g n o s i si nac e r t a i ns e n s e f o u r t m y , b a s e do nt h ee x t r a c t i n ga n da n a l y z i n gr u l e sa b o v e ,a n di nt e r m so ft h e l i a b s t r a c t n e e do fc l i n i c a ld i a g n o s i s ,t h ec o m p u t e r - a i d e dd i a g n o s i ss y s t e mi sd e v e l o p e d ,w h i c h h a sd e m o n s t r a t e db ye x p e r i m e n t st h ef e a s i b i l i t ya n de f f e c t i v e n e s so ft h em e t h o d p r o p o s e da b o v e ,t h et e s t i n gr e s u l to fw h i c hi n d i c a t e st h a ti th a ss u c c e s s f u l l yh e l p e d c l i n i c a ld o c t o r sd i a g n o s ep a t i e n t sw i t hd i a b e t i cc o m p l i c a t i o n s k e y w o r d s :r o u g hs e t ;r o u g hi n c l u s i v e ;r o u g he x c l u s i v e ;r o u g hc o n t r a s t ;d i a g n o s i s r u l e s ;a s s i s t i n gd i a g n o s i s i i i 学位论文独创性声明 学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得直昌太堂或其他教育机构的学位或证书而使用过的材料。与 我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示谢意。 、彳、 学位论文作者签名( 手写) :及识 签字日期:,够年肛月力伯 i | f 学位论文版权使用授权书 本学位论文作者完全了解南昌太堂有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权直昌太堂可以将学位论文的全 部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编本学位论文。同时授权中国科学技术信息研究 所将本学位论文收录到中国学位论文全文数据库,并通过网络向 社会公众提供信息服务。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:瑗效l 导师签名: 主磊左 签字日期:沙扩年7 明确 签字日期:肿年胆月乡。日 第1 章绪论 第1 章绪论 1 1 研究背景 糖尿病l l l 在临床上有i 型和i i 型之分,2 0 0 6 年国际糖尿病联盟( i d f ) 在该 联盟的( ( d i a b e t e sa t l a s ) ) 中公布的数据显示,糖尿病侵袭着全球2 4 6 亿人,是 目前世界上除心脑血管疾病、恶性肿瘤外的第三大疾病,由糖尿病引发的糖尿 病性视网膜病变、肾脏及神经病变、心血管病变等并发症,严重威胁人类健康 和生命。 2 0 0 6 年召开的诺和健康关怀糖尿病研讨会上,专家们为我国糖尿病防治现 状中的“三高三低”现象感到忧心忡忡。所谓“三高”是指发病率逐渐升高、并发症 发病率高、并发症治疗费用比例高;“三低”是指知晓率低、诊断治疗率低、控制 达标率低,这是我国目前糖尿病防治的真实写照。 我国糖尿病患病率高,增长率快,是全球糖尿病患病人数第二大国,而专业 糖尿病治疗机构人员和设备等资源不足,无法适应日益增长的糖尿病人数;早期 病人无明显症状,不易引起重视,致使糖尿病确诊率低,仅为5 左右;公众和 患者对糖尿病认识不足,加之社会上各种宣传混乱,使已确诊的糖尿病患者的 治疗率仅为7 7 ,而治疗达标率为仅1 8 4 2 5 9 ,多数病人治不达标,导致 糖尿病并发症发生率高,发生早,发展严重,致残率及致死率高,严重危害人 民生命质量及寿命。治疗糖尿病需要较高的医疗费用,治疗并发症的费用远超 出治疗糖尿病本身的费用,已成为个人,家庭和政府的沉重经济负担【2 1 。 当前,地区医疗水平的差异,医院医生水平的差异,以及同一医生在不同 条件下的诊断决策也有差异,必然导致临床上不能保证稳定的高水平医疗专家 队伍和良好的医疗设备,而对于大量已确诊的病例有待更好的利用。为了更好 的对糖尿病及其并发症进行诊断和治疗,本文探索性地进行了粗糙集理论在糖 尿病诊断分析中的应用研究,在实验上达到了辅助临床医生对糖尿病并发症诊 断的效果。 第1 章绪论 1 2 国内外的研究历史、现状及发展趋势 1 2 1 粗糙集研究的发展历史 粗糙集理论【3 j 是由波兰科学家z p a w l a k 在1 9 8 2 年提出的一种新型的处 理模糊和不确定的数学工具。 1 9 9 1 年波兰p a w l a k 教授的第一本关于粗糙集的专著1 4 j 和1 9 9 2 年 r s l o w i n s k i 主编的关于粗糙集应用及其与相关方法比较研究论文集1 5 j 的出版, 推动了国际上对粗糙集理论与应用的深入研究。 1 9 9 2 年在波兰召开了第一届国际粗糙集讨论会,这次会议着重讨论了集合 近似定义的基本思想及其应用,其中粗糙集环境下机器学习的基础研究是这次 会议的四个专题之一。 1 9 9 3 年在加拿大召开了第二届国际粗糙集与知识发现( r s d 9 3 、) 研讨会。其 主题是粗糙集、模糊集与知识发现,这次会议极大地推动了国际上对粗糙集理 论与应用的研究。 1 9 9 4 年在美国召开了第三届国际粗糙集与软计算研讨会,这次会议广泛探 讨了粗糙集与模糊逻辑、神经网络、进化论等融合问题。粗糙集理论及应用的 几位主要倡导者,在1 9 9 5 年第1 1 期a c m 通讯上撰文,概括性地介绍了目前人 工智能应用新技术之一的粗糙集理论的基本概念,及其在知识获取和机器学习、 决策分析、知识发现等领域的具体研究项目和进展。 1 9 9 5 年召开了第四届模糊理论与技术国际研讨会,在这次会议上,针对粗 糙集与模糊集合的基本观点与相互关系展开了激烈的讨论,较大地促进了粗糙 集的研究。 1 9 9 6 年在日本东京召开了第五届国际粗糙集研讨会,1 9 9 9 年1 1 月在日本、 2 0 0 0 年1 0 月在加拿大又分别召开了第一届和第二届“粗糙集和计算的当前趋势” 学术会议,来自波兰、美国、加拿大、日本、挪威、俄罗斯、乌克兰和印度等 国家的研究人员参加了会议,会议阐述了当前粗糙集、模糊集的研究现状和发 展趋势,指出将着重在软计算、数据库、a i 和近似推理等理论和应用方面发展。 总之,国际上自1 9 9 2 年以来每年召开以r o u g h 集理论为主题的国际会议( 即 r s c t c 、r s f d g r c 和r s k t 等系列国际学术会议) ,成立了国际r o u g h 集学会 ( i r s s ) ,出版了以r o u g h 集为主题的国际期刊l n c st r a n s a c t i o n so nr o u g hs e t s , 这些都加速了r o u g h 集理论的发展与交流。 2 第1 章绪论 在我国,对r o u g h 集理论的研究起步于上世纪9 0 年代,迄今为止已经取得 了一系列重要研究成果,成为国际上一支不可忽视的研究力量。2 0 0 3 年成立了 中国人工智能学会粗糙集与软计算专业委员会( c r s s c ) 。自2 0 0 1 年以来,已 分别在重庆、苏州、舟山、鞍山、金华、太原、新乡等地成功举办了八届粗糙 集与软计算全国学术会议。2 0 0 3 年,在重庆成功召开了t h e9 t hi n t e r n a t i o n a l c o n f e r e n c eo nr o u g hs e t s ,f u z z ys e t s ,d a t am i n i n ga n dg r a n u l a rc o m p u t i n g ( r s f d g r c 2 0 0 3 ) 。2 0 0 6 年,由中国人工智能学会粗糙集与软计算专业委员会和 国际r o u g h 集学会共同主办的t h e1 s ti n t e r n a t i o n a lc o n f e r e n c eo nr o u g hs e t sa n d k n o w l e d g et e c h n o l o g y ( r s k t 2 0 0 6 ) 在重庆成功召开。2 0 0 8 年,在重庆召开了2 0 0 8 i n t e r n a t i o n a lf o r u mo nk n o w l e d g e ( i f k t 2 0 0 8 ) ,t h e3 r di n t e r n a t i o n a lc o n f e r e n c eo n r o u g hs e t sa n dk n o w l e d g et e c h n o l o g y ( r s k t 2 0 0 8 ) 由于会前四li 汶川发生了大 地震,改为网络会议。2 0 0 8 年8 月2 6 日至2 8 日在中国杭州举行了t h e2 0 0 8i e e e i n t e r n a t i o n a lc o n f e r e n c eo ng r a n u l a rc o m p u t i n g ( g r c2 0 0 8 ) ,来自世界各地的专家学 者介绍各自的研究成果、遇到的问题和展望,特别是2 6 日晚还专门举行了一次 关于人工智能、粒计算以及粗糙集研究和发展的交流讨论会,t y l i n 、n i n g z h o n g 、张钹、刘清、王国胤等专家学者在会上纷纷就此展开讨论和发表意见, 就当前的发展状况以及今后的发展提出了许多引领性和建设性纲要。这些国际、 国内学术会议极大的推动了r o u g h 集的交流、研究、发展和应用。 1 2 1 1 粗糙集研究的理论成果 经过2 0 余年的发展,r o u g h 集理论无论是在理论上,还是在应用上,都取 得了一系列的研究成果。在我国,西安交大的张文修教授对粗集理论【6 l 和概念格 理论【7 】都有深入探讨、重庆邮电的王国胤教授【8 1 、南昌大学的刘清教授【9 】9 先后出 版专著来介绍粗集,使得对粗集的研究成为学者们普遍重视和高度关注的热点。 山东大学的史开泉教授提出的s 粗集【1 0 】和函数s 粗集【1 1 】的概念,以及近几年来 的有关奇异粗集研究成果,对经典的p a w l a k 粗集的概念进行了扩展,将对粗集 的研究从静态过程延拓到动态过程,在国内外引起高度关注,也为将动态粗集 理论运用到多属性决策中提供了理论上的依据和支持。与此同时,也孕育了许 多关于粗糙集的刊物,从而收录并展示了许多研究成果。 3 第l 章绪论 l 212 粗糙集研究的应用成果 在应用上,r o u g h 集理论与f u z z y 集、演化算法、神经网络等软计算理论 和方法已在机器学习、决策分析、近似推理、图像处理、专家系统、过程控制、 冲突分析、数据库知识发现、医疗诊断、金融数据分析等领域得到了成功应用。 比如: ( 1 ) 在数据库知识发现方面【1 2 - 1 4 】:k d d 是当前人工智能和数据库技术交叉 学科的研究热点之一。粗糙集方法己成为k d d 的一种重要方法,其导出的知识 精练且更便于存储和使用,与其它知识发现方法比较,粗糙集方法有如下特点: 粗糙集方法的伸缩性强;鲁棒性和抗噪音能力强;知识的可理解性和开放性较 好;比较适合于符号信息。此外,粗糙集方法可以对数据进行预处理,去掉多 余属性,可提高发现效率,降低错误率。 ( 2 ) 在模式识别方面【1 5 1 7 】:粗糙集理论可用在模式识别的特征选取中,选择 那些确实能表征该模式的特征项。 ( 3 ) 在医疗诊断方面【1 8 1 9 】:粗糙集方法根据以往的病例归纳出是否得病的决 策规则,并用这些决策规则来诊断新的病例。 ( 4 ) 在人工神经元网络应用方面 2 0 - 2 2 】:训练时间过于漫长的固有缺点是制约 人工神经元网络实用化的因素之一。应用粗糙集理论化简神经网络训练样本数 据集,在保留重要信息的前提下消除了多余的数据,可使训练速度提高许多倍, 获得了较好的效果。 ( 5 ) 在粗糙控制方面【2 3 】:粗糙集根据观测数据获得控制策略的方法被称为从 范例中学习,属于智能控制的范畴。基本步骤是:把控制过程中一些代表性的状 态以及操作人员在这些状态下所采取的控制策略都记录下来,形成决策表,然 后对其分析和约简,总结出控制规则。 ( 6 ) 在决策分析方面1 2 4 乏5 】:粗糙集的决策规则是在分析以往经验数据的基础 上得到的。粗糙集允许决策对象中存在一些不太明确、不太完整的属性,弥补 了常规决策方法的不足。 除此之外,还有图像处理【2 6 。2 8 】,、故障诊断【2 9 - 3 0 1 等等。 虽然粗糙集理论至今只有二十几年的发展历史,但取得的研究成果是令人 瞩目的,它是一种非常有前途的软计算方法,为处理不确定信息提供了强有力 的分析手段,具有广阔的方展空间,今后将会在更多的实际的领域中发挥作用。 4 第1 章绪论 1 2 1 3 基于粗糙集研究的相关软件 目前已经产生了许多基于粗糙集方法的系统,其中最具代表性的有: ( 1 ) 基于粗糙集的l e r s ( l e a r n i n gf r o me x a m p l e sb a s e do nr o u g hs e t ) 是美国k a n s a s 大学开发的基于粗糙集的实例学习系统【3 。 ( 2 ) r o s e ( r o u g hs e td a t ae x p l o r e r ) 是由波兰p o z n a n 科技大学开发用于 决策分析的1 3 2 j 。 ( 3 ) l d r 是加拿大r e g i n a 大学开发的基于可变精度粗糙集模型的 k d d 系统1 3 3 j 。 ( 4 ) 挪威t r o l ld a t a 公司开发的r o u g h - - e n o u g h 。 ( 5 ) r o s e t t a 是挪威科技大学计算机与信息科学系和波兰华沙大学研究所 合作开发的一个基于粗糙集理论框架的表格逻辑数据分析工具包。 ( 6 ) d a t al o g i c r 是加拿大r e d u c t & l o b b e 有限公司现在的代表产品。 除了上述代表性的软件以外,还有一些在粗糙集领域很有名的软件:g r o b i a n 软件( 用c + + 写成的基于粗糙集理论的数据分析软件) ;p r i m e r o s e 软件( 基 于粗糙集的概率规则归纳方法) ;p r o b r o u g h 软件( 从数据中归纳除决策规则的 系统) ;r o u g hf a m i l y ( 基于粗糙集方法和规则挖掘技术基本功能的实现程序组) 等等。 1 2 2 粗糙集的研究现状及发展趋势 当前,对粗糙集理论的研究主要集中在:粗糙集的算法研究,粗糙集的模型 推广,问题的不确定性的研究,与其他处理不确定性、模糊性问题的数学理论 的关系与互补,纯粹的数学理论方面的研究,和人工智能其他方向关系的研究, 以及在应用上的突破等。 ( 1 ) 粗糙集模型的拓展 粗糙集理论在应用于数据分析时,会遇到噪声、数据不齐、海量数据等一 系列经典理论解决不够理想的问题,且粗糙集的运算是建立在等价关系的基础 之上,需要满足自反、对称和传递三种性质,但在实际过程中传递性的条件很 难得到满足,因此研究者在传统粗糙集模型的基础上进行了扩充。拓展方法主 要有构造性方法和代数性方法【矧:代数性方法是基于粗糙集代数系统的算子, 利用拓扑学的观点研究近似算子对某些公理的适应程度,研究的范围大多是经 典的集合论、公理与二元等价关系相对应,后来y y y a o 在总结p a w l a k 粗糙 5 第1 章绪论 集代数系统理论的基础上将其拓展到一般意义下的粗糙集系统,建立了粗糙集 代数空间与拓扑空间的映射关系,完善了近似算子的代数结构,其理论性较强, 实际应用还不多见。 构造性方法的研究较为普遍,主要以论域的二元关系和布尔代数为要素, 导出粗糙集代数系统,其拓展方向主要包括论域方向拓展、关系推广及近似空 间的延拓。 ( 2 ) 不确定性i 口- j 题的理论研究【3 5 1 粗糙集理论中知识的不确定性主要由两个原因产生的:一个原因是直接来 自于论域上的二元关系及其产生的知识模块,即近似空间本身,如果二元等价 关系产生的划分越粗,每一个知识模块越大,知识库中的知识越粗糙,相对于 近似空间的概念和知识就越不确定,这时处理知识的不确定性的方法往往用香 农信息熵来刻画。知识的粗糙性与信息熵的关系比较密切,知识的粗糙性实质 上是其所含信息多少的更深层次的刻画。 粗糙集理论中知识不确定性的另一个原因来自于给定论域里粗糙近似的边 界,当边界为空时知识是完全确定的,边界越大知识就越粗糙或越模糊。寻求 一个合适的度量来刻画知识的不确定性也是粗糙集理论研究的一个重要方向。 ( 3 ) 与其他处理不确定性方法的理论研究 ( a ) 粗糙集与概率统计 在信息系统中,知识库的知识的类型一般有两类:一类库中所有对象的描述 是完全已知的,p a w l a k 粗糙集模型和一般二元关系下的粗糙集模型就是属于这 一种:另一类库中的对象的描述只有部分是己知的,即知识库中的知识是不确 定的,它只能通过训练样本所提供的信息来刻画概念。为了使从训练样本获得 的规则符合整个论域的对象,在抽取样本时应符合统计规律性,粗糙集理论不 管这一类工作,因此概率统计作为研究自然界,人类社会及技术过程中大量随 机现象的规律性的一门学科,它与粗糙集理论的结合就显得非常自然。 ( b ) 粗糙集与证据理论 粗糙集理论中的下近似和上近似的概念分别与d s 证据理论中信任函数 和似然函数定义等价,然而生成信任函数和似然函数的基本概率分配函数方法 是不同的,粗糙集来自于系统本身的数据,比较客观,而d s 证据理论来自于 专家的经验,带有很强的主观性。粗糙集理论与d s 证据理论有很强的互补性。 ( c ) 粗糙集与模糊集 6 第l 章绪论 模糊集理论是采用隶属度函数来处理模糊性,而基本的隶属度是凭经验或 由领域专家所给出,所以具有相当的主观性,而粗糙集理论则采用概念的上、 下近似来处理模糊性,从给定的数据中导出类似的隶属函数,称为粗糙隶属函 数,显然,粗糙隶属函数是完全由数据决定的,所以更具有客观性。鉴于粗糙 集理论和模糊集理论之间的互补性,有人已经提出模糊粗糙集和粗糙模糊集。 ( d ) 粗糙集与神经网络 粗糙集与神经网络的融合。粗糙集对噪声较敏感且抗干扰能力比较差,而 神经网络具有较好的抑制噪声干扰的能力和高度的自学习、自组织、容错性和 分布处理能力;神经网络对输入信息空间维数较大的网络结构复杂,训练时间 较长,而粗糙集可以简化输入信息空间维数。所以,将二者进行优势互补是必 要的。一种是通过交换修改决策模型,产生最小决策推理网络。粗糙集将训练 集按先简化规则、后简化属性进行处理,同时,神经网络对每个训练集调整决 策规则的依赖因素。决策方案的修正是通过神经网络学习和粗糙集学习之问的 交换进行的,直到粗糙集学习选出较少属性构成的决策规则能全部正确划分所 有的训练集样本为止。另一种是先用粗糙集方法对信息进行预处理,减少信息 表达的属性数量,再进行神经网络的分类,这样抑制噪声能力强、分类精度高, 有利于提高学习效纠3 6 1 ( e ) 粗糙集和粒计算 粗糙集和粒计算理论都是在分类的基础上对信息进行分析的工具,二者具 有互补性。粗糙集在等价关系下对对象集合进行分类,对分类的集合再进行知 识约简,导出问题决策或分类规则。粒计算将对象以粒为单位进行分析,信息 粒的概念也是一种分类,导致对论域的划分或覆盖。这两种理论本质上有相似 之处。粗糙集理论的很多应用都可以看作关于粒进行计算和推理的具体体现。 ( 4 ) 算法研究 约简算法 约简是粗糙集用于数据分析的重要概念。约简包括两个方面:属性约简和 值约简。然而对于一个信息系统来说,找出其所有约简或最小约简都己经证明 是n p h a r d 问题。故一般采用启发式信息找出最优或次优约简。 ( b ) 导出规则的增量式算法 原有的算法是在固定的数据集上进行的。当有新的数据增加到数据集时, 若用原有的算法导出规则是相当麻烦的。增量式算法是对原有规则进行修正, 7 第1 章绪论 从而得出关于新数据集的规则的方法。 ( c ) 粗糙集基本运算的并行算法 粗糙集的基本性质决定,它的很多基本运算可以并行计算。文献1 3 ”采用基于 格形数组的s i m d 计算机的形式,提出了实现粗糙集理论中诸如可定义性、不 可区分性、及上、下近似这些基本运算的并行计算结构。 岱) 属性值的离散化 粗糙集只能处理离散化的属性,而现实中存在的数据一般具有连续型的属 性,因此,连续属性的离散化是制约粗集理论实用化的难点之一。这个问题一 直是人工智能界关注的焦点。连续属性离散化的根本出发点,是在尽量减少决 策表信息损失的前提下( 保持决策表不同类对象的可分辨关系) ,得到简化和浓 缩的决策表,以便用粗集理论分析,获得决策所需要的知识。 ( 6 ) 粗糙集w e b 知识发现问题的研究 随着网络技术的飞速发展,i n t e r n e t 已经成为一个庞大的、分布的、异构的 数据库和应用计算平台,发展相关的理论和技术以有效处理与w e b 相关的问题, 已经成为一个新的研究热点。利用粗糙集理论进行w e b 相关的问题处理是其中 一个重要方向。 ( 7 ) 粗糙集的其它应用研究 主要包括基于数据仓库( 数据库) 的粗糙规则发现、基于粗糙集的数据分类和 数据聚类方法、基于粗糙集的关联规则以及单变量或多变量决策方法的研究【3 8 】 世 气手。 在2 0 0 8 年g r c 会上,t y l i n ,n i n gz h o n g ,张钹,刘清等专家学者提出理论研 究的同时,要在实际应用上有所突破,进一步推动粗糙集理论的研究和发展, 以及带动科技进步和为社会服务。 1 3 基于粗糙集理论的知识发现过程 典型的基于粗糙集理论的知识发现过程般包括数据采集、预处理、数据 约简、决策规则生成、分类、预测等步骤。数据采集将原始数据转换成粗糙集 可以理解的信息系统和决策表的形式,这依赖于原始数据的存储格式。 数据预处理对不完整的数据作必要的补充,同时对连续信号进行离散化。 数据约简是最关键的步骤之一,是粗糙集理论用于数据分析的重要部分。 8 第1 章绪论 规则生成是根据属性和属性值的约简结果,或采取其它不同的规则生成方 法,产生相应的决策规则。 决策分类是对未知对象的分类过程。由于新对象来源于训练集之外,所以 可能出现规则集合未曾考虑的情况,这种情况下,选择一条最接近的规则进行 分类i 如有必要,选择最接近的几条规则作为分类,给出参考结果。 1 4 论文所做工作及意义 人类发展到今天,人们对身体健康的愿望越来越高,对生活品质的要求也 越来越高。可是,对于威胁人类的几大疾病诊疗水平极其有限,包括糖尿病及 其并发症。这此疾病给人类造成了极大的痛苦和沉重的负担。为了能早期发现, 早期治疗,本文对粗糙集理论在糖尿病诊断分析中作了一系列研究,并开发了 一个辅助诊断系统,经实验表明,所提出的规则提取方法是可行有效的,所开 发的诊断系统具有很好的应用价值。 根据论文研究的目的,本人主要做了以下工作: ( i ) 介绍了粗糙集理论当前的发展现状、发展趋势和知识发现过程。 ( 2 ) 介绍了粗糙集理论的部分基本概念。 ( 3 ) 对糖尿病合并症确诊病例数据采集及前期处理。数据采集是通过确诊 的典型病例进行分析,和医学专家共同完成的;前期处理是对数据进行信息表 的建立,并进行了约简。 ( 4 ) 提出了粗糙包含法、粗糙排斥法以及粗糙对比法三种方法用于糖尿病 诊断规则的提取,都是按照医学专家诊断思维提取规则方法,实验结果表明, 其正确率都可达到9 7 6 。 ( 5 ) 提出了容假度匹配法,用于糖尿病诊断过程中的规则匹配。此方法充 分考虑了医学上假阳性或假阴性对诊断的影响,考虑了医生对诊断结果的需求, 考虑了糖尿病合并症的共性和异性、以及糖尿病的多种合并症的并发性可能等 因素。此方法是按照临床医学实际情况和医学专家诊断思维提出的,实验结果 表明,能在一定程度上减少漏误诊。 ( 6 ) 提出了一整套从采集数据、提取规则、规则匹配等,到辅助临床医生 诊断的模式。 ( 7 ) 在以上基础上,开发了一个基于粗糙集理论的辅助糖尿病诊断的系统。 9 第1 章绪论 基于以上内容,本文工作的意义: ( 1 ) 学术价值和理论意义 本文按照医学专家诊断思维,对于粗糙集用于糖尿病诊断分析是一种探索, 研究提出了一整套提取规则、匹配规则、诊断模式等理论,并成功开发了一套 辅助诊断系统。这对于粗糙集理论用于医学诊断上,具有一定的学术价值和理 论意义。 ( 2 ) 社会、经济发展和科技进步的意义 辅助实习医生、经验不是很丰富的医生以及医疗水平欠发达地区医生的诊 断决策,减少糖尿病的漏误诊;为糖尿病人及时诊断与治疗,减轻病人痛苦, 挽救生命,提高糖尿病人生活质量以及减轻社会负担等都具有非常积极的意义。 另外,使用粗糙集理论深入医学领域,带动科技创新和进步具有积极意义。 1 5 论文内容组织与结构 本文的内容组织与结构: ( 1 ) 第1 章为绪论部分,简要介绍了研究背景、粗糙集理论的发展现状及 发展趋势、粗糙集理论知识发现过程、论文所作的工作和意义、论文内容组织 与结构。 ( 2 ) 第2 章为粗糙集基本理论部分,简要介绍了规则提取所需的最基础部 分,包括:集合论、知识与知识库、信息系统、不可分辨关系、上近似和下近 似、属性约简等概念。 ( 3 ) 第3 章为糖尿病合并症确诊病例数据采集及前期处理部分,介绍了如 何对糖尿病合并症确诊病例数据进行采集和前期处理,为训练和测试做准备。 ( 4 ) 第4 章为基于粗糙集理论的规则提取研究部分,本章针对医学诊断这 一特殊领域,以及疾病大都存在典型特征或能典型特征化这一特点,以及各疾 病之间存在或多或少的共性及排它性这一现象,提出了基于粗糙包含法、粗糙 排斥法和粗糙对比法三种方法用于糖尿病合并症的规则提取。 总结其提取过程,可归纳为:分析确诊病例数据,形成初始信息表,对属 性进行离散化,然后用粗糙集理论对属性进行约简,去掉冗余属性,得到最简 决策表,再借助覆盖、可能性规则等进行典型症状化,最后采用本文提出的三 种方法进行规则提取。 1 0 第1 章绪论 ( 5 ) 第5 章为基于粗糙集理论的规则匹配研究部分,本章简要介绍了粗糙 集理论匹配规则的研究现状和常用方法,以及各自的优缺点,在此基础上提出 了容假度匹配法这种按照医学专家思维进行匹配的模式,能根据临床医生的需 要,给出适当的匹配结果,供参考使用。 ( 6 ) 第6 章为基于粗糙集理论的糖尿病合并症辅助诊断系统设计部分,设 计了基于粗糙集理论的糖尿病合并症辅助诊断通用模式,并开发了基于粗糙集 理论的糖尿病合并症辅助诊断系统,且对粗糙集理论在糖尿病诊断中的应用进 行了分析,前面介绍的内容也得到了迸一步验证。 ( 7 ) 第7 章为结语部分,对本文工作进行总结,以及对今后进一步工作和 展望。 图1 1 论文内容组织结构 第1 章绪论 1 6 本章小结 首先介绍了研究背景,再简要介绍了粗糙集的发展现状、发展趋势以及知 识发现过程,论文所做工作及意义,论文内容组织与结构。 1 2 第2 章粗糙集的基本理论 第2 章粗糙集的基本理论 2 1 集合论基本概念及定义 粗糙集理论是由经典集合理论发展而来的,在讨论粗糙集理论之前,首先 介绍一下经典集合理论的一些基本概念及定义。 定义2 1 集合:按照某一目的或特点,将被研究对象组合在一起形成的整 体,就叫做集合。集合中的每一个对象称为集合的一个元素。 定义2 2 论域u :在对现实问题进行处理时,局限在某一个特定区域范围 之内的现实个体或称元素、对象、样本所构成的非空有限集合,称为论域,记 为u 。 定义2 3 有序对:设有集合彳和b ,a 4 ,6 b ,则称 ,易) 为有序对。 有序对与顺序有关,0 ,6 ) 和p ,口) 是两个不同的有序对。当彳和曰是同一个集合 时,有序对中的两个元素来自同一个集合。 定义2 4 笛卡儿积:集合么、召的笛卡尔积a 曰,是二元组集合 ( 口,b ) i a 彳a b e b 。 定义2 5 二元关系:集合a 、b 的笛卡尔积a b 的子集叫做a 到b 的一个 二元关系尺。 对于集合a 和j 5 f 之间存在二元关系r ,ae a ,be b ,通常记为:a r b 。当 彳和曰是同一个集合时,就称为集合彳上的一个关系尺。由此看出,二元关系尺 是一个集合。除了二元关系外,还有三元关系、四元关系等,其中二元关系最 为重要,在不作特别说明的情况下,关系通常是指的是二元关系。 定义2 6 关系的性质:设尺是a 上的二元关系,则: ( 1 ) 自反性:如果a 中的每一个元素x 与其自身之间都有关系尺,记为x r x , 则称r 是自反的; ( 2 ) 对称性:如果a 中的任意元素x 和y ,都有x r y 蕴涵着y r x ,则称尺是 对称的; ( 3 ) 传递性:如果爿中的任意元素x 、y 、z ,有x r y 且y r z 蕴涵着x r z ,则 称尺是传递的。 根据集合的基本概念和集合之间的关系及特性,我们可以得到以下比较重 1 3 第2 章粗糙集的基本理论 要的概念。 定义2 7 等价关系:如果集合a 上的关系尺是自反的、对称的和传递的, 则称r 是等价关系。 定义2 8 等价类:所有与元素a 具有等价关系尺的元素构成的集合,称为a 所生成的等价类,记为【口】r ,即:【口k = x l x a ,g ( a ,x ) r 。 对于同一个集合a 上的等价关系,显然存在性质:对于v a ,e a ,或者相等, 【a i k _ 【a f 】凡,且f ,;或者交集为空,当u a ,】r = u ,f _ 时,【a i 】rn am = 币。 2 2 粗糙集理论基础 2 2 1 知识与知识库 本章节对粗糙集理论基础【8 】作简单介绍,知识是一个普遍而抽象的概念,很 难有一个确切的定义。一般认为,知识是人类通过实践认识到的客观世界的规 律性,是人类实践经验的总结和提炼,属于认识论范畴的概念,一般可分为说 明性知识、过程性知识和控制性知识。说明性知识提供概念和事实,过程性知 识用规则表示问题,控制性知识则用控制策略表示问题。任何知识都是对现实 世界客观个体和事物运动状态及变化规律的概括性描述和分类。 粗糙集理论认为知识是对被研究的对象进行分类的能力。从认知科学的一 些观点来看,知识源于人类及其它物种的分类能力。每个物种的都具有利用不 同的感觉信号对不同情况进行分类的基本机能。更抽象层次上的分类是推理、 学习、决策的关键,是一种基础知识。因此,任何个物种都是由一些知识来 描述的,根据这些知识可以把它们分类。说明性知识可以认为是对显示世界客 观个体的描述,即是区分客观个体的知识;过程性知识实际上是通过利用说明 性知识对客观个体进行分类的知识;而控制性知识也是关于如何用过程性知识 实现对客观个体进行分类的知识,也可以认为是关于对过程性知识的分类。 粗糙集理论对知识及其相关概念的定义如下: 定义2 9 划分:对于论域中的一簇子集 墨,x :,以】- ,如果置u 且 x i 中,x ,m ,f _ ,u 2 。x f = u ,则称 墨,x :,x 。) 为【厂的一个划分。 定义2 1 0 知识:给定一组数据( 集合) u 和等价关系集合r ,在等价关系 集合尺下对数据集合【厂的划分,称为知识,记为u r 。 定义2 1 1 知识库:论域【,上的一簇划分称为关于【,的知识库。 1 4 第2 章粗糙集的基本理论 认知学观点基于概念、特征及上下文相关性来描述知识,对应论域u 上的 任何子集称为u 上的一个概念,知识就是指中u 的任何概念族。 2 。2 2 信息系统、不可分辨关系与粗糙集 定义2 1 2 信息系统:称四元组s = 缈,a ,v ,厂) 为信息系统,其中u 为论域, a 为属性集,v = v 矧屹,k 为属性ae a 的值域,为信息函数:v ae a ,x e u , 厂 ,口) 圪,即指定u 中每一个对象的属性值,:ux a _ y 。 定义2 1 3 决策系统:对于信息系统s = ,a ,v ,) ,如果a = cu d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 泸州市重点中学2026届高三化学第一学期期末达标检测试题含解析
- 情景交际公开课课件
- 人教版 2024 版历史八年级上册第二单元《早期现代化的初步探索和民族危机加剧》测试卷(附答案)
- 学校常态化疫情防控方案
- 恒丰银行反洗钱培训课件
- 小学语文第一单元的复习方案
- 2026届安徽省滁州西城区中学高一化学第一学期期末经典试题含解析
- 宣化叉车实操考试试题及答案
- 新安化工考试试题及答案
- 无领导面试题及答案
- 2025年3月医务工作者个人自传范文
- 2025年乡村全科助理医师考试题库及答案
- 钢管柱混凝土施工方案
- 2025小学《义务教育语文课程标准》(2022 年版)测试题库及答案【共3 套】
- 小学植物百科知识
- 循环水地下管道安装施工方案
- 预制板粘贴碳纤维加固计算表格
- 检验科生物安全风险评估报告
- 2024年08月北京中信银行北京分行社会招考(826)笔试历年参考题库附带答案详解
- 肾囊肿-护理查房
- 裁床岗位职责
评论
0/150
提交评论