




已阅读5页,还剩60页未读, 继续免费阅读
(计算机软件与理论专业论文)数据挖掘在医保系统中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要随着计算机技术的不断发展,计算机管理已经逐渐步入各个行业,而职工福利待遇体系中十分重要的医疗保险行业则更为迫切的需要借助计算机对繁杂的日常事务进行处理。本文中提到的医疗保险系统就是计算机技术在医疗保险行业的一次应用,并且将模糊数据挖掘应用到该系统中,也是数据挖掘技术在医疗保险领域应用的一次尝试。数据挖掘,就是从大型数据库的数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的潜在有用信息,提取的知识表示为概念、规则、规律、模式等形式。这些知识可以直接提供给决策者,用以辅助决策过程;或者提供给领域专家,修正专家已有的知识体系;也可以作为新的知识转存到应用系统的知识存储机构中。模糊数据挖掘技术是在利用原有数据挖掘技术的同时,与模糊理论相结合,以期从大量数据中发现更为广泛的内容,其挖掘结果将会使用户更容易理解。本文分析了数据挖掘和模糊数据挖掘的相关概念和技术,开发设计了b s ( 浏览器服务器) 架构的医疗保险系统,给出了系统的总体设计和一个模块的详细设计。在此基础上尝试使用模糊数据挖掘技术进行医疗保险子系统的划分,给出划分结果。最后,展示了所开发医保系统的运行界面。本系统现在已经在临江市医保中心正式运行,运行效果良好。关键词:医疗保险数据挖掘模糊数据挖掘模糊聚类a b s t r a c tw i t ht h ec o n t i n u o u s l yd e v e l o p i n go ft h ec o m p u t e rt e c h n o l o g y , t h ec o m p u t e rm a n a g e m e n th a sg r a d u a l l ys t e p p e di n t ov a r i o u si n d u s t r i e s i tb e c o m e sm o r ea n dm o r eu r g e n t l yt od e a lw i t ht h em u l t i f a r i o u sd a i l ya f f a i r si nt h em e d i c a lt r e a t m e n ti n s u r a n c ei n d u s t r yb yc o m p u t e r t h em e d i c a lt r e a t m e n ti n s u r a n c es y s t e mm e n t i o n e di n t h i sp a p e ri sa na p p l i c a t i o no fc o m p u t e rt e c h n o l o g yi nt h em e d i c a lt r e a t m e n t i n s u r a n c ei n d u s t r y ;t h ea p p l i c a t i o no ft h ef u z z yd a t am i n i n gi nt h es y s t e mi sa l s oat e n t a t i v ea p p l i c a t i o no ft h ef u z z yd a t am i n i n gt e c h n o l o g yi nt h em e d i c a lt r e a t m e n ti n s u r a n c ef i e l d d a t am i n i n gi sap r o c e s si nw h i c hp e o p l ep i c ku pi n f o r m a t i o nt h a tp e o p l ei n t e r e s t e di nf r o mt h el a r g e s c a l ed a t a b a s e t h ei n f o r m a t i o ni sc o n n o t a t i v e ,u n k n o w n ,p o t e n t i a l ,h e l p f u la n dd e n o t e da sc o n c e p t s ,r e g u l a r i t i e s p a t t e r n sa n ds oo n t h ei n f o r m a t i o nc o u l db es u p p l i e dt ot h ed e c i s i o n m a k e rd i r e c t l yi nt h ea s s i s t a n td e c i s i o n m a k i n gp r o c e s s i tc o u l db es u p p l i e dt ot h ef i e l de x p e l st om o d i f yt h ei n f o r m a t i o ns y s t e ma n di tc o u l da l s ob es t o r e di nt h ei n f o r i l l a t i o ns t o r a g ei n s t i t u t ea sn e wi n f o r m a t i o n f u z z yd a t am i n i n gt e c h n o l o g yu t i l i z et h ed a t em i n i n gt e c h n o l o g ye x i s t e db e f o r ea n dc o m b i n ew i t ht h ef u z z yt h e o r yi no r d e rt od i s c o v e rb r o a d e rc o n t e n tf r o mt h el a r g en u m b e r so fd a t ea n di t sm i n i n gr e s u l t sc o u l db em o r ec o m p r e h e n s i v ef o r t h ec o n s u m e r s t h ec o r r e l a t i v ec o n c e p t i o n t h et e c h n o l o g yo ft h ed a t am i n i n ga n dt h ef u z z yd a t am i n i n ga r ea n a l y z i e d t h eb ss t r u c t u r eo ft h em e d i c a lt r e a m e n ti n s u r a n c es y s t e mi sd e s i g n e d a n dt h eg e n e r a ld e s i g na n dt h ed e t a i l e dd e s i g no fam o d u l ei nt h es y s t e ma r em e n t i o n e di nt h i sp a p e r w ea l s ot r yt oa p p l yt h ef u z z yd a t am i n i n gt e c h n o l o g yt ot h ep a r t i t i o no ft h em e d i c a lt r e a t m e n ts u b s y s t e ma n ds h o wt h er e s u l t sa n dt h er u ni n t e r f a c eo ft h em e d i c a lt r e a t m e n ti n s u r a n c es y s t e md e v e l o p e df i n a l l y t h es y s t e mh a sb e e nr u ni nd u ef o r mi nt h el i n ii a n gm e d i c a lt r e a t m e n ti n s u r a n c ec e n t e ra n dt h ea p p l i c a t i o ne f f e c ti so fs u c c e s s k e yw o r d s :m e d i c a lt r e a t m e n ti n s u r a n c ed a t am i n i n gf u z z yd a t am i n i n gf u z z yc l u s t e r i n g长春理工大学硕士学位论文原创性声明本人郑重声明:所呈交的硕士学位论文,数据挖掘在医保系统中的应用是本人在指导教师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。七,作者签名:翅l j年月日作者签名:型7 、jj年月日长春理工大学学位论文版权使用授权书本学位论文作者及指导教师完全了解“长春理工大学硕士、博士学位论文版权使用规定 ,同意长春理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权长春理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。,卜作者签名:型到年一月一日作者签名:匀剑j年月日指导导师签名:磁年一月一日第一章绪论1 1 医疗保险系统简介我国五十年代初建立的公费医疗和劳保医疗统称为职工医疗保险。它是国家社会保障制度的重要组成部分,也是社会保险的重要项目之一口医疗保险具有社会保险的强制性、互济性、社会性等基本特征。因此,医疗保险制度通常由国家立法,强制实施,建立基金制度,费用由用人单位和个人共同缴纳,医疗保险费由医疗保险机构支付,以解决劳动者因患病或受伤害带来的医疗风险。医疗保险就是当人们生病或受到伤害后,由国家或社会给予的一种物质帮助,即提供医疗服务或经济补偿的一种社会保障制度i l j 。我国的医疗保险实施四十多年来在保障职工身体健康和维护社会稳定等方面发挥了积极的作用。但是,随着社会主义市场经济体制的确立和国有企业改革的不断深化,这种制度已难以解决市场经济条件下的职工基本医疗保障问题。加速实现我国社会保险制度的改革是建立社会主义市场经济体制的迫切需要,它己成为我国的重大国策之。目前,我国社会保险制度改革在全国范围己逐步展开,为了落实此项涉及国计民生的重大国策,迫切需要一种能与之相适应的技术手段和工具来完成,特别是在制定各种医疗保险政策及整个医疗保险的信息管理等方面,需要有先进的技术和应用成果支持。为了满足社会保险管理运作程序的现代化和社会保险管理的信息化要求,对社会保险进行计算机管理便成为必然。本论文所提到的医疗保险信息管理系统就是为了有效对医疗保险业务进行管理而开发的。1 2 医疗保险管理系统目前发展状况早期的医疗保险管理系统大多采用的是c s 结构( e l i e n t s e r v e r一客户端服务器) ,本论文中提到的医疗保险管理系统采用的是基于w e b 的b s 结构( b r o w s e r s e r v e r 一浏览器服务器) ,并且将模糊数据挖掘的方法应用于医疗保险系统开发。用户界面将全部使用浏览器中呈现的w e b 页面,用户根据w e b 页面信息,从浏览器向服务器提交服务请求,这些请求包括对数据库的查询、修改、插入等,服务器端负责对请求进行处理,并将处理结果通过网络返回浏览器端。通过一个浏览器可以访问多个应用服务器,形成点到多点、多点到多点的结构模式。使用b r o w s e r 与某一台主机或系统进行连接,并不需要更换软件,或是再启动另一套程序。所以用户界面具备友好性和一致性,易于操作。而开发人员也只需将注意力集中于w e b 服务器与数据库服务器端后台的应用,省去了客户端前台交互界面软件的开发,节省了开发费用和时间。由于开发环境独立于用户的前台应用环境,提高了系统应用的跨平台性,也便于用户浏览器群的扩展、变化,以及应用系统的管理和软件的安装、升级【2 】。1 3 本文研究的主要工作医疗保险管理系统是为医院、定点医疗机构、参保病人服务的信息系统,根据医疗保险流程,整个信息系统包含了众多的子系统:基础档案系统、医疗监督系统、门诊系统,住院系统、医院医保办理系统、药店系统、财务系统、查询系统组成,而且各个子系统间有着复杂的协作关系。本论文就是应用模糊聚类分析的方法来优化医疗保险系统,以便于系统的开发。本文主要的研究内容涉及以下几个方面:1 研究数据挖掘技术、模糊数据挖掘技术以及相关的模糊理论。2 研究模糊聚类方法进而得出其实用程序,把模糊聚类方法和各种常用的聚类方法进行比较。3 部分基本医疗保险模块、部分工伤保险模块、全部生育保险模块的需求调研、模块设计、编码与测试工作以及后期验收时的报表整理工作。4 基于模糊聚类方法的研究,在实际的医疗保险系统中将其应用,对医疗保险管理系统复杂的子系统进行划分与合并,从而提高软件开发的效率,减少不必要的开销。2第二章数据挖掘与模糊理论本章从数据挖掘和模糊数据挖掘的相关知识出发,引出模糊数据挖掘以及基于模糊等价关系的聚类分析。模糊数据挖掘技术是在利用原有数据挖掘技术的同时,与模糊理论相结合,以期从大量数据中发现更为有价值的内容,其挖掘结果将会使用户更容易理解。由于现实生活中,数据之间的关系往往表现为模糊性,因此将模糊理论与数据挖掘技术的结合成为数据挖掘技术发展的必然,将模糊数学与数据挖掘技术相结合是一项非常有意义的工作。2 1 数据挖掘的概述2 1 数据挖掘英文是d a t am i n i n g ( 也可简写为d m ) ,中文又译作数据挖掘、数据采掘,还有的译成数据发掘。一种比较公认的数据挖掘定义是w j f r a w l e y ,g p i a t e t s k y 、s h a p i r o 等人提出的:数据挖掘,就是从大型数据库的数据中提取人们感兴趣的知识【3 】。这些知识是隐含的、事先未知的潜在有用信息,提取的知识表示为概念( c o n c e p t s ) 、规则( r u l e s ) 、规律( r e g u l a r i t i e s ) 、模式( p a t t e r n s ) 等形式。这种定义把数据挖掘的对象定义为数据库。而更广泛的说法是:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程,它主要基于a i 、机器学习、统计学等技术,高度自动化地分析企业( 单位) 原有的数据,做出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业( 单位) 的决策者调整策略,减少风险,做出正确的决策。作为分析型工具,联机分析处理( o l a p ) 和d m 在d w 系统中占有相当重要的地位,但它们的应用范围和侧重点是不同的,o l a p 是一种验证型的分析工具,而蹦是一种挖掘型的分析工具。这几类方法各有优缺点。对企业而言,针对自身产品的需求特点寻找合适的分析方法至关重要。2 1 2 数据挖掘的目的如前所述,数据挖掘的任务是从大量数据中发现知识。那么,这些知识是以何种形式表达出来? 又是怎样被利用的? 在传统的决策支持系统中,知识库中的知识和规则是由专家或程序人员建立的,是由外部输入的。而数据挖掘的任务是发现大量数据中尚未被发现的知识,是从系统内部自动获取知识的过程。数据挖掘发现的知识通常是用以下形3式表示【4 j :概念( c o n c e p t s ) 、规则( r u l e s ) 、规律( r e g u l a r i t i e s ) 、模式( p a t t e r n s ) 、约束( c o n s t r a i n t s ) 和可视化( v i s u a l i z a t i o n s ) 。这些知识可以直接提供给决策者,用以辅助决策过程;或者提供给领域专家,修正专家已有的知识体系;也可以作为新的知识转存到应用系统的知识存储机构中,比如专家系统( e x p e r ts y s t e m ) ,规则库( r u l eb a s e )等。2 1 3 数据挖掘的步骤数据挖掘的过程可以分为三个步骤归j 。1 数据准备本阶段又可进一步细分为两步:数据集成:数据选择和预分析。( 1 ) 数据集成:在这一步中,将从操作型环境中提取并集成数据,解决语义二义性问题,消除脏数据等等。很明显,数据集成的目的和所利用的技术与数据仓库的数据集成完全一致,都是为了建立统一的数据视图。数据挖掘不一定需要建立在数据仓库的基础上,但如果数据挖掘与数据仓库能协同工作,则必将大大地提高数据挖掘的工作效率,并且因为数据仓库的数据来源于整个企业( 单位) ,从而保证了数据挖掘中数据来源的广泛性和完整性,这样才不会漏掉任何与主题相关的信息。另外,为了保证结果的正确性,d m 需要大量的基础数据,数据仓库可以很好地满足这个要求。( 2 ) 数据选择和预分析:这一步将负责缩小数据范围,提高数据挖掘的质量,验证型工具对数据的深入观察和表述,在这一步中可以发挥相当的作用。2 数据挖掘数据挖掘器综合利用数据挖掘方法分析数据库中的数据。( 1 ) 先决定如何产生假设,是让数据挖掘系统为用户产生假设,还是用户自己对于数据库中可能包含的知识提出假设。前一种产生假设方法称为发现型( d i s c o v e r y d r i v e n ) 的数据挖掘,后一种产生假设方法称为验证型( v e r i f i c a t i o n d i y e n ) 的数据挖掘;( 2 ) 选择合适的工具;( 3 ) 发掘知识的操作;( 4 ) 证实发现的知识。3 结果表达和解释根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息区分出来,并且通过决策支持工具提交给决策者。因此,这一步骤的任务不仅仅是把结果表达出来( 例如采用信息可视化方法) ,还要对信4患迸纷邋滤楚理。4 评价如槊分析人员对分析结果不满意,可以递归地执行上述三个过程,直到满意为止。2 , 4 数据挖摇戆分类从不同的视角蒋,数据挖掘技术有几种分类方法:根据发现知识的种类;掇据挖掘的数据库的种类分类和根据采朋的技术分类。l 。缀撂发瑗翔浚豹耪类分类。这静分类方法有:慧终缓楚挖掘、特征飙剿挖掘、关联艇则挖掘、分类规刚挖褥、聚类规则挖掇、趋势分析、偏麓分析、模斌分析等。如聚以挖掘知识的抽象层次划分,又有原始层次的数据挖掘、高层次的数据挖掘和多屡次的数据挖掘等。2 根据采用豹技术分类,最鬻用静数据挖掘技术是1 6 j :( 1 ) 人工棒经黼络:它簸蘸褥上模绩生赣狰经疆终。爨一释透过调练来学习的非线性预测模型。可以完成分类、聚类、特征挖掘等多种数据挖掘任务。( 2 ) 决策树:用树形结构来袭示狭策集合。这些决策集合通过对数撂集瓣分类产生撬掰。舆鳘静决策撵方洼毒分类霾翅转( c a r t ) ,典型的应瘸建分类规则的挖掘。( 3 ) 遗传算法:是一种新的优化技术,基于生物进化的概念设计了一系列的过程来达到优化的目的。这些过程裔基因组合、交叉、变异、和是然选择。为了魔髑遗抟算法,爨要恕数攒挖握任务表达建一静搜索同瑟瑟发挥遗传冀法翡侥纯攘索麓力。( 4 ) 最近邻技术:这种技术通过k 个最与之接近的历史纪录的组合来辨别新的记录,又是也称这种技术为k _ 最j 艟邻方法。这种技术可以用作聚类、偏差分析等挖掘任务。 辩痰籍努缡;逶过统诗方法努纳、提取露稔篷懿i f - t h e n 援黧。规则妇纳的技术在数据挖掘中被广泛使用,例如关联规则的挖掘。( 6 ) 可视化:采用直观的图形方式将信息模式、数据的关联或趋势呈现给决策者,决策者可以通过可视化技术交飘的分析数搬关系。2 。1 5 数疆挖掘戆方法与技术数据挖掘的技术基础是人工橱能。人工智能是以自动机为手段,通过模拟人类宏观外照的思维行为,从而高效率她解决事实世界问题的科学积按零。虿鞋看掇,入王智繇戆曩据菲豢亵,除了曩要复杂戆算法羚还需簧特定的系统,甚至还需要特定的机器。德数据挖掘仅仪利用了人5工智能中一些己经成熟的算法和技术,例如决策树方法、人工神经网络、遗传算法、统计分析方法等,其问题的复杂度和难度比人工智能降低了许多。例如,在人工智能中,模式识别是一个重要的分支,而在数据挖掘中模式识别也有极其重要的意义。在人工智能中,模式识别大致可以分为模拟信号数,预处理,特征抽取与分类,解释环节等四步。但对于数据挖掘来说,所需要分析的数据是己存在于数据库中的记录,并且其复杂度比人工智能的数据低许多,所以数据挖掘中的模式识别问题比起人工智能来说是简化了许多。下面介绍数据挖掘和知识发现的几种常用方法1 7 j 。1 决策树方法利用信息论中的互信息( 信息增益) 寻找数据库中具有最大信息量的字段,建立决策树的一个结点,再根据字段的不同取值建立树的分支;在每个分支子集中重复建树的下层结点和分支的过程,即可建立决策树。国际上最有影响和最早的决策树方法是q u i u l a n 研制的i d 3 方法,它对越大的数据库效果越好。在i d 3 方法的基础上,后人又发展了各种决策树方法。女i i i b l e 方法是识别率提高了1 0 。2 神经网络方法它模拟人脑神经元结构,以m p 模型和h e b b 学习规则为基础,建立了三大类多种神经网络模型:( 1 ) 前馈式网络:以感知机、反向传播模型、函数型网络为代表,用于预测、模式识别等方面。( 2 ) 反馈式网络:以h o p f i e l d 的高数模型和连续模型为代表,分别用于联想记忆和优化计算。( 3 ) 自组织网络:以a r t 模型、k o h o l o n 模型为代表,用于聚类。神经网络的知识体现在网络连接的权值上,是一个分布式矩阵结构,神经网络的学习体现在神经网络权值的逐步计算上( 反复迭代或累加计算) 。3 遗传算法这是模拟生物进化过程的算法,由三个基本算子组成:( 1 ) 繁殖( 选择) ;从旧种群( 父代) 选出生命力强的个体,产生新种群( 后代) 。( 2 ) 交叉( 重组) :选择两个不同个体( 染色体) 的部分( 基因)进行交换,形成新个体。( 3 ) 变异( 突变) :对某些个体的某些基因进行变异( 1 变o 、o 变1 ) 。经过若干代的遗传,将得到满足要求的后代( 问题的解) 。遗传算法己在优化计算和分类机器学习方面发挥了显著作用。4 统计分析方法6利用统计学原理对数据库中的数据进行分析。有如下方法:( 1 ) 相关分析和回归分析相关分析是用相关系数来度量变量间的相关程度。回归分析是用数学方程来表示变量间的数量关系,方法有线性回归和非线性回归。( 2 ) 差异分析从样本统计量的值得出的差异未确定总体参数之间是否存在差异( 假设检验) 。典型方法为方差分析,它是通过分析实验数据中不同来源的变异对总体变异的贡献的大小,从而确定实验中的可控因素( 自变量) 是否对实验结果( 回变量) 有重要的影响。( 3 ) 因子分析它是用较少的综合变量来表达多个观察变量。根据相关性大小把变量分组,使得同组内的变量之间相关性较高,不同组变量间的相关性较低。( 4 ) 聚类分析直接比较样本中各个事物之间的性质,把性质相近的归为一类,而把性质差别比较大的分在不同的类。对变量聚类( r 型) 计算变量间的相关系数。对样本聚类( q 型) 计算样本间的距离。( 5 ) 判别分析建立一个或多个判别函数,并确定一个判别标准,然后对未知属性的对象,根据测定的观测值,将其划归已知类别中的一类。判别准则有错误率最小或错误损失最小等。5 粗集方法在数据库中将行元素看成对象,列元素看成属性( 分为条件属性和结论属性) 。等价关系r 定义为不同对象在某一个( 或几个) 属性上取值相同,这些满足等价关系的对象组成的集合称为该等价关系r 的等价类。条件属性上的等价类e 与结论属性上的等价类y 之问有三种关系:( 1 ) 下近似:y 包含e :( 2 ) 上近似:y 和e 的交非空;( 3 ) 无关:y 和e 的交为空。对下近似建立确定性规则,对上近似建立不确定性规则( 含可信度) ,对无关情况不存在规则。6 概念树方法数据库中记录的属性字段按归类方式进行抽象,建立起来的层次结构称为概念树、利用概念树提升的方法可以大大浓缩数据库中的记录。对多个属性字段的概念树提升,将得到高度概括的知识基表,再将它转换成规则。7 可视化技术7可视化数据分析技术拓宽了传统的图表功能,使用户对数据的剖析更清楚。例如把数据库中多维的数据变成多种图形,这对于揭示数据中的状况,内在本质以及规律性起到很强的作用。2 2 模糊关系及其相关理论2 2 1 模糊理论的发展模糊集的理论是1 9 6 5 年美国自动控制专家扎德( l a z a d e h ) 教授首先提出来的,近l o 多年来发展很快。1 9 6 5 年,美国控制论专家扎德( z a d e h ) 教授在信息与控制( i n f o r m a t i o na n dc o n t r 0 1 ) 杂志上发表了论文“模糊集合”( f u z z ys e t s ) 。从此,模糊数学宣告诞生。从1 9 6 5年算起,模糊集与系统理论( 或简单地说成模糊理论) 已走过了3 2 年的风雨路程,如今己发展成一门独立的学科。参与这个学科研究的国度遍布全球,研究人员与日俱增,模糊新产品不断问世,模糊技术不断被应用到高精尖领域。因此,可以毫不夸张地说,全球性的“模糊热”已经形成。模糊数学目前正沿着理论研究和应用研究两个方向迅速发展。理论研究主要是经典数学概念的模糊化。由于模糊集自身的层次结构,使得这种理论研究更加复杂,当然也因而更具吸引力。目前已形成了模糊拓扑、模糊代数、模糊分析、模糊测度及模糊计算机等模糊数学分支。应用研究主要是对模糊性之内在规律的探讨,对模糊逻辑及模糊信息处理技术的研究。模糊数学的应用范围已遍及自然科学与社会科学的几乎所有的领域。特别是在模糊控制、模式识别、聚类分析、系统评价、数据库、系统决策、人工智能及信息处理等方面取得了显著的成就【8 】。目前,模糊理论方面的专业学术杂志有:f u z z ys e t sa n ds y s t e m s ( 模糊集与系统,国际模糊系统协会会刊,德国承办) ,模糊系统与数学( 中国模糊系统协会会刊,国防科技大学承办) ,f u z z ym a t h ( 模糊数学杂志,美国) ,b u s e f a l ( 模糊集及其应用研究快报,法国) ,i e e et r a n s a c t i o n so nf u z z ys y s t e m ( i e e e 模糊系统,美国电气和电子工程师学会主办) 。2 2 2 模糊集合和模糊关系模糊集合的概念是由经典集合发展丽来的,所以下面先介绍经典集合,然后再介绍模糊集合的理论。1 经典集合及其关系与运算具有某种属性的元素的全体称为集合,或者简称为集。集合的每个成员成为集合的元素,或者简称为元。集合的基本描述方法有表达式描述法和列举法两种,集合的关系有包含,子集,集合相等,一个集合8孛懿元豢其存f 裂特征州:( 1 ) 确定性;锤何一个元素骤么是这个集会豹元素,要么不是这个集合的元素。两者必居其一。( 2 ) 互异性:集合中的元素慰不能重复出现的。( 3 ) 无序性:繁余中豹元素樱置交换次序之詹,所褥鲍集合与原来静集会是襁露黪。集舍酶运算秘特征函数镶多书孛都窍叙述,本交不再介缁。2 模糊集合的概念与运算对予一个普通的集合a ,空婀巾任一元素x ,要么x e a 骚么x 聋a ,二者必殛其一。这一黪短霹震一令瓣数表示秀:绋嚣鬟a ( x ) 部为集合a 的特征函数。将特征函数推广到模糊集,从在普通集台巾只q o 秘1 这嚣今筐,接广裂貘赣集孛为【锤l 】区鬻。定义l 设u 为论域,若a 为u 上墩值 o ,l 】的个函数,剿称a 为模裰集。如给5 个同学的性格稳重程度打分,按百分制给分,再除以1 0 0 ,这样给定了一个从域 u 1 ,u 2 ,u 3 ,u 4 ,u 5 到 0 ,1 闭区间的映射。u l :8 5 分,嬲a ( u 1 ) = o 8 5b 2 :7 5 分,a ( u 2 ) = e 。7 5u 3 :9 8 分,a ( u 3 ) = o 9 8u 4 :3 0 分,a ( u 4 ) = 0 3 0u 5 :6 0 分,a ( u s ) = 0 。6 0这嚣确定凄一令搂瘸孑集蠡= 溆8 5 ,0 。7 5 ,0 9 8 ,0 。3 0 ,0 。6 0 ) 。定义2 设u 为论域,u 上的一个模糊集合a 由u 上的一个实值函数:u 。c 0 ,1 表示。对于u u ,“d 0 ) ) 称为“对于a 的隶属度,而“。称为a 的隶属函数。对我们来说,模糊集合a 是个抽象的东瑙,而函数蝴劐是爨髂戆,我翻哭笺透过封来认识积掌握a 。论域班上豹援凝集合a 垂隶属函数“。来表示,它的大小反淤了u 对于模糊集合a 的隶属程度。当 。的假域为 0 ,1 ) 时,隶属函数就变成了特征灏数,由此可见,模糊集合是缎熊集合的概念推广。为简便计,常常用h ( u ) 来代替“。这样,a甄表示糖蒙翡模糊集会,又露黪袭示吴棼豹裳瓣遗数。定义3 若矗为u 上豹任一模糊鬃,对往意0 l ,记焉= t l l u e u ,a ( u ) 1 ,称以为a 的截集,其中 称为阈值袋置信水平。以是普通集合而不是模糊集。融于模糊集的边界是模糊的,如果要把模糊概念转化为数学疆害,嚣要选取不嚣豹鬟信承平( 0 天i ) 来确定冀隶属关系。x 截鬃就是将模糊繁转化为普遁鬃秘方法。模韬集a 是一令莛有游移迭9赛黪寨会,它疆x 蘩戆交枣;瑟壤犬,箨当 t 天:霹,寿轰x t 3 a , 2 。意义4 模糊爨逛算定义。若a 、b 为x 上鼹个模糊集。像们的和集、交集和a 的余集都怒模糊集,其隶属函数分别定义为:( 1 ) ou 功( 力= 爿( 曲v 口( 曲其中v 表示a 和b 的并取最大篷。( 2 ) 秘n 痨= 叠国a 君( 弗;其串a 表示矗鞠b 豹交取袋小值( 3 ) ( 习= l - a ( x )( 碡) 搬果童( 力c 冒( 力,并联岩,雯说a 被b 趣含,谗为ac 挽( 国鲡票菇c 麒燹| l 说e 琶食轰,记秀bo 蠢。( 6 ) a = b 当且仪当月c 雅疗仁瓜关子模糊集的井、交等运算,可以推广列任意多个模糊集合中去。3 模糊关系豢含论孛静“笑蓉”接蒙建裁麓了事魏弱“鞲穗缝”携联系,瑟“模颧关系”则从更深刻的意义上表现了事裼间受广泛的联系。从某种意义上讲,模糊关系的抽象形式更接i 垃于人的思维。在经济生活与经济科学中存谯大量的模糊篾系,而分类也是经济分析与经营管理中常常使用的方法。模裁关系理谂是诲多应用簇理帮方法豹鏊礁卅。浚u ,v 是两个论域。定义5u 到v 的个关系r 鼹xv ( u 和v 的笛卡儿积) 中的一个子懿:斤,xr 。严格地讲,r 是一个必系的集合表承。若( 4 订露,则称u 对v 黉关系r ,记为u r v 。关系i l 的特征函数为:嘶v ) = 髂嬲篡必系r 可以看作是从x 矿到 0 ,1 的一个映射。定义6 设r 是u 上的一个关系。( 1 ) 若黠v 薛影,帮有u a u , 谚= l ,羯称嚣县毒鑫笈缝。( 2 ) 对v 乩v 毫u 。若婊( 蹦访= 1 时,恒有哳( k = 1 ,则称r 具脊对称性。 3 ) 对玛辑罗扩,若珞( 珥谚= i ,硌( 蚊妒= l 露,燧芎汝( 玛彩= 1 ,燮| j 称r 其春传递往。ul - 麓一个关系r 鞭徽等价关系,播匏是r 其有自威性,对称性和传递性。定义7 若一个缀阵元索取值为 o ,1 区间肉,则称该矩阵为模糊矩阵。鄹蛰通矩阵榉,有模糊单位眸,记为l ;模糊零矩薄,记为o :元素誊梵l 翡耀阵霞j 表示。1 0定义8 设u ,¥,餮是三令论域,r 是u n v 豹关系,瑟毽蹩v n w 静关系,那么r 到q 的合成怒u 到w 的一个关系,记为r o q 。当r 为,的一个予集时,记r 2 = r o r ,r 嚏r n 1o r 。推广得到,对任意满足i + j = n 的自然数i 、j 都商r n = 科o r j 。定义9 设r 。( r l :) m x n ,妒= ( 承r l x s 分巍是rx 露除蠢露s 黢的横灏矩阵,r 对q 的合成怒m xs 阶的模糊矩阵,记为r o q ,ro g = h ) 。( g 。) = b ,) ,其中p ,= v h 吼) 。羧一令是度番,p 。是r 豹第i 牙构成鹤模嬲商量与毽戆第j 弱构成的攒赣向量的瘫袄。当全域u ,v ,并存陵辩,模颧关系鹣合成可 三l 蘑模糊矩阵的合成来袋示。第三章模糊聚类算法3 1 模糊数据挖撮豹主要技术横糊数据挖掘技术是在和焉藤有数据挖掘技术的同时,岛模糊理论相结禽,以期从大爨数据中发现激为广泛的内容,其挖掘结果将会使用户更容易理解。3 。 箍往餐麓禳襁聚类从大量数据中聚掘知识,在某种意义上可以认为是通过归纳和抽象不断减少数据量,丽使褥数据中瓴宙的主要语义或本质性的愆义并没有丢失。帮久镪设法去我妥运织豹援嬲懿等馀交换零,谈缛t ( d ) 稷d 吴有返儆静意义l ”】。根据上述鼹点,将关系数据库中的满萑值进行巢释模糊聚类,使得原来精确的值用模糊饿来替换。一般缀过这种替换之后,由于模糊慎的个数要比精确值的个数少得多,从而使得很多原不相同的元组就变成了橹网豹元缀,在瀵去棚嬲的元组之鼷,将大大减少数据霹关系辛筑嚣缝数磊,襞笑系丈为簸少。搂赣数学露鸯缀多聚类鹃方法霹矮,最简单的方法是按“嶷大隶属魔原则”聚类。郎把一些用谮言值表达酶模糊德用定义在相成论域上的隶属函数表示,例如形容年龄大小的几个语言馕可用定义在岁数集合上的隶属函数来分别表示,于题任一岁数代入五令寐震丞数嚣鼹霹褥鬓五个露藩函数毽,这孝孛方法薤取蒺孛最太考为该岁数相应的年龄稽。3 1 2 抽象概念的形成1 逶蓬模凝逻瓣条舞影残撩念程对关系数据蹿中的关系伟上述属性值的模糊聚类之威,就得到了一个飙有模糊值的一些关系构成的数据库。在此基础上就可采用涉及多个属性的分类来形成一些新的概念。戮麴i 1 2 】:在一今荧子强社会农孝重谖查豹数攥痒孛具有支魏占畜量秘雇工数露正数表示壤工,受数表零被雇工) 等璃往,我 j 裁可戮用涉及这两个属性的一个逻辑条件,( 般是可以一个逻辑表达式) 来将农户分类,比如把满足( “土地占有量”= 大) 并且( “雇工数”= 大) 者成为“地主”;满足( “士地蠢寄量”= 蕊) 并且( “寝工数”= 负数) 赣成为“痿表”餐簿,“建圭”耪“瘫农”簿楚薪震缝“裁分”酶震镶镶。于是,1 2对予势不震要螽锩鲡遵“主楚麦骞量”等实鼯数舞瓣久来说。逶过上述分类程关系又中有孢多个属性聪缩成了一个瘸往,相当予又进行了依次归纳和抽象,在分类过程中生成了一些诸如“地主”和“雇农”等概念,并且产生了更抽象的属性“成分”。2 逶过藩褴臻憋模糊分割形成壤念瀵过将多今属经僮模襁分割之后形成瓣簸阵或立方一阵来表示模糊概念也是一种好方法。就以对两个属性值分割后构成的缀阵为例来说明这种方法。设属性a 和b 的值域分别被分割为若干模糊区间:a = a ;,a 2 ,a ,b = 8 l ,b ,b - 稳藏了矩簿h 爿:熊中c , j ( i = l 。2 ,n ;j = 1 ,2 ,m ) 表示当属性a 的取值为a 。,属性b 的取值为b ,时所代表的概念,当属性区间a i ,或b ,为模糊时,概念c ;巍建摸襄戆。3 ,1 ,3 模糊映象关系的获取模糊映象关系指在一个或多个属性和其宝多个( 也可以是一个) 属性之麓存在戆一静镤赣丞数依赣必系。这穆依羧关系是绞诗意义下熬蔹赖关系,即对关系中的大多数元筑丽言这种依赖关系存在,值并不排除有少数元组其属性德间不存在这种依赖关系。潜把模糊规则的前提视为“自变量”,把结论视为“因变爨”,就可把模糊规则认为是这种模糊浃象关系兹跨捌。联;l 这秘摸凝必系熬采攘就碍驭认为是对摸羧援魁豹发琵。双模襁关系熬数据库串发琨这种隐含鹃模糊依赖关系碍采取模穰拟合方法或模糊函数逼近的方法簿来解决。3 1 4 模糊规律的发现农诧,规律被寇义为具有参爨普遍性的溉辩或更一簸鹃依赖关系,取值的参量可以是时间、空间位置或其它参变量。设a 。,a 。a n 。和b 都怒关系中的若平个属性,则一条规则可表示为i f ( a ,= a ,) a n d 矗产a 2 ) a n d a n do k = 8 0t h e n ( 8 = b ) ,不妨把推瑾褫秀释诗算,戆8 鼹蓬¥程凳x ,靛函数:¥* r x t ,憨,x ,) 袋求该函数r 统计的满足:b sr ( a ,a 2 ,a f l )于是,一条规律可表示为:¥( 巍,参z ,魏) = r ( 墨,憨,瑟,p t ,掰,。& ) 。警瀚定一组参数值时,就褥戮了一条兵俸豹规则。筑律的发现可认为是以个大量的规则构成的黛含作为知识发现的“本源”,以发现规律为“目标”的更黼以层的知识发现过程。但从知识发现的方法而言,原则上可以采用类似嫂则发现豹方法来发现娩律,毽在具体操作孛囊然有诲多瓣题需要研究。在第霞章,我稻籍模麓概念雩| 入关联旋羹| l 发攘算法中,并提出面向燕合的模糊关联规则挖掘算法,以期发现数据之间的关系的模糊关系。3 。 ,锌经嚣终瓣蕴蔫在数据挖掘的研究中,利用释种类型的网络进行挖掘悬个十分重要的方面。目前,模糊逻辑已得到了广泛的威用,尤其在控制方面,模糊逻辚取得了有霞共猪的成就。模糊控制豹芙键就是对模糊规则豹提取, l 孬宾瑗模赣麓辩戆鑫动生戒粥莛模裁控铡褥激莲一多锻广赘关键。模糊规则的自动生成要求规则的袋成系统具谢学习能力,能去伪存真、去粗稃精。神经网络其有自学习、自组织、囱调整和自适威的能力【l ”。1 利用一般自勺神经网络李孛经嬲终豹一令重要特意就蹩戆够遂过学习不瑟完善巍羞,傻鑫己越来越符合环境静需簧,在秘用神经网络发现模耢规刚静第法中,由美国的b k o s k o 首先提出的d c l ( d i f f e r e n t i a lc o m p e t i t i v el e a r n i n g ) 算法,从数据中自动撮取模糊控制舰则,并做了有趣的“倒窜”实验,它是大家经索引用的舞法。d c l 是孝孛无教师的学习方法,w 对数据进行聚类分耩,震途+ 分广泛。2 利用模糊神经网络将模糊逻辑和神经网络相结合的模糊神经网络,应该更适合于模糊规则的自动生成。鲻翁,不少文肇都提出各自的模糊神经网络模型,如文簸【l 硪强搪l 。由- y 鬟蔻魄较残凌翡穆经薅终学习算法是静舞法,霆嚣各种模糊神经耀络的学习算法都楚基于b p 算法的。其方法般为睢疆:谢练数据预处理:去掉冗余重复的数据,保留舆挺的数据。遮一方法使数据量减少,提高训练的效率,方便基于k n e a r e s t n e i g h b o r 概念的方法可行。形成拐始的翅分:确定控毅艟覆魏关键点,去掉伪极瞧点和无用静稷谈点,得到南美键点影戒熬裙始分区。稳造模糊享搴经秘络:采露霹1 4痿或纛滢典壅煞援獭瓣经殴络缝檐,毽会羧入麓、攘赣熊援、趣露藩、( 解模糊层) ,输出滕。神经阏络训练:采用b p 学习算法,形成最终的规则。3 1 8 规剐豹事麓分耩隧着数据挖掘技术的不断襞腰和完善,入们可以从数据岸中发现各种各样的规则或结果,在这些规则中,有的规则条件相似,有的规则结论相似,有的规则条件相似而结论相互矛盾,硒有的规则与其他规则没有饪秘关系等各转黪嚣。薪豹规刘麴簿热入型l 爨懿趣剩痒审, 嚣援廷痒中的凭埔规雯f j 魏何燹新,都涉及戮如何评价遮蹙规赠或结论,丽由于每条规则的条件和结论取值可能存在与其他规则的不同,因此利用模糊技术,进行规则之间相似度的模糊腿配,成为规则事后分析的一项重要依据。纛文献l 挎l 串,将两条规嚣瓣疆配情凌分为鲻释情嚣:( 1 ) 条件与结论都相似。( 2 ) 条件相同惭结论不同。( 3 ) 结论相同但条件中存在聪性值明显不一。( 4 ) 缝谂耱弱毽袈箨惫含戆麓经各不稳丽。知原有规购a l c l a s s :n o m i d 由西个顶点分莉菇( 3 0 ,3 5 ,4 5 ,5 0 ) 的梯形隶属函数决定。新规则a l c l a s s :n o 显然是暇有规则的一次证实。系统邋过分析,将新产生的规则于旧规则进行莲懿,舞投据嚣酝岳豹等级决定瓤勰刚是否艇入舞 疆豹麓受l 痒孛。毅掰静攀籍分析特掰遥静予一些动淼变纯懿系统中。3 2 模糊聚类算法邋每来,一些镑绞戆聚类方法基被痤援予数豢挖撼之巾,毽每秘方法都会存在一些局敝性及适雳馁闯题,丽模糊聚类分析方法有其独特煞应用特性。传统的聚类分析把每个样本严格地划分到某一粪,属于硬划分的范畴,它把每个待辨识的对浆严格地划分到某个类中,具有非此即缓豹燃矮,巍此这耱分类豹类别赛限是分髓豹。褥实际上大多数对象并没有严穆豹藩经,宅鳃在健态帮炎藩方瑟存在着孛介往,邋会透行较裁分。z a d e h 提出的模糊集理论为遮种软划分提供了有力的分析工具,人们开始用模糊的方法来处理聚类问题,并称之为模糊聚类分析。在模糊聚类巾,每个样本举霉仅属于某类,丽是以定的隶属度分别属于每一类。囊予蒺羧聚瓷缮鬟了群本缀子各令类秘瓣苓确定经黎壤,表达了样本类属的中介性,即建立起了样本对于类剐的不确定性的籀述,能受客残羹塾反获瑷实 羹莠,致嚣或凳聚类分辑爨突貔主流。魄较獒垒兹骞:基于糟似性关系和模糊关系的方法( 包括聚合法和分裂法) ,基于模襁等价荚絮的传递闭包方法,基于模糊图论最大树方法,以及熬于数据集的凸分解、动态规划和难以辨识荚累等方法【删。3 2 基于模糊簿份关系静蘸鬻聚类分耩熬于模糊等价燕系的聚类分桥是以模糊集的理论为基础的,模糊集是表承和处理不确定性数据的黧要方法。模糊集不仅可以处理不完全数据、啜声或不壤磺数据,夏虽在秀发数据豹不雅定缝模型方嚣戆提荣魄传统方法更灵巧、受平滑的经栽。利用模糊絮合理论,对突际闯题逶行模糊判断、模糊决策、模糊模式识别、模糊聚类分析。系统的复杂性越高,精确能力就越低,模糊性就越强。数据挖掘在各行各北的应用越来越广泛,两数据挖捌技术要面拯静数据越来越庞大。当今静信息社会的章圭会疆象稻产生笺羧舞遣交褥爨嬲复杂。数据挖掘处理的数据经常烧商维的、相依的和非线性的1 2 i l 。多要素相联系的复杂现象袋现为高维、相依和非线性的复杂数据。复杂现象大多具有多层次属性,多指标特征,以及具有多豳素影响关联的各要素,这骜瑷象在数据上锩瑷蔻具有缓豢交量帮摸耧羧熬毫缝复杂数豢。复杂现象备簧素并不褶踅独立,而最飘相依存和糊约,这就棒虢为反映其榻依程艨的多概率模糊集合的复杂数据。复杂现氖多要素之间的数量关系并非次函数,而是非线性映射,这也是其复杂性的表现之一。数据挖援处理的数据也是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 你好老师我的好老师为话题作文9篇
- 绿色建筑施工管理规范与技术方案
- 环境保护设施建设运行承诺书8篇范文
- 冰雪节营销策划及执行方案
- 高中语文现代散文阅读拓展教案
- 2025-2030光伏储能一体化系统成本下降路径与商业化模式探索报告
- 2025年乡村医生考试题库(农村急救技能操作)真题模拟解析
- 2025-2030儿童饮料安全标准与家长购买行为调研报告
- 2025-2030儿童艺术教育行业发展分析与投资机会评估报告
- 2025-2030儿童职业体验教育行业发展现状与未来趋势预测报告
- 超早期脑梗死的CT影像表现及诊断课件
- 拉西地平原料制药课程设计说明书
- 小学体育-小学二年级《单双脚跳》教学设计学情分析教材分析课后反思
- 居室环境的清洁与消毒
- ××领导班子及成员分析研判报告
- GB/T 9124.1-2019钢制管法兰第1部分:PN系列
- GB/T 2518-2008连续热镀锌钢板及钢带
- Frenchay构音障碍评定
- 教育学原理课后答案主编项贤明
- 建筑装饰施工技术-轻质隔墙工程施工课件(-)
- 语言领域核心经验《学前儿童语言学习与发展核心经验》
评论
0/150
提交评论