




已阅读5页,还剩68页未读, 继续免费阅读
(计算机应用技术专业论文)面向医疗保险数据库的数据挖掘研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
江苏大学硕士研究生毕业论文 摘要 随着人口老龄化以及居民收入的增加,健康意识增强,医疗高新技术的应用 以及通货膨胀等因素的作用,医疗费用呈现出加速上涨的趋势。医疗保险制度运 行实践表明,解决医疗费用的控制问题是医疗保险制度改革的关键。 数据挖掘是从数据库中抽取和识别出有效的、新颖的、可能有用的并能被人 们理解的模式的过程。将数据挖掘技术应用到医疗保险数据库中,对医疗保险数 据库中的离群数据进行关联规则的挖掘,利用挖掘结果帮助预测医保基金的支出 趋势,预防医保欺诈和滥用具有特别的意义。本文着重研究了镇江市十余年来医 疗保障运行中的实际数据,在这三个方面做了下面一些工作: 1 分析了关联规则挖掘算法的工作原理,研究了关联规则的现有算法,并 针对医疗保险数据的特点,设计并实现了一个改进的基于位串数组的关 联规则挖掘算法h i o d m 算法。 2 分析了离群数据挖掘的基本工作原理,研究了离群数据挖掘的基本方 法,并对基于密度的离群数据挖掘方法进行了改进,提出了一种基于密 度的增量离群数据挖掘方法。 3 设计并实现了一个集数据提取、数据预处理、关联规则挖掘和结果显示 于一体的医疗保险离群数据挖掘原型系统h i m i n e r 。系统从医疗保险 数据库中提取出病人的治疗费用等信息存入临时数据库,同时将多值属 性转换成布尔属性,删除去一些和挖掘无关的属性,使医疗保险数据形 式适合于关联规则挖掘的需要。再利用上述两种方法挖掘潜在的知识, 帮助实现对医保基金的监控,通过真实数据实验,表明该系统对于医疗 保险数据的离群数据挖掘是有效的。 关键词:数据挖掘知识发现离群数据关联规则医疗保险 江苏大学硕士研究生毕业论文 a b s t r a c t v a r i o u sf a c t o r si n c l u d i n gi n c o m ei n c r e a s e s ,t h es t r e n g t ho fh e a l t hr e a l i z a t i o n t h e a p p l i c a t i o no fh i g hg r a d et e c h n o l o g ya n dc u r r e n c yi n f l a t i o ne t c 1 e a dt or i s em e d i c a l e x p e n s e m e d i c a lc a r ep r o v i d e ri st h ek e yo fm e d i c a le x p e n s ec o n t r 0 1 w ew a n tt od e a l w i t ht h i sp r o b l e mf r o mm e d i c a lc a r ep r o v i d e r d a t am i n i n gi st h en o n t r i v i a lp r o c e s so fi d e n t i f y i n gv a l i d ,n o v e l ,p o t e n t i a l l y u s e f u la n du l t i m a t e l yu n d e r s t a n d a b l ep a t t e r n si nd a t a i tc a na p p l i e di na l lf i e l d s w h e r em u c hd a t aw e r ea c c u m u l a t e d z h e n j i a n gh a sb e e nt h o r o u g h l ye x p e r i e n c e di n h o s p i t a l i z a t i o ni n s u r a n c ef o rs e v e r a ly e a r s a n da c c u m u l a t e dal o to fd a t a s 。i ti so n eo f t h ei m p o r t a n tf i e l d si nw h i c hd a t am i n i n gt e c h n o l o g yc a nb ea p p l i e d i nt h i sp a p e r , t h ed a t am i n i n gt e c h n i q u ei sa p p l i e di nh o s p i t a l i z a t i o ni n s u r a n c ed a t a b a s ef o r m i n i n ga s s o c i a t i o nr u l e so fh o s p i t a l i z a t i o ni n s u r a n c eo u t l i e rd a t a b a s e w i mi t s r e s u l t s ,w ec a np r e d i c th o s p i t a l i z a t i o ni n s u r a n c ef u n d s e x p e n d i t u r ea n dp r e v e n tf r o m h o s p i t a l i z a t i o ni n s u r a n c ef r a u da n da b u s i n g t h em a i nc o n t r i b u t i o n sa r ef o l l o w i n g : 1 t 0a n a l y z eo nt h et h e o r yo fa s s o c i a t i o nr u l e sm i n i n ga l g o r i t h m s t o i n v e s t i g a t ea s s o c i a t i o nr u l e sm i n i n ga l g o r i t h m s t h e n ip r o v i d ean e wm e t h o d , c a l l e dh i o d m ,t om i n ea s s o c i a t i o nr u l e sb a s e do nt h eb i t _ s t r i n 2a r r a y 2 t 0a n a l y z eo nt h ep r i n c i p l e so fo u t l i e rd e t e c t i n gm e t h o d s t oi n v e s t i g a t e o u t l i e rd e t e c t i n gm e t h o d s t h e n im o d i f yt h ed e n s i t y b a s e do u t l i e rd e t e c t i n g m e t h o da n dp r o v i d ean e wi n c r e m e n td e n s i t y - b a s e do u t l i e rd e t e c t i n gm e t h o d 3 1 0d e s i g na n di m p l e m e n tt h ep r o t o t y p es y s t e mn a m e dh i m i n e rf o r m i n i n ga s s o c i a t i o nr u l e si nh o s p i t a l i z a t i o ni n s u r a n c eo u t l i e rd a t a b a s e w h i c hi s c o m p o s e do fd a t ae x t r a c t i n g ,d a t ap r o c e s s i n g ,a s s o c i a t i o nr u l em i n i n ga n dr e s u l t s d i s p l a y i n g d a t ae x t r a c t i n gi nh o s p i t a l i z a t i o ni n s u r a n c eo u t l i e rd a t a b a s ei s e x t r a c t i n go u t l i e rr e c o r d sf r o mh o s p i t a l i z a t i o ni n s u r a n c ed a t a b a s ea n ds t o r a g i n g i n t ot e m p o r a r yd a t a b a s e ,w h i c hi sa ni m p o r t a n ts t e pi nt h ew h o l ed a t am i i l i n g p r o c e s s a tt h ed a t ae x t r a c t i n gs t e p ,t h es y s t e m c o m p l e t e sp a r t so fd a t a p r e p r o c e s s i n g w h i c hi n c l u d e s c h a n g i n g d a t a a t t r i b u t e ,c o r r e c t i n g d a t a i n c o n s i s t e n c y , f i l l i n gi nt h em i s s i n gv a l u e a tt h ep r e p r o c e s s i n gs t e p ,m o r ew o r k , s u c ha sc h a n g i n gm u l t i v a l u ea t t r i b u t ei n t ob o o l e a na t t r i b u t ea n dd e l e t i n g i r r e l e v a n ta t t r i b u t e ,i sd o n e a f t e rd a t ap r e p r o c e s s i n g ,t h ef o r mo fd a t ai sf i tf o r a s s o c i a t i o nr u l e sm i n i n g t h e n ,m i n i n ga s s o c i a t i o nr u l e sb yt h ea b o v et w o m e t h o d s i th e l pu st oc o n t r o lt h em e d i c a le x p e n s e k e y w o r d s :d a t am i n i n g ,k d d , o u t l i e rd a t a ,a s s o c i a t i o nr u l e s , h o s p i t a l i z a t i o ni n s u r a n c e i i 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权江苏大学可以将本学位论文的全部 内容或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 保密印,在了年解密后适用本授权书。 本学位论文属于 不保密口。 1 7 签名书渺 翩虢俐 签字日期:西年1 ) 月i 日 签字日期:击i 车6 月侈日 学位论文作者毕业后去向: 工作单位: 通讯地址: 独创性l 声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容以外,本论文 不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的 研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人 完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 韵螃 日期:移年c月t e t 江苏大学硕士研究生毕业论文 第一章绪论 2 0 世纪8 0 年代后期以来,随着计算机技术、网络技术和信息技术的迅猛 发展,人们生产和搜集数据的能力大幅提高。面对“堆积如山 的数据集合, 无论在时间意义上还是在空间意义上,传统的数据分析手段都难以应付,人们 无法有效地理解并利用这些数据,由此导致了越来越严重的“数据灾难”,造成 了大量的数据资源的浪费。传统的数据分析方法( 例如统计) ,往往只能获得这 些数据的表层信息,很难对数据进行深层次的处理,而且不能获得数据属性之 间的内在联系和隐含的信息,即不能获得重要的具有实际应用价值的知识。正 因如此,海量数据的生成和搜索技术与拙劣的数据分析方法之间形成了鲜明的 对照,这种反差迫使我们必须寻找一种新的技术来“智能化 的自动分析海量 的原始数据,以便使得消耗大量财力和物力收集与整理到的宝贵资源数据 得以充分利用。这就是数据挖掘技术产生的应用需求背景。 另一方面,从技术角度来看,数据库技术的深入广泛应用,数据的基本处 理功能,例如数据的增加、删除和修改,以及相应的查询和统计等,已经成了 信息管理系统的必备功能。而在数据库技术飞速发展的同时,人工智能领域的 一个分支机器学习的研究自从5 0 年代诞生以来同样取得了巨大的进展。机 器学习通过对数据对象之间关系的分析能够提取出隐含在数据中的模式和知 识。按照人类学习的各种不同模式人们提出了很多机器学习的方法,比如实例 学习、观察和发现学习、神经网络和遗传算法等。正是由于实际应用的迫切需 要以及相关技术的发展,数据挖掘技术才逐渐发展起来,用数据库管理系统来 存储数据,用机器学习的方法来分析数据,挖掘大量数据背后的潜在知识。1 9 9 5 年在加拿大召开了第一届知识发现和数据挖掘国际学术会议之后,“数据挖掘 开始流行起来,它是“知识发现 概念的深化。 1 1数据挖掘技术 数据挖掘d m ( d a t am i n i n g ) ,又称数据库中的知识发现k d d ( k n o w l e d g e d i s c o v e r yi nd a t a b a s e ) ,它是从大量数据中发现并提取隐藏在其中的可信的、 新颖的、有效的并能被人理解的模式的高级处理过程【1 】。提取出来的知识一 般可表示为概念( c o n c e p t s ) 、规则( r u l e s ) 、规律( r e g u l a r i t i e s ) 、模式( p a t c e m s ) 等形式。 数据挖掘是一个多学科领域,从多个学科汲取营养。这些学科包括数据库 江苏大学硕士研究生毕业论文 技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、知 识获取、信息检索、高性能计算机和数据可视化。数据挖掘输出的信息和知识 可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科 学探索等。 1 1 1 数据挖掘技术的功能 数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据 挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功台改2 】。 1 自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分 析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测 问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户, 其它可预测的问题包括预报破产以及认定对指定事件最可能做出反应的群体。 2 关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变 量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、 因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据 库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有 可信度。 3 聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人 们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括 传统的模式识别方法和数学分类学。8 0 年代初,m c h a l s k i 提出了概念聚类技术, 其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某 种内涵描述,从而避免了传统技术的某些片面性。 4 概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。 概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者 描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有 对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。 5 偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。 偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结 果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找 观测结果与参照值之间有意义的差别。 2 江苏大学硕士研究生毕业论文 1 1 2 数据挖掘技术的分类 数据挖掘根据采用的技术可以分类,最常见的方法有: ( 1 ) 规则归纳:通过统计的方法归纳、提取有价值的i f - t h e n 规则,例如关 联规则挖掘。 关联规则挖掘技术用来发现数据库中字段( 项目) 之间的关联关系,最初 产生于零售行业中,现在已经广泛地被各行业所采纳,用以发现行业数据的相 关性、分析客户关系、发现未知商业模式等,对商业决策进行支持,从而提高 了企业的竞争力。关联规则挖掘技术方面的研究如火如荼,国内外各大从事数 据挖掘的研究机构几乎都有这方面的研究工作。这个领域的研究成果已经被成 功地集成到了数据挖掘系统当中,如i b m 的i n t e l l i g e n tm i n e r 、s i m o nf a r s e 大 学的d b m i n e r 等系统,已经有了成功的应用案例。 ( 2 ) 决策树方法:用树型结构表示决策集合,这些决策集合通过对数据集 的分类产生规则。决策树方法是利用信息熵寻找数据库中具有最大信息量的字 段,建立决策树的一个结点,再根据字段的不同取值建立树的分支;在每个分 支子集中,重复建立树的下层结点和分支,即可建立决策树。国际上最有影响 的决策树方法是由q u i u l a n 研制的i d 3 方法,具体算法详见参考文献【3 】。典 型应用是分类规则挖掘。 ( 3 ) 人工神经网络:这种方法模拟人脑神经元结构,通过不断训练来学习 的非线性预测模型。它可以用于完成分类、聚类、特征规则等多种数据挖掘任 务,一般以m p 模型和h e b b 学习规则为基础,建立三类神经网络模型:前馈 式网络、反馈式网络和自组织网络。 ( 4 ) 遗传算法:这是一种模拟生物进化过程的算法。最早由h o l l a n d 于2 0 世纪7 0 年代提出。它是基于群体的、具有随机和定向搜索特征的迭代过程,这 些过程包括基因组合、交叉、变异和自然选择等四个典型算子。遗传算法作用 于一个有问题的多个潜在解( 个体) 组成的群体上,每个个体都有一个编码表 示,同时每个个体依据问题的目标函数被赋予一个适应值。为了应用遗传算法, 需要把数据挖掘任务表达为一种搜索问题而发挥遗传算法的优势搜索能力。 ( 5 ) 模糊技术:利用模糊集合理论对实际问题进行模糊评判、模糊决策、 模糊模式识别和模糊聚类分析。模糊性是客观存在的,系统的复杂性越高,模 糊性越强。模糊集合理论用隶属度来刻画模糊事务的亦此亦彼性,而李德毅教 授在传统模糊理论和概率统计的基础上提出了定性定量不确定性转换模型 云模型,并形成了云理论。云模型用期望值、熵和超熵表达定性概念,将概念 的模糊性和随机性结合在一起。它在为数据挖掘提供了概念和知识表达、定性 定量转换、概念的综合和分解的新方法。 3 江苏大学硕士研究生毕业论文 ( 6 ) 粗( r o u g h ) 集方法:它是1 9 8 2 年波兰逻辑学家z p a w l a k 提出的一 种全新的数据分析方法,近年来在机器学习和k d d 等领域获得了广泛的重视 和应用。粗集方法是一种研究信息系统中不确定、不精确问题的有效手段,其 基本原理是基于等价类的思想,等价类中的元素在粗集中被视为不可区分的。 基本方法是用粗集近似方法将信息系统( 关系) 中的属性值进行离散化,对每 一个属性划分等价类,利用集合的等价关系,进行信息系统( 关系) 的约简, 得到一个最小决策关系,从而便于获得规则。 ( 7 ) 可视化技术:采用直观的图形方式将信息模式、数据的关联或趋势呈 现给决策者,决策者可以通过可视化技术交互地分析数据关系。可视化技术主 要包括数据、模型和过程等三个方面的可视化。数据可视化主要有直方图、盒 须图和散点图。模型可视化的具体方法与数据挖掘采用的算法有关,例如决策 树采用树型表示,过程的可视化是采用数据流图描述知识发现的过程。 1 1 3 数据挖掘过程 数据挖掘作为知识发现的过程,分为三个主要阶段:数据准备、数据挖掘、 结果评价和表达。知识的发现可以描述为这三个阶段的反复过程,如图1 1 所 不。 图1 1 数据挖掘过程 1 确定业务对象 在数据挖掘的前期,首先要选择一个正确的数据源,正确的数据源对于整 个数据挖掘项目的成败至关重要。然后描述数据计算统计变量( 例如平均 值、均方差等) ,再用图表或图片直观的表示出来,进而可以看到一些变量值之 间的相关性。因此清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的 4 江苏大学硕士研究生毕业论文 重要一步。 2 数据准备 数据准备阶段由一些子阶段组成:数据清洗( d a t ac l e a n i n g ) 目的是为了去 除噪声数据或是无关数据;通过数据集成,多个数据源的数据可以归并到一起。 根据目前在信息工业中的发展趋势,数据清洗和集成通常作为预处理阶段,处 理结果存在数据仓库中;接下来,针对确定的业务问题需要把相关的数据抽取 出来,即数据选择;抽取出来的数据还需要经过转换或合并成适合进行数据挖 掘的形式。 3 数据挖掘 数据挖掘阶段是知识发现过程中的核心阶段。在这个阶段中,采用若干智 能的方法去提取数据模式,其中包括的要点有: ( 1 )首先确定如何产生假设,是让数据挖掘系统为用户产生假设, 还是用户自己产生对于数据库中可能包含的知识提出假设。前_ 种称为发 现型( d i s c o v e r y d d v e r n ) 的数据挖掘:后一种称为验证型 ( v e r i f i c a t i o n - d r i v e m ) 的数据挖掘。 ( 2 ) 选择合适的工具模块; ( 3 ) 发掘知识的操作; ( 4 ) 证实发现的知识。 4 结果评估和表示 根据最终用户的决策目的对提取的信息进行分析和评估,把最有价值的信 息区分出来,并且通过决策支持工具提交给决策者。因此,这一步的任务不仅 是把结果表示出来( 例如采用信息可视化方法) ,还要对挖掘出的数据模式进行 评价、过滤处理。如果不能让决策者感到满意,需要重复上述的数据挖掘过程。 1 1 4 数据挖掘技术的发展和研究方向 从第一届k d d 国际研讨会于1 9 8 9 年8 月在美国底特律召开,有关k d d 的国际学术会议已经召开了十多次,规模从原来的专题讨论会发展到国际学术 大会,人数由2 0 3 0 人上升到7 0 0 人,研究重点也逐渐从发现方法转向系统应 用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。目 前国际或地区性数据挖掘会议,除了“知识发现和数据挖掘国际会议 ( a c m s i g k d d ) 以外,还有如“知识发现和数据挖掘太平洋亚洲会议 江苏大学硕士研究生毕业论文 ( p a l d ) ,“数据库中知识发现原理与实践欧洲会议 ( p l d ) ,“数据仓库 与知识发现国际会议 ( d a w a k ) 等。 涉及数据挖掘和数据仓库的研究成果已经在许多数据库国际学术会议论文 集发表,包括“a c m s i g m o d 数据管理国际会议”( s i g m o d ) ,“超大型数据 库国际会议”( v l d b ) ,“数据工程国际会议 ( i c d e ) ,“数据库系统高级应用 国际会议( d a s f a a ) 等。 数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开 辟了k d d 和d m 专题或专刊,包括( ( i e e e 知识与数据工程汇刊( t l e ) , ( ( a c m 数据库系统汇刊( t o d s ) ,信息系统,v l d b 杂志等。 目前,国外数据挖掘的发展趋势其研究方面主要有:对知识发现方法的研 究进一步发展,如近年来注重对b a y e s ( 贝叶斯) 方法以及b o o s ti n g 方法的研究 和提高;传统的统计学回归法在k d d 中的应用;k d d 与数据库的紧密结合。在 应用方面包括:k d d 商业软件工具不断产生和完善,注重建立解决问题的整体 系统,而不是孤立的过程。用户主要集中在大型银行、保险公司、电信公司和 销售业。国外很多计算机公司非常重视数据挖掘的开发应用。 国内从事数据挖掘研究的人员主要在大学,也有部分在研究所或公司。所 涉及的研究领域很多,一般集中于学习算法的研究、数据挖掘的实际应用以及 有关数据挖掘理论方面的研究。目前进行的大多数研究项目是由政府资助进行 的,如国家自然科学基金、8 6 3 计划、”九五”计划等。 一份最近的g a r t n e r 报告中列举了在今后3 5 年内对工业将产生重要影响 的五项关键技术,其中k d d 和人工智能排名第一。同时,这份报告将并行计算 机体系结构研究和k d d 列入今后5 年内公司应该投资的1 0 个新技术领域。今后 研究专门用于知识发现的数据挖掘语言,也许会像s o l 语言一样走向形式化和 标准化:寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理 解,也便于在知识发现过程中的人机交互:研究在网络环境下的数据挖掘技术, 特别是在i n t e r n e t 上建立d m k d 服务器,与数据库服务器配合,实现数据挖掘: 加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。 当前,数据挖掘和知识发现的研究方兴未艾。鉴于数据、数据挖掘任务和 数据挖掘技术的多样性,给数据挖掘提出了许多挑战性的课题,这些课题包括: ( 1 ) 数据挖掘应用的探索; ( 2 ) 可伸缩的方法; ( 3 ) 交互式发现; 6 江苏大学硕士研究生毕业论文 ( 4 ) 与数据库系统、数据仓库系统和w e b 数据库系统的集成; ( 5 ) 数据挖掘语言的标准化; ( 6 ) 可视化数据挖掘; ( 7 ) 复杂数据类型挖掘; ( 8 ) 离群数据挖掘; ( 9 ) w e b 挖掘,隐私保护和信息安全等。 1 2 离群数据挖掘 离群数据挖掘是数据挖掘的应用中最需要关注的问题。离群数据就是与其 他数据明显不同的数据,它的产生,可能是由于录入错误,测量错误等人为因 素造成的,又可能是因为离群数据本身就是数据的真实写照,反映了隐藏在数 据背后的不正常的行为或模式,它所包含的信息远远大于一般正常数据,对这 类数据进行深入研究十分有必要,它的发现和分析,对我们解决数据错误、欺 诈行为分析、网络安全等问题,有着十分重要的意义。 例如,在检测信用卡欺诈时,银行希望能发现丢失、被盗信用卡的非法使 用。由于被盗信用卡的使用情况与正常使用情况具有不同的模式,这种与旧模 式相比新的模式对应就是离群数据。检测这样的离群数据有着重要意义。长途 电话公司希望确定呼叫模式与一般呼叫模式不同,并且产生大量话费的客户。 证券公司通过离群数据挖掘可以获得某一段时间内,某种股票的表现优于其他 股票等。 目前离群数据的发现主要有五种方法:基于统计学( s t a t i s t i c a l b a s e d ) 的方 法:基于距离( d i s t a n c e b a s e d ) 的办法;基于密度( d e n s i t y - b a s e d ) 的方法;基 于偏差( d e v i a t i o n b a s e d ) 的方法以及高维数据的离群数据探测。 基于统计的离群数据发现应用主要局限于科研计算,这主要是因为必须事 先知道数据的分布特征,这就限制了它的应用范围。 基于偏差的算法提出的相异度的概念并没有得到广泛的认同。这是因为相 异度在概念上还有一定缺陷,遗漏了不少的异常数据。 基于距离的算法跟基于统计的算法相比,不需要用户拥有任何领域知识。 与基于偏差的算法相比,在概念上更加直观。更重要的是,距离异常更接近离 群数据的本质定义。 基于密度的方法比基于距离的方法更加直观,因此能够检测出基于距离的 7 江苏大学硕士研究生毕业论文 离群数据发现方法所不能识别的一类离群数据局部离群。局部离群观点摒 弃了以往所有的离群数据的定义中非此即彼的绝对异常观念,更加符合现实生 活中的应用。 实际数据往往具有较大的噪声,因此异常模式经常只存在于低维子空间中, 而在全维空间中难以确定;且以前算法在维数较高时候,性能急剧下降。因此 a g a r a w a l 和y u 提出了一种高维离群数据发现的方法。采用遗传优化算法,获 得良好的计算性能。 离群数据的分析必须结合具体的应用领域内的相关知识,寻找合适的挖掘 算法挖掘离群数据中的潜在规律,所以目前主要的研究工作还是集中在离群数 据的发现上。 1 3国内外医保数据挖掘的现状及研究进展 对于医疗保险数据的挖掘目前在国内还没有广泛展开,已经知道的有清华 大学的田金兰和李奔利用关联规则和决策树的方法挖掘保险业务数据中的投资 风险规则【3 ,4 】,其主要的挖掘对象集中于在保险公司建立的保单和索赔信息 数据库上,目的是要找出保单中风险较大的要素,得到一些可以控制投资风险 的规则。此外,还有南京师范大学的吉根林等同样是在保单和索赔信息数据库 的基础上,利用关联规则挖掘算法和决策树的方法,挖掘影响索赔的主要因素, 为控制风险提供必要的判断依据【5 】。 在产品方面,北大明天公司开发的北大明天医疗保险信息系统利用了m s s q ls e r v e f f 0 数据仓库技术实现了对医保数据的数据挖掘,为决策支持提供了 必要的工具。此外,还有东软公司,新保软件都提供了针对医保数据的数据挖 掘相关产品,其主要挖掘对象都是医保公司内部的保单及客户信息数据库,挖 掘工具一般都是以现有的s a s ,s p s s 以及其他数据仓库为平台。在国外,保 险公司为了能掌握趋势,监管风险,提升业务,增加竞争力,已经将数据挖掘 技术广泛应用到实际业务当中。美国e m p i r eb l u ec r o s s 公司是美国纽约最大的 医疗保险公司,他们利用数据挖掘技术,1 9 9 7 年共计节省了3 8 5 0 万美元的浮 滥理赔支出,同时也根据数据挖掘的模型成功告发了不实开立医疗凭据的医生。 美国h c f a ( t h ef e d e r a lh e a l t hc a r ef i n a n c i n ga d m i n i s t r a t i o n ) 采用了v i s ( v e r i d i a ni n f o r m a t i o ns o l u t i o n s ) 解决方案,开发了s g im i n e s e t 系统,用于实 现对医保数据的数据挖掘和数据可视化,主要是为了发现在医疗保险领域中的 欺诈和滥用浪费现象。澳大利亚h i c ( t h eh e a l t hi n s u r a n c ec o m m i s s i o n ) 采用 了a c s y s ( t h e a d v a n c e dc o m p u t a t i o n a ls y s t e m sc o o p e r a t i v er e s e a r c hc e n t r e ) 系 统,利用统计、分类、关联规则以及回归等方法预防医疗保险欺诈。美国 江苏大学硕士研究生毕业论文 i n s i g h t f u l 公司开发的i n s i g h t f u lm i n e r 系列软件已经被广泛的应用到许多保险机 构用于分析保险数据,从中获得智能和管理风险,其主要方法包括回归& 树、 聚类分析等。 当前国内外医疗保险数据挖掘的研究趋势主要集中在以下两个方面: ( 1 ) 增加新的数据源。 医疗保险被称为“带刺的玫瑰 ,其费用控制迄今为止还是一个世界性的难 题,然而又是医疗保险发展所必须解决的核心问题。医疗保险的特殊性在于其 三方关系,即在保险方与被保险方之外,还存在着医疗服务提供者医院。 医疗服务提供者既是病人的代理人,对病人接受的服务提供建议,又是医疗服 务的实际提供者,因所提供的服务而收益。这种双重角色本身就是一种矛盾。 因此,医疗费用控制的关键点就是医疗服务提供者。 当前国内大多数医疗保险数据挖掘的对象都是针对保险公司建立的保单和 索赔信息数据库,而并没有考虑到医院建立的门诊收费数据和住院信息数据等 其他数据源,所以控制医疗费用的效果并不明显,不能有效监督医疗机构的用 药和检治过程。 ( 2 ) 采用更为有效的挖掘技术。 目前广泛采用的有回归& 树,聚类,关联规则等数据挖掘技术对医疗保险 数据库中的信息进行挖掘,实践证明这些算法也具有较好的效果。另外还可以 采用一些新的不同的数据挖掘算法,比如遗传算法,神经网络等对医疗保险数 据库进行挖掘,或者在挖掘的过程当中,对挖掘对象采用模糊技术应用数据挖 掘,使得挖掘功能进一步增强。 1 4 研究内容和技术创新 本文主要研究的对象是医疗保险数据库中的医疗门诊收费数据库,区别于 保险公司建立的保单和索赔信息数据库,医疗门诊收费数据库是由医院根据被 保险人的门诊治疗收费情况建立的,用于医保定点医院和医保中心之间进行帐 目的核对确认。 本文所研究的主要问题是设计并实现一个医疗保险门诊收费离群数据挖掘 原型系统,用于分析医保门诊收费数据中的异常信息,即离群数据,进而通过 对离群数据的数据挖掘,发现医保门诊收费的异常收费趋势,用于控制医疗保 险费用的平衡使用,监督医疗机构的用药和检治行为,以及发现在医疗门诊收 费过程中潜在的个人或单位的欺诈行为。 本文的技术创新之处在于首先在离群数据的发现方法上,改进了基于密度 的离群数据发现方法,提出了增量的基于密度的离群数据发现方法,提高了在 9 江苏大学硕士研究生毕业论文 动态环境下离群数据发现的效率,加快了离群数据发现的速度。其次,在关联 规则发现的方法上,针对传统关联规则发现方法a p r i o r i 和f p - - t r e e 算法的缺点, 提出了基于位串数组的改进挖掘算法( h i o d m ) ,该算法数据结构简单,不产 生大量的频繁候选项目集,挖掘速度快捷,占用存储空间较小。 1 5 本文的章节安排 本文研究工作的主要内容是设计开发面向医保门诊数据库的离群数据挖掘 应用系统。 本文的主要工作可以概括为下列几个方面: ( 1 )对数据挖掘技术和理论进行分析和总结,并对数据挖掘的现状及其 发展趋势作出相应的判断分析: ( 2 ) 对国内外医疗保险数据库的现状,发展与趋势做了详细分析讨论; ( 3 ) 对关联规则挖掘的基本技术和基本理论进行了分析讨论,并对一些 经典的关联规则挖掘算法进行分析和比较,提出了基于位串数组的改进 h i o d m 挖掘算法; ( 4 )对离群数据的发现技术进行分析总结,对离群数据挖掘的现状及其 未来的研究方向作了讨论,并根据本系统的需要改进实现了基于密度的增量离 群数据挖掘算法。 ( 5 )针对医保数据库的特点,从建造数据挖掘系统的角度,实现了面向 医保门诊收费数据库的离群数据挖掘系统h i m i n e r ,并在对测试数据进行实 例化挖掘后,分析了该系统的实际应用价值。 本文的章节组织情况如下: 第二章分析了医疗保险数据库的内容,特点以及现状。 第三章描述了关联规则挖掘的基本概念和基本理论,分析了关联规则的研 究方向和现状,接着讨论了几种关联规则的挖掘算法,包括最经典的a p r i o r i 算法和基于a p d o f f 算法的几种改进算法,以及f p - t r e e 频繁模式树算法,并针 对它们的不足之处,提出了改进的基于位串数组的h i o d m 挖掘算法。 第四章描述了离群数据挖掘的基本概念和基本理论,分析了离群数据挖掘 的研究方向与现状,讨论了几种离群数据发现的基本方法和技术,研究了基于 距离的离群数据发现方法和基于密度的离群数据发现方法的具体算法实现,并 结合系统需要,改进实现了基于密度的增量离群数据发现方法。 l o 江苏大学硕士研究生毕业论文 第五章描述了医保门诊离群数据挖掘系统h i m l n e r 的建造,讨论了医疗 保险门诊收费数据库的内容及特征,描述了系统中离群数据挖掘的实现过程。 最后在第六章对论文的工作作出了总结。同时,作为目前工作的延伸,还 讨论了今后需要进行进一步研究的问题。 江苏大学硕士研究生毕业论文 第二章医疗保险数据库 城镇职工基本医疗保险( 简称医保) 是我国社会保障体系的重要组成部分, 它是一项政策性强、涉及面广、工作量大、关系到广大职工群众切身利益的工 作。而对浩瀚无垠的医保数据海洋,如何从中获取有价值的信息,充分挖掘和 开发出医保数据信息应有的价值和功能,是医疗保险管理决策层十分关心的问 题。正因如此,为了充分利用医保数据信息,必须借助于计算机管理系统,从 而达到细化管理的目的。而且,随着计算机管理系统的不断完善,数据信息的 采集量大量增加,医保数据信息的价值和作用也正在逐步显现出来。 2 1医疗保险数据库建设的目标 医疗保险数据库系统是用于城镇职工基本医疗保险业务管理和服务的计 算机管理信息系统。系统包括宏观决策和业务管理两部分,服务对象包括参保 单位和参保个人,同时为社会保险经办机构及各级政府机构决策提供支持,为 参保人员和社会公众提供查询服务。系统建设的目标是:通过建立计算机管理 信息系统,实现业务处理计算机化;通过与定点医疗机构、定点零售药店以及 银行、税务等相关部门建立网络联结,改善医疗保险费用支出的监控手段,为 合理控制基本医疗费用增长,减少医疗资源浪费提供支持;在地级以上城市建 立资源数据库,通过资源数据库对基本医疗保险基金的收入和支出进行动态监 控和分析预测,对政策执行情况进行评估,加快决策科学化进程,支持医疗保 险基金长期安全运行。 2 2 医疗保险数据库建设的原则 根据“统一规划、统一标准、城市建网、网络互联、分级使用、分步实施 的指导方针,以医疗保险业务为基础,按照社会保险一体化管理的要求和系统 工程的理论、方法进行系统建设。 ( 1 ) 一体化的原则。一是各险种的信息系统建设要统一规划,分步实施: 二是参保人员和参保单位的基本信息必须一致,并采用相同的信息标准;三是 统一信息交换平台。对于各险种已经建在一起的信息系统,不提倡再按险种分 开;对于已建养老保险信息系统的地方,在建设医疗保险信息系统时,要最大 程度地利用现有人员、数据、设备资源,以避免系统重复建设带来的浪费:先 建设医疗保险管理信息系统的地区,要充分考虑到社会保险业务发展的方向, 江苏大学硕士研究生毕业论文 为扩展其他险种留有余地,要防止各险种单独建系统所增加的成本。要注意做 好医疗保险管理信息系统同银行管理信息系统、医院管理信息系统等系统的接 口处理,并保持自身的独立性。 ( 2 ) 分级管理。劳动和社会保障部作为全国医疗保险管理信息系统建设管 理机构,负责国家级信息系统建设的组织实施、运行管理和网络管理。负责全 国系统建设技术规划和指导;负责制定医疗保险管理信息系统指标体系和相关 指导性文件;负责全国统一应用软件的组织推广和专业技术服务公司市场准入 的资格认证工作。省级劳动和社会保障部门在劳动和社会保障部指导下,负责 本省信息系统技术规划和组织实施,负责审批地市级系统建设实施方案,并监 督检查。地市级劳动和社会保障部门在省级劳动保障部门指导下,具体负责本 地区系统建设的组织实施、运行管理和网络管理。地市级医疗保险管理信息系 统建设方案需报省级劳动和社会保障部门审批,并报劳动和社会保障部备案。 地市级以下地区不再进行系统的规划工作。 ( 3 ) 统筹规划、分步实施。医疗保险工作起步相对较晚,业务管理尚不规 范,政策、组织机构、业务流程的调整不可避免,计算机技术也在不断发展, 要求一步到位是不现实的。各地要根据本地的具体情况,确定合理的技术方案、 投资规模和阶段性目标,并充分考虑未来业务发展对信息系统的影响,切忌追 求“高大全 。 ( 4 ) 多渠道筹集资金。医疗保险管理信息系统建设经费包括初期一次性投 入和长期运行维护费用。实行城镇职工基本医疗保险制度是政府行为,信息系 统建设经费应以政府投资为主,也可以多渠道筹集系统建设经费:一是由当地 政府提供专项资金予以解决;二是由当地政府批准的其他渠道解决;三是本着 谁投资谁受益和财政补贴相结合的原则,争取多方面的投资。系统的运行维护 经费应纳入各级财政预算,由各级政府解决。 ( 5 ) 确保系统建设技术的先进、可靠。一是坚持实用性和可靠性。系统建 设要以满足医疗保险工作的业务需求为首要目标,采用稳定可靠的成熟技术, 保证系统长期安全运行。系统中的软硬件及信息资源要满足可靠性设计要求, 建设方案以实际可接受能力为尺度,避免盲目追求新技术。二是坚持先进性和 开放性。在实用可靠的前提下,尽可能跟踪国内外先进的计算机软硬件技术、 信息技术及网络通信技术,使系统具有较高的性能价格比。技术上立足于长远 发展,坚持选用开放性系统。采用先进的体系结构和技术发展的主流产品,保 证整个系统高效运行。三是坚持安全性。遵循有关信息安全标准,具有切实可 行的安全保护和保密措施,以及对计算机犯罪和病毒的防范能力,确保数据永 久安全。四是要实现可扩充、易维护及易操作。应充分考虑到联网用户增加和 业务扩展,有扩充能力及接口。应用软件的模块化程度要高,对不同业务流程 江苏大学硕士研究生毕业论文 和管理方式的适应能力要强,软件维护方便。贯彻面向最终用户的原则,建立 友好的用户界面,使操作简单、直观、灵活
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 考点解析-河南省辉县市七年级上册基本平面图形专项攻克试题(含解析)
- 推拿治疗学复习试题及参考答案详解【满分必刷】
- 2025年纺织服装制造业智能化生产智能生产设备智能化改造市场机遇报告
- 2025年基因治疗药物临床研究进展与市场趋势报告
- 押题宝典高校教师资格证之《高等教育心理学》考试题库及参考答案详解一套
- 贸易合同范本
- 解析卷华东师大版7年级下册期末测试卷及答案详解(名校卷)
- 解析卷-四川成都市华西中学7年级数学下册第六章 概率初步专项训练试题(含详解)
- 2025代办消防系统验收及整改施工合同范本
- 2025年度建筑材料购销与全程物流配送合同
- 迷彩九月+启航青春+课件-2025-2026学年高一上学期开学军训动员主题班会
- 2025年暑期教师研修心得-研修蓄力笃行致远
- 2024年陕西事业单位联考A类综合应用能力试题及答案
- 公共基础知识试题(附答案)
- 人教版物理九年级全一册16.1《电压》听评课记录
- 2025年湖北省中考语文真题(含答案)
- (2025年标准)被迫堕胎补偿协议书
- 2025年四川三支一扶考试公共基础知识试卷
- 咸阳赤壁市事业单位招聘笔试真题2024
- 战术基础动作低姿匍匐
- 2025年公文核改竞赛试题及答案
评论
0/150
提交评论