




已阅读5页,还剩67页未读, 继续免费阅读
(计算机科学与技术专业论文)数据挖掘算法在医保数据上的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国防科学技术大学研究生院硕士学位论文 摘要 随着医疗信息系统的广泛应用,医疗单位积累了大量的数据,如何利用这些 数据,并从中提取有价值的知识成为一种迫切需求。经过几十年的发展,数据挖 掘技术日趋成熟,并应用于多种领域,取得了不少成果。因此,选择合适的数据 挖掘算法对医疗数据中进行挖掘,可以获取一些客观的、有价值的知识,满足辅 助决策的需要。 本文将f p g r o w t h 算法用于基本医疗保险数据的挖掘,获取了一些医疗领域 知识,根据课题特点提出了自动确定最小支持度的增量式f p g r o w t h 挖掘算法, 并用实验验证了改进算法的有效性。 论文的主要内容有: 1 在熟悉基本医疗保险领域背景基础上,建立了基本医疗保险数据挖掘的 模型,并分析了医疗保险数据的特点,确定了预处理的方法。 2 研究了各种频繁项项集挖掘算法,并选定f p g r o w t h 算法挖掘医保数据 中的常用药品组合,得到了一些有意义的用药模式,可用于辅助医保工 作人员决策。 3 研究了增量式频繁项集挖掘算法,提出了基于f p g r o w t h 的增量式频繁 项集挖掘算法,通过与a 砸嘶算法的比较,验证了该算法的高效性。 提出了自动确定支持度阈值的方法,并应用于医保数据,得到了与实际 相符的结果。 4 基于医保数据特点,提出了对粗糙集理论中决策表的扩展方法,拓宽了 粗糙集理论的应用领域,并应用于医保数据的属性约简,验证了该方法 的有效性。 论文将频繁项集挖掘算法应用于医保数据中常用药方的挖掘,自动获取了医 保领域的专业知识,并基于医保数据特点提出了对频繁项集挖掘算法的改进和对 粗糙集理论的扩展。 主题词:频繁项集算法,f p - g r o w t h 算法,增量式挖掘,粗糙集理论,扩展决 策表 第i 页 国防科学技术大学研究生院硕士学位论文 a b s t p a c t w i t ht h ev a s ta p p l i c a t i o no ft h em e d i c a li n f o r r n a t i o ns y s t e m t h em e d i c a li n s u r a n c e u n i t sh a v ea c c u m u l a t e dal a r g em o u n to fd 毪t & i tb e c o m e su r g e n tn e e dt om a k el l s eo f t h e s ed a t aa n dc x t r d mv a l u a b l ek n o w l e d g ef r o mt h e m a f t e rd e c a d e s d e v e l o p m e n t t h e d a t am i n i n gt e c h n i q u e sh a v eb e e nm a t u r ea n du s e di n m a n yf i e l d s ,w i t hl o t so f w o n d e r f u lf r u i t s oc h o o s i n gf i g h tm i n i n ga l g o r i t h mt om i n et h em e d i c a ld a t ac a nb r i n g u ss o m eo b j e c t i v ea n di n t e r e s t i n gk n o w l e d g e ,a n da s s i s td e c i s i o n - m a k i n g w e a p p l i e dt h ef p g r o w t ha l g o r i t h mt ot h eb a s i c a lm e d i c a li n s u r a n c ed a t aa n dg o t s o m ek n o w l e d g ea b o u tm e d i c a lf i e l d b a s e do nt h ed a t af e a t u r e ,t h ea u t o - d e c i d i n g s u p p o r tt h r e s h o l da n di n c r e m e n t a lf p - g r o w t hm i n i n ga l g o r i t h mw a sd e s i g n e da n d v a l i d a t e db yt h ee x p e r i e n c e s 1 1 l em a i nc o n t e n to ft h et h e s i sa l ea sf o l l o w s 1 o nt h eb a s i so fb e i n gf a m i l i a rw i t ht h eb a s i c a lm e d i c a li n 殴h a 睡w ec o n s t r i c t t h eb a s i c a lm e d i c a li n s u r a n c ed a t am i n i n gm o d l e w ea l s oa n a l y z et h eb a s i c a l m e d i c a li n s u r a n c ed a t aa n dc h o o s et h em e t h o df o rd a t ap r e t r e a t m e n t 2 w es t u d yt h em a i nd a t am i n i n ga l g o r i t h ma n dc h o o s et h ef p g r o w t ht om i n i n g t h ef r e q u e n tm e d i c i n ec o m b i n a t i o nf r o mt h eb a s i c a lm e d i c a li n s u r a n c ed a t a w eg e ts o m ev a l u a b l em e d i c i n e - u s i n gp a t t e r n , w h i c hc a nb eu s e dt oa i dt h e b a s i c a lm e d i c a li n s u r a n c ew o r k e r s 3 w er e s e a r c ho nt h ei n c r e m e n t a lf r e q u e n ti t e ms e t sm i n i n ga l g o r i t h m sa n d p r o p o s ean o v e la l g o r i t h mb a s e do nf p g r o w t h a f t e rb e i n gc o m p a r e dt ot h e a p r i o r ia l g o r i t h m ,t h en e wa l g o r i t h mw a sp r o v e dt ob em o r ee f f i c i e n t w ea l s o p r o p o s et h em e t h o df o ra u t o - d e c i d i n gr a i n s u p p o r ta n da p p l yi tt ot h eb a s i c a l m e d i c a li n s u r a n c ed a t a , g i v i n gt h er e s u l t sw h i c ha r cc o n s i s t e n t 、航mt h e p r a c t i c e 4 c o n s i d e r i n gt h ef e a t u r eo ft h em e d i c a li n s u r a n c ed a t a , w ep r o p o s et h ed e c i s i o n t a b l ee x t e n d e dm e t h o d , w h i c he n l a r g e st h ea p p l i c a t i o nf i e l df o rt h er o u g hs e t t h e o r y w ea p p l yt h em e t h o df o r t h eb a s i c a lm e d i c a li n s u r a n c ed a t a sa t t r i b u t e s r e d u c t i o n ,a n dv a l i d a t et h ee f f e c t i v e n e s so ft h em e t h o d t h i sp a p e ra p p l i e st h ef r e q u e n ti t e ms e t sm i n i n ga l g o r i t h mt ot h eb a s i c a lm e d i c a l i n s u r a n c ed a t aa n dg e t ss o m ev a l u a b l em e d i c i n e - u s i n gp a t t e r n s c o n s i d e r i n gt h ef e a t u r e o ft h eb a s i c a lm e d i c a li n s u r a n c ed a t a , i ta l s op r o p o s e st h ei m p r o v e m e n to ft h ef r e q u e n t m i n i n gm e t h o da n dt h ee x t e n s i o no ft h er o u g hs e tt h e o r y k e yw o r d s :f r e q u e n t 醣m sa l g o r i t h m ,f p - g r o w t ha l g o r i t h m ,i n c r e m e n t a l m i n i n g 。r o u g hs e tt h e o r y ,e x t e n d e dd e c i s i o nt a b l e 第i i 页 国防科学技术大学研究生院硕十学位论文 表 目录 表2 1原有数据与所用数据字段数对比表一l l 表2 2 年龄离散化一一一1 2 表2 3 工资总额离散化1 2 表2 4 离散化后数据表。1 3 表3 1肺癌的部分药方数据库d 2 6 表3 2 药方数据库d 的完全频繁项集集合2 6 表3 3按项的支持度降序排列所得数据库d 3 0 表3 4 数据库中不同层次药物数量统计表3 2 表3 5 住院病男女用药模式差别表3 3 表3 5 住院病男女用药模式差别表( 续) 3 4 表3 6门诊病男女用药模式差异表,3 5 表3 7 不同医疗机构对高血压i i i 期的常用药品3 6 表4 1覆盖率为9 5 时求得的部分住院病种用药模式的常用度阈值4 4 表4 2 覆盖率为9 5 时求得的不同医院对肺癌的用药模式的常用度阈值4 4 表5 1决策表4 7 表5 2 扩展决策表示例5 8 表5 3由扩展决策表转化所得决策表5 8 表5 46 种疾病属性集的最小约简6 0 第1 v 页 国防科学技术大学研究生院硕士学位论文 图目录 图1 1 数据挖掘基本流程图3 图2 1 传统医疗服务中的双方交换关系1 3 图2 2 基本医疗保险中的三方交换关系一1 4 图2 3 医疗费用审核部门工作流程图1 4 图2 4 用药模式层次示意图1 7 图2 5 解决异常处方问题框架图2 0 图3 1a p f i o f i 算法代码2 7 图3 2a p f i o f i g e n 函数的两个子函数2 7 图3 3 数据库d 所对应的f p t r e e 31 图4 1f p - 仃e e 更新算法4 0 图4 2i f a 挖掘算法。4 l 图4 3 支持度为3 0 时数据库d 对应的f p 。缸优4 1 图4 4自动确定最小支持度算法4 2 图4 5 a p n o n 算法与i f a 算法挖掘时间之比4 3 图5 1x 的b 上近似集、下近似集、正域、负域和边界域4 9 图5 2 基于可辨识矩阵属性约简5 3 图5 3 基于属性依赖度启发式算法5 5 图5 4m l b a r k 算法5 5 图5 5 扩展决策表转换算法5 9 第v 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意。 学位论文题目:数量控塑箕遮查医堡数量土的廑用盟窒 学位论文作者签名:h b 望址 日期:参纩嗲月参z 日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文 ( 保密学位论文在解密后适用本授权书) 学位论文作者签名:d 至三蕉 作者指导教师签名:一 日期:力历吵年月幻 日期:沙矽年z 月潮 , 国防科学技术大学研究生院硕十学位论文 第一章绪论 数据挖掘技术经过几十年的发展,已经广泛应用到了许多领域。随着医疗行 业信息化的进程,医疗保险管理部门积累了大量的数据,如何利用这些数据形成 有价值的知识成为亟待解决的问题。近年来,我国医疗保险事业取得了长足的发 展,但是其中也存在诸如冒名顶替、伪造资料、过度医疗等的问题,应用数据挖 掘技术将医疗保险数据转化为领域知识将有望解决这些问题。 1 1 课题来源及意义 随着医疗保险信息系统的广泛应用,医保行业积累了海量的历史数据,如长 沙市2 0 0 5 年一年,仅医疗费用信息表中的数据就多达31 2 30 1 5 条,从2 0 0 0 年建 立医保信息化系统以来积累的数据更是有上百g 之多。这些数据记录了患者就诊 后的主要情况,其中有对医保行业最关键的资金数据,还有尚未被利用的病人信 息、医院信息、治疗项目和药方信息等。这些宝贵的医学信息资源对于疾病的诊 断、治疗和医学研究都是非常有价值的。然而,现有的医保信息系统大多只具有 录入、查询、修改和简单的统计功能,而无法从这些数据中获取有价值的知识。 如何利用这些海量的信息资源为医保中心监管各医疗单位提供科学的决策支持, 总结各种疾病的常用治疗方案,以实现对医疗单位和参保人精细化管理,已越来 越为人们关注。 如今种种不法行为,如医院违规开大处方、医生病人联合骗保等,已对医疗 保险业正常运转造成了不小的危害。现在对这些行为的监管还主要靠人工,面对 日益膨胀的数据,仅靠人工检测已明显不能满足需求。如何能够自动、高效、快 捷地监测出这些不法行为是摆在我们面前的重大课题。 为了解决这一问题,本课题通过对长沙医保中心数据的分析,将问题聚焦为 挖掘其中的常用药方和治疗项目。有了这些药方和治疗项目的模式,系统就可以 在实时监控中将检测数据与这些模式做对比,如果一致则该数据为合理数据;否 则,该数据为异常数据,报请工作人员核查。这样,这些结果就相当于专家的领 域知识,可以辅助工作人员决策。由于治疗项目的挖掘与药方的挖掘类似,下面 就只讨论常用药方的挖掘。 本课题认为可以将对医保数据中用药模式的挖掘问题分解为以下子问题:挖 掘什么数据? 如何获得这些数据? 采用何种方法挖掘? 如何解释和评价挖掘结 果? 如何改进算法使挖掘结果更理想? 本文就是循着这个思路一一展开。 本课题通过对医保数据和相关领域的研究,建立了医保数据挖掘的模型,并 第l 页 国防科学技术大学研究生院硕士学位论文 在该模型基础上挖掘出了用药模式。所挖掘的用药模式可以作为领域知识辅助医 保工作人员决策,打破领域知识获取的瓶颈。本课题还提出了自动确定最小支持 度的增量式f p g r o w t h 算法,提高了增量式频繁项集挖掘算法的挖掘效率,减少了 人机交互的次数。本课题还讨论了决策属性为集合值的决策表的属性约简方法, 解决了用药模式的属性约简问题,扩展了粗糙集理论。 1 2 数据挖掘技术及其在医保相关领域的应用 1 2 1 数据挖掘定义和主要流程 “数据挖掘”一词源于1 9 9 5 年于加拿大召开的第一届知识发现和数据挖掘 ( k n o w l e d g ed i s c o v e r ya n dd a t am i n i n g ) 国际学术会议l ,由于其形象生动而广为 流传。数据挖掘是多种技术融合的产物,这些技术主要有数据库、统计学和机器 学习等,对这样一个研究领域的定义很难在学术界达成一致认识,如j i a w e ih a r t 等认为“数据挖掘是从存放在数据库、数据仓库或其他信息库种的大量数据中发 现有趣知识的过程一1 2 j ,而d a v i dh a n d 等则认为“数据挖掘就是对观测到的数据 集( 经常是很庞大的) 进行分析,目的是发现未知的关系和以数据拥有者可以理 解并对其有价值的新颖方式来总结数据”1 3 j 。 从中可以总结以下几点: ( 1 ) 数据挖掘的对象是大量数据,甚至是海量数据。此时人工分析已经难以 或不能奏效,故要诉诸计算机自动处理。由于数据量庞大,对算法的性 能也提出了更高的要求。 ( 2 ) 数据挖掘的目的是发现“有趣的 、“未知的一知识,这些知识要以用 户可理解的方式呈现。这里的“有趣 既指这些知识在客观上是有效的, 即反映了客观规律;又指这些知识在主观上是对用户有用的,即是用户 感兴趣的。 ( 3 ) 上述定义中没有限制数据挖掘的方法。因为现有的数据挖掘方法众多, 而且新的挖掘方法也不断出现,很难限定这些挖掘方法。能够完成挖掘 任务的方法就是好方法,这就要求根据实际需要选择合适的,或提出新 的挖掘方法。 按照上述定义,将数据准备和预处理也纳入数据挖掘的范畴,则数据挖掘基 本流程可用图1 1 表示: 下面一一介绍图中各个步骤: ( 1 ) 数据准备 数据准备就是根据领域知识和求解目标,从原始数据中选取合适的数据作为 第2 页 国防科学技术大学研究生院硕士学位论文 对象数据。由于原始数据往往非常庞大,而且包含很多与挖掘目标无关的数据, 所以需要从中选取与挖掘目标相关的数据作为对象数据。做好这项工作,需要对 领域知识有全面的了解,并深入理解原始数据。对于本课题,结合领域知识和专 家意见,从众多的表中选取了3 个表作为对象数据。 图1 1数据挖掘基本流程图 ( 2 ) 数据预处理1 2 所谓数据预处理,就是将对象数据转换为挖掘算法所需格式的样本集而采用 的方法。主要的数据预处理方法有:数据清洗、数据集成、数据规约和数据离散 化等。 现实中的数据往往是有噪声、有遗漏值或有不一致的数据等,数据清洗就是 通过各种方法平滑噪声、补齐遗漏值并去除或协调不一致数据,使得所得数据既 能反映原始数据的基本特征,又能满足挖掘算法的要求。 数据集成就是将原来分散的数据集成到一起,方便进行数据挖掘。比如本课 题中患者的处方存储在几条就诊记录中,就要将这些记录合成为条处方数据。 有些数据分散在几个表中存储,就需要找出这些表的关联关系,将这些表合为一 个表。 对象数据中往往含有冗余属性,如何从众多属性中选取有价值的属性是数据 规约要解决的主要问题。对于本课题来说,数据规约就是选取合适的属性来定义 药方数据库,一方面使得到的样本集最小化,提高挖掘效率;另一方面可供实际 应用参考,即在监控数据时优先或主要考虑这些属性。 因为有些数据挖掘算法不能处理连续值,所以要将连续值离散化。比如本课 题中的粗糙集就只能处理离散值数据,所以要将诸如收入水平这样的数据离散化。 有时为了处理方便,还要将离散值离散化,比如年龄本身是离散值,但是为了处 理方便往往将年龄划分为几个年龄段进一步离散化。 经过数据预处理,将对象数据转换为了挖掘算法所能使用的样本集,下一步 工作就是正式挖掘了 3 应用挖掘算法 这一步主要是选取合适的挖掘算法对样本集进行挖掘。算法的选取应该根据 待解决的问题一开始就确定下来,因为数据预处理方法要为挖掘算法量身定做。 第3 页 国防科学技术大学研究生院硕+ 学位论文 m , mm 挖掘结果要表示为知识的形式,而这些知识是否为最终结果还需要用户来判断, 如果用户判断为合理的,则可以输出:如果不是则要重新调整挖掘思路,如此循 环直至得出用户满意的知识。 1 2 2 主要的数据挖掘算法 数据挖掘方法众多,按照不同的划分标准可以得出不同的分类,而每一种方 法又有许多变种,比如有的按照挖掘算法将数据挖掘分为基于信息论的方法、基 于集合论的方法、关联规则挖掘、人工神经网络、遗传算法和公式发现等六大类【4 】: 有的按照挖掘的模式进行划分,如文献【z j 将数据挖掘分为概念类描述、关联分析、 分类和预测、聚类分析、局外者分析和演变分析等六大类。由于同一算法应用于 不同的任务可能产生不同的方法,所以这里介绍一些主要的数据挖掘算法,而具 体的挖掘方法可能是这些方法的变种或综合 1 2 2 1 关联规则挖掘 关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系【2 】,是在大量事 件中出现的不同项之间的相关性,比如在超市数据中顾客所购买的不同商品之间 的相关性。 记全项集i = ,岛, ,其中的元素f ,( 1 疗) 为项;事务集 d = 五,瓦,乙 ,事务集往往指一个数据库中满足条件的数据的集合,其中的元 素t sjs搠)为事务,也是项的集合。一条关联规则是形如jj的蕴涵关系式,,o y 其中x i ,】,g i ,且x 厂、】,= 矽,x 称为规则头,】,称为规则尾。项集之间的关 联表示:在所有x 出现的事务中,l ,同时出现的可能性比较高。规则x 】,在事 务集d 中的支持度( 鳓p p 嘣) 是事务集r 中包含x 和y 的事务数与所有事务数之 比,记为s u p p o r t ( xj 引。 规则x jl ,在事务集d 中的置信度( c o n f i d e n c e ) 是事务集丁中包含x 和y 的 事务数与包含x 的事务数之比【5 l 。 对于给定的一个事务集d ,关联规则的挖掘问题可以转化为两个子问题:找 出支持度大于用户给定的最小支持度( m i n s u p ) 的频繁项集和可信度大于最小可 信度( m i n c o n ) 的关联规则。由于后一个子问题较简单,所以研究人员主要关注 频繁项集挖掘算法。 最著名的频繁项集挖掘算法是由r a g r a w a l 等于1 9 9 4 年提出的a 1 ) f i 0 6 算法。 a p r i o r i 算法的最初解决的问题是:找出超市数据中顾客购买较频繁的商品组合。 算法利用频繁项集的反单调性质对候选项集进行剪枝,一定程度上提高了搜索效 率,但仍要多次扫描数据库。其后许多研究人员又提出了很多频繁项集挖掘算法, 第4 页 国防科学技术大学研究生院硕十学位论文 主要工作集中在如何提高项集的生成效率和降低计算代价上。 1 2 2 2 粗糙集理论 粗糙集理论是由波兰华沙理工大学的z p a w l a k 教授于1 9 8 2 年提出的一种研 究不完整、不确定知识和数据的表达的理论方法,现已成为数据挖掘和知识发现 研究中的有力工具。 粗糙集理论采用上近似集合b 一( x ) 和下近似集合厦( x ) 来定义粗糙集,其中 x 的b 上近似集b 一( x ) 是指根据属性子集曰判断可能属于x 的对象集合,而x 的 艿下近似集罡( x ) 是指根据属性子集判断肯定属于x 的对象集合。若 b _ ( x ) = 照( x ) 则称x 为曰可定义集,否则称x 为曰粗糙集。可见若x 为口粗糙 集集,则x 中存在根据属性子集b 判断无法肯定属于口的对象。为b 上近似集 b 一( x ) 与b 下近似集罡( x ) 的差集。边界域b n g n ( x ) 表示对于属性子集b ,u 中 所有既不能归入x 也不能归入的对象的集合。若集合x 的召边界域b n g b ( x ) 不为空集,则x 为b 粗糙集 6 1 。 粗糙集理论最大的特点是不需要待处理数据集合以外的任何先验信息,如统 计学需要事先知道概率分布、模糊集理论需要先定义隶属度或隶属函数等,而是 直接从给定问题出发,通过数据集不可分辨关系和不可分辨类确定问题的近似域, 从而找出问题中的内在规律。 粗糙集理论可以用于分类,发现不准确数据或噪声数据内在的联系。找出可 以描述给定数据集中所有概念的最小属性子集是个n p 难问题【7 】。在给定的现实世 界数据中,往往有些类不能被可用的属性区分,那么就可以用粗糙集来近似地定 义这些类。 1 2 2 3 决策树学习 决策树学习是应用最广的归纳推理算法之一,是一种逼近离散值目标函数的 方法,在这种方法中学习所得函数表示为一棵决策树。决策树也称为判定树,它 是一种结构,通过应用简单的决策规则,利用这种结构可以将大型记录分割为相 互连接的小记录集。决策树生成过程大致如下: 将给定训练集作为决策树的根节点,训练集中的记录具有多种属性,利用某 种度量来寻找节点上具有使这种度量值最大的属性,根据对该属性的不同取值建 立该节点若干分支,并为所有分支子集建立对应的节点。在每个分支集中重复以 上过程建立下层分支和节点,直到新节点不再增大这种度量或达到某种限制为止, 这样便生成了一棵完整的决策树【8 】。 因为完整的决策树往往会过适应于训练集,不利于预测和决策,所以还要对 决策树进行剪枝处理,这样就产生了最终的决策树。之后将决策树的节点分裂过 第5 页 国防科学技术大学研究生院硕十学位论文 程转化为“i f ”t h e n ”规则的形式。这样就完成了从数据集到规则的归纳过程,然后 利用这些规则就可以对新数据进行分类。 经典决策树学习算法有著名的i d 3 以及在此基础上出现的c 4 5 、s l i q 等。i d 3 算法选择具有最高信息熵的属性作为当前结点的测试属性,它所产生的决策树最 为简单,工作量最小,产生的分类规则也易于理解。但也存在着一些不足,比如 不能够处理连续值属性、计算信息熵时对取值较多的属性有偏好等。i d 3 的改进算 法c 4 5 用信息增益率来选择属性,克服了用信息熵选择属性时偏向选择属性值多 的属性的不足。此外,在决策树构造过程中或构造完成后进行剪枝,提高了抗噪 声能力。常用的决策树算法还有s l i q 算法,s l i q 算法对c 4 5 分类算法的实现方 法进行了改进,在决策树的构造过程中采用了预排序与广度优先增长策略,使得 该算法能够处理更大的训练集。 1 2 2 4 人工神经网学习 人工神经网络是具有有向图拓扑结构的高度并行的动态系统,它可通过对输 入状态施加作用来获取输出信息,网络由处理单元和有向连接组成1 9 l 。网络的信息 分布式存储于连接权系数中,使网络具有很强的容错性和鲁棒性。人工神经网络 的核心是结构和算法,例如以结构见长的h o p f i e l d 网和以算法见长的b p 网。 人工神经网络学习就是将训练集所包含的信息反映到网络连接权值上。网络 连接权值的确定过程大致如下:首先定义网络的拓扑结构,再对训练样本中的每 个属性的值进行规范化预处理,然后用处理过的样本集对神经网络的连接权值进 行训练,直到神经网络与样本集达到规定的拟合度为止。 在数据挖掘中,人工神经网络主要用于数据分类和最优化问题。但是由于人 工神经网络分类方法获取的分类规则隐含在网络结构中,而没有显式的表现出来, 所以不容易被人们理解和解释;另外要多次扫描训练数据,网络的训练时间较长。 因此,将人工神经网络用于数据挖掘,要解决好两个关键问题:一是降低训练时 间,二是提高挖掘结果的可理解性。 1 2 2 5 遗传算法 遗传算法最先由j o h nh o l l a n d 于1 9 7 5 年提出,该算法试图通过模拟生物的进 化,借助选择、交叉和变异操作,使要解决的问题从初始解逐步逼近最优解,解 决了许多全局优化问题。可以说遗传算法的灵魂是“优胜劣汰原则和种群“多 样性 ,“选择 保证了前者,“交叉 和“变异砂保证了后者【l o l 。 遗传算法通过编码将优化等闯题从问题空闻映射到遗传算法的操作空间,再 通过译码将操作结果从操作空间映射回问题空间。对于具体的问题,常常有限制 条件,即存在一个可行解空问。为了保证最后的解是可行的,可以采取两种方法: 一是将可行解空间与遗传算法的操作空间一一对应;二是将可行解空间包含于问 第6 页 国防科学技术大学研究生院硕士学位论文 题空i 日j 中。 遗传算法是依据随机技术来保证其寻优方向的算法,从“最优个体在运动过 程中越来越多舫可推断出:遗传算法只能保证全局寻优的趋势。目前关于遗传算 法的最好理论结果是:经过改进的遗传算法能够依概率达到全局最优。由于小概 率事件有可能发生,所以算法有可能不收敛。 遗传算法易于并行,已广泛用于分类和优化问题。在数据挖掘中,还可用于 评估其他挖掘算法的适合度。 1 2 3 数据挖掘技术在医保相关领域的应用 医保相关的领域主要有医疗领域和保险领域,由于本课题挖掘目标为医疗单 位针对某种疾病为患者开具的常用药方,这与医疗领域密切相关。为此,主要对 数据挖掘技术在医疗领域的应用进行了研究,下面是对这一方面应用的简要介绍。 1 2 3 1 数据挖掘技术在医疗诊断领域的应用 由于人体的复杂性,医生在对患者进行诊断时往往要考虑许多因素,许多学 者在利用计算机辅助医生决策方面做了大量的研究。 有的学者通过对医疗数据的分析得出规则来辅助医生决策。杨天霞等【l l j 将粗 糙集理论用于某医院关于流行性感冒诊断的数据,得出了病人特征与诊断结果之 间的关系,并指出了这些特征中对诊断结果影响较大的几种:李晓毅等1 1 2 】将3 0 3 3 名有胃病症状患者个人生活习惯与是否患有胃癌的情况作为数据库,运用关联规 则进行挖掘,发现了导致胃癌的一些因素;吕岩等u 习利用遗传算法对睡眠呼吸暂 停症患者进行辨识,发现其判断能力与专家接近或优于专家;y o u n gm o o nc h a ee t “1 4 l 通过对韩国医疗保险数据库中高血压数据应用决策树算法,得出了影响高血压 的一些因素,并证明了决策树算法比回归方法更准确;l v e f g h ie t 硝1 1 5 j 利用时延 人工神经网络按患者特征对手术中麻醉剂使用剂量进行分类,发现效果要好于传 统的多层感知人工神经网络。 有的学者则试图通过对医学图像的分析辅助医生诊断。毕峰1 1 6 】把遗传算法与 模糊聚类相结合的算法用于医学超声图像分割,实验结果表明分割结果优于传统 方法;s p a v l o p o u l o se ta l | l t ! 运用模糊人工神经网络算法对肝脏超声检测图进行分 类,发现其结果比人工分类结果还要好。 l 础数据挖掘技术在医疗信息系统中的应用 随着医疗信息系统广泛应用,积累了大量的数据,如何分析这些数据并形成 有用的知识是许多学者试图解决的问题。 有的学者通过对医疗信息系统数据的挖掘得出了一些有意义的规则,希望用 第7 页 国防科学技术大学研究生院硕十学位论文 于政策的制定和修改。陈艳等驯应用粗糙集理论分析某医院对住院患者的调查记 录,得出了患者一些属性和报销比例之间的关系;王剑等【l 川运用多元统计和概率 神经网络的方法对医疗保险中投保人的患病风险以及属于何种风险类别进行分析 和判别,准确率在8 0 左右;张婧掣2 0 l 用决策树算法对医疗保险数据中影响个人负 担的因素进行分析,得出了住院费是决定人员就医的首要因素的结论;李冉冉等【2 l l 对某市医疗保险数据运用决策树算法分析影响个人账户年消费金额的因素,得出 了年龄因素影响较大,而性别因素基本没有影响的结论。 有的学者则试图通过对这些数据的分析发现医疗欺诈行为。赵连朋田】采用关 联规则挖掘疾病诊断、病历与处方之间的关联程度及药品成分间的关联程度,以 对医师所开的处方实行智能监督,实验验证成功率为9 1 2 ;h o n g x i n gh ee ta 1 1 2 3 1 用多层感知人工神经网络对澳大利亚健康保险委员会的数据进行分析,以发现医 疗欺诈行为。 1 2 3 3 多种数据挖掘技术融合的趋势 随着数据挖掘技术在医疗领域的应用,学者们发现仅用一种挖掘方法往往不 能得到理想的效果,因此多种挖掘技术的融合将是将来的趋势。 p a b i t r am i t r ae ta l t 2 4 佣粗糙集和i d 3 算法对最初的领域知识进行编码,降低搜 索空间和时间,然后用基因算法优化网络,最后用人工神经网络对4 个阶段的2 2 1 例宫颈癌患者数据( 每条数据有2 1 个属性值) 进行了挖掘,得出基于知识的人工 神经网络更易得出好解释的结论;v i i ip o d g o r e l e ce ta l t 2 5 j 利用决策树和遗传算法结 合的方法对儿童心脏二尖瓣脱垂综合症患者进行分类,发现结果好于只用决策树 算法;g l o r i ap h i l l i p s w r e ne ta l t 2 6 j 通过对健康护理资源应用不同方法进行分析,得 出了决策树和人工神经网络,特别是二者的结合,要优于回归算法的结论,他们 认为这些挖掘方法更适合辅助健康护理决策;a n d r e wk u s i a ke ta l t 2 7 1 通过对5 0 名孤 立性肺结节患者数据的分析也得出运用多种挖掘方法可以提高挖掘精度,降低对 数据集要求的结论。 1 3 本文主要工作 本文主要任务是通过对医保数据库中的药方数据进行分析,得出一些有价值 的用药模式,以发现异常处方,辅助医保工作人员监测。论文研究了基于f p g r o w t h 的频繁项集算法,并根据任务需要实现了自动确定支持度阈值的增量式f p - g r o w t h 算法;研究了粗糙集理论,并根据挖掘数据特点提出了对决策表扩展的思路,该 算法可用于决策属性是集合值的情况。最后,应用改进的算法对医疗保险数据进 行了挖掘,获取了一些用药模式,并与领域知识进行比较,发现这些结果很有应 用价值。 第8 页 国防科学技术大学研究生院硕十学位论文 本文的主要工作和创新点如下: ( 1 ) 对基本医疗保险领域进行了建模,并应用f p - g r o w t h 算法对基本医疗保险 数据进行了挖掘,获取了一些有价值的用药模式。经过与领域知识比较, 发现这些挖掘结果与领域知识粗符,并且能弥补领域知识获取较难的不 足这些用药模式可用于辅助医疗保险工作人员决策。 ( 2 ) 提出了自动确定支持度阂值的增量式f p - g r o w t h 算法,一方面,该算法是 基于f p g r o w t h 的增量式频繁项集挖掘,这种方法比其他增量式频繁项集 算法高效;另一方面,该算法提出了自动确定支持度阈值的方法,可以 更好地度量用户兴趣度,减少人机交互次数,提高挖掘效率。 ( 3 ) 根据所遇到的问题,对粗糙集理论做了修正,提出了扩展决策表的概念, 并利用频繁项集算法做预处理,解决了决策属性是集合值的属性约简问 题。 1 4 论文概览 本文共五章,各章的主要内容安排如下: 第一章为绪论,提出课题来源及意义,介绍了数据挖掘技术及其在医保相关 领域应用的现状,归纳本文的研究成果并介绍本文的组织结构。 第二章讨论医保数据预处理即异常处方问题解决方法,主要介绍了医保数据 的特点和预处理方法;介绍了医疗保险领域的基本知识,并对医保数据中异常处 方问题进行建模;最后阐述了异常处方问题的解决框架,将异常处方问题转换为 用药模式挖掘问题,进而分化为四个子问题。 第三章为频繁项集挖掘算法在医保领域的应用,主要研究了频繁项集算法的 常用概念、性质和主要挖掘算法,并选取f p g r o w t h 算法进行挖掘:通过两次实验 得到了一些有价值的用药模式,可用于辅助医保工作人员发现异常处方。 第四章为自动确定最小支持度的增量式f p g r o w t h 算法,根据课题特点提出了 自动确定最小支持度的方法,及增量式f p g r o w t h 挖掘算法,并验证了算法的有效 性。 第五章为粗糙集理论在用药模式约束集约简上的应用,主要研究了粗糙集理 论及常用的属性约简算法,并根据医保数据特点提出了对决策表的扩展,能够实 现医保数据中用药模式约束集的属性约简,并拓宽了粗糙集的应用领域。 结束语对论文的主要工作进行了总结,并且对论文还没有解决的问题以及下 一步要进行的工作进行了说明。 第9 页 国防科学技术大学研究生院硕十学位论文 第二章医保数据预处理及异常处方问题解决方法 本章主要介绍如何通过对医保数据的挖掘来辅助医保工作人员发现异常处 方。首先,介绍医保数据特点和预处理方法,由原始数据得到样本集;然后,根 据医保领域知识,将要解决的问题确定为针对某种疾病的异常处方,并将该问题 转化为用药模式的挖掘;最后,建立了医保数据中用药模式挖掘的模型,并讨论 解决该问题的框架,及改进实验结果的方法。 2 1 医保数据特点及预处理方法 2 1 1 医保数据特点 基本医疗保险是通过国家立法,强制性由国家、单位、个人集资建立医疗保 险基金,当个人因病接受必须的医疗服务时,由社会医疗保险机构提供医疗费用 补偿的一种社会医疗保险制度i z 引。 基本医疗保险是社会保险的一种,它拥有社会保险的基本特征。所以医保数 据有保险数据的特征,即有数据类型多、动态性和数据量大的特点m j ,同时它还 有以下特点: ( 1 存放数据的表繁多且关系复杂 医保数据涉及的内容比较广泛,既有医疗单位的业务数据和医保中心的业务数 据,又有参保人和参保单位的信息数据,还有各种数据库维护所需数据,因此存 放这些数据的表非常多,如长沙市医保中心存放各类数据的表达1 9 0 个之多。造 成数据表非常多的原因之一是,工作人员为了处理方便,将一些业务数据分散在 多个表中存储,比如有存放参保人员信息的数据表,有存放药品信息的数据表。 这样患者到医疗单位的一次就诊行为会涉及多个数据表,而且这些数据表的数据 之间有的还存在一对多的关系,比如医疗情况表中的一条记录会对应药品费用明 细表中的多条记录。因此,需要从数据库中提取相关的数据表,理清它们之间的 相互关系,抽取需要的数据建立一个新的数据表。 ( 2 ) 数据相对完整,空缺值较少 由于医保中心对医疗单位的业务数据格式有要求,而医保中心的业务数据不是 涉及参保人和单位、医疗机构的信息,就是关于医保基金流动的信息,所以数据 库中的关键数据都比较完整,基本没有空缺值。但是,有些医保中心或医疗单位 认为不重要的信息空缺严重,比如参保个人账户表中职务和职业完全空缺,而职 称也是空缺严重;定点医疗机构表中高级职称人数、中级职称人数、初级职称人 数空缺严重,1 4 4 家医疗单位没有空缺的只有4 4 家。这些数据对于医保中心的基 第1 0 页 国防科学技术大学研究生院硕十学位论文 、 金正常运行可能没有什么影响,但是严重制约了课题的数据选择。 ( 3 ) 存在不一致和无价值的数据 不一致的数据主要是疾病代码和时间格式的不一致。如疾病名称同是“高血 压 ,有的医院用代码“4 0 1 90 7 ,有的用“4 0 1 90 7 ,有的二者兼用,在本课 题涉及的1 1 3 种常见疾病中,共有1 2 种疾病名称存在这种情况。2 0 0 5 年,入院为 原因待查的有1 84 4 6 条记录,其中出院仍为原因待查的有3 1 9 条,出院为原因查 明的有2 3 9 条,出院为空记录的有1 78 8 8 条,这意味着1 81 0 7 虽然没有完全空缺, 但是无法确诊,则这些数据对于本课题是没有价值的。 2 1 2 医保数据预处理方法 长沙市医保中心从2 0 0 0 年成立到现在已经有近9 年时间了,其间积累了海量 的数据。为了反映用药情况并方便处理,从中选取了2 0 0 5 年的数据作为原始数据, 共有1 09 7 63 4 7 条记录。 2 1 2 1 医保数据选择和集成 如上所述,数据库中的数据大多与本
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 消防员客观练习题库及答案
- 消防员个人工作总结
- 湘艺版小学音乐六年级上册《我的祖国》教案
- 2025年年中国食品饮料项目建议书
- 2025年耐高温滤料合作协议书
- 教育心理学与健康生活的结合点
- 如何运用心理学优化教学策略
- 教育品牌危机公关快速响应策略与实施
- 全球医疗教育的新模式与挑战
- 教育技术与商业培训的融合探索
- 2025上海济光职业技术学院辅导员考试试题及答案
- 2024年江苏三支一扶真题
- 《危险货物港口作业重大事故隐患判定指南》解读与培训
- 主、被动防护网施工方案-图文
- 2025年初中语文文学常识:常考100题汇编
- 虚幻引擎介绍课件
- 君易和文化课件
- 2024年常德市安乡县教育局选调工作人员笔试真题
- 药食同源106种25年4月更新
- 2025年江苏省南通市中考英语适应性试卷(A卷)
- 无机盐在化妆品行业的应用研究考核试卷
评论
0/150
提交评论