医保就医聚集行为挖掘.doc_第1页
医保就医聚集行为挖掘.doc_第2页
医保就医聚集行为挖掘.doc_第3页
医保就医聚集行为挖掘.doc_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医保就医聚集行为挖掘摘要 医保就医聚集行为挖掘对于加强医保管理、保证医保基金的平稳运作具有非常重要的作用。数据挖掘技术可以为就医聚集行为挖掘提供有效的解决方案。找出具有就医聚集行为的人群,有助于对该人群进行更具有针对性的管理,提高管理效率。本文针对医保基金运营过程中出现的就医聚集行为,提出基于频繁模式挖掘的一致行为挖掘算法CBM,实验表明该算法比Apriori和Eclat具有更好的性能,能有效检测就医聚集行为。此外,CBM算法应用于医保管理与监督中并取得显著成效。关键词 就医聚集,一致行为挖掘,频繁模式,医保管理MINING CONSISTENT BEHAVIOR IN HOSPITALIZATIONAbstract 3(School of Computer Science, Fudan University, Shanghai 200433, China) Detection of behavior in hospitalization is of significant importance for preventing risk of medical insurance fund and ensuring the steady operation of the fund. Data mining algorithms can offer new thread of thinking and new methods for detecting fraud behavior in hospitalization. This paper, focusing on consistent fraud behavior in hospitalization, proposes a consistent behavior mining algorithm CBM based on frequent pattern mining. The experiment indicates that the algorithm, which can detect consistent behavior effectively, performs better than both Apriori and Eclat. Moreover, a platform called consistent behavior of fraud mining is developed based on CBM, and it works well in practice.Keywords Consistent behavior Frequent pattern Hospitalization Insurance Management 30 引言近年来,我国的社会医疗保险得到了迅速的发展,覆盖面越来越大,成为我国社会保障制度最重要的组成部分。社会医疗保险基金数额大影响广,如何保证社会医疗保险基金的正常运作,提升医保管理水平,合理有效地规避潜在的运营风险成为一项极为重要的课题。在国外,数据挖掘技术在保险风险防控中有较广泛的应用。国内由于保险业起步较晚,对风险防控的研究多停留在基本的统计学等方法上。然而,经过多年的信息化发展,医疗保险行业已经积累了海量的数据,而数据挖掘技术正为海量数据处理提供了可能。在医保管理过程中,我们发现存在一些就医聚集行为,出现就医聚集行为可能是由于某些特殊病症人群如某些慢性病人群造成,也有可能存在欺诈行为。找出这些具有就医聚集行为的人群一方面能够对特殊疾病人群提供针对性的管理和服务,另一方面能有效提高对违规人群的监督力度。本文通过抽象出现实中就医聚集行为,采用相应的数据挖掘技术分析并提出一致行为挖掘算法CBM。该算法能有效解决问题,并且在性能上较同类算法更为高效。1 相关工作国外对医疗保险风险的防控有较长的研究。基于统计分析的方法1是一类基本的研究方法,然而为了能够处理海量数据,在保险业特别是一些商业保险公司中,数据挖掘技术越来越广泛地被应用于保险风险防控中2,3,4,5,包括神经网络3,分类5,关联规则4等。在医保管理过程中,我们遇到一种特殊的就医现象,本文称之为就医聚集行为。就医聚集行为通常表现为多张医保卡过于频繁地同时同地消费。本文形式化地抽象出这类行为模式,并设计基于频繁模式挖掘的算法来检测该类行为。经典的频繁模式挖掘算法是Apriori算法6,该算法采用水平数据集,通过维增长方式从低维到高维逐层生成频繁模式。Apriori算法的主要缺陷是生成的候选集多,并需要反复地扫描全局数据库计算支持度,导致算法效率较低。Eclat7算法使用垂直数据格式减少了数据库全局扫描次数,但若数据库中事务较多时,产生的中间模式需要大量存储空间。本文提出的一致行为挖掘算法CBM(Consistent Behavior Mining)采用了一种水平数据格式的预剪枝和垂直数据格式挖掘相结合的方式,通过候选模式与一维模式的交运算进行模式增长。实验表明该算法能有效挖掘一致行为,且具有比Apriori和Eclat更好的性能。2 就医聚集行为挖掘医保就医聚集行为通常表现为在医院就医时,多张医保卡过于频繁地同时同地消费。这种就医聚集现象可能是由于某些特殊人群如某些慢性病人需要频繁就医造成的自然聚集现象,也有可能存在违规的倾向:某人持多张医保卡同时消费。找出这些具有就医聚集行为的人群一方面能够对特殊疾病人群提供针对性的管理和服务,另一方面能有效提高对违规人群的监督力度。我们可以将就医聚集行为的表现形式简化为某种一致性:在就医时多张医保卡在同一时间段内(我们细化为一天)在同一家医院就医。这些医保卡若一致性消费过于频繁则可以认为是一种异常现象,将被列为重点监管对象。2.1 问题定义我们将就医聚集行为挖掘问题抽象出来,并给出问题的形式化描述。定义1(维度) 定义维度为就诊日期和就诊医院的组合。设就诊日期为t,就诊医院为h,则每个维度记为。记就医交易数据库DB=,为DB中的事务,表示每张医保卡的交易记录。根据定义,存在于m维空间上,且 = 0 | 1。如表1所示,若在维上取值为1,则表示医保卡于t时间在医院h就医消费,否则取值为0。根据维度定义,就医聚集行为表现为若干医保卡在相同的一些维度上均取值为1。由此引出如下模式的定义。表1 就医交易数据库TID卡号d1d2d3d4d51K1101102K2011003K3111114K4101015K501000定义2(模式) 定义模式,包含模式空间及模式上的对象集合。对,有。模式长度表示模式空间的长度,模式支持度为模式中对象的个数。设最小支持度阈值为,若模式的支持度大于或等于,则称模式为频繁模式。若模式长度len超过一定阈值则认为该模式是异常的。就医聚集行为挖掘即需要发现这些异常的模式。定义3(一致行为挖掘) 给定最短维度阈值和最小支持度阈值,找出所有同时符合以下条件的模式:a) ,即模式的长度不小于b) ,该模式下至少包含个对象定义3将一致行为挖掘问题转换成挖掘频繁模式,下面详细介绍一致行为挖掘算法CBM来解决上述问题。2.2 一致行为挖掘算法CBM数据挖掘采用的事务数据库的数据格式分为水平数据格式和垂直格式。水平格式是最普遍的交易数据库形式,交易数据库表1即为水平格式存储。CBM预先对水平数据库进行剪枝再采用垂直数据格式挖掘。算法首先扫描一遍原始数据库,预先删除所有不可能存在于所求模式中的对象,同时生成垂直数据格式和一维频繁模式。再由一维频繁模式间相互交运算生成二维频繁模式,之后由k维频繁模式与一维频繁模式的交生成k+1维频繁模式,直至无更高维频繁模式出现。算法1:CBM ( Consistent Behavior Mining )输入:交易数据库DB,最小支持度阈值(1),最短模式长度(2)输出:一致行为模式的集合1) := CreateOneDimPatterns( );2) for len:=1 do /逐维增长3) for , do 4) := Join (); /交运算5) add to ;6) end for;7) if =NULL then break; 8) end if;9) end for;10) if len then return NULL;11) return ;在水平数据库中,若某个对象在少于维上有值,则其必定不可能存在于长度大于或等于的模式中。因此我们可以通过扫描一遍交易数据库进行预剪枝,在进行扫描时可以同时生成垂直数据格式(如表2所示)和一维频繁模式集。我们将每个子模式表示为dimensions:objects:support的形式,dimensions表示模式的维空间信息,objects是该模式包含的所有对象的集合,support为该模式支持度,即包含的对象个数。由于模式增长由交运算而得,可以同时计算出支持度,所以不用再为计算支持度而重复扫描全局数据库。在垂直数据格式生成时,一维频繁模式也可以同时生成。procedure createOneDimPatterns( )/生成垂直数据格式,同时生成一维频繁模式集1) for each tidDB do /扫描DB2) if |tid.dim | Value(tid.obj, tid.dim)=1| then3) delete tid; /预剪枝4) continue;5) end if;6) := new Pattern(1); /生成一个一维模式/7) add tid.dim to dimension space of /添加维度8) if then ;9) add tid.obj to object space of /添加对象,转换成垂直数据格式10) end if;11) end for;12) return 表2 垂直数据格式维度对象集合d1K1,K3,K4d2K2,K3d3K1,K2,K3,K4d4K1,K3d5K3,K4一维频繁模式生成后,将通过模式扩展来逐层生成更高维模式。若用表示长度为k的频繁模式集,可以通过模式集的自连接运算来生成,然而对任意子模式,如果m可以通过自连接生成,则m必定也能通过与的连接生成,由此我们可以通过将k-模式集与一维频繁模式集连接来进行模式增长,从而代替了模式集的自连接运算,由于包含的模式数目较多,因此替代后可以有效减少交运算的次数。此外,根据Apriori性质:任何频繁模式的子模式都是频繁的。在执行交运算前可以将k-模式预扩展成 (k+1)-模式,若预扩展的(k+1)模式存在非频繁的k-子模式则删除该模式。如下Join函数执行模式增长:procedure Join(中的一维子模式, 中的len维子模式) 1) if then 2) return NULL;3) end if;4) := new Pattern(len+1); /生成len+1模式5) addto dimension space of6) ifor not_all_Subset_Frequent() /Ariori性质剪枝7) return NULL;8) end if;9) if then10) addto object space of12) return ;13) end if;14) return NULL:以表2的简单数据集为例,模拟CBM的模式增长过程如下图1所示:图1 模拟CBM模式增长过程3 算法实验及应用我们的实验平台为windows sever2003,CPU 2.13GHz,内存2GB。在Eclipse3.4上使用Java实现。实验采用的是医疗保险就医行为的真实数据集的一个抽样,该抽样数据集包含38,625张医保卡就医记录,跨越的时间共62天。3.1 算法对比实验我们将经典的频繁项集挖掘算法Apriori和Eclat应用到本文的频繁模式挖掘后与算法CBM作比较。在相同支持度=2,最短模式长度=5时,CBM,Apriori和Eclat在数据集对象数量增长情况下的算法运行时间图2所示。图2 相同支持度=2时运行时间比较由实验可以看出,在相同支持度下,Apriori运行时间最长,这是由于其需要反复扫描数据库的开销极大,且在模式增长过程中产生的候选较多。CBM较Eclat有更好的运行效率,它们都采用了垂直数据格式挖掘,但CBM在生成垂直数据格式前有预剪枝过程减少了事物数,并且采用1维模式与k维模式的连接代替k维模式的自连接,因而能获得更好的性能。给定对象数为19,625,实验其在维度为20,40,60三种情况下的运行效率。图3 对象数相同时,运行时间随维度增长变化情况图3所示为对象数一定时,运行时间随着维度逐渐增长的变化情况。从图中可以看出CBM算法随着维度增加有着较好的伸缩性。3.2 应用平台基于CBM算法,我们开发出B/S结构的一致行为挖掘平台, 该平台能够有效地对一致行为进行监控。并将一致行为与参保人费用记录的信息,药品使用情况,医院医生信息等相关联。通过一致行为挖掘平台,在医保管理中能迅速锁定慢性病人群,了解这些特殊人群的医疗费用负担等情况。挖掘平台为医保管理决策提供参考,便于为不同参保人群提供针对性的管理和服务。此外,该平台能有效检测出可疑违规人群,这类可疑违规人群可能同时使用了多张医保卡进行就医,针对这些可疑违规人员,需要对其进行严格监管。一致行为挖掘平台的应用为医保管理决策提供支持,极大地提高了医保管理和监督的效率。4 总结及未来工作如何保障社会医保基金的平稳正常运作是一项重要的课题,本文对医保基金运行中遇到的就医聚集行为问题进行了形式化抽象,设计一致行为挖掘算法CBM并成功应用到医保基金风险防控系统中。医疗保险基金运营时可能会碰到不同的风险防控需求,将数据挖掘技术更广泛更有效地应用到医保基金风险防控中是我们未来重要的任务。参考文献1 J Li, KY Huang, J Jin, J Shi. A survey on statistical methods for health care fraud detectionJ. Health Care Management Science, 2008, 11(3):275-2872 Bertis B.Little, Walter L .Johnston, Ashley C. et a1. Collusion in the U.S. crop insurance program: applied data miningC. In Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, 2002.3 He, H., J. Wang, W. Graco. and S. Hawkins. Application of Neural Networks to Detection of Medical FraudJ. Expert System

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论