一个医保基金风险防控数据仓库的设计和实现.doc_第1页
一个医保基金风险防控数据仓库的设计和实现.doc_第2页
一个医保基金风险防控数据仓库的设计和实现.doc_第3页
一个医保基金风险防控数据仓库的设计和实现.doc_第4页
一个医保基金风险防控数据仓库的设计和实现.doc_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一个医保基金风险防控数据仓库的设计和实现摘要 上海医保系统基础建设实施已基本完成,全面覆盖业务领域,积累了丰富的历史数据。但由于数据规划不足,导致数据资源利用率不高,难以有效提供决策支持。数据仓库是提供决策支持的核心。因此,结合元数据管理和ETL技术,构建了一个医保基金风险防控数据仓库,实现了医保异构数据源的有效整合,为医保基金风险管理提供了良好的数据基础。系统通过在上海医保基金风险管理中的实际应用,取得了良好效果。关键词 数据仓库; 医保基金; 风险防控; 元数据; ETLThe Design and Implementation of a Medical-Insurance-Fund Risk-Prevention Data WarehouseAbstract In Shanghai, construction of medical insurance system infrastructure has been basically completed. A great deal of data has been generated; however, data resource has not been utilized efficiently. It is difficult to provide effective decision support. Data warehouse is a key technique to provide decision support. Therefore, we establish a Medical- Insurance-Fund Risk-Prevention Data Warehouse to implement integration of heterogeneous data sources applying meta-data management and ETL technology. Our system achieves good effects on the practical application of medical insurance fund risk prevention.Keywords Data Warehouse; Medical-Insurance-Fund; Risk-Prevention; Meta data; ETL计算机应用与软件31 引言社会医疗保险制度作为一项关系国计民生的重要政策,已得到了社会的高度重视。上海医疗保险信息管理系统于2001年投入运行,已成为国内外连接数量最大、覆盖人群最多、以724小时实时结算方式运作的医保费用结算系统。系统以处理日常事务为目的,数据的价值体现在保证完成每个业务,但同时也积累了大量历史数据。然而,医保基金管理是一项复杂的工程,面向单纯业务自动化的信息系统难以满足需求,随着医疗改革的深入,近年来管理机构希望能够更好地汇总、分析多年来积累的巨量业务数据,并从中挖掘规律,提供决策支持及防控基金风险。目前这方面的研究缺乏系统性,要对医保基金进行有效的风险管理,使其正常地运作,为社会创造福利效应,重中之重的问题是要对影响医保基金的风险进行全面的分析,才能针对不同的风险因素有效地采取风险控制手段,对医保基金进行行之有效的风险管理。数据仓库技术为我们提供了有效的技术和方法,通过对数据不同的组织方式为决策的制定过程提供了良好的分析环境。构建数据仓库是一项复杂的系统工程。目前市场上已有的数据仓库产品,数据抽取、转换与加载等数据仓库工具不能完全适应应用需求,难以很好地满足具体需求1。因此,必须根据企业实际和行业特点,提出数据仓库的解决方案。美国马萨诸塞州政府采取数据仓库管理信息,使政府的工作得以高效、及时、完整的完成;美国Niagara Mohawk能源公司创建数据仓库,准确计算供应与成本、提高管理和效率水平,使投资效益率大大提高:国内主要以银行、保险、证券业、税务等方面的应用居多,其中中国银行广东分行承担和开发了“中国银行省、市两级金融管理信息系统示范系统”,在国内率先引进了数据仓库技术2;上海强生公司利用IBM公司的可视化数据仓库解决方案和面向对象的关系数据库,成功建立了数据仓库3。本文围绕医保费用结算系统中数据资源利用问题,研究医保基金风险各种因素,针对医保基金风险防控需求,运用数据仓库技术,构建了一个面向医保基金风险防控的数据仓库。2 医保基金风险防控数据仓库的设计2.1 总体结构Inmon将数据仓库定义为一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程4。数据仓库层作为整个数据存储的核心,是建立数据仓库和商业智能的基础框架,也是建立一个灵活、强有力的数据仓库系统的第一步,是提供有价值数据分析的重要基础。医保基金风险防控数据仓库独立于医保业务数据库系统,但又同业务数据库系统息息相关,分为动态数据区、明细数据区、汇总数据区三层逻辑结构(如图1所示)。通过ETL(Extraction Transformation Loading)工具实现从源系统到数据仓库的数据加载过程,其主要任务包括数据的据抽取、转换和加载等。数据仓库面向业务需求,设计多个数据主题,以多维模型的方式实现数据的组织和存储,为前端数据分析提供数据支持。图1 医保基金风险防控数据仓库结构2.2 数据模型数据模型是对整体医保基金业务的反映和抽象。数据仓库建模在业务需求分析之后开始,是数据仓库构造工作正式开始的第一步,数据仓库的数据模型按主题域的形式进行组织,以确定业务数据中哪些数据对管理人员决策和风险防控评估有帮助,同时根据主题域确定业务主题和维度等。根据医保现有业务主题,分为基金收支、医保服务、参保人、参保单位、医疗机构、医师、明细项目、结算办法、政策九大领域,之下又细分为三级。例如,参保人主题又可划分为参保人基本信息、参保人缴费帐户、参保人费用及服务利用和参保人信用评估。而参保人费用及服务利用又可划分为参保人用药、诊疗项目和医用材料。维度建模首先在数据准备区中建立一致性维度、建立一致性事实的计算方法;其次在一致性维度、一致性事实的基础上逐步建立数据模型。每次增加数据模型,都会在数据准备区整合一致性维度,并将整合好的一致性维度同步更新到所有的数据模型。通过数据模型,得到企业完整而清晰的描述信息。基于医保业务需求,共设计53张事实表,37张维度表,共46个维度模型,并建立了各模型之间的关系。以参保人用药模型为例,其基本元素如下:u 事实参保人的用药信息。u 量度(性能指标)药品金额、药品数量和用药天数。u 维度时间(年、季度、月、日)、医疗机构、医生、科室、药品(种类【中草药、西药、中成药】、明细(商品名、通用名)、剂型、厂家、进口/国产,备注:限制日用量、限制天数)、病种、特殊用药、医疗项目(门急诊、门诊大病、家庭病床、住院、急诊观察、药店购药、零星报销、内设)和参保人。u 维表时间维表、地域维表、参保人维表、医疗机构明细维表、医师维表、科室维表、医疗项目维表、病种维表、药品类型维表和药品大类维表。u 事实表参保人用药事实表。u 时间维表的建立时间维表是指按日期进行粒度定义的维度表。时间维表是数据仓库中必不可少的一个维表,定义规则如下: 时间维表建立时需要有自然年度和医保年度区分。由于上海医保的缴费年度是每年的四月一目到次年的三月底,对于医保年度的年初和年末对统计上特殊意义,因此在数据仓库的日期维度建立时必须有医保年和自然年嚣分,为便于计算,分别定义双主键医保日期关键字和自然日期关键字。 明确标注特殊日期。对于上海医保业务,一年中的四个季度都存在停机维护的时间,但由于维护时间是每个季度第三周的双休日晚上,对于日期来说它是一个相对值,并随着年份的不同,其所对应的日期并不完全相同,类似于这种情况,需要在时间维表中明确标注。u 参保人维度的建立参保人是医保数据仓库的最普通的维,分为常见属性维和业务相关维: 业务相关属性维。选取能直接影响医保基金的使用情况的属性。 常见属性维。例如,年龄通常和人的身体状况有着紧密联系。2.3 数据抽取、转换和装载数据仓库将多个数据源的数据集中起来用于分析和处理,将数据从数据源装载到数据仓库的过程称为ETL过程,是实施数据仓库的重要步骤。本系统中的ETL过程采用元数据驱动方式,通过对元数据资料库的管理,保证ETL过程尽可能以最优化执行。 在数据抽取方面,我们采用基于增量的数据捕获(时间戳)和全量捕获策略,全量ETL过程一般用于数据仓库的初始化,增量ETL过程则用于数据仓库的增量维护,其设计更复杂。另一方面,考虑到许多源系统的负载可能很重,数据抽取方案可能影响到这些已经源系统。因此,数据抽取过程的设计适合于同时进行其他任务。 数据转换方面,由于业务系统的开发一般有一个较长的时间跨度,这造成一种数据在业务系统中可能会有多种完全不同的存储格式,甚至还有许多数据仓库分析中所要求的数据在业务系统中并不直接存在,而是需要根据某些公式对各部分数据进行计算才能得到。因此,我们对所抽取的数据提供灵活的计算、合并、拆分等转换操作。 数据加载策略包括加载周期和数据追加策略,其中关键技术之一是索引创建,我们研究了索引的优化机制。 在数据加载ETL流程管理与监控,做到可视化定义基于前导条件的ETL工作流,提供ETL执行时日志并可以通过消息机制提示出错信息。2.4 元数据管理当前医保平台下业务数据来源丰富,格式往往并不兼容,业务主题复杂多变,各业务平台和模块间数据流动频繁,这些问题给医保风险防控平台的数据管理和信息共享带来困难。我们引入元数据管理更好地为数据资源的合理利用、构建数据仓库,实现业务决策支持提供指南。针对医保业务主题复杂多变和数据格式在系统各层次上兼容性不足等问题,我们按照如下原则设计医保风险防控平台的元数据管理方案,以确保整个医保风险防控平台数据的易维护性。1) 针对医保数据的具体分析查询和决策应用,元数据管理方案支持尽可能丰富的元数据;2) 提高医保数据资源的利用率,建立基于标准的元数据交换和共享机制。通过统一数据口径、完善指标体系、建立统一数据视图,从而有效的在各个医保业务子系统内进行数据的转换和整理工作;3) 建立详尽的医保数据系统和运行平台描述信息,对产生数据错误或运行失败时逆向侦知错误来源;4) 在满足当前业务逻辑的情况下兼顾将来可能产生的新业务需求。根据上述原则,结合医保风险防控平台数据仓库内的数据功能和组织方式,我们建立了元数据映射机制和元数据存储库,并提供元数据管理功能:查询分析、存储库访问、数据同步、更新维护、血缘分析、分类管理、版本管理和导入导出等。2.5 物理部署u 数据物理存储数据物理存储主要分Oracle关系型数据库和Essbase多维数据库,其中Essbase中存放数据体系中的部分分析数据模型,主要针对的是数据量大,查询效率低、维度在7个以内的常用分析模型和数据挖掘模型,其余模型都存放在Oracle中。Essbase,每个模型都建立单独一个application、单独一个cube,便于管理;Oracle,分别建数据、索引、临时、UNDO四个表空间以及对应的数据文件。u 数据逻辑体系建立两个用户,分别对应数据体系中的数据仓库层和分析数据层,并且建立数据仓库层到分析数据层的模型映射,这将保证数据仓库层、分析数据层的独立性,因为数据仓库层基本不需要改变,对于需求变更,一般只需要完善分析数据层即可,可以把分析数据层的权限单独授予开发用户,从而保护数据仓库层;而且对于应用而言,访问数据模型的时候,都是直接访问分析数基层,也能通过分析数据层访问数据仓库层,并且不需要做任何应用上的修改。u 针对大数据量表的优化针对大数据量的表(300万条记录以上),我们首先根据时间(月)建立分区表,如单个分区数据量还是在300万以上,再考虑建立复合分区表,如在时间(月)下,再分地区或者医疗项目之类的,视具体模型的常用查询条件而定。针对统计、分析需要,在明细数据模型的基础上,进行所有维度、常用或重要维度的不用粗细粒度的汇总,视数据量和查询效率的需要而定。在每个数据模型中,在常用维度上都建立相关索引,一般建独立索引78个左右,综合考虑根据维度中数据量的不同,建立不同类型的索引。3 数据分析3.1 OLAP分析0LAP分析保证高效地对大数据量进行多维分析查询,透过针对各种分析主题定义数据立方体,使决策分析人员可以在多维模型的基础上访问数据,并进行数据切片、切块、钻取、旋转等分析处理5。在OLAP分区设计中,从功能、适用性、性能、可伸缩性和未来的发展趋势这5个方面综合考虑。我们选用了HYPERION ESSBASE套件。Essbase采用分布式客户端-服务器模型。Essbase服务器包含Essbase应用组件,数据库框架、计算脚本应用控件和多维数据信息。Essbase服务器运行一个多线程的操作系统以有效管理多个、并发的请求。服务器同时运行一个代理程序,以处理所有用户请求Essbase应用的通讯协调。Essbase客户端通过四种模式访问服务器:1) Essbase电子表格插件;2) Essbase应用管理器;3) EsScMD命令行界面;4) Essbase应用程序接口(API)开发的自制程序。Hyperion Essbase使用动态维度以存储和检索数据和优化分析性能,使其在不损失数据库存储空间和批量计算性能的情况下,提供高级报表。3.2 数据挖掘我们提供了多种数据挖掘算法以实现对医保数据的挖掘,有效支持医保基金风险防控平台的预测和处理,有利于医保基金风险防控平台对日常业务数据进行更有效的实时监控。 医保政策测算模型:用于医保新政策的测算及老政策的调整测算; 医保基金分配模型:用于年初对各险种、各定点医药机构分配医保基金总量,并进行年中调整和年底清算; 医保基金支付预测模型:采用时间序列挖掘方法,建立医保基金支付预测模型,预测基金支付情况,并能细化到各区县、各医院,为基金监管提供支持。 医保风险评估模型:医保运行中各种可能风险因素的监控及预警,为医保可持续发展奠定基础; 医保信用评估模型:实现对参保人的经济情况、健康状况和信用情况聚类,为参保人的信用评估提供依据。利用聚类结果作为训练集,设计医保数据分类挖掘算法,构建参保人分类模型,生成分类规则,用以确定参保人的信用等级,实现参保人诚信管理。并提供周期更新分类模型策略,在情况变化时,以产生新的分类规则,保证模型的实时有效。 欺诈行为检测模型:探索参保人的用卡行为数据,设计异常数据挖掘算法,实现一种虚假就医行为挖掘,以保证医疗基金的正常安全运转。(如参保人将使用多张医保卡(借用甚至租用)短期大量拉卡消费等可疑违规的欺诈行为)。 审核监督可疑违规筛选模型:利用已经过医保审核监督处理后返回的参保人违规情况的数据作为训练样本,建立分类模型,对那些未知是否违规的参保人数据,进行违规筛选,以提示可能的违规情况,有效防控各种骗保行为。该模型中涉及其他挖掘算法提供的结果信息:参保人的健康、经济、信用等,即以这些属性作为建立分类模型的特征。随着参保人数据的更新,该违规筛选模型也会随之重建和更新。 就医行为模式挖掘模型:通过对参保人的就医数据的分析,设计序列数据挖掘算法,挖掘就医行为序列模式。从而为参保人行为分析以及违规筛选提供帮助,并能够为医保管理监督所提供重点监督管理对象,提高审核监督力度和效率。4 应用4.1 基金收入分析基金收入仪表盘是基金收入分析主题的粗粒度汇总层次页面,是基金收入的全局分析模块,通过仪表盘用户可以从多个角度了解基金收入的总体情况。主要包括下面五个部分,它通过基金收入金额、宏观经济、参保情况和缴费情况等方面反映一定时间范围内或某一自然月的基金收入状况,用于提供基金收入的总体性决策支持。如图2所示,基金变化情况分为:1)基金应收实收增长率变化趋势基金应收粒度到参保人,依据各个参保人缴费基数以及所在参保类型下的缴费比例计算而出。该功能统计基金应收、实收逐年收入的变化趋势,通过趋势分析,可以了解基金收入的变化异常,以及应收、实收的不平衡性,既可作变化分析也可作相关对比分析。2)基金收入总况收入总况反映一个时间点上的直观的基金应收实收的金额,以及累计应收实收金额,同时展示相应差额。累计的数据是一定时间范围内对当前查询时间的影响结果性分析,便于了解时间范围内的累计情况。差额数据用于发现一定时间点上的收入平衡性,在基金收入应收与实际发生值相差较大的情况下,可以帮助用户分析差额产生的合理性。3)影响因素变化影响基金收入的因素包括宏观经济、参保情况、缴费情况三大类,显示各个影响指标的增长率(较上年同期)。宏观经济影响因素有GDP、社平工资;参保情况则直接反映到参保人数,参保人数越多,缴费越多,基金收入自然越多;缴费情况是影响基金收入的最直接原因,缴费的两个因子则为人均缴费基数和缴费人数,通过这些增长率数据的展示给予直观比较。4)分类收入情况由于各个参保类型所缴纳的基金额度不同,对基金收入的影响也不同;基金类型标志着基金来源不同,按照基金类型分类统计基金收入情况,相关存在风险则可以依照基金来源进行追溯;各个年龄段的收入也存在一定差距。在应收实收上增加参保类型、基金类型、年龄段分析维度,分类统计各个维度下的应收实收情况。同时提供钻取功能,可以从一个维度下钻到另一个维度,便于全方位、多角度进行多维分析。5)人均缴费和缴费人数变化趋势人均缴费和缴费人数是影响基金收入的直接原因,两者相辅相成。通过柱状图和折线图显示这两个不同量级数据的变化趋势,同时也提供了两者相关性对比,可了解其中隐藏的影响情况。由以上各个模块反映基金收入的整体情况,各部分均可链接,链接到相应的主题模块,用以进行明细情况分析。图2 医保基金收入分析图4.2 参保类型变化分析在医保业务中会涉及到参保人的参保类型变化,参保人进

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论