(金融学专业论文)数据挖掘在我国城镇基本医疗保险中的应用研究.pdf_第1页
(金融学专业论文)数据挖掘在我国城镇基本医疗保险中的应用研究.pdf_第2页
(金融学专业论文)数据挖掘在我国城镇基本医疗保险中的应用研究.pdf_第3页
(金融学专业论文)数据挖掘在我国城镇基本医疗保险中的应用研究.pdf_第4页
(金融学专业论文)数据挖掘在我国城镇基本医疗保险中的应用研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(金融学专业论文)数据挖掘在我国城镇基本医疗保险中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕l j 学p 论文 摘要 为了适应我国社会主义市场经济的发展,建立健全社会保障体系是保障经济 和社会稳定发展的必要条件。从1 9 9 4 年底,我国进行城镇职工基本医疗保险的综 合改革试点开始,至2 0 0 7 年底,全国绝大部分地区组织实施了城镇职工基本医疗 保险,参保人数达到1 8 亿人,医疗保险制度在我国得到了很大的发展。然而, 近年来的改革实践表明,我国的基本医疗保险制度仍然存在相当多的问题需要解 决。随着计算机技术以及学科交叉的发展,数据挖掘技术被越来越多应用到保险 的风险分析中。由于基本医疗保险覆盖面的扩大,以及建立年限的增加,基本医 疗保险所积累的数据量积聚增加,为我们尝试将数据挖掘技术应用到基本医疗保 险改革的研究中提供了必要的条件。 本文应用了几种数据挖掘的算法分析了我国某市的数据挖掘样本,旨在研究 数据挖掘技术在我国城镇基本医疗保险中的应用方式及其可行性。首先,使用决 策树、神经网络等数据挖掘的基本算法,以某市的基本医疗保险数据为样本,分 析了参保个人的年龄、性别、参保时间、月缴费基数以及参保个人所在企业规模 等因素对基本医疗保险账户使用的影响及其影响的程度,以期找出隐含的有效信 息:结论表明,对个人账户消费影响最大的因素是月缴费基数,其次是参保年限、 年龄以及企业规模,性别几乎不会起到任何影响。其次,使用时序算法对各参保 单位的账户使用情况进行回归以及预测,以此作为医疗保险监管部门对各参保单 位的账户进行考察的依据。最后,在以上分析的基础上,结合我国城镇基本医疗 保险的发展提出了完善基本医疗保险的建议。 关键词:数据挖掘;基本医疗保险;决策树;神经网络:时序 a bs t r a c t u n d e rt h es o c i a l i s tm a r k e te c o n o m y ,p e r f e c t s o c i a ls e c u r i t yi se s s e n t i a lf o ra s t e a d ys o e i a la n de c o n o m i cd e v e l o p m e n t c h i n e s eb a s i cm e d i c a li n s u r a n c ef o ru r b a n e m p l o y e e s ,w h i c hw a sn r s t l ye x p e r i m e n t e da tt h ee n do f19 9 4h a db e e ni m p j e m e n t e d l nm o s to ft h er e g i o n sb yt h ee n do f2 0 0 7w i t ht h en u m b e ro fi n s u r e d s u dt o18 m i l l i o n s h o w e v e r t h ep r a c t i c eo fb a s i cm e d i c a li n s u r a n c ef o ru r b a ne m p l o v e e s r e t o r ml nr e c e n ty e a r ss h o w st h a tt h e r ea r es t i l l an u m b e ro fp r o b l e m sn e e dt ob e s 0 1 v e d w i t ht h er a p i dd e v e l o p m e n to f c o m p u t e rt e c h n o l o g ya n di n t e r d i s c i p l i n e s ,d a t a m m l n gl sm o r e 厅e q u e n t l ya p p l i e dt ot h er i s ka n a l y s i si ni n s u r a n c e b e c a u s eo ft h e e x t e n s i o no fr e g i o n si n v o l v e di nb a s i cm e d i c a li n s u r a n c ea n dt h ei n c r e a s eo fv e a r s s l n c et h ec o n s t n j c t i o no ft h es y s t e m ,d a t as i z eo fb a s i cm e d i c a li n s u r a n c ei n c r e a s e s r a p i d ly t h i si san e c e s s a r yc o n d i t i o nf o ru st os t u d yh o wt oa p p l yt h ed a t a m i n i n g t e c h n o l o g yi no u rb a s i cm e d i c a li n s u r a n c ef o ru r b a ne m p l o v e e s i 。h e p r e s e n tp a p e ru s e ss e v e r a la l g o r i t h m so fd a t am i n i n gt oa n a l y s i st h ed a t a s a m p l eo fac e r t a i nc i t y ,a i m i n ga ts t u d y i n gt h em o d ea n dt h ef e a s i b i l i t yo fa p p l i c a t i o n o fd a t am i n i n gt e c h n o l o g yi nu r b a nb a s i cm e d i c a li n s u r a n c ei nc h i n a f i r s t l v ,b a s e do n t h ea n a l y s i so ft h ed a t as a m p l eo ft h eb a s i cm e d i c a li n s u r a n c ef o ru r b a ne m p l o v e e so f a9 1 v l n gc i t yb yu s i n gd e c i s i o nt r e ea l g o r i t h ma n dn e u r a ln e t w o r ka l g o r i t h m t w oo f t h eb a s i ca l g o r i t h m so fd a t am i n i n g - t h i sp a p e rs t u d i e st h ee f r e c to fs u c hf a c t o r sa s g e n d e r ,a g e ,y e a r st ob ei n s u r e d ,t h eb a s eo fm o n t h l yp a y m e n to ft h ei n s u r e d so fu r b a n b a s i cm e d i c a li n s u r a n c ea n dt h en u m b e ro fe m p l o y e e so ft h ee n t e r p r i s e ,t o6 n do u t i m p “c i te f r e c t i v ei n t o r m a t i o n t h ea n a l y s i sc o m e st ot h ec o n c l u s i o nt h a tt h eb a s eo f m o n t h i yp a y m e n to ft h ei n s u r e d si sm o s ti m p o r t a n tf a c t o ro ft h ec o n s u m p t i o no ft h e p e r s o n a la c c o u n t , t h e ny e a r so fi n s u r e d , a g ea n dn u m b e ro fe m p l o y e e so ft h e e n t e r p r l s ea r eo fl e s si m p o r t a n c e m o r eo v e r ,g e n d e ra f i e c t sl i t t l e t h e n ,i ta t t e m p st o m a k er e g r e s s j o n sa n dp r e d i c t i o n so ft h ea c c o u n t so ft h ei n s u r e d e n t e r p r i s e sb yu s i n g t l m es e n e sa l g o r i t h m ,w h i c hw 川 p r o v i d eb a s i sf o rt h eg o v e r n m e n ts u p e r v i s o r s e x a m l n a t l o no ft h es t a t e so ft h ea c c o u n t so ft h ei n s u r e de n t e r p r i s e s b a s e do nt h e a b o v ea n a l y s l s ,t h ep a p e rg i v e sr e l e v a n t ,i nt h eli g h to ft h ec u r r e n tc o n d i t i o no fb a s i c m e d i c a li n s u r a n c ef o ru r b a ne m p l o y e e s k e y w o r d s :d a t em i n i n g ;b a s i cm e d i c a l i n s u r a n c e ;d e c i s i o nt r e e ;n e u r a ln e t w o r k : t i m es e r i e s i i i 硕十学伊论t 插图索引 数据挖掘过程图l o 一个自回归树2 1 决策树模型依赖关系网络图2 3 决策树模型提升图2 5 决策树模型提升图挖掘图例2 5 前馈型网络拓扑图2 8 神经网络训练示例2 9 神经网络查看器3 1 神经网络模型提升图3 2 神经网络模型提升图挖掘图3 3 a r ( 1 ) 和劁 h ( 1 ) 模型的时间序列散点图3 4 时序查看器的树选项卡3 6 时序查看器的图表选项卡一3 7 o 1 2 1 l 2 3 4 5 6 7 8 9 1 l 1 2 3 3 3 3 3 3 3 3 3 3 3 3 图图图图图图图图图图图图图 数据挖掘有徙同城镇幕布阮疗保险中的市用研究 附表索引 i 侈侈m拍”如如粥 | ! | ; ;| ;| 一 | ! ;| ;| ;| ;| | | | | ; | ; | ; | | | ;| | ; | | 一 ;| 一 j | | ; ;| | | 一 一 一 一 一 一 一 ;| 一 一 一 一 一 i | | ; 一 出差 | ; 输误 | ;析 ;| 的的 ;| 分 一构 | ;析元元 例 构结 分经经 图 结图 | ;例神神 ;| 掘 表视 图出出 挖 本本析掘输输 | 图 样样分挖和和 升 据据果图元元 提数数结升经经值型的的型提神神权模人位模络含含的络个单树网隐隐新网保保策经算算算经参参决神计计计神 l 2 3 4 5 6 7 8王王王 表表表表表表表表 湖南大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取 得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何 其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献 的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法 律后果由本人承担。 作者签名: 雹龉携 日期:伽寥年厂月相 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学 校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被 查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入 有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编 本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密日。 ( 请在以上相应方框内打“、”) 作者签名: 导师签名: 日期:加g 年r 月万日 日期:刀妨占年j 月巧一日 造 a ;m 籼1 锄产 硕十学伊论文 第1 章绪论 1 1 选题背景及研究意义 随着我国经济改革的逐步深入,建立健全社会保障体系,是维护社会稳定, 维持经济和社会全面可持续发展的必要条件。医疗保障制度作为社会保障制度的 重要组成部分,关系国计民生,影响社会的稳定与发展,是社会经济发展的“安 定网和“稳定器一。而完善城镇基本医疗保险制度是我国当前医疗保障制度改革 的首要任务,也是我国政治与体制改革的一个重要环节,是关系广大职工切身利 益的大事。 然而,医疗保险制度的合理设计和运作是一个世界性的难题,各国都在积极 探索,以寻找适合本国国情的保险体系。不过由于医疗保险十二级本身的复杂性, 使得各国的医疗制度改革困难重重,步履维艰。就中国而言,政府己将医疗保障 制度改革作为五大改革项目之一。1 9 9 8 年1 2 月,国务院召开全国医疗保障制度 改革工作会议,发布了国务院关于建立城镇职工医疗保障制度的决定,明确了 医疗保障制度改革的目标任务、基本原则和政策框架,要求在全国内建立覆盖全 体城镇职工的医疗保障制度。以这一文件为标志,我国医疗保障制度进入了全面 发展的阶段,以建设城镇职工基本医疗保险制度为重点,在全国范围内开展了医 疗保障制度的改革。i l j 到2 0 0 2 年底,一个适应社会主义市场经济体制的职工基本医疗保障制度己初 步建立,与基本医疗保障制度配套的各项医疗保障制度也在积极探索和建立。近 年来的实践表明,虽然医疗保险改革的制度创新带来了新的气象,但仍面临着严 峻的考验,存在着相当多的问题需要解决。比如,人口老龄化带来的医疗保险基 金的支付压力,医疗保险管理能力的不足,医疗保险的覆盖面过窄等等。如何从 我国基本医疗保险的现状出发,利用各种已有的基本医疗保险的信息解决存在的 问题,使得我国的基本医疗保险体系更好的运行,是我们目前急需解决的。 风险控制是保险经营的关键,随着信息技术的高速发展,积累的保险数据量 急剧增长,如何从已有的海量数据中识别出风险因素并评估其作用强度是风险控 制的重要步骤,也是我们必须解决的当务之急。我国的基本医疗保险汇集了大量 个人账户的数据信息,但是因为缺乏挖掘数据背后隐藏知识的手段和工具,导致 “数据爆炸但有效信息贫乏”,? 信息繁杂但业务知识孤立”。很多情况下,海量数 据在原有的作业系统中无法提炼并升华为有用的信息,从而无法为决策者提供更 有效的决策支持。目前我国保险业的专业人员采用的分析方法常常是粗略的,需 数据挖拖在我同城镇基本医疗保险中的直用研究 要分析人员凭经验对大量的统计数据报表做出决策。这不仅是相当困难的,而且 会受主观因素的影响。 数据挖掘就是为顺应从海量数据中挖掘出有效信息应运而生发展起来的数据 处理技术,是一种知识发现的过程。它主要基于统计学、人工智能、机器学习等 技术,高度自动化地分析数据,做出归纳性的推理,从中挖掘出潜在的模式,并 对未来情况进行预测,以辅助决策者评估风险、做出正确的决策。数据挖掘自概 念形成以来,已经在银行业、保险业、零售业、电信业、直销行销、制造业、电 子商务等领域有广泛的应用。1 2 l 数据挖掘技术与传统的数据分析的本质区别是数 据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,数据挖掘所得到的信 息应具有事先未知性、有效性和可用性三个特征。事先未知的信息是指该信息是 预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚 至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就越有价值。【3 j 目前,国内对这方面的研究还不是很深入,国外在这方面已经大大超前于国 内。之前的数据挖掘工作,大多注重的是应用软件的开发,数据仓库的建立,而 数据挖掘在保险中的应用,多数集中在数据挖掘技术在保险中的应用方式,侧重 在车险中的应用,或者保险客户关系的改善,本文旨在利用数据挖掘技术,对我 国基本医疗保险的个人账户信息进行分析,从而为医疗保险的改革提供参考,并 且为数据挖掘技术在我国社会保障体制中的应用起到推动作用。 1 2 文献综述 1 2 1 国内研究状况 本部分将从两个方面来综述本论文相关的文献:1 研究我国基本医疗保险的 文献;2 研究数据挖掘技术在保险业中应用的文献。 1 研究我国基本医疗保险的文献 我国城镇的医疗保险制度始建于2 0 世纪5 0 年代初,由劳保医疗和公费医疗 两部分组成,这种医疗保险制度是为了适应当时我国的计划经济体制的要求而建 立的。2 0 世纪7 0 年代末以来,随着经济体制改革的不断深入和社会主义市场经 济体制的逐步建立,这种医疗制度的弊端日益显现。2 0 世纪8 0 年代初,我国的 医疗保险制度走上了改革之路,起初的改革是在不改变原有制度的基本框架的前 提下,对劳保、公费医疗的一些具体做法进行调整,目的在于控制医疗费用的不 合理增长。但是,由于劳保医疗实行的是企业保险,企业之间不能互相共济,企 业之间医疗费用负担畸轻畸重的问题仍然存在。为此,从2 0 世纪8 0 年代中期开 始,一些地方实行医疗费用社会统筹。1 9 9 8 年1 2 月,在总结各地医疗保险改革 试点经验的基础上,国务院颁发了关于建立城镇职工基本医疗保险制度的决定, 2 硕士学位论文 开始在全国城镇建立基本医疗保险制度。这部分的文献主要是从两个方面进行研 究: ( 1 ) 从国内现状出发,探讨我国基本医疗保险改革 在医疗保险的风险研究方面,李凯、温小霓、张育伟( 2 0 0 2 ) 【4 l 从医疗保险 资金的筹集及支付两个方面,对基本医疗保险的道德风险、政策风险、管理风险 等基本风险的产生进行了原因分析,并提出了一些风险控制措施。刘明霞、任仕 泉( 2 0 0 4 ) 1 5j 借鉴流行病学研究方法,用i o g i s t i c 回归模型产生比值比( o r ) 来 刻画风险因素与医疗保险赔付( 损失) 之间的定量关系,实例的拟合了单因素及 多因素i o g i s t i c 回归模型,得到各风险因素的0 r 值并做出了合理的解释。郑成艳 ( 2 0 0 6 ) 1 6 】针对医疗保险基金运行的基金征缴困难、参保人员结构不合理、道德 风险加大等风险问题,结合实际工作,分析了影响基本医疗保险平稳运行的相关 问题,提出了一些可供参考的对策建议。李玮、黄丞、蒋馥( 2 0 0 3 ) 【7 1 分析了医 疗保险市场中存在的道德风险问题,并在建立我国基本医疗保险市场的简单模型 的基础上研究了医疗保险机构、消费者和医疗商品的提供者等市场主体在存在道 德风险的情况下各自可能产生的行为选择及其相应的影响,并得出结论:由于医 疗保险中道德风险的存在,使得医疗商品的需求扭曲,造成资源的浪费和医疗费 用的过快增长以及社会福利的损失等问题。 在医疗保险制度的建设方面,黄丞、李玮( 2 0 0 3 ) 【8 l 构建了我国基本医疗保 险体系的简化模型,分析了个人的收入弹性与医疗保险费用公平性之间的关系, 讨论了基本医疗保险体系中针对所有消费者的最优共保率的确定方法和计算公 式。在确定最优共保率的条件下,能有效地解决基本医疗保险体系中的道德风险 问题,在满足人们分散疾病风险要求的同时,减少其对医疗服务的过度使用,从 而抑制社会医疗费用的过快增长。梁鸿、赵德余( 2 0 0 7 ) 【9 l 从医疗服务的部门特 征与医疗保险制度改革的目标出发,探讨了中国基本医疗保险制度改革出现的种 种问题和矛盾,揭示出基本医疗保险制度改革进展缓慢的根源在于基本医疗服务 理论基础的脆弱性、补偿机制的扭曲以及三方目标和行为冲突等方面。文章认为, 基本医疗保险制度的改革与完善仅仅依赖自身是不行的,还必须在重塑社区医疗 服务体系的基础上,强化制度设计与政府责任机制改革。孙祁祥、朱俊生、郑伟 和李明强( 2 0 0 7 ) 【1 0j 在分析当前中国医疗保障体系突出矛盾的基础上,阐释了中 国医疗保障制度改革的时机和目标,提出有关改革框架和实施路径,并对未来医 疗保障制度的整合进行了讨论。文章认为,为实现医疗保障的全民覆盖,应采取 “三支柱”的医疗保障制度框架,即公共医疗保险、社会医疗救助和商业健康保 险。改革的基本思路是同步推进扩大覆盖面与医疗保障制度自身的深化改革,改 革的路径主要包括:( 1 ) 深化现有制度改革,提高运行效率:( 2 ) 扩大覆盖面, 实现全民医疗保障;( 3 ) 大力发展商业健康保险,满足民众多层次保障需求。 数据挖掘在我同城镇基本医疗保除中的夜用研究 ( 2 ) 研究国外医疗保险的发展对我国的启示 徐恒秋【i l l 2 0 0 7 年8 月随国家卫生部“改革与发展高级研修班 赴美国哈佛大 学进行了访问学习之后,通过对美国医疗保健制度的改革过程及特点的研究分析, 尤其是美国的管理型医疗保健制度,结合我国目前的国情以及基本医疗保险的发 展现状,提出了关注弱势群体、重视医疗保健管理、改革支付方式以及发挥基层 卫生服务机构的作用等改革建议。万筱明( 2 0 0 7 ) 1 1 2 j 根据政府对医疗保障的投入、 享受医疗保障的国民范围和医疗机构市场化程度,将国外医疗保障模式分为政府 包办型、全民福利型、基本保障型、储蓄账户型、社会公益型、市场参与型、市 场主导型和落后无序型等八种类型,并对各类型的主要特点及具有代表性的国家 进行了阐述,简要分析了各自的优缺点,并分析了可以对我国的医疗保障制度改 革提供的借鉴。王晓杰( 2 0 0 7 ) 1 1 3 l 通过对英国的首诊和转诊制度、德国的分层医 疗保险制度以及日本和韩国的药价控制制度的介绍,分析了对我国医疗体制和医 疗保险制度的改革能起到的积极借鉴与促进作用。 2 数据挖掘技术在我国保险中应用的研究文献 目前,国内企业实现数据挖掘的困难在于缺少数据积累、难于构建业务模型、 各类人员之间的沟通存在障碍、缺少有经验的实施者、初期资金投入较大。而在 国外,数据挖掘首先在金融、证券、电信、零售业等数据密集型行业中实施,因 为这些行业信息化程度比较高,数据库中已经保留了大量数据资源。 虽然数据挖掘在保险应用方面的研究远远不如在基础理论和技术方面的研究 那么热烈,但目前业内已有很多成熟的数据挖掘方法论,为保险领域的实际应用 提供了理想的指导模型。 关于数据挖掘技术在保险中的应用,一些文章只是提出了大概的构想。谢友 辉、蒋新华( 2 0 0 3 ) 【h l 通过对数据挖掘的常用技术和算法及数据挖掘的体系结构 的介绍和分析,并结合保险业的特点,对数据挖掘技术在保险领域中的应用流程 进行了探讨。王星、谢邦昌、戴稳胜( 2 0 0 4 ) 【2 】提出数据挖掘在保险业中特有的 应用表现在以下几个方面:医疗保险欺诈与滥用;车险欺诈分析:维持保单持有 率;既有客户保单再销售;保单电话行销以及保单直销邮件销售。陈钟( 2 0 0 4 ) 【l 别 以某一保险公司在新 市场开展新险种为例,对保单业主的基本资料进行了分析,讨论了数据挖掘 技术在保险中的应用。 而数据挖掘技术在保险中的具体应用的分析,主要是从下面的几个方面进行 讨论的: ( 1 ) 通过对保险业务风险分析,进行保费的制定 田金兰、李奔( 2 0 0 0 ) 【1 6 l 以某市的医疗保险数据为例,研究了如何使用决策 树分类器,在保险公司建立的保单及索赔信息数据库的基础上,寻找保单中风险 4 硕士学位论文 较大的要素,并且认为可以根据分类器对新的数据作出预测。2 0 0 1 年,田金兰再 次和张素琴、黄刚【1 7 】一起,研究了数据挖掘技术在保险业务中的应用,这次使用 的是s g i 公司的m i n e s e t 软件,m i n e s e t 可以自动调出可视化工具s c a t t e rv i s u a i i z e 输出结果。他们研究了如何发现保险业务数据中的关联规则,从而得出一些对保 险公司起指导作用的控制投资风险的规则。吉根林、孙志挥( 2 0 0 2 ) 【1 8 】等人分别 采用关联规则和分类模型技术对医疗保险数据库( 由个人信息表、单位信息表、 索赔单据表等数据表组成) 进行了保险业务风险分析。通过关联规则挖掘工具对 个人索赔信息表进行挖掘,得到了一系列的关联规则,发现出投保人中索赔的具 有什么特征,不索赔的具有什么特征,这样保险公司就可以有针对性的对潜在客 户开展工作,从而减少风险,提供公司盈利能力。通过对分类模型进行风险分析, 在医疗保险数据集中,选取是否索赔作为目标属性,其他属性作为条件属性。利 用决策树生成工具对表所示的数据集生成一个决策树,根据决策树和投保人的详 细信息,预测出一段时间内索赔概率的大小,并相应制定某类投保人的保险费率。 朱少杰( 2 0 0 6 ) 【1 9 l 探讨了数据挖掘技术中的关联分析,分类决策树以及聚类 分析在车险风险分析中的应用。毕建欣( 2 0 0 6 ) 1 2 0 】将数据挖掘中的决策树技术应 用于团体医疗保险理赔数据库中,提出了基于c l e m e n t i n e 数据挖掘平台的理赔风 险解决方案,为保险公司团体医疗保险理赔风险规则的提取和费率厘定提供决策 依据,以提高团体医疗保险管理的科学性。 ( 2 ) 建立数据仓库,帮助管理保险数据 张永谦( 2 0 0 0 ) 【2 1 1 提出了构建社会保险数据仓库,将数据挖掘技术应用到社 会保险中。文章分析了数据仓库在社会保险领域中的作用,并简单的介绍了数据 仓库的流程,以及需要注意的问题。陈广真( 2 0 0 5 ) 【22 】对社会保险数据仓库的创 建、数据挖掘过程的模型建立以及评估和模型的实旌进行了研究,通过创建社会 保险的数据仓库来产生一个符合数据挖掘要求的高效的环境,同时明确数据挖掘 的主题。 ( 3 ) 保险公司的客户关系管理( c r m ) 李晓瑞、李曼昕、蔺洪利( 2 0 0 2 ) 2 3 l 等人通过对投保客户基本信息库的数据 进行关联规则的数据挖掘,找出客户购买中内在的关联规则。对于保险公司来说, 如何找出新客户、失去的客户以及老客户,尤其是给公司带来最大利润的2 0 的 “黄金客户 的各属性之间的关联规则,同时又能以用户容易理解的方式概括出 来,是决策者策划营销计划的关键。黄沛( 2 0 0 2 ) 【2 4 】运用v p r s 模型对车险保单 数据进行分析,借助基于粗糙集理论的数据挖掘工具r o s e t t a 挖掘出隐含其中 的风险规则。得到这些风险规则后,保险公司可以针对这些低风险规则的顾客进 行更好的营销和服务,以便保留这些顾客。陈永强、胡雷芳( 2 0 0 4 ) r l 利用调查 问卷收集的客户数据,在s a se n t e r p r i s em i n e r 中对建立的保险业的客户价值、客 数据挖掘存我用城镇摹本医疗保险巾的应用研究 户细分等数据挖掘模型中相关因素进行了模拟挖掘,为人寿保险公司开展数据挖 掘提供了参考。桂现才、彭宏、王小华( 2 0 0 5 ) 【2 6 j ( 2 7 j 利用面向属性归纳和决策 树c 4 5 算法对保险客户基本信息进行分析,找出客户流失的特征,帮助保险公司 有针对性地改善客户关系。杨阳、廖宏、刘贵琴、彭澎、杨臆( 2 0 0 6 ) 【2 8 】根据关 联规则挖掘的a p r i o r i 算法并结合一个保险公司的c r m 实例,设计编写了一个可 视化数据挖掘系统,以实现挖掘结果的图形化显示,从而完成可视化数据挖掘技 术在保险业客户关系管理中的应用。胡丽、张卫国、康治平( 2 0 0 6 ) 【2 9 l 以保险业 c r m 系统建设为背景,结合某保险公司具体c r m 系统实例,对c r m 实现中的 关键技术进行了深入的研究。毕建欣( 2 0 0 6 ) 【30 l 通过将数据挖掘中的聚类分析技 术应用于保险客户风险贡献矩阵的客户细分中,提出了基于c l e m e n t i n e 数据挖掘 平台的客户细分管理解决方案,建立了一种保险客户细分方法,为保险公司制定 费率、控制理赔风险提供决策依据。 ( 4 ) 建立决策支持系统 刘於勋、李成亮、张同斌、张海峰和张永谦( 2 0 0 1 ) 1 3 1 】详细讨论了决策支持 系统的结构、关键技术,概述了医疗保险决策支持系统的应用特点,提出了医疗 保险决策支持系统的体系结构和实现方法。管伟、王晓军( 2 0 0 3 ) 【3 2 】通过对数据 仓库技术、联机分析处理技术和数据挖掘技术的功能及特征的分析比较,探讨了 保险业建立决策支持系统的体系结构和实现方法,提出了可以以“保险信息处理 系统为代表的查询报表类工具,以o l a p 为代表的验证型工具,以及以d m 为 代表的挖掘型工具。张彩虹、王春才、颜雁( 2 0 0 4 ) p 3 l 将各种常用聚类算法应用 于医疗决策支持系统,并利用某市的医疗保险数据进行了分析,为医疗保险管理 中心对欠费单位进行管理提供参考。孙小健、仇德成( 2 0 0 7 ) 【3 4 l 针对传统数据库 管理系统存在的数据分散、不统一、可分析能力低等缺点,提出了基于数据仓库 的医疗保险决策支持系统的体系结构,探讨了数据仓库的逻辑模型,介绍了相关 的数据挖掘技术的应用,实现了由原始数据到统一数据的转换和挖掘,进而实现 了辅助决策的功能。 1 2 2 国外研究状况 数据挖掘技术在国外保险业中的应用己经有很多的成功案例,以下是国外一 些相关的成功实例: c i g n ah e a l t h c a r e 通过数据挖掘技术来简化医疗管理报告的生成,提高报告 的准确度和生成速度,从而帮助公司将投资回报率提高到l o o 2 0 0 1 3 5j ;土耳其 的a x ao v a k 利用数据挖掘技术提高市场份额,提高销售利润,并且对理赔客户 进行欺诈识别,降低赔付风险f 3 6 j ;西班牙的a x as e g u r o sei n v e f s i o n e s 保险公司 利用数据挖掘技术分析政策变动对消费者行为的影响,以减小政策风险,并且据 6 硕十学位论文 此分析市场机会,为消费者提供适合他们的保险产品,从而提高投资回报率【3 ; 澳大利亚的a l l i a n ze l e m e n t a r 保险公司i 列j 和b l u ec r o s sa n db i u es h i e l do ff l o r i d a 保险公司【3 9j 利用数据挖掘工具对客户忠诚度、客户细分和客户保持进行分析,以 减少客户流失;美国的a l ls t a t ef i n a n c i a l 保险公司利用数据挖掘技术对不同客户 的消费特征进行分析,制定以客户为中心的营销策略【4 0 】;c h u b b & s o n 保险公司依 靠数据挖掘软件来设计符合消费者需求的保险产品,并且应用数据挖掘技术对客 户价值进行分析,制定b t b 销售策略和交叉销售策略,保证公司是在最能给公司 创造收益的客户集中的地区运营【4 l 】;c o f a c e 保险公司利用数据挖掘技术对客户进 行风险评估,为制定费率及理赔策略提供依据1 4 2 】;斯堪的纳维亚最成功的保险公 司c o d a n 通过建立数据仓库,来选择客户,并且对风险做出正确的评估和定价, 以此提高服务,减低开销【4 3 】;法国的g r o u p a m a 保险公司利用数据挖掘技术对客 户行为和客户价值进行分析,为公司提供销售决策支持【4 4 l ;美国的一家健康医疗 保险公司( h c s c ) 通过数据挖掘技术来提高识别欺诈性的健康医疗索赔的准确 性和效率,从而每年能够减少几百万美元的赔付,进而降低投保人的保险费用【4 列; 美国的菲尔曼基金保险公司运用企业数据挖掘系统对欺诈行为和代位追偿进行分, 析,应用这个系统的结果是:该解决方案通过提高菲尔曼基金公司的财务和经营 报告能力所节约的成本和所增加的收入,每年累计为2 3 千万美元。菲尔曼基金 公司反欺诈及代位追偿的作用是预计每年为公司坚守欺诈行为造成的损失7 0 万 美元,同时每年实现2 百万美元的代位追偿收入1 4 叭。 1 3 主要内容及结构安排 本文以我国某市的城镇基本医疗保险个人账户的基本信息为样本,旨在讨论 如何从海量的基本医疗保险数据中,以数据挖掘技术为工具,来评估影响医疗保 险运营的各风险因素,从而发掘出能够为医疗保险改革提供帮助的信息,并从这 些风险因素对参保个人的消费行为的影响出发,对我国的基本医疗保险改革提出 可行的意见和建议。全文分为四章: 第一章绪论。本章内容主要阐述论文的选题背景与意义,同时包括文献综述 和本文的研究思路。 第二章保险数据挖掘的可行性。本章是对数据挖掘技术的概述。首先介绍了 数据挖掘的基本过程;其次,介绍数据挖掘技术所采用的解决问题的方法;最后, 从保险数据特征出发,讨论保险数据挖掘的可行性,为接下来的研究提供技术支 持。以上这些研究是本论文主体部分第三章的基础。 第三章数据挖掘技术在医疗保险中的应用。本章首先介绍本文对样本、挖掘 算法和挖掘软件的选择,为接下来的分析做铺垫。在此基础上,以某市的个人账 7 数据挖捅在我同城镇摹本医疗保脸中的农用研究 户信息为样本,建立数据挖掘模型,具体的分析步骤如下:首先对选择的原始样 本数据进行清理和转换,以获得适应模型要求的数据样本;然后分别使用选择的 算法建模,并对模型进行评估和解释。 第四章城镇基本医疗保险的问题及改革建议。本章是第三章建立的模型结果 的后续工作。首先从我国现行的基本医疗保险制度出发,分析其存在的主要问题。 然后针对这些问题,结合第三章的模型结果,对我国基本医疗保险制度改革提出 建议。 第三、四章是本文的核心。 最后为结论部分,总结本文的研究结果。 8 硕士学位论文 第2 章保险数据挖掘的可行性 2 1 数据挖掘的基本过程 数据挖掘技术通常包括以下几个基本步骤: 1 确定研究对象 确定数据挖掘的对象,明确数据挖掘的目标,是数据挖掘工作的重要一步。 没有实际用处的数据挖掘工作是没有价值的。虽然挖掘的最后结果是不可预测的, 但要探索的问题应是可预见的,为了数据挖掘而数据挖掘带有盲目性,是不会成 功的。 2 。数据收集 数据是进行数据挖掘工作的基础,只有收集到了需要分析的数据,才能进行 数据挖掘工作下面的步骤;而真实有效的数据,才能保证数据挖掘工作的意义。 进行数据收集工作时常常会遇到各种的问题,如数据的缺失,数据量不能达到要 求,或者大量的纸质数据需要整理,然后存储到计算机的数据库中以便分析等等, 所以数据收集也并不是一项简单的工作。 当收集完数据之后,对数据进行采样,以减少数据集的大小。在许多情况下, 包含在5 万个客户中的模式与包含在1 0 0 万个客户中的模式是一样的。 3 数据清理与转换 数据挖掘的处理对象是大量的数据,这些数据一般存储在数据库系统中,是 长期积累的结果;但往往不适合直接对这些数据进行挖掘,需要做数据清理和转 换工作,这在数据挖掘项目中是资源密集程度最高的一步。数据清理的目的是除 去数据集中的“噪声( n o i s e ) ”和不相关的信息。数据转换的目的则是将源数据 的数据类型与值转换为统一的格式。一般的技术包括:数据的选择( 选择相关数 据) 、净化( 消除冗余数据) 、转换( 连续型数据与离散型数据之间的转换) 、数据 缩减( 减少数据量) 。如果挖掘的对象是数据仓库,那么这些工作往往在生成数据 仓库时已经准备妥当。这一步骤是否做好将影响数据挖掘的效率和准确度以及最 终模式的有效性。【博l 4 模型建立 在构建模型之前,需要理解数据挖掘任务的类型。模型构建是数据挖掘的核 心,但是不如数据转换那样时间密集和资源密集,并且在理解了数据挖掘的目的 之后,算法的选择就相对容易了,算法最终的精确度依赖于数据的质量。该过程 是一个反复调试的过程,需要实际业务经验的支持。正确的做法是使用不同的算 数据挖螺在我围城镇葛本医疗保险中的宜用研究 法构建多个模型,然后使用一些工具来比较这些模型的精确度。即使使用的是同 一种算法,也需要使用不同的参数值来构建模型,以提高模型的精确度。 5 模型的评估与解释 这个步骤作用就是根据一定的评估标准从挖掘结果中筛选出有意义的模式知 识,评估确定哪些是有效、有用的模式。评估可以根据管理人员多年的经验,有 些模式也可以直接用数据来检验其准确性。 在模型评估阶段,不但要考虑模型的精确性,也要与相关领域的专业人员讨 论所发现模式的意义。对于挖掘的正确结果要做出解释,分析其合理性,为决策 者提供风险管理决策的依据。 如果模型不包含有用的信息,可能是以下的原因造成的:首先,数据的质量 问题。数据是完全随机的,所以应该尽可能的使用实际的数据集,因为它包含的 信息最为丰富、准确;其次,模型中的每组变量的选择未必是最佳的。可能需要 进行反复的数据清理与转换步骤,才能够得到最有意义的变量。数据挖掘是一个 循环的过程,通常需要将所有过程多次执行才能获得最合适、最有意义的过程。 图2 1 给出了数据挖掘的过程。 数据准备数据挖掘 结果表达和解释 图2 ,l 数据挖掘过程图1 4 7 】 j o 硕七学位论文 2 2 数据挖掘的任务 数据挖掘任务一般可以分为描述和预测两类。描述性挖掘任务刻画数据库中 数据的一般特性;预测任务则在当前数据上进行推断和预测。一般是通过如下功 能来实现: 1 概念描述 概念描述( c o n c e p td e s c r i p t i o n ) 就是对某类对象的内涵进行描述,并概括这 类对象的有关特征。它分为特征描述和区别性描述,前者描述某类对象的共同特 征,后者描述不同类对象之间的区别。生成一个类的特征性描述只设计该类对象 中所有对象的共性。 2 关联分析 关联分析( a s s o c i a t i o na n a l v s i s ) 也叫购物篮分析,是从数据库中发现知识的 一个重要方法。一个典型的关联商业问题是分析一个销售事务表,并且确定在同 一个商店中的哪些商品比较好卖。关联通常用于确定一组项集和规则,以达到交 叉销售的目的。它的任务主要有两个:找出频繁项集和关联规则。若两个或多个 数据项的取值之间重复出现且概率很高时,就存在某种关联,可以建立起这些数 据项的关联规则。关联分析还可以用来寻找频繁项集,大多数的关联类型算是通 过多次扫描数据集来找到频繁项集。在数据挖掘研究领域,对于关联分析的研究 开展得比较深入,人们提出了多种关联规则的挖掘算法,如a p r d r i 、s t e m 、 a i s 、d h p 等算法。 3 序列模式 序列模式( s e q u e n t i a lp a t t e r n s ) 用来发现离散序列中的模式。序列和关联分 析相似,它们都包含一个项集或一组状态,其目的也是为了挖掘数据之间的联系; 它们的区别在于,序列模型分析的是状态的转移,关联模型认为在客户购物车中 的每一个商品都是平等的和相互独立的。序列模式分析的侧重点在于分析数据间 的前后或因果关系,是用于发现一定时间间隔内接连发生的事件。这些事件构成 个序列,发现的序列应该具有普遍意义。它能发现数据库中形如“在某一段时 间内,顾客购买商品a ,接着购买商品b ,而后购买商品c ,即序列a b _ c 出 现的频度较高之类的知识,序列模式分析描述的问题是:在给定交易序列数据 库中,每个序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交 易序列数据库上,返回该数据库中出现的高频序列。 4 分类分析 分类分析( c i a s s i 6 c a t i o n ) 是数据挖掘中最常用的任务之一,它是基于一个 可预测属性把事例分成多个类别。每个事例包含一组属性,其中有一个可预测属 性类别属性。分类分析要求找到一个模型,该模型将类别属性定义为输入属 数据挖捅存我围城绩摹本医疗保险巾的应用研究 性的函数。它通过分析事例数据库中的数据,为每个类别做出准确的描述或建立 分析模型或挖掘出分类规则,然后用这个分类规则对其它数据库中的记录进行分 类。分类分析时首先为每一个记录赋予一个标记,即按标记分类记录,然后检查 这些标定的记录,描述这些记录的特征。建立分类模型时,需要知道在数据集中 输入事例的类别属性的值,该值通常来自历史数据。有目标的数据挖掘算法成为 有监督的算法。典型的分类算法有决策树算法、神经网络算法和贝叶斯算法。 5 聚类分析 聚类分析( c l u s t e r i n g ) 也称为细分,和分类分析是一个互逆的过程,它是基 于一组属性对事例进行分组,在同一个聚类中的事例或多或少有相同的属性值。 与分类分析不同,聚类分析输入的是一组未分类记录,并且这些记录应分成几类 事先也不知道。聚类分析根据“使类内的相似性最大化,而类问的相似性最小化” 的原则,通过分析数据库中的记录数据,根据一定的分类规

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论