医疗保险欺诈的 主动识别(共36页)_第1页
医疗保险欺诈的 主动识别(共36页)_第2页
医疗保险欺诈的 主动识别(共36页)_第3页
医疗保险欺诈的 主动识别(共36页)_第4页
医疗保险欺诈的 主动识别(共36页)_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、PAGE 2答卷编号(参赛(cn si)学校填写):答卷编号(bin ho)(竞赛组委会填写):论文(lnwn)题目: A 医保欺诈的主动发现 组 别:本科生参赛学校:报名序号:(可以不填)参赛队员信息(必填):姓 名专业班级及学号联系电话参赛队员1参赛队员2参赛队员3 答卷编号(竞赛组委会填写): 评阅(pngyu)情况(省赛评阅(pngyu)专家填写):省赛评阅(pngyu)1:省赛评阅2:省赛评阅3:省赛评阅4:省赛评阅5:PAGE 401问题(wnt)的重述医疗保险欺诈,是指公民(gngmn)、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中,故意捏造事实、弄虚作

2、假、隐瞒真实情况等造成医疗保险基金损失的行为。骗保人进行医保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药。下面这些情况都有可能是医保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等。请根据附件中的数据,找出可能的欺诈记录。2问题(wnt)的分析题目的意图很明确,就是要我们通过数学建模的手段找出医疗保险欺诈的记录。通过对给出数据的观察和分析,我们发现这几个表里面有很多栏都是空白,而且有些信息记录与本次建模没有联系,所以首先必须要将到数据库中,通过数据库语言对表进行合理的处理,整合到一张表里。接着应该选取一些欺诈识别因子,即初步选取能刻画欺诈特征的一些

3、可测信息点确定识别指标。为了能对这些因子进行评价判断,应该要抽取一部分记录作为初步的样本。接下来就得通过统计回归方法检验指标的有效性,并从中选取显著有效的欺诈识别因子作为解释变量;通过建立BP神经网络模型进行欺诈识别,选取学习样本训练神经网络,并选取检验样本检验网络模型的有效性,即通过网络计算欺诈概率,并同事先确定的阈值进行比较,当欺诈概率超过该阈值时即视为疑似欺诈案件,在实际中确定为疑似欺诈的案件进入特殊处理程序,进一步调查。3模型的假设与符号说明3.1 模型的假设(1)假设医保手册号为1的病人都是不享受医疗保险的;(2)假设医嘱数量和费用为负数是输入错误,将所有负数变为正数;(3)假设所有

4、数据来源真实不存在篡改的情况。3.2 符号(fho)说明事件发生的概率,存在医保欺诈概率为1第i个识别因子回归方程的似然函数值引入解释变量后似然函数样本容量第i个自变量的回归系数第i个案例的判定概率识别因子中最大值识别因子中最小值M为隐层节点数4模型(mxng)的准备通过对附件里的数据进行观察可以很容易(rngy)发现,有很多表格里的栏目内容为空,还有就是有些信息对本次建模没有帮助,所以在建立模型前,有必要将原始数据进行筛选处理。通过将数据导入数据库,利用数据语言对数据进行处理(详见附录1)具体处理内容如下:(1)对于表2.1病人资料的处理通过查找观察,发现如VIP标志PAPMIVIPFlag

5、、备注PAPMIRemark等栏目为空,可进行删除;利用出生日期,计算出病人在2014年的年龄;将性别PAPMI_SEX_DR为男为1,女为0;对于是否死亡PAPMI_DECEASED,死亡了的病人设为1,未死亡的设为0;对于手机号PAPMI_MOBPHONE,将有手机号的病人设为1,没有手机号的病人设为0;对于医保手册号PAPMI_Name3,将有医保手册的人设为1,没有医保手册号的人设为0,将没有医保手册号的病人删除,因为没有医保手册号的病人是不享受医保。(2)对于表2.2病人资料费用明细此表是所有表中有用信息最多,且是最为重要的表。选取里面下医嘱科室WORKLOAD_RECDEP_DR、

6、医嘱数量WORKLOAD_QUANTITY、执行科室WORKLOAD_RECDEP_DR、下嘱医生WORKLOAD_RESDOC_DR、核算分类WORKLOAD_TAREC_DR、费用WORKLOAD_TOTALPRICE、单价WORKLOAD_UNITPRICE等信息,放入新表中;利用数据库语言,将医嘱日期WorkLoad_OrdDate到结算日期WorkLoad_FlagDate的时间间隔求出来。(3)对于表2.3、2.4、2.5、2.6进行处理由于这四张表里面的信息有些过于详细,有很多都是空的信息,所以在本次建模中这四个表只用于参照和核对,不直接用于建模的数据引用和处理。通过以上的方法可

7、以得出一张新的数据表,表的大概情况如下:表1 数据处理后形成(xngchng)的新表医保对象购药记录年龄病例号医保手册号性别是否死亡17861435963074960600783300工作单位执行科室下医嘱科室医嘱数量下医嘱医生手机号账单号019320370132605060035核算分类费用单价时间间隔医嘱子类31.750.025025医保对象购药记录年龄病例号医保手册号性别是否死亡22568436087446440151935000工作单位执行科室下医嘱科室医嘱数量下医嘱医生手机号账单号1191133179405066057核算分类费用单价时间间隔医嘱子类11181180155模型的建立(

8、jinl)与求解5.1 logit回归(hugu)模型5.1.1 模型有效性检验与一般的线性模型类似,logit模型也需要对模型进行检验和评价,同样分为回归的显著性检验、回归系数的显著性检验和模型拟合度评价。 logit模型回归方程整体显著性检验logit模型回归方程的显著性检验用于检验用于检验logitP与所有变量之间的线性关系是否显著,检验的原假设为各回归系数为零,备选假设为各回归系数不同时为零。常用的检验方法有对数似然比检验和Housmer-Lemeshow检验。(1)对数似然比检验假设没有引入任何解释变量,即方程仅包含常数项时,回归方程的似然函数值为,引入解释变量后似然函数为,则似然比

9、为。显然,似然比值为,且值越接近1表明模型中解释变量对模型总体没有显著影响;反之,越接近0表明引入解释变量对模型具有显著影响。构造如下似然比卡方统计量:可以证明,在原假设成立时,该统计量服从自由度为的卡方分布,为引入模型变量的个数。SPSS会自动给出似然比卡方统计量及其概率p值。若p值小于给定的显著性水平,则拒绝原假设,认为回归方程整体显著;反之,认为回归方程不显著。(2)Housmer-Lemeshow检验通过二元logit回归计算给定解释变量时被解释变量取值为1时的概率,若实际值为1的样本预测概率相对较高而实际值为0的样本预测值概率的大小将所有样本分为了m组,得到Housmer-Lemes

10、how检验的随机表。Hosmer-Lemeshow统计量服从自由度为(m-2)的卡方分布。SPSS能够给出Hosmer-Lemeshow卡方统计量及相应概率p,当p小于给定显著性水平时,拒绝原假设,认为模型整体显著。 回归系数显著性检验(jinyn)在二元logit回归模型中,回归系数的显著性检验是通过构造(guzo)Wald统计量进行。原假设为,Wald统计(tngj)量数学表达式为:在满足原假设条件时,Wald统计量服从自由度为1的卡方分布。SPSS能够自动计算Wald统计量及其对应 概率p值,通过比较第j个Wald统计量对应p值和给定的显著性水平即可以判定第j个回归系数是否显著。当p值小

11、于给定显著水平时,认为第j个回归系数显著不为零,否则,认为其显著为零。 模型拟合优度评价二元logit模型拟合优度评价常用的统计量包括Cox-Snell 统计量和Nagelkerke 统计量。其中Cox-Snell 统计量数学定义为:其中,为没有引入任何解释变量的回归方程的似然函数值,为引入解释变量后的回归方程似然函数值,N为样本容量,类似于一般线性回归的统计量,其值越大表明模型拟合度越高。Nagelkerke 统计量数学定义为:Nagelkerke 统计量是Cox-Snell 统计量的修正,使得其取值范围限定为01,其值越接近于1表明模型拟合度越高。5.2 logit模型建立我们把事件发生的

12、情况定义为1,事件未发生的情况定义为0。这样在保险欺诈识别模型中,取值为0、1的因变量可以写作:我们通常以表示事件发生的概率(则事件未发生的概率为),并把看作自变量的函数。在本论文中,医疗保险是医疗欺诈的概率为。对于是0-1型Bernoulli模型,有如下分布: 通过logistic转换,索赔事件的对数概率发生(fshng)比写成logit模型:Logit一方面表达(biod)出它是医疗欺诈索赔概率p的转换单位;另一方面,它作为回归的因变量就可以与自变量识别因子之间的依存关系保持(boch)传统回归模型:其中分别为k个识别因子:为常数项,分别为k个自变量的回归系数。5.3 欺诈识别因子的选取欺

13、诈识别因子是指可以观测或测量到的,能够刻画保险欺诈特征的有效信息点,用以作为欺诈识别模型的解释变量。根据给出的数据,本文选取了一下13个指标作为识别因子:(1)被保人特征:性别、年龄、是否有固定单位、是否死亡、是否留有手机号;(2)医保单特征:医嘱日期和结算日期间隔、下医嘱科室、医嘱子类、医嘱数量、执行科室、核算分类、费用、单价。5.4 选取部分记录进行初步判定由于logist模型的要求,必须先对一小部分记录进行初步判定,利用sql语句(详见附录2)选取每一栏目中异常数据,然后利用统计学分布等知识选取判定这一小部分数据,结果如下表:表2 部分记录判定结果医保对象购药记录年龄病例号医保手册号性别

14、是否死亡17861435963074960600783300工作单位执行科室下医嘱科室医嘱数量下医嘱医生手机号账单号019320370132605060035核算分类费用单价时间间隔医嘱子类是否欺诈31.750.0250251医保对象购药记录年龄病例号医保手册号性别是否死亡22568436087446440151935000工作单位执行科室下医嘱科室医嘱数量下医嘱医生手机号账单号1191133179405066057核算分类费用单价时间间隔医嘱子类是否欺诈111811801515.5 欺诈识别因子的精炼运用二元离散选择模型对选取的13个欺诈识别因子经行逻辑回归分析(fnx),从中获取具有显著性

15、的因子。本文通过IBM SPSS Statistics19软件实现样本数据的logit回归分析。(1)参数(cnsh)设定为:方法(fngf):进入;步进概率:进入(N)=0.05,删除(V)=0.1;分类标准值(U):0.5;最大迭代次数:50;Exp(B)的C.l.(X):95%。(2)拟合结果(详见附录3、附录4 ):表3 迭代历史记录-2对数似然值系数constant1825.359.2072825.358.207模型中包括常量;初始-2对数似然值为825.359;因为参数估计的更改范围小于。001,所以估计在迭代次数3处终止。表4 分类表已观测医疗保险类型已预测以来哦保险类型是否存在

16、医疗欺诈百分比校正01002690103311包括在模型中不变切割值为0.5Block 0拟合的是只含有常数的无效模型,表3为迭代历史记录,估计在迭代终止,初始的-2对数似然值达到825.358;表4为分类预测表,可见在600例观察值记录中,269例被预测为0,331被预测为1。表5 logit回归包含在方程中的变量估计值及检验步骤0BS.EWalsdfSieExp(B)常量.207.0826.3841.0121.230在没有引入任何变量时方程的变量估计值及检验值如表5所示,常变量系数值为0.27,概率为0.082,可见常量对方程有显著性意义。因为回归采用Enter方法,处了检查容忍度 之外,

17、没有其他任何进入标准,所有选择的变量都会进入回归方程。将变量分别引入回归方程后对方程的显著性影响如表6所示。可见性别、医嘱子类、是否留有手机号、执行科室、单价等五个因子引入方程对方程没有显著性影响。表6 logit回归不包括在方程中的变量(binling)进入方程步骤0变量得分dfsig时间间隔110.8051.001年龄124.2661.000性别7.7431.005是否死亡48.4601.000有无工作单位49.9921.000有无手机号3.7101.054下医嘱科室70.8621.353医嘱数量66.2721.000执行科室18.6101.032下医嘱医生17.3071.007核算分类1

18、12.9181.000费用59.7291.000单价2.5341.111a.剩余的卡方不是因为冗余计算5.6 医疗(ylio)欺诈识别的BP神经网络模型人工神经网络是基于对人脑组织结构和活动机制的初步认识提出的一种类似(li s)人类神经系统的信息总处理工具。人工神经网络由大量人工神经元相互连接而成,通过学习训练即根据输入的外界信息调整神经元之间的连接权值进而自我调整结构,达到处理实际问题的能力。人工神经网络具有自学、自组织、自适应以及非线性逼近性、良好的容错性和计算的非精确性等特点,具有强大的模式识别和数据拟合能力,在模式分类、聚类、回归拟合、优化计算、数据压缩等众多领域得到广泛应用。事实上

19、,神经网络有很多种,不同类型的神经网络适用于不同的问题,其中以基于误差反传算法的多层前馈网络即BP神经网络最为流行。BP神经网络是一种按误差你传播算法训练的多层前馈网络,目前已在国内外相关经济研究领域得到广泛应用。5.6.1 BP神经网络基本原理BP网络模型处理信息的基本原理是:学习过程由信号的正向传播和误差的反向传播两个过程组成。正向传播时,输入信号通过中间层作用于输出层,经过非线形变换,产生输出信号;若输出层的实际输出与期望输出不符,则转向误差的反向传播阶段。误差的反向传播是将输出误差以某种形式通过中间层向输入层逐层反转,并将误差分摊给各层的所有单元,从而获得各层的误差信号作为修正各单元权

20、值的依据。此过程周而复始,直到输出的误差降到可以接受的程度。此时经过训练的神经网络即能对类似样本的输入信息自行处理,进而输出误差最小的经过非线形转换的信息,然后可通过检验神经网络的有效性。运用BP神经网络处理实际问题时分为两个步骤即网络训练和网络应用。第一步网络训练采用有监督的学习,有监督的学习是指每一个训练样本都对应一个代表环境信息的教师信号作为期望输出,训练时计算实际输出与期望输出之间的误差,根据误差的大小和方向反复调整网络连接权值,直到误差达到预定的精度为止。5.6.2 BP神经网络的结构(jigu)BP神经网络(wnglu)是一种多层前馈网络,其神经元连接权值的调整规则采用误差反传算法

21、即BP算法。BP神经网络又是一个多层感知器,多层次感知器强调神经网络在结构上由输入层、隐含层、输出层等多层构成,BP网络则强调层间连接权值通过误差反传算法经行调整。BP 神经网络的特点是:网络由多层次构成,包括输入层、隐含层(单层或多层)和输出层;层与层之间全连接,同层神经元之间无连接;传递函数必须可微,常用的有Sifmoid型的对数、正切(zhngqi)函数或线性函数;采用误差反传算法经行学习,逐层向前修正网络连接权值。BP神经网络结构在设计时主要包括以下方面:(1)网络层数BP神经网络至少包括一个输入层和一个输出层,可以包含一个或多个隐含层,所以网络层数的决定问题即是隐含层层数的决定问题。

22、理论上已经证明,单个隐层可以通过适当增加神经元节点数达到任意的非线性映射,因此大多数情况单隐层结构的神经网络足以满足需求。在样本较多的情况下,增加一个隐层可以有效减小网络规模。(2)输入层节点数输入层节点数取决于输入向量维数,具体可根据实际问题和数据类型确定。如果输入数据为模型信号波形,则可根据波形的采样点数目决定输入向量维数;如果输入数据为时间序列数据,则输入节点为时间点数;如果输入为图像,则输入单元可以为图像像素或经处理的图像特征。(3)隐含层节点数隐含层节点数在很大程度上影响着BP神经网络的性能。对此一个非常重要的定理表述为对任何一个在闭区间内的连续函数都可以用三层即单隐层BP神经网络逼

23、近,因而单隐层BP网络可以完成任意的n维到m维的映射。一般而言,隐含层较多节点可使网络达到更好的性能,但可能导致较长的收敛时间。实践中,通常采用以下经验公式选择最佳节点数:第一种:,其中k为样本数,M为隐层节点数,n为输入节点数。如果,规定。第二种:,其中n为输入节点点数,m为输出节点数,a是之间的常数。第三种:,n为输入节点数。(4)输出层节点数输出层节点数需要根据实际问题的抽象模型进行确定。例如在利用神经网络解决模式分类问题中,如果共有n个类别,则输出层节点数为n或,表示不小于x的最小整数。(5)传递函数根据研究经验,一般情况下输入层和隐层的传递函数选用行函数(Logsig)或正切形函数(

24、Tansig)输出层选用线性函数作为(zuwi)传递函数,用purelin表示。(6)训练方法BP神经网络采用迭代调整的方式进行权值确定,因此在训练之前需要确定初始值作为(zuwi)迭代调整的起点。初始值的大小会影响网络的性能,通常情况将初始值定为较小的非零随机值,经验值为或之间,其中(qzhng)F为权值输入端连接的神经节点数。5.6.3 BP神经网络的学习算法BP网络的层数和神经节点数确定之后,还需确定各层之间的权值系数,此过程即为网络的学习过程。BP网络的学习是有监督的学习,需要一组已知输出值得样本作为检验样本。训练开始时首先选取随机值作为权值,输入检验样本得出网络输出,然后根据网络输出

25、与已知输出之间的误差通过某种规则对权值进行不断调整,直至达到目标误差精度。前向型神经网络常用的学习方法有最小均方误差法、梯度下降法,以及改进算法动量梯度下降法、拟牛顿法、LM等。5.7 构建医疗保险欺诈识别模型将样本案例分为训练样本和检验样本,分别在医疗保险欺诈和非医疗保险欺诈案例中选取300例作为检验样本,其余案例作为模型训练样本进行网络训练。用训练好的神经网络对检验样本进行预测检验,并与实际判定结果经行比较得出结论。在健康保险欺诈识别模型当中,首先构建输入和输出数据矩阵,包括网络输入向量矩阵X、网络输出向量矩阵Y与期望输出向量矩阵T。通过经验和实验确定网络结构和参数,采用误差梯度下降的学习

26、算法,不断调整输入层、隐层与输出层之间的联接强度权值以及阈值,确定与最小误差相对应的网络参数(权值和阈值)。5.7.1 构建输入输出数据矩阵网络输入数据矩阵是由经logit回归分析获取的具有模型显著性的8个欺诈识别因子向量构成。设矩阵,其中,到代表七个识别因子列向量。矩阵X即为输入数据向量矩阵。网络输出向量矩阵时模型判定的案例分类概率矩阵。设,其中到为n个案例的判定概率。期望输出向量矩阵是获取的样本案例的索赔类别矩阵,实际是一个列向量,向量元素非0即1,代表医疗保险欺诈和非医疗保险欺诈的判定。设,。5.7.2 神经网络结构参数设定构建神经网络模型的关键就是合理设定结构参数,根据前文的分析和重复

27、训练实验将欺诈识别模型的结构参数设定如下:(1)网络层数:选取单隐层即三层神经网络模型。(2)神经节点:输入节点为欺诈识别因子个数即为8,输出节点数为1,通过重复试验确定最佳隐层节点数为16,此时网络训练效果最佳;表7给出了不同隐层节点数的训练效果比较,可以看出节点数为16和17时训练整体网络误差和拟合优度达到最佳,而节点数为16时训练次数(csh)明显少于17时,训练效率较高。表7 不同(b tn)隐层数的模型训练效果对比隐层节点数训练次数整体网络误差拟合优度(R)81000005.44470.8945691000005.41750.8936710183744.89900.915571110

28、6104.89890.915581255984.89900.915571313284.89890.915591440294.89890.915581514404.89880.915581614404.89860.915617100304.89900.91557(3)传递函数:通过重复训练(xnlin)实验,最终确定隐层传递函数tansig,输出层传递函数purelin。(4)性能函数:通过均方误差(MSE)来反映模型的预测精度。(5)训练函数:选择普通训练traindm,设定学习速率为0.1,动量系数为0.9,训练次数1000,误差精度为0.03。5.7.3 BP神经网络模型构建运用MATLA

29、B的newff函数建立一个前馈BP神经网络,其格式为:5.8 医疗欺诈识别的证实分析5.8.1 数据预处理预处理数据可以有效提高神经网络训练效果,影响神经网络预测性能,是进行实证分析的关键步骤。因此,首先需要对原始数据进行归一化处理,即通过线性变换将数据限定在区间内。设样本某因子向量,n为样本例数。设有最大值,最小值,令则有。采用归一化处理后的数据进行网络训练和检验,实证分析中运用MATLAB的premnmx函数实现输入数据的归一处理。5.8.2 网络训练运用处理之后的数据对构建的神经网络模型进行训练,基于LMS算法即最小均方误差算法(Least Mean Square Algorithm),

30、以均方误差作为反映模型预测精度的标准。LMS体现了纠错规则,与最速下降法没有本质上的差别。最标准最速下降法实际应用中往往收敛速度慢,因此作为改进权值更新阶段引入动量因子,使本次权值的更新方向和幅度不仅与本次计算的梯度有关还与更新有关,使权值更新有一定的惯性。研究中动量因子设定为0.9。模型经过100000次训练误差精度(jn d)达到0.029284小于目标0.01,训练结束,训练过程如图1所示。图1 模型(mxng)训练过程图如表10所示,训练(xnlin)后模型的拟合优度达到0.9156,较为理想。在合理的容错限度内可以较为准确地进行数据拟合和预测。图2 模型数据拟合图5.9 医疗欺诈识别

31、的结果求解运用上述已经成型的BP神经网络模型,将数据导入其中得到了结果图(详见附录14),通过MATLAB进一步的信息提取,得到判定为医疗保险欺诈的记录(详见附录15),部分结果如下表:表8 利用(lyng)BP神经网络模型得到存在医疗欺诈的医疗记录3787656254915343291612612386619384525640065404421798834111825760445262722806116306418937658529565240119674921042439408763130929459144092621637017376618069121751523176547688216

32、719217041317017965895639337031037621334862984266026740909233691620031264746626046017903920880635649817934616545232929960106335814578358145793581518835809972358099733580139935801400358014023580140335801405358014073580140835801409358014103580507935806298358045193580572335805724358057253580572635805727

33、35805728358057293580573035805731358057323580573335805734358057353580573635805737358057383580573935805740358057413580632235806323358063243580632535806326358063273580632835806329358063303580633135806332358063333580633435806350结果给出了55326条存在医疗欺诈嫌疑的医疗记录(jl),其中存在一张医保单包括多条医疗记录的,而且不排除同一个人经行多次医疗保险欺诈,所以从结果数量来

34、看是比较合理的,但要确定是否真正医疗保险欺诈需要实际调查核实。6模型结果(ji gu)的分析与检验6.1 logistic模型结果的分析利用入logistic回归分析,对事先确定好的初步识别因子进行显著性水平检验,从表6可见可见性别、医嘱子类、是否留有手机号、执行科室、单价等五个因子引入方程对方程没有显著性影响,结果具有一定的合理性。这个结果也为之后建立BP神经网络模型提供了欺诈识别因子向量。6.2 logistic模型显著水平检验1模型系数的综合检验(对数似然比检验)表9 模型参数检验值表卡方dfSig步骤1Step125.35813.000Block125.35813.000Model82

35、5.35813.000表7给出了模型的Omnibus Tests结果,统计量服从自由度为13即引入变量个数的卡方分布,SPSS自动给出了似然卡方统计量及概率p值,p值明显小于给定的显著性水平,拒绝原假设,回归方程整体显著。2模型汇总(拟合优度检验)表10 模型汇总步骤-2对数似然值Cox-Snell Nagelkerke 1.000a.7471.000a.因为检测到完美拟合,所有估计在迭代次数18处终止Cox-Snell 统计量和Nagelkerke 统计量评价了logit模型的拟合优度,其中Cox-Snell 统计量值越大表明模型拟合度越高,Nagelkerke 统计量是Cox-Snell

36、统计量的修正,其值越接近于1表明模型拟合度越高。从检验值可以看出模型拟合度很高。3Hosmer-Lemeshow检验(jinyn) 表11 模型(mxng)Hosmer-Lemeshow检验(jinyn)步骤卡方dfsig1.00031.000Hosmer-Lemeshow检验为了构造统计量,根据预测值概率的大小将所有样本分为5组,得到Hosmer-Lemeshow检验的随机性表。Hosmer-Lemeshow统计量服从自由度为3的卡方分布。概率p值大于显著水平,不拒绝原假设,从这以检验看模型拟合不是很理想,在可以接受水平上的模型估计拟合了数据。6.3 BP神经网络模型结果分析从图1、图2的结

37、果来看,模型经过100000次训练误差精度达到0.029284小于目标0.03,训练后模型的拟合优度达到0.9156,较为理想。在合理的容错限度内可以较为准确地进行数据拟合和预测。可见构建的BP神经网络模型是比较合理且科学的。6.4 BP神经网络模型预测检验在样本中随机选取了600个案例作为检验样本,其中331例为医疗保险欺诈, 269例为非医疗保险欺诈。如图3所示,“”代表案例类型的实际值,“”代表神经网络模型的预测输出值。序号1到331的案例实际判定为医疗保险欺诈,实际值为1;序号332到600的案例实际被判定为索赔,实际值为0。虽然数据量比较大,但在图中还是可以比较清晰地看出预测较为精确

38、。在一定容错范围内,可以认定为判定正确。图3 模型预测值与实际值比较实际值与预测值得绝对误差(详见附录13)如表11所示。在10%的容错限度内判定准确率达到88.52%,在20%容错限度内准确率达到92.15%。表11 模型预测值与实际(shj)值得绝对误差序号12345678绝对误差0.012780.032600.057600.012790.012790.012790.012790.01279序号910111213141516绝对误差0.012790.012790.012790.012790.012760.012780.012770.04701序号5845865875885895905915

39、92绝对误差0.073250.044860.003750.083290.015290.088960.180670.17832序号593594595596597598599600绝对误差0.191670.101480.093330.000010.180100.070860.001390.149357模型(mxng)的推广与改进方向7.1 根据账单(zhn dn)记录建立模型并求解由于以上内容是根据医疗记录建立的模型求解的,能够从实际出发找到存在医疗保险欺诈嫌疑的医疗记录。但往往一个账单里包括了几个医疗记录,这样就没有能够考虑到单个账单偏高等存在医疗欺诈嫌疑的行为,所以有必要根据账单生成一个新的表

40、格,并对这些数据进行logistic回归分析以及建立BP神经网络模型。7.1.1 对数据预处理根据账单形成表由于医疗保险信息一开始都导入到了数据库中,利用sql语句(详见附录19 )能够根据医保对象构建出一张新的表格,部分信息如下:表12 根据账单数据处理后形成的表账单号时间间隔性别年龄是否死亡工作单位手机号5039384018010下医嘱科室总费用医嘱总数量执行科室数量医保对象药品数量1241113228151账单号时间间隔性别年龄是否死亡工作单位手机号5041125002010下医嘱科室总费用医嘱总数量执行科室数量医保对象药品数量590.09116400411同样利用统计学分布等知识选取判

41、定一小部分数据作为参照样本,结果如下表13:表13 部分记录判定结果账单号时间间隔性别年龄是否死亡工作单位手机号5039384018010下医嘱科室总费用医嘱总数量执行科室数量医保对象药品数量是否欺诈12411132281510账单号时间间隔性别年龄是否死亡工作单位手机号5041125002010下医嘱科室总费用医嘱总数量执行科室数量医保对象药品数量是否欺诈590.0911640041107.1.2 logistic模型(mxng)回归分析运用二元离散选择模型对选取的11个欺诈识别因子经行逻辑回归分析,从中获取具有显著性的因子。本文通过IBM SPSS Statistics19软件(run j

42、in)实现样本数据的logit回归分析。(1)参数(cnsh)设定为:方法:进入;步进概率:进入(N)=0.05,删除(V)=0.1;分类标准值(U):0.5;最大迭代次数:50;Exp(B)的C.l.(X):95%。(2)显著性分析将变量分别引入回归方程后对方程的显著性影响如表14所示。可见时间间隔、医保对象、性别、是否死亡、工作单位、手机号等六个因子引入方程对方程没有显著性影响。表14 logit回归不包括在方程中的变量进入方程步骤0变量得分dfsig时间间隔7.9981.005医保对象.0001.998性别.7521.386年龄47.1711.000是否死亡.0841.771工作单位3.

43、4081.065手机号.0021.961下医嘱科室29.7401.000药品数量148.8421.000总费用115.0731.000总数量126.8871.000医嘱项总数158.0131.000a.剩余的卡方不是因为冗余计算7.1.3 构建BP神经网络模型并求解接下来运用处理之后的数据对构建的神经网络模型进行训练,基于LMS算法即最小均方误差算法(Least Mean Square Algorithm),以均方误差作为反映模型预测精度的标准。LMS体现了纠错规则,与最速下降法没有本质上的差别。最标准最速下降法实际应用中往往收敛速度慢,因此作为改进权值更新阶段引入动量因子,使本次权值的更新方

44、向和幅度不仅与本次计算的梯度有关还与更新有关,使权值更新有一定的惯性。研究中动量因子设定为0.9。模型(mxng)经过21次训练误差精度(jn d)达到0.0087357小于目标(mbio)0.01,训练结束,训练过程如图4所示:图4 模型训练过程图训练后模型的拟合优度达到0.98285,较为理想。在合理的容错限度内可以较为准确地进行数据拟合和预测。运用上述已经成型的BP神经网络模型,将数据导入其中得到了结果图:图5 针对账单号求解模型得出结果图在10%的容错限度内判定准确率达到85.00%,在20%容错限度内准确率达到99.29%,可以认为准确率很高。运用MATLAB语句选取概率在0.9以上

45、的账单记录视为存在医疗保险欺诈的行为结果给出了6625条,部分结果如下表:表15 利用BP神经网络模型得到存在医疗欺诈(qzh)的账单记录359359833593659735948099359481003594810135948104359481073594812435948125359481263594812735934804359348193593482135934825359348263593662435936625359456713594876135948762359487633593729335946335359481853594818635948200359487973594881

46、735948818359361033593610435936105359457493594575035945752359457533594575435945755359457563594575735945758359457593594576035945761358188573581885835818859358188603581886122381159200939843018313720354717528718219865966730387147828418637323871416817125824732618461703716219662769166856164589918503828958

47、45688121894234796386716371787751716896517405453571624052136833442921847646646012521302361551937851970314785566137112017921786141703292172261680296637811669031600175957297.2 根据(gnj)医保对象建立模型并求解由于以上内容是根据医疗记录建立(jinl)的模型求解的,能够从实际出发找到存在医疗保险欺诈嫌疑的医疗记录。但往往存在医保欺诈的医疗记录都是一人所为,以上内容忽略了同一个人在不同医院和医生处重复配药等医保欺诈行为,所以有

48、必要根据医保对象建立一个新的表,并从根据这张表建立模型并求解。7.2.1 对数据预处理根据账单形成表由于医疗保险信息一开始都导入到了数据库中,利用sql语句(详见附录24 )能够根据医保对象构建出一张新的表格,部分信息如下:表16 根据医保对象数据处理后形成的表医保对象性别是否死亡工作单位总次数总费用总医嘱医生1612611007902.635总费用总数量总医嘱项总执行科室总下医嘱科室手机号902.63250032250医保对象性别是否死亡工作单位总次数总费用总医嘱医生34111800115984.253总费用总数量总医嘱项总执行科室总下医嘱科室手机号984.2538028110同样利用统计学

49、分布等知识选取判定一小部分数据作为参照样本,结果如下表17:表17 部分医保对象判定结果医保对象性别是否死亡工作单位总次数总费用总医嘱医生1612611007902.635总费用总数量总医嘱项总执行科室总下医嘱科室手机号是否欺诈902.632500322501医保对象性别是否死亡工作单位总次数总费用总医嘱医生34111800115984.253总费用总数量总医嘱项总执行科室总下医嘱科室手机号是否欺诈984.253802811017.2.2 logistic模型回归(hugu)分析运用二元离散选择模型(mxng)对选取的11个欺诈识别因子经行逻辑回归分析,从中获取具有显著性的因子。本文通过IBM

50、 SPSS Statistics19软件实现样本数据的logit回归分析。(1)参数(cnsh)设定为:方法:进入;步进概率:进入(N)=0.05,删除(V)=0.1;分类标准值(U):0.5;最大迭代次数:50;Exp(B)的C.l.(X):95%。(2)显著性分析将变量分别引入回归方程后对方程的显著性影响如表14所示。可见性别、是否死亡、是否有工作单位、是否有手机号等4个因子引入方程对方程没有显著性影响。表14 logit回归不包括在方程中的变量进入方程步骤0变量得分dfsig性别.2141.644是否死亡3.8591.049工作单位8.4251.004手机号2.4141.120总次数19

51、5.7171.000总费用108.4411.000总数量91.5371.000总医嘱项154.5361.000总下医嘱科室51.8061.000总执行科室88.7551.000总下医嘱医生96.2161.000a.剩余的卡方不是因为冗余计算7.2.3 构建BP神经网络模型并求解接下来运用处理之后的数据对构建的神经网络模型进行训练,基于LMS算法即最小均方误差算法(Least Mean Square Algorithm),以均方误差作为反映模型预测精度的标准。LMS体现了纠错规则,与最速下降法没有本质上的差别。最标准最速下降法实际应用中往往收敛速度慢,因此作为改进权值更新阶段引入动量因子,使本次

52、权值的更新方向和幅度不仅与本次计算的梯度有关还与更新有关,使权值更新有一定的惯性。研究中动量因子设定为0.9。模型(mxng)经过94次训练误差(wch)精度达到0.009935小于目标(mbio)0.01,训练结束,训练过程如图6所示图6 模型训练过程图训练后模型的拟合优度达到0.97984,较为理想。在合理的容错限度内可以较为准确地进行数据拟合和预测。运用上述已经成型的BP神经网络模型,将数据导入其中得到了结果图:图7 针对医保对象求解模型得出结果图在10%的容错限度内判定准确率达到85.17%,在20%容错限度内准确率达到96.65%,可以认为准确率很高。运用MATLAB语句选取概率在0

53、.9以上的账单记录视为存在医疗保险欺诈的行为结果给出了797条,部分结果如下表:表15 利用BP神经网络模型得到存在医疗欺诈的账单(zhn dn)记录378765625491534329161261238661938452564006540442179883411182576044526272280611630641893765852956524011967492104243940876313092945914409262163701737661806912175152317654768821671921704131701796589563933703103762133486298426602

54、674090923369162003126474662604601790392088063564981793461654523292996010632778396163022172493286166278922006891905571966342618366615334674756142212614166604473029706810282569331650735894616599791914874027356558342097142798325674933489134996341899473139842177656475631700492875952157281610624425111923

55、641816912200401984122557826168524489002033633242966459661606233572403567978模型(mxng)的优缺点8.1模型(mxng)的优点1利用logistic模型能够对初步确定的欺诈识别因子进行显著性水平检验,从而筛选出显著性高的识别因子;2以logit回归分析得到的显著有效地欺诈识别因子作为输出变量建立BP神经网络模型,从样本中选取一部分样本作为训练样本,用训练样本来训练神经网络,使神经网络更加合理,更加成熟;3模型能适用于其他各种医疗保险欺诈的识别,整个模型有很好的通用性。8.2模型的缺点1结合相关分析,初步确定的医保欺诈识

56、别因子,某些指标的界定和赋值具有一定的主观性,在代表性和实践性上有待考究。2在解决此题时,忽略了在各医疗记录与医嘱之间的联系以及各医疗记录与病人之间的联系,在模型的改进中有考虑此类联系。参考文献1 姜启源数学模型(第三版)M北京:高等教育出版社,19992 韩中庚数学建模方法及其应用(第二版)M北京:高等教育出版社,20093 王沫然MATLAB与科学计算北京:电子(dinz)工业出版社,2003年4 刘潇社会(shhu)医疗保险道德风险及其控制机制研究基于医疗(ylio)服务供需双方的分析北京:中国人民大学,2008年5 CUMCM组委会CUMCM问EB/OL HYPERLINK /mcm0

57、5/Problems2005c.asp /mcm05/Problems2005a.asp,2005-9-17附 录附录(fl)1 数据(shj)库中对数据进行预处理程序(chngx)select WORKLOAD_ROWID as 购药记录,WORKLOAD_ARPBL_DR as 账单号,WORKLOAD_ITEMCAT_DR as 医嘱子类,WORKLOAD_ITEMORD_DR as 医嘱项,WORKLOAD_ORDDATE as 医嘱日期,WORKLOAD_FLAGDATE as 结算日期,convert(float, convert(datetime, WORKLOAD_FLAGDA

58、TE-WORKLOAD_ORDDATE) as 时间间隔,WORKLOAD_PAPMI_DR as 医保对象,PAPMI_DOB as 出生日期,PAPMI_MEDICARE as 病例号,PAPMI_NAME3 as 医保手册号,PAPMI_SEX_DR as 性别,PAPMI_DECEASED as 是否死亡,PAPMI_DECEASED_DATE as 死亡日期,PAPMI_SECONDPHONE as 工作单位,PAPMI_MOBPHONE as 手机号,WORKLOAD_PATDEP_DR as 下医嘱科室,WORKLOAD_QUANTITY as 医嘱数量,WORKLOAD_REC

59、DEP_DR as 执行科室,WORKLOAD_RESDOC_DR as 下医嘱医生,WORKLOAD_TAREC_DR as 核算分类,WORKLOAD_TOTALPRICE as 费用,WORKLOAD_UNITPRICE as 单价 from dhc_workload$,pa_patmas$ where WORKLOAD_PAPMI_DR=PAPMI_ROWID1delete from sheet1$ where 医保手册号=1update Sheet1$ set 医嘱数量=0-医嘱数量 where 医嘱数量0update Sheet1$ set 单价=0-单价 where 单价0upd

60、ate Sheet1$ set 费用=0-费用 where 费用0update Sheet1$ set 年龄=datediff(YEAR,出生日期,2014-08-15)update Sheet1$ set 性别 =0 where 性别=2update Sheet1$ set 病例号=0 where 病例号=NULLupdate Sheet1$ set 病例号=1 where 病例号 0update Sheet1$ set 是否死亡=0 where 是否死亡 =NULLupdate Sheet1$ set 是否死亡 =1 where 是否死亡 0update Sheet1$ set 工作单位=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论