A5-2015年深圳杯夏令营优秀论文-医保欺诈行为的主动发现_第1页
A5-2015年深圳杯夏令营优秀论文-医保欺诈行为的主动发现_第2页
A5-2015年深圳杯夏令营优秀论文-医保欺诈行为的主动发现_第3页
A5-2015年深圳杯夏令营优秀论文-医保欺诈行为的主动发现_第4页
A5-2015年深圳杯夏令营优秀论文-医保欺诈行为的主动发现_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医保欺诈行为的主动发现 摘要 随着我国医保制度推广范围的不断扩大,以及管理上存在的一定程度的疏忽, 医保欺诈现象越发严重,造成了医疗资源的分配不公和公众利益的损失。 本文着眼于分析医保欺诈的三种?常?方式三种?常?方式,探讨这些行为所具有的不同 特征,对这些手段,分别设计了检测方法,建立了三种不同的数学模型。 模型一?对一张卡在一定时间?次?药。模型一?对一张卡在一定时间?次?药。对此我们可以统计出每张卡在 医院开药单的时间频率,同时还必须探究开药频率和病人自身属性的关联性,通过 比较数据在不同分类水平下的频率直方图,进一步通过列联表法列联表法检验了不同病人属 性下就诊频次之间的独立性是否存在,通过 ?制?式图?制?式图,通过分位数界定了一部 分离群点,作为高度怀疑的对象。 模型?对于单张?方药?过高进行?别。模型?对于单张?方药?过高进行?别。对于特定类型的病人,医生往往会有 对应的开药模式,若某些外在因素相似的病人,在开药模式上呈现出很大的差异 性,则有理由怀疑为行为异常者。对此,我们采用了在?无监督机器学习在?无监督机器学习,建 立了?能过?器模型?能过?器模型,对于数据库中的离散分类数据和连续变量分别采用 SDLE, SDEM方法,引入高?合模型高?合模型刻画其概率密度,基于新数据点对原有数据分布的 影响大小,计算了 Hellinger Distance ? ? Logarithmic Loss作为得分,得分越 高代表该数据点在与其类似的数据点中行为越异常,理论上结合经验阈值可以转 化为有监督机器学习模型有监督机器学习模型来优化原有模型。 模型三探测一人?卡配药的?。模型三探测一人?卡配药的?。因为不同的病人去医院开药的行为通常是 相互独立的,如果若干张医保卡在开药行为上存在高度的一致性,则很可能这些医 保卡为同一人在使用。为探测这种关联性,采用了 Eclat 关联?则算法关联?则算法,对庞大的 数据库按时序进行数据挖掘,提?高度频繁项集提?高度频繁项集,作为怀疑的对象。 我们队以上模型都基于现有数据库进行了模型仿真,对结果进行了评价,得到 了合理的结果,并对模型的进一步完善提出了展望。 关? 关? 无监督机器学习, 列联表, Hellinger 距离, 对数损失, Eclat, 频繁项集 1 1问题重述问题重述 ?的?的? ?的?的?的? ?重?题?求?附?的?建立模型求解?问题? 1. ?的? 2. ?的? 3. ?重?的? 2问题分析问题分析 问题?的?问题?的? ?的?的? ?的?的?的?的? ?的?分析? 问题?的?问题?的? ?模?的?模?本? ?的?的?本题? ?的?的? ? 问题?问题? ?的?本文? ?的?的?的? 3模型基本假设模型基本假设 1. ? 2. ?参?的?分? 4模型的建立与求解模型的建立与求解 4.1模型?的?模型?的? ?题?的?的? ?的? ?的? ?的?的? ?的? 的?: ?的?的? 2 ?附? ?的?本?的? ?的?附?的?录? ?的?的? ?的重? 附?的?的? ? rowid?的?的? ? Q3: ?的?分? Q1: ?的?分? Q: ?分?的? 4.1.1?的?的? ?分? 8 ?0 ? 70 ? 10 ?分?70 ? ?的?的 ?的?分? 1? ? 1: ? ?述?的?的分? ?与?立与?立?立的? ?的?立? ? 1 ?假设?与?立? 2= r i=1 s j=1 (nij n pi pj)2 n pi pj ? pi= ni n , pj= nj n 3 ? 1: ? ?1 ?2 ?3 ?4 ?5 ?6 ?7 ? 0-10 ?7607222768730113681101 11-20 ?221850716469301310 21-30 ?84401955557152642214 31-40 ?104022696795311983625 41-50 ?63531531468175622539 51-60 ?3374886249120421220 61-70 ?206554418261231110 70 ?133941314786231916 ? 2 2 (r 1)(s 1)?分? 8 ?分? 7 ? ? r = 8,s = 7? 2 2 (42) ? nij= n pi pj? 2 ? 2: ? ?1 ?2 ?3 ?4 ?5 ?6 ?7 ? 0-10 ?8026.32066.007623.8922244.833191.7883942.0536845.12609 10-20 ?2169.406558.4153168.630166.1752524.8092311.3665712.19701 21-30 ?8072.4112077.876627.4765246.239692.3157242.2952845.38534 31-40 ?10348.452663.739804.3953315.6676118.344454.2205558.18187 41-50 ?6234.4321604.772484.6086190.174271.2966732.6652135.05171 51-60 ?3388.482872.211263.3901103.361738.7505217.753919.05099 61-70 ?2086.55537.0876162.189663.647823.8616910.9324511.73116 70 ?1471.969378.8916114.417644.9007116.833367.7123588.275817 ? 3 ? 3: ? 2? ?1 ?2 ?3 ?4 ?5 ?6 ?7 ? 0-10 ?21.9045112.545346.38345912.8852121.2953536.0685769.18156 11-20 ?1.0884684.7339980.127130.1205771.086050.2347310.39574 21-30 ?16.738687.2663517.91574136.066948.6851969.73863621.70392 31-40 ?0.2770970.3907070.1097380.0690173.4973766.12292918.92405 41-50 ?2.2549623.3913110.5692111.2107631.2122331.7987170.444742 51-60 ?0.0618930.2179940.7861862.6782780.272491.8647940.047274 61-70 ?0.2225630.0889632.4197170.1101510.0311170.0004170.255467 70 ?12.011573.0704959.27841837.61972.25904916.520357.209317 ? 2= 433.4652?问题的 p-value ? 1 2(433.4652,42) = 0? ? 2(,42) ? 42 的?分? ?假设?立?与?立的? ?的? 4 4.1.2?的?的? ?分析?与?的? ?分? 2? ? 2: ? ?的?的分?与? ?立的?与?考?与?的?立? ?假设? ?题? 4 ? 4: ? ?1 ?2 ?3 ?4 ?5 ?6 ?7 ? ?2369261611861719269107104 ?1809545981388556209112131 ?假设?与?立? ?与?分? 2 ?题? ?分? 4 ? 3 ? 4 的? 4 ? 7 ?考?的 ?录?的? ? 分? 7 ? r = 2,s = 7? 2 2 (6) ?的? 5 ? 5: ? ?1 ?2 ?3 ?4 ?5 ?6 ?7 ? ?23711.866105.1511843.632723.4936271.2392124.2707133.3498 ?18075.144653.8491405.368551.5064206.760894.72934101.6502 2? 6 5 ? 6: ? 2? ?1 ?2 ?3 ?4 ?5 ?6 ?7 ? ?0.016640.5108990.1636180.0279090.0184852.4002116.459782 ?0.021830.6702220.2146420.0366130.024253.1487168.474264 ? 2= 22.1881?问题的 p-value ? 1 2(22.1881,6) = 0.0011? ? 0.005 的假设?假设?与? ?的? 4.1.3?的?的? ?分?的?模 型?的?的分析?与? ?的?的?的?分? ?的?分?设? Q3 Q1= Q? ? Q3+1.5Q,Q11.5Q, ?的?的 ?的重? 3?分? 的? ? 3: ? ? 7?的?分?的重? 6 ?的?的 ? ? 7: ? ? 16366725 45204820 23047220 30974818 52360518 16042918 42361116 21003516 33836216 17849515 24202015 36394915 . 4.1.4模型的?模型的? ? 模型?的? 分析?考?的? ?的分析?模型?的? ? 考?的?的? ?的? ?考?的?述? 4.2模型?的?模型?的? ?的?解?的问题? ?的? ?的?的 模?的?模?的?分析?的? ?的? ?的? K-means?分析?的? ?本问题的?的? 7 ? ?的?的?的? ?的分?的?解?解? 基?建立?的?的?模型? ?模型?基? Hellinger Distance ? Logarithmic Loss 的? ?的?的参?模型? ?的?模型? 4.2.1基本?基本? ?的?的? ? ( x, y), ? x ?型的? y ?型的 ?的?的? 分?建立?的?模型? ?的?分?的参?的? ? ? 1 ? k ?的?的? A1,A2,.,Ak, 假设 Ai?的? ? vi?的?分?, ? Ai= vi j=1A j i ? i,j,k 1,2,.,vi, ? A(1) j1 A(2) j2 . A(n) jn ? (j1,j2,.,jn)? ? ?的? 的?SDLE?Sequentially Discounting Laplace Estimation? ?的? p(x)? ?的?模型 ? p(y|x)?假设?的?的? ?分?模型?的?SDEM? Sequentially Discounting Expectation and Maximizing?的? 分? p(y|x)? p(x,y) = p(x)p(y|x)?的? 分?的?的? ? 4.2.2SDLE ?参? rh?的 1 ? 1 rh ?的? (j1,j2,.,jn), ? T(j1,j2,.,jn) = 0 ? t ?本? (j1,j2,.,jn) ?的 T ? Tt(j1,j2,.,jn) ?的? xt= (x1,x2,.,xn), ? (j1,j2,.,jn) ? ?, ?: ? xt A(1) j1 A(2) j2 . A(n) jn, ? Tt(j1,j2,.,jn) = (1 rh)Tt1(j1,j2,.,jn) + 1 ?Tt(j1,j2,.,jn) = (1 rh)Tt1(j1,j2,.,jn) ?的, ? (j1,j2,.,jn) ?的? pt(j1,j2,.,jn) = Tt(j1,j2,.,jn) 1(1rh)t rh ?分?分的 1(1rh)t rh ? ?的 1 ? 1 rh? t ?的? 8 (1rh)t1?的? (1rh)t2? ? (t-1) ?的? ? 1 rh? t ?的?的? 1 + (1 rh) + . + (1 rh)t1= 1(1rh)t rh ?, ?的? x A(1) j1 A(2) j2 . A(n) jn,pt( x) = pt(j1,j2,.,jn) ? ? ?A(1) j1 ? ? ? ? ? ?A(2) j2 ? ? ? . ? ? ?A(n) jn ? ? ? ? ? ? ?A(i) ji ? ? ? A(i) ji ? ? t = t + 1?重?述? ? 4.2.3SDEM 假设?分?分? 的?假设?分?的? p(y|x) = k i=1 ip(y|i,i) ? i? i ?分?的? i? i ?分?的? i? i ?分?的? k ?的?分?的? ? S(s) i ? ? s ?录?的?的? ? 2 S(s) i : = (s) i ,(s) i ,(s) i ) = (p(s) i ,(s) i ),E(y|(s) i ,(s) i )p(s) i ,(s) i ),E(yyT|(s) i ,(s) i )p(s) i ,(s) i ),i 1,2,.,k ?述参?解?述?的? S(s) i ?参?的? ? (0) i ? (0) i ?假设? (0) i = 1 k ? k ?分?的? ? ?分?的? S(0) i = (1 k, (0) i ,(0) i ) ?的? S(s1) i ? S(s) i ?的? (? p(i,i|yu) ?的 yu? i ?分?的?) (1) ? (s1) i ? (s) i ,i 1,2,.,k 9 (s) i = p(s) i ,(s) i ) = 1 s s u=1 p(s1) i ,(s1) i |yu) = 1 s s1 u=1 p(s1) i ,(s1) i |yu) + 1 s p(s1) i ,(s1) i |ys) = s 1 s p(s1) i ,(s1) i ) + 1 s p(s1) i ,(s1) i |ys) ?参? r ?的?的?重? ? (s) i = p(s) i ,(s) i ) = (1 r)p(s1) i ,(s1) i ) + rp(s1) i ,(s1) i |ys)() ?的?1 s ?的? ?的? r 的?的 ?的?的?的? ?的?录? ?的?分?的?与?述?的? r 的?参?的?的?的? () ?的 p(s1) i ,(s1) i |ys) ? p(s1) i ,(s1) i |ys) = p(ys|(s1) i ,(s1) i )p(s1) i ,(s1) i ) k i=1p(ys| (s1) i ,(s1) i )p(s1) i ,(s1) i ) ? k ?分? i的?的? ?的参? ? p(s1) i ,(s1) i |ys) = (1 r) p(ys|(s1) i ,(s1) i )p(s1) i ,(s1) i ) k i=1p(ys| (s1) i ,(s1) i )p(s1) i ,(s1) i ) + r 1 k ?的 p(s1) i ,(s1) i |ys) ? () ? (s) i = p(s) i ,(s) i ) (2) ? (s1) i ,(s1) i ? ?的?参? r ?的?的?重? ? (s) i = (1 r) (s1) i + rp(s1) i ,(s1) i |ys)ys (s) i = (1 r)(s1) i + rp(s1) i ,(s1) i |ys)ysyT s (3) ? (s1) i ,(s1) i ? 10 ?1?的 p(s) i ,(s) i ) ? (s) i = E(y|(s) i ,(s) i ) = E(y|(s) i ,(s) i )p(s) i ,(s) i ) p(s) i ,(s) i ) = (s) i (s) i (s) i = E(yyT|(s) i ,(s) i ) E(y|(s) i ,(s) i )ET(y|(s) i ,(s) i ) = E(yyT|(s) i ,(s) i )p(s) i ,(s) i ) p(s) i ,(s) i ) (s) i (s) i )T = (s) i (s) i (s) i (s) i )T ?的? (s) i ? (s) i 重?述? (1)(2)(3)?的录? S(s) i 的? 4.2.4?的?基?分?的?的?基?分?的? ? Hellinger Distance ?的?分 ?的?的? ScoreH(xs,ys) = 1 r2 x ( ps(x,y) p(s1)(x,y)2dy ? ps(x,y) ?录? t ? (x,y) 的?分? ps(x,y) = p(x)p(y|x) = p(x)p(y|(s) i ,(s) i ) r ?的?参?ScoreH(xs,ys) ?的? ? ?述?解析?的? ?的? ?的? Logarithmic Loss ? ScoreL(xs,ys) = log ps1(xs) log ps1(ys|xs) ?解?假设?的?的?的?的? ?的? 2? ? ScoreL(xs,ys) ? ?的? ?本题?的?的?问题? ?分?与问题的求解? ?的?模型? ? 3 ?参?分?分 11 ? 8: Logarithmic Loss ?分? ?Logarithmic Loss? 6825541163.77295.98764623 4050321884.3282.07782965 4779451674.81176.01373671 4630111884.3160.49272966 6086841860.9150.60193672 6282871302.63146.43623670 367970243.04124.94449316 642467487.2113.57943407 6282871860.9110.0583673 220040393.75108.68689455 524683706.2107.53041130 173602262.598.76463399 2175271884.398.65193713 6501343645.295.91364551 3974881884.389.51512606 . 6792270.160.21981014 6772130.160.21921013 6801280.160.21921015 6907970.160.2191020 6913200.160.21821021 6953170.160.21781022 6954240.160.21681023 6954240.160.21581024 ?1 ?参? ?分?的模?述?附?的? ?录? Logarithmic Loss ?分? 8? ?分?的?分? ?分?的?录?本?分? ?的?模型?的? ?的?分?的?本?本的 ? 1000 ?的? ? 4.2.5?的?的? ?的?的?参?分? 参?的? O(KM)?分? O(Kd)? K ?分?的 ?M ?的?d ?的?的? O(TK(M + d)? T ?的?的求解?T ? 289000; ? 12 ?K 的? 5 ?的?; ?的?M ? ? 528?d ? 1? ?的?考?本?的? ?录?参?录?的?参? ? O(K(M + d)? ?的?的?的? ?的? ? 4.2.6模型的?模型的? ? 本模型?的?模型?的? ?的?的模型?的? ?立?的?分? ?的?的? ? ?本模型?的?的?的? ?的? ?的?的?分?分 ?分?的? 4.3模型?的?模型?的? ?的?的? ?模型?的? ?基? Eclat ?的?模? 4.3.1Eclat ? Eclat ?的?重? 的?的?分析?的? ?本? ?本模型?的?基? Eclat 的? ?的?模? ? ? (Frequent Pattern, FP)K? K = K1,K2,Kp ? (模?):K 模? D?的? D = d1,d2,dq ?support=D 31 (? 31 ?的?) ?模?Ki K,dj D,V alue(Ki,dj) = 1? K 2? ? ?的模? ?的? Eclat 的? k ?求? k + 1 ? k + 1 ?的? k + 1 ?求? ? k + 2 ? 13 ?解 Eclat ? ? 1 ? k + 1 ?的? k 1 ?的 k ? ? ? 1 假设?的 k + 1 ?的?的? a? b? a b? k + 1 ?的? k ?的? C1 的? a? k 1 ?的? C2 ? a?C1,C2 ? ?述的 k + 1 ?的? ?的 k ?的 k + 1 ? ?模?求? Eclat ? 9的? ?的? 4? a,b,c,d ?模?的模? ? 9: Eclat ? ? 模? K1d1,. K2d1,d2,. . Kpd3,d5,. ? ? 4: ? ?的? 14 Eclat(FP, support:s) 1for Pi FP 2do 3FPi= 4for Pj FP,j i 5do 6Pij= Pi Pj 7tidset(Pij)=tidset(Pi) tidset(Pj) 8support(Pij)=|tidset(Pij)| 9if (support(Pij) s) 10then Add Pijto FPi 11Eclat(FPi,s) 4.3.2?模?模? ?的模?的? ?的? ?的? ?模? ? ?考? ?的?的?模型 ? ? ? Eclat ?的?重? ?的?的?模型?的? ? 4 ?的? ?的?考? ?设? 0.1?的? ?的?设? 0.15? ? Eclat ?的?的? 199502 ? ? 1563 ? ? 10? 0.15 ?的? ?的?分?的? 5?的? ?的? ? 10? 2?4?5 ? 3 ?的? ? 2 ?的? 3?4?5 ? ? 223085,523612 的? 163696 的? ?的?述 16 ? ?的? 3 ?模?本?的 ? ? 3 ?的? 2?4?5 ?的? ? k + 1 ?模? k ?模?求?的 ?的?的?述? 3 ? ?的? ?模?模?的? ? ? 1? i ? ?与? i ?的? 0? 15 ? 10: Eclat ? ? (?)? 1242023,4521140.40625 2223085,5236120.40625 3163696,223085,5236120.375 4163696,2230850.375 5163696,5236120.375 6223085,338370,5236120.34375 7223085,3383700.34375 8338370,5236120.34375 9163696,223085,338370,5236120.3125 10163696,223085,3383700.3125 11163696,338370,5236120.3125 12163696,3383700.3125 13242023,435116,4521140.28125 14435116,4521140.28125 15242023,4351160.28125 16363950,5433110.28125 . ? 5: ? ?的?模?的? i ? ?模? ?: 16 MergeSubsets 1for i = 1 : totalcombination 2do 3num = i; 4for j = i + 1 : totalcombination i 5do 6if (flag(j) = 1) 7then 8if (icombination jcombinationor jcombination icombination) 9then 10flag(j) = 0; 11if (length(i) num) 12then num = j; 13icombination= jcombination; ?的 1563 ?的? 0.21875 的? 11?模? ?的?的? ? 11: 模? ?模? 195852,242023,363950,435116,452114,5433110.40625 163696,223085,309765,311229,338370,5236120.40625 309765,363950,473794,543311,5648650.28125 178378,376042,461304,4793990.25 309765,338370,3760420.25 291073,338370,3760420.25 309765,376042,5660790.25 344930,395755,397304,563739,676759,6790440.21875 175167,193157,576968,635727,6663480.21875 221880,5191640.21875 423624,448707,4522930.21875 170329,193785,223266,649962,665792,6674990.21875 183137,423624,4522930.21875 165617,192364,545121,600109,6464790.21875 256550,279041,404867,625378,655834,6598760.21875 256550,279041,404867,625378,6598760.21875 170329,223266,649962,665792,6674990.21875 170329,202212,256550,404867,6558340.21875 165617,341118,6496020.21875 4.3.3模型的?模型的? ? 17 ?的? ?模?重? ? ?的?的?的? ?的?的? ?模? Eclat ? ?的?模? ?的? 参考文献参考文献 1 Phua, Clifton, et al. ”A comprehensive survey of data mining-based fraud detec- tion research.” arXiv preprint arXiv:1009.6119 (2010). 2 Yamanishi, Kenji, et al. ”On-line unsupervised outlier detection using fi nite mix- tures with discounting learning algorithms.” Proceedings of the sixth ACM SIGKD- D international conference on Knowledge discovery and data mining. ACM, 2000. 3 Li, Jing, et al. ”A survey on statistical methods for health care fraud detection.” Health care management science 11.3 (2008): 275-287. 4 ?. ?的?与?. MS thesis. ?, 2011. 5 Ortega, Pedro A., Cristin J. Figueroa, and Gonzalo A. Ruz. ”A Medical Claim Fraud/Abuse Detection System based on Data Mining: A Case Study in Chile.” DMIN 6 (2006): 26-29. 6 Nikulin, Mikhail S. ”Hellinger distance.” Encyclopedia of Mathematics (2001). 附录附录 ?本题? R ?附?附? ?的 C+ ? #include #include #include #include #define NORMDIM 5 #define CID1 22/itemcat #define CID2 3/TAREC #define CID3 8/age #definerh0.0003 18 #define R 0.0005 #definealpha2.0 #definetrainThresh1000 usingnamespacestd ; const double PI = atan (1.0)*4; int hash 215; const inttotalcell = CID1 * CID2 * CID3; structcellparams double frequency ; inttrain_rec ; double prob ; double numNORMDIM 5 ;/0 for c ,1 for miu ,2 for sigma2, 3 for es_miu , 4 fores_sigma2 cellold

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论