CN114463141B 基于多层注意力机制图神经网络的医保欺诈检测算法及其系统(厦门理工学院)_第1页
CN114463141B 基于多层注意力机制图神经网络的医保欺诈检测算法及其系统(厦门理工学院)_第2页
CN114463141B 基于多层注意力机制图神经网络的医保欺诈检测算法及其系统(厦门理工学院)_第3页
CN114463141B 基于多层注意力机制图神经网络的医保欺诈检测算法及其系统(厦门理工学院)_第4页
CN114463141B 基于多层注意力机制图神经网络的医保欺诈检测算法及其系统(厦门理工学院)_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(19)国家知识产权局(12)发明专利(10)授权公告号CN114463141B(65)同一申请的已公布的文献号(73)专利权人厦门理工学院地址361024福建省厦门市集美区理工路600号(72)发明人林开标陆江涛张杨卢萍(74)专利代理机构厦门智慧呈睿知识产权代理事务所(普通合伙)35222专利代理师陈晓思审查员王箭(54)发明名称基于多层注意力机制图神经网络的医保欺诈检测算法及其系统本发明涉及一种基于多层注意力机制图神经网络的医保欺诈检测算法,包含下述步骤:S1建立医疗保险欺诈检测AHIN模型;S2选取语义路径并寻找邻居节点;S3构建基于图神经网络的检挖掘了AHIN中各个实体节点丰富交互关系,解决了一些医保欺诈检测方法忽略了多次就诊的异常行为特征的问题,同时减少了噪声节点、路径_Z_21.一种基于多层注意力机制图神经网络的医保欺诈检测方法,包含下述步骤:S2选取语义路径并寻找邻居节点;S3构建基于图神经网络的检测MHAMFD模型;S1-1对患者的所有就诊记录抽取出来,并从中构建患者、医院科室、日期和药物四个实S1-2通过对真实就医场景中的不同类型对象及其相互作用建模成AHIN,表示为异构图G={V,ε,X},其中V为不同类型对象集,即包括患者、医院科室、日期和药物四个实体的设患者节点集UCV,对于数据集中每个患者u∈U都拥有一个标签Yu∈{0,1},表示该患者是否属于医保欺诈人员,当不属于时为0,属于则为1,将数据集划分为训练集Train={(u,Yu)},验证集Val={(u,xu)},以及最终用于预测患者是否属于医保欺诈人员的概率的测试集,训练集、验证集、测试集三者比例为1-3:1:3-1;步骤S2具S2-1定义元路径和多重语义路径;S2-2选取基于元路径和多重语义路径的合适的邻居,其中,S2-1包括元路径表示成形式的路径,其中.R描述了对象A₁和A1+1之间的复合关系;多重路径表示成式的路径,其中MR=M₁R₁°M₂R₂°…°M₁R₁描述了对象A₁和A₁+1之间的复合关系,表示合成算符;S2-2包括:S2-2-1基于元路径的邻居集合,给定属性异构信息网络中的用户u,基于元路径的邻居被定义为AHIN中用户u的给定元路径下的聚合邻居集;S2-2-2基于多重路径采样的邻居集合,给定属性异构信息网络中的用户u,基于多重路径采样的邻居被定义为AHIN中用户u的给定多重路径下的聚合邻居集;S2-2-3构建异构子图,通过元路径和多重路径分解成多个不同程度的子图结构,记为;步骤S3包括:S3-1节点级别聚合;S3-2路径级别聚合;S3-3子图级别聚合,得到最终的节点嵌入Z;S3-4将最终的嵌入Z输入多层感知机(MLP)进行欺诈检测,应用于不同的下游任务,使用交叉熵作为损失函数(loss)通过反向传播最小化函数来优化模型权值,其中,S3-1-1给定通过路径P连接的节点对(i,j),将重要性定义为E,基于路径P的节点对3其中h;,h;分别代表的是节点i和节点j的嵌入,P代表的连接两个节点的路径,这里S3-1-3对节点i的基于元路径或多重路径的嵌入通过邻居的投影特征与相应的系数进S3-2包括:定任务的路径P的贡献度,Hpi为特定任务的路径Pi的嵌人表示;通过对变换后的路径嵌S3-2-2将学习到子图中每条路径的的权重作为系数,对所有路径特定的嵌入进行加权4S3-2-3单独聚集每个子图内的指定路径的嵌入,并生成n个子图指定的向量嵌入,表示S3-3包括给定子图特定的嵌入集合并加上不同子图对于最终任务的重要性程度,表示如下:其中H表示子图的重要性程度,91代表路径级别的注意力向量,W₁是权重矩阵,b₁是索引的集合,Z¹和Y是标签节点的嵌入和相应的标签,W2.根据权利要求1所述的方法,其特征在于,S3-1-3中将节点级注意力机制重复K次,并将每次学习到的嵌入拼接起来,得到在特定的子图结构中,给定路径集{P₁₂P₂,…,Pm},邻居节点的特征在经过节点级注意力机制的学习后,得到m组路径特定的节点嵌入表示,记作{h₀,hp₂…,hm.,o为LeakyReLU。3.一种实现如权利要求1-2中任一项基于多层注意力机制图神经网络的医保欺诈检测于,所述服务器由多个相互独立服务于不同医疗机构的子服务器构成,所述医疗机构交易处理设备,包括设置在不同医疗机构中的不同科室的至少一台子交易处理设备,所述子至少一个客户端与服务器之间,所述子服务器与至少一台子交易处理设备之间相互通讯,其中,所述子服务器用于并保存接受客户的交易请求历史记录,并通过子交易处理设备的检测指令而完成所述基于多层注意力机制图神经网络的医保欺诈检测,并将检测结果返回给子交易处理设备。4.一种非暂时性存储介质,其特征在于,其中存储有可由所述服务器运行而实现实现5如权利要求1-2中任一项基于多层注意力机制图神经网络的医保欺诈检测方法的计算机可读程序。6基于多层注意力机制图神经网络的医保欺诈检测算法及其系统技术领域[0001]本发明涉及一种医保欺诈检测算法,涉及神经网络的医保欺诈检测算法及其系统,尤其涉及一种基于多层注意力机制图神经网络的医保欺诈检测算法及其系统,属于人工智能检测领域。背景技术[0002]随着医疗保险的普及,在给人们就医带来极大便利的同时,也给社会群众提供了医疗保障。然而,我们也目睹了越来越多骗取医疗保险基金的事件,全球每年都因医保欺诈而损失大量医保基金。传统的医保欺诈检测方法为:1.基于规则的检测方法。2.基于离群点的检测方法。3.基于用户统计特征的检测方法。对于第一种方案来说,不仅依赖一定的先验爆炸性增长,领域专家人数无法满足现有欺诈案例筛查的需要,并且现在医保欺诈的手段层出不穷,基于规则的难以处理复杂多变的模式。对于第二种方案来说,基于离群点的检测方法主要是在固定模式下进行的,随着医保制度的发展,医保相关业务变得越来越细致,同时欺诈人员变得更加专业化,医保欺诈行为复杂多变且具有隐蔽性。更为值得关注的是,新的欺诈模式也会不断出现,针对固定模式的异常检测算法对新的欺诈模式缺乏免疫力,从固定模式发现欺诈行为的方法难以满足现在的需求。对于第三种方案来说,对于标签数据的需求量较大,但是在实际场景中并没有对数据做标记,且只有较少的欺诈数据(患者隐私保护)。[0003]事实上,欺诈性用户不仅可能有异常的特征,而且在交互关系中的行为也是异常的。例如,一个医保欺诈用户可能同时在多家医院有很多药品交易,传统的特征提取方式很难利用。传统的医保欺诈检测方法无法充分利用用户之间的交互关系,我们试图利用其他领域的技术来解决上述问题。[0004]异质图表示学习是建模这种实体间交互关系的有效方法之一,目前已经被广泛的运用在电子商务的推荐系统、学术网络分析、自然语言处理等领域。通过学习基于图的表示,可以捕捉到结构化数据的序列和拓扑结构、几何和其他关系特征。已有的图神经网络模型不是争对特定问题设计的,并不是特别适合来解决医保欺诈问题。因此,需要设计一个有效的针对医保欺诈检测的模型。发明内容[0005]本发明主要是针对医疗保险基金欺诈检测问题,提出了一种基于多层注意力机制图神经网络的医保欺诈检测算法。这种方法不仅只关注用户的特征属性,并且考虑了医疗过程中多次就诊的行为属性。医疗保险欺诈者不仅有不寻常的特征,而且在这些互动中也有不寻常的行为。[0006]具体地,一方面,本发明所述一种基于多层注意力机制图神经网络的医保欺诈检7和药物四个实体的节点),ε为关系集,X为信息矩阵,设患者节点集UcV,在数据集中每个患者u∈U都拥有一个标签Yu∈{0,1},表示该患者是否属于医保欺诈人员,当不属(简称A₁A₂A₃…Az+1)形式的路径,其中R=R₁°R₂°…°R₁描述了对象A₁和Az+1A₁A₂A₃…A₁+1)形式的路径,其中MR=M₁R₁°M₂R₂°…°M₁R描述了对象A₁和Az+18处理(2),其中a。∈R2d9要性之后,步骤S3-1-3对节点i的基于元路径或多重路径的嵌入通过邻居的投影特征与相在路径P上学习到的嵌入表示,σ是激活函数,优选地σ为LeakyReLU。在特定的子图结构中,给定路径集{P₁,P₂,…;Pm},邻居节点的特征在经过节点级注意力到的与目标患者同一科室就诊的患者集合和同一天有过就诊记录的患者集合学习到的嵌代表的是特定子图的嵌入,P={Pi₂P₂,,Pi}代表特定不同路径不同的权重。我们首先通过对变换后的路径嵌入与路径级别注意力向量90的相一化的处理,那βpi可以通过如下公式得到1S3-2-2将学习到子图中每条路径的的权重作为系数,对所有路径特定的嵌入进行加权求程,给定子图特定的嵌入集合并加上不同子图对于最终任务的重要性程度,表示如下:(01,,,0m)=Attsaiegr于是得到最终的节点嵌入(12)。S3-4中我们将最终的节点嵌入Z输入多层感[0030]其中YL是具有标签的节点索引的集合,Z¹、YL是标签节点的嵌入和相应的标欺诈者。[0031]步骤S4中欺诈医疗交易信息包括被检测出的欺诈者的医疗交易所有实际的交易11[0032]本发明的第三个方面,是提供一种非暂时性存储介质,其中存储有可由所述服务器运行而实现上述检测算法的计算机可读程序。[0033]本发明技术方案带来的有益效果[0034](1)步骤1将医保欺诈检测问题建模成AHIN中的分类问题,为解决医保欺诈检测问题提供了理论基础。[0035](2)步骤2定义了探索医保AHIN结构的语义路径,挖掘AHIN中各个实体节点丰富交互关系,解决了一些医保欺诈检测方法忽略了多次就诊的异常行为特征的问题。[0036](3)步骤3使用多层注意力机制去聚合邻居节点的信息和网络的结构信息,减少了噪声节点和路径对最终预测任务的影响。将聚合得到的最终嵌入用于预测用户是否是医保欺诈者。附图说明[0037]图1元路径(a)和多重路径(b)定义示意图,[0039]图3不同数量的医保欺诈者邻居的用户在不同元路径PHP(左)和PtP(右)上欺诈率的提升百分比对比图,[0040]图4本发明实施例3中实现实施例2的检测算法的系统。具体实施方式[0042]本实施例对于本发明的原理进行说明,一种基于多层注意力机制图神经网络的医保欺诈检测算法,基本原理是利用AHIN建模真实医保就医场景,将医疗保险欺诈检测问题其次,通过多层注意力机制将这些交互信息汇聚进行学习。最后将学习到的嵌入表示信息输入多层感知机(MLP)进行欺诈检测,即本发明所提出的MHAMFD模型的完整内容。表示学习算法将数据转化成低维向量表示,我们采用基于语义路径的方法抽取网络中的结构信息和丰富语义对数据进行处理。[0044]S2-1中根据元路径和多重语义路径的定义,本实施例就医保AHIN中元路径和多重语义路径的含义。如图1(a)所示,我们构建了一个AHIN来对发生医保欺诈的就医场景进行(T)),具有丰富的属性和关系。在AHIN中,两个用户可以通过多条元路径连接,例如患者-科室-患者(P-K-P)、患者-药物-患者(P-M-P)、患者-日期-患者(P-T-P)。不同的元路径总是表达不同的语义。例如,路径P-K-P表示该元路径连接的两个患者在同一个科室看过病。而路径P-T-P表示该元路径连接的两个患者在同一天有过就诊记录。两个用户可以通过多条多重语义路径连接。例如1(b),路径P-(KT)-P表示该路径连接的两个患者同一天在同一个科室看过病。通过路径P-(KTM)-P与目标患者连接的表示与目标患者同一天在同一个科室拿过同种药品。[0045]异构图G中目标节点表征的学习的关键在于如何准确的传播聚合邻居的信息。我们基于上述的元路径和多重语义路径的定义去选取基于语义路径合适的邻居。[0046]S2-2中基于元路径的邻居集合以及基于多重路径采样的邻居集合我们举例来说和基于多重路径的邻居都可以利用AHIN中不同方面的结构信息。选取合适的节点之后,我们需要将这些邻居节点的特征信息聚合并传播给目标节点,用以学习目标节点的最终嵌入表示。[0047]在S3中,我们首先对真实就医场景和医疗数据进行观察,分析了基于元路径和多重路径的邻居对基于真实数据的医保欺诈人员检测的影响,然后提出引入了一种基于多重注意机制的模型运用于医保欺诈检测。我们在图2中展示了该模型的总体结构。首先,我们基于不同的元路径和多重路径聚合每个用户的邻居,以整合AHIN中多个方面的结构信息去更好地进行表示学习。在此基础上,通过语义关注度区分元路径和多重路径的差异,得到特定任务特定语义节点嵌入的最优加权组合。最后考虑不同的异构子图对于最终目的的重要性,我们对异构子图这一层也采用了注意力机制学习不同子图的偏好。[0048]对于真实医保欺诈事件以及数据集观察可以看出,医保欺诈人员通常更倾向于团队作案,这些人员通过不同类型的交互紧密的聚合在一起。医保欺诈人员更倾向于呈团队性地在同一家医院进行就医或者同一时间段留下医疗记录。为了验证不同交互关系下的医保欺诈人员的聚合情况,我们在真实数据集上进行实验。我们首先基于两条元路径P-K-P和P-T-P收集每个患者基于元路径的邻居(基于路径P-K-P的邻居表示在同一个科室看过病的患者,基于路径P-KT-P的邻居表示在同一天同一科室看过病的患者),我们统计欺诈人员的数量。并根据不同的路径分为多个组,计算每个小组的欺诈人员的比例。如图3,通过观察结果表示不同的基于元路径的邻居对患者的影响程度不同。可以看到不同的语义路径对于患者有不同的重要性,因此我们采用注意力机制去捕获这些不同的重要性。[0049]实施例2[0050]本实施例是在不考虑时期效应情况下的测试结果,我们使用了某市医保局2018年的真实数据集。Medical-1数据集的欺诈样本是相是通过肾脏疾病异常、重复开药、80后开老年痴呆药、门诊同时住院等方法发现的异常患者。不同的是,Medical-1是一个平衡样本,正负样本的比例是1:2。具体信息见表1。平衡样本节点的分类效果见表2。平衡样本节点的异常检测效果见表3。不同的训练集分配下都显示出最佳的性能。这表明,MHAMFD模型可以更好地学习真实医疗保险数据之间的语义信息,并将其用于欺诈检测。首先,基于图结构的异质图嵌入方法,如Metapath2vec,在一定程度上包含了网络结构信息,但忽略了节点的特征信息,所以性能相和MHAMFD还引入了一个注意力机制来评估图中对象的重要性,以提高嵌入表示的性能。此使用元路径和多路径来捕捉异构图中更复杂的语义信息,聚合更复杂的邻域信息,并考虑不同层次的子图结构对节点嵌入的影响。MHAMFD使用元路径和多路径方法将异构图分解为不同层次的多个子图,考虑了元路径交织带来的复合语义关系,提高了目标节点邻域的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论