基于声纹大数据的防电信诈骗应用研究_第1页
基于声纹大数据的防电信诈骗应用研究_第2页
基于声纹大数据的防电信诈骗应用研究_第3页
基于声纹大数据的防电信诈骗应用研究_第4页
基于声纹大数据的防电信诈骗应用研究_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于声纹大数据的防电信诈骗应用的研究ResearchontheApplicationofTelecommunicationFraudPreventionbasedonVoiceprintBigData摘要如今,电信网络诈骗发案数量与日俱增,严重危害了人民群众财产安全。随着通信手段的不断发展,通信数据量也越来越大。对于电信诈骗防范系统的实时性和精确性是严重的挑战。传统采用神经网络作为支撑技术的防诈骗系统对于诈骗电话的分辨准确率有限,难以满足对大量声音样本的辨别需求。本文提出了一种基于声纹大数据的防电信诈骗框架,通过收集并对语音文件进行声纹特征提取形成声纹特征库。在接收到声纹认证请求时,计算需要认证的声纹与声纹特征库中声纹特征的距离从而判断当前认证声纹是否来自于诈骗电话,从而对电信诈骗实施预警。本文所提方法通过并行化提取声纹特征,提高了大数据量情形下程序的处理速度和运行效率。关键词:电信诈骗;深度学习;声纹识别AbstractNowadays,thenumberoftelecommunicationnetworkfraudcasesisincreasingdaybyday,whichseriouslyendangersthepropertysecurityofthepeople.Withthecontinuousdevelopmentofcommunicationmeans,theamountofcommunicationdataisalsoincreasing.Itisaseriouschallengetothereal-timeandaccuracyofthetelecommunicationfraudpreventionsystem.Thetraditionalantifraudsystem,whichusesneuralnetworkassupporttechnology,haslimitedresolutionaccuracyforfraudulentphones,anditisdifficulttomeettheneedsofalargenumberofvoicesamples.Inthispaper,weproposeanantifraudframeworkbasedonvoiceprintbigdata.Thevoiceprintfeaturelibraryisformedbycollectingandextractingvoiceprintfeaturesfromvoicefiles.Whenreceivingthevoiceprintauthenticationrequest,thedistancebetweenthevoiceprinttobeauthenticatedandthevoiceprintfeatureinthevoiceprintfeaturelibraryiscalculatedtodeterminewhetherthecurrentauthenticatedvoiceprintisfromthefraudphone,soastoimplementearlywarningforthetelecomfraud.Themethodproposedinthispaperimprovestheprocessingspeedandrunningefficiencyoftheprograminthecaseoflargeamountofdatabyparallelextractionofvoiceprintfeatures.Keywords:TelecommunicationsFraud;DeepLearning;VoiceprintRecognition目录TOC\o"1-3"\h\u16357第一章绪论 [17]。本文方法采用深度置信网络(Deepbeliefnetworks,DBN)作为声纹大数据的分类和识别方法。下文对深度置信网络的工作原理进行简要介绍。3.1.2深度置信网络深度置信神经网络中每一层都是捕捉底层隐藏特征的一个高阶相关过程,神经元之间通过权值和偏置进行连接,利用BP反向传播算法对权重和偏置进行学习和调整。RBM模型的能量函数为:其中I为可视层单元个数;J为隐藏层单元个数;为参数模型集合;为可视层与隐藏层之间的权重系数;,分别为可视层和隐藏层的偏置项。3.1.3训练过程DBN的训练过程由无样本类别标记的无监督学习和有样本类别标记的有监督学习组成。在无监督学习阶段,利用大量无标记样本采用CD-k算法自底向上训练每一个层级的RBM,获取每一层级神经元之间连接的权值;接下来利用少量带标签的训练样本通过误差反向传播算法BP对网络权值进行微调,从而达到最优状态。图3-1基于DBN的声纹辨别流程在测试和对比DBN网络与其他方法对样本的性能时,按照同样的方法对测试声音样本进行特征提取,得到声纹特征作为网络的测试输入,根据网络的输出获取样本的预测结果。预测结果的正确性判别方法是将网络对样本类别的预测结果与样本的真实标签进行对比,如果相同则辨别的结果正确,反之则辨别错误,通过统计类别预测正确的样本数占测试样本总数的百分比即可得到样本预测的正确率。3.1.4优点及不足传统的机器学习方法面对海量的训练样本,无论是计算效率还是学习效率都会大打折扣。而深度置信网络正是为大数据学习设计的,数据量越多,深度置信网络的学习效果越好,分类识别准确率越高。然而,深度学习对于计算资源的需求比传统机器学习方法显著提高,特别是网络节点和网络层数越多,所需的训练与分类时间越长。解决途径是采用基于GPU的并行计算方法,利用GPU众核的优势通过并行计算的方式提高深度神经网络的计算效率。因此,总体而言,随着计算机计算能力的不断提高,未来深度置信网络的应用势必更加广泛,进而取代传统方法成为防诈骗的主流手段。3.2基于声纹大数据的防电信诈骗方案3.2.1防电信诈骗方案设想传统电信诈骗防治手法多为呼叫建模,进行疑似号码呼叫标记、拦截。但犯罪集团中也不乏技术人员,其通过技术手段将呼叫号码进行伪装,继续进行电信诈骗。而在该应用模型中,利用说话人声纹的不可复制性、稳定性,建立声纹大数据匹配机制,对犯罪嫌疑人声纹特征进行锁定,其原理与当下的电信号码实名制相似,区别在于电信号码实名制通过确认该号码持有者进行数据透明化管控,而通过声纹锁定该声纹特征所有者为电信诈骗嫌疑人则更为高效,且不受跨境地域性、电信号码伪装等因素影响。目前,声纹识别技术已经发展较为完善,因此本文针对电信诈骗特点的研究,研究重点在于设计一种基于声纹大数据识别的防诈骗框架。本文所提出的声纹大数据防诈骗框架如图3.2所示。图3-2基于声纹大数据的防诈骗框架针对电信诈骗案件一旦成立,后续追赃、锁定犯罪嫌疑人困难这一难点,该应用将重点布防于防治阶段,只要成功阻止电信诈骗的实施,就可以避开这一难点,通过降低电信诈骗成功率,来切断犯罪集团的利益链,已达到防治效果。3.2.2应用实现步骤步骤一:对电信通话中采集的说话人语音进行收集,并对收集的语音文件进行分片,存储在分布式计算集群的节点中。步骤二:对收集的语音文件并行化声纹特征提取,进行分帧加窗处理,选取HammingWindow函数(N为窗口大小):通过对提取的声纹特征进行哈希运算,将声纹特征存储到相应的计算集群的节点中,形成声纹特征库。步骤三:当接收到声纹认证请求需要进行声纹匹配时,首先提取声纹特征,计算待认证声音的声纹与声纹特征库中的声纹之间的距离,建立全局距离模型,根据各个节点中的声纹特征数据,计算待认证声纹特征与声纹特征库中声纹特征的相似度。整理相似度结果并反馈。3.3研究分析与结论3.3.1研究分析传统电信诈骗防治手法多为呼叫建模,进行疑似号码呼叫标记、拦截。但犯罪集团中也不乏技术人员,其通过技术手段将呼叫号码进行伪装,继续进行电信诈骗。而在该应用模型中,利用说话人声纹的不可复制性、稳定性,建立声纹大数据匹配机制,对犯罪嫌疑人声纹特征进行锁定,其原理与当下的电信号码实名制相似,区别在于电信号码实名制通过确认该号码持有者进行数据透明化管控,而通过声纹锁定该声纹特征所有者为电信诈骗嫌疑人则更为高效,且不受跨境地域性、电信号码伪装等因素影响。将该应用模型应用于防电信诈骗领域,在初始阶段,效果可能并不明显,但随着声纹特征库录入的声纹特征增加,这个应用模型应用于防电信诈骗的优势将会越来越明显。但声纹数据库需要承载海量数据,其体量是巨大的,就如银行行业的大数据结构为例,银行业每创收100万美元,平均产生820GB的数据,数据强度位居各个行业的首位。且应用于防电信诈骗的声纹数据库,其计算精度跟加载速度要求也是极高的,因为电信诈骗的过程是短暂的。因此,声纹大数据技术离不开云计算,想要真正应用该方法于电信诈骗上,云计算的投入也是必不可少的。如此庞大体量的声纹数据库建立,是需要耗费极大金钱投资。另一方面,声纹数据库的建设者,应该由谁来承担?在这里叙述一下我的想法:1.基于声纹大数据电信诈骗防控,其重点布防在于可以采集到声纹的途径,布防的重中之重就是电信通话。因此可以联手电信公司,在获得国家支持的情况下,联合国家三大运营商——移动、联通和电信,将声纹采集这一功能在电信通话上实现,且共享声纹数据库的海量数据。2.重点布防思路不改变,依旧是重点布防电信通话,但建设者可以为其他公司、组织。通过研发定制第三方安全软件,其权限包括获取电话语音,提取其声纹。但仍需得到国家各方面的支持,以及电信公司的语音获取许可权限。软件由用户自行选择下载。这种方法与第一种相比,增加了用户的隐私权,因其在电信通话中采集声纹(虽然声纹并不会暴露通话者的个人隐私,但通话者心里或多或少会存在芥蒂)。但第二种方法也存在其局限性,其高效性远不如电信公司直接对接声纹数据库,再者,声纹数据库作为国家重要战略资源,该软件在苹果手机上是使用不了的,因其IOS系统的封闭性,注定了该软件不会在苹果的应用商店上架。3.3.2结论在该声纹大数据应用模型设计中,通过放大声纹识别的独特性,避开声纹识别的局限性,以更好实现防电信诈骗应用的实施。模型中选取深度置信网络作为声纹识别的支撑技术,以实现秒级的识别效率,同时基于大数据并行化的应用框架,对声纹库的提取与声纹特征匹配速度在理论上实现秒级的运算速度。从技术层面上看,该应用模型可以运用到防电信诈骗领域中。但从现实意义的角度出发,要将该应用模型实现还有以下难点:考虑我国本身人口基数大,再加上还会有境外通话的入境,如此庞大的数据量,从经济上以及运算速度上看还存在一定挑战。声纹特征受年龄、病理以及声音伪装技术的影响,同一个人的声纹特征可能会出现好几种。如何避免声纹库中产生过多无用声纹数据,保证声纹库的高效,这个问题还尚待解决。

总结与展望4.1工作总结随着大数据时代的到来,犯罪分子更容易获取诈骗对象个人信息从而设计精巧的诈骗脚本,在这种背景下防电信诈骗成为燃眉之急,其关乎国家的长治久安及社会稳定性。传统的防治技术已不能满足层出不穷的新型诈骗技术手段,这时候急需有新的防控机制来打击电信诈骗。本文通过研究声纹技术现状,提出了把声纹技术应用于防电信诈骗中,主要进行了以下工作:(1)了解防电信诈骗的背景及其形式、手段,并探析了国内外研究现状,总结了现有防电信诈骗手段的优缺点,为研究工作进一步展开奠定了基础。(2)通过对声纹识别技术的了解及学习,认为现下的声纹识别技术已足够成熟,并被运用于多个领域特别是公众安全领域,但声纹识别技术在防电信诈骗上的应用近乎空白。既然声纹识别技术已然成熟,本文提出将声纹识别技术应用于复杂的电信诈骗场景,并进行了技术分析及现实意义的探讨。(3)进一步升入了解声纹识别,通过对比已有声纹识别方案文献的研究,提出了将深度置信网络这一声纹识别算法作为防电信诈骗应用模型的支撑技术。并提出了一种基于声纹大数据的防电信诈骗应用框架。(4)进而提出了一种基于声纹大数据的防电信诈骗应用模型,将声纹识别依托于大数据,应用于防电信诈骗领域。声纹识别技术已然成熟,应用于多种安全领域,本文研究首次探讨将声纹技术应用于防电信诈骗。但由于个人能力所限,方案提出也只停留于理论层面,但该方法拥有继续深入研究探讨意义,和现实应用的意义。4.2研究展望防范电信诈骗,不仅需要提升人民群众的防范意识,更需要不断提升防范电信诈骗的技术水平,与时俱进,不断创新,以适应电信诈骗呈显出的越来越科技化、越来越隐秘化、越来越国际化的特点,彻底扭转电信诈骗高发态势。在经过上文所述的研究过程后,认为防电信诈骗还可从以下几个方面进行进一步的研究工作:(1)个人信息泄露已经成为电信诈骗犯罪的源头。统计数据显示,有超过90%的电信诈骗是由于个人信息泄露导致的,因此,打击个人信息泄露源头,堵住个人信息泄露漏洞,绷紧信息安全这根弦,收紧信息安全这张网,才能真正减少电信诈骗案件的发生。同时,利用大数据分析和云计算技术,对垃圾短信、诈骗电话行为进行动态检测分析,动态、主动防御电信诈骗,在落地侧进行语音、短信诈骗的主动防御。要实现电信诈骗的根本治理还有待于各运营商分别落实网内治理责任,从呼叫源头拒绝违规业务接入,银行和公安各相关部门各司其职,着重掌握“数据流”和“资金流”,多部门协同联动,各环节全面拦截,以有效遏制电信诈骗犯罪,全方位保护人民群众利益。(2)在对电信诈骗的现有形式和手段研究中发现,电信诈骗存在一个很明显的特征:短时间、大量重复。用一句话总结就是广撒网。所以声纹防诈骗的应用方向也可以从这一特点上寻找突破口。通过标记短时间内大量重复匹配成功的声纹特征,对其采取防治措施,其原理就类似于360的呼叫拦截。

参考文献[1]刘波.基层公安机关打击和防范电信网络诈骗犯罪的对策研究[D].太原理工大学,2019.[2]林耿民.南方网[DB/OL]./cfzx/content/2016-12/13/content_161588982.htm,2016-12-13[3]陈飞.个人数据保护:欧盟指令及成员国法律.经合组织指导方针(中英文对照)[M].北京:法律出版社,2006:177-154.[4]本刊编辑部.国外防范电信诈骗情况面面观[J].中国信息安全,2014(05):100-101.[5]宫路,潘超.手机短信诈骗犯罪侦查研究[J].广州市公安管理干部学院学报,2009(01):17-19.[6]缪深.电信诈骗犯罪治理问题研究[D].苏州大学,2010[7]贾俊兴.电信诈骗犯罪的法律规制[D].吉林大学,2014.[8]唐子君.电信诈骗犯罪打击难点及应对策略研究,[D].天津:天津大学,2013[9]张新宪,崔杰,鞠佳佳.电信诈骗犯罪疑难问题研究[J].人民检察,2011(08):15-19.[10]秦帅,陈刚.近年来电信诈骗案件侦查研究综述[J].公安学刊(浙江警察学院学报),2015(03):36-40.[11]宋大杰.基于DTW的说话人识别及其在DSP上的实现[D].东华理工大学,2012.[12]YamingWang,FuqianTang,JunbaoZheng.RobustText-independentSpeakerIdentificationinaTime-varyingNoisyEnvironment.2012,7(9):1975-1980.[13]CemalHanilçi,FigenErtaş.Comparisonofthei

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论