【大数据技术与公安防征信欺诈工作的结合策略4100字(论文)】_第1页
【大数据技术与公安防征信欺诈工作的结合策略4100字(论文)】_第2页
【大数据技术与公安防征信欺诈工作的结合策略4100字(论文)】_第3页
【大数据技术与公安防征信欺诈工作的结合策略4100字(论文)】_第4页
【大数据技术与公安防征信欺诈工作的结合策略4100字(论文)】_第5页
已阅读5页,还剩3页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据技术与公安防征信欺诈工作的结合策略目录TOC\o"1-2"\h\u12688大数据技术与公安防征信欺诈工作的结合与实现 1186401数据分析征信欺诈识别前期准备 2319411.1SVM简介 2233551.2SVM数据处理能力分析 2231722征信欺诈识别的数据技术实现流程 3121822.1基本算法与模型流程 398382.2数据算法的步骤 4319303数据处理过程与结果 5187163.1数据简介 6123543.2数据处理结果 6207764数据分析征信欺诈背景下的优势 6148994.1数据处理难度降低 6206174.2征信欺诈识别精准度提升 7242794.3有利于处理大量数据 7120165结论 716587参考文献 7摘要:结合公安部门防范信用诈骗相关工作,本论文采用文献综述、建模的方式,基于SVM进行信用欺诈识别模型的建立,旨在通过数据收集、数据分析、数据处理三个角度进行论述,并在现有基础上进行优化处理,就数据分析征信欺诈进行深入研究。关键词:公安工作;数据分析;征信欺诈当前随着时代的发展与社会的进步,资金流动的范围、方式从原来的单一化模式已经过渡到了多样化、数字化模式,基于此在我国新时代背景下经济得到了空前的发展,而在这个过程中经济的发展带动着金融行业的进步,尤其是金融副产物不断加快市场的波动,由此而产生的征信欺诈层出不穷。基于此在我国新时代背景下,征信欺诈成为危害人民财产的重要因素,为了降低征信欺诈发生率,应当基于数据处理和分析来进一步保护人民的财产安全[1]。从理论的角度来说,征信欺诈识别是指对数据的挖掘,并将其中所包含的规律性数据作为标准,以此来划分申请人的信用等级。而从本质上来说,征信欺诈识别隶属于二分类范畴的问题,但是想要建立起与理论相匹配的信用数据分类模型,需要面临信用样本的缺乏问题。简言之便是在具体收集数据时,实际与欺诈行为相挂钩的样本在数量上远远少于不存在欺诈行为的数据样本,因此基于数据分析征信欺诈识别会由于数据的非均衡性[2],进而造成识别数据时,会出现将信用不好的客户分类到信用好的阶段,由此所带来的损失对于欺诈识别来说是数据的分析错误,但是对于企业来说却是不必要的经济损失。1数据分析征信欺诈识别前期准备当前数据处理借助互联网以及大数据技术,在数据的收集方面具有广泛性、高效性的特点,对于大多数数据收集而言,存在错误数据的情况往往只是会造成数据分析的偶然误差,但是征信欺诈识别数据一旦出现错误,那么间接造成的识别结果会导致不必要的经济损失。而且更值得一提的是,目前征信欺诈识别信息的收集已经从线下过渡到了线上,尤其是移动端的加入更是使得征信欺诈数据收集数量爆炸性增长,本章主要就征信欺诈识别的前期准备做出论述[3]。1.1SVM简介SVM,中文名称为向量支持机,其最早被用于20世纪中期,主要被用在二分类问题的处理,通过SVM的数据可以以最优平面化被呈现出来。SVM在进行二分类问题处理时,可以以规划类求解方式计算。1.2SVM数据处理能力分析在处理具有非均衡特点的数据时,SVM数据处理往往是一个较为经典的选择,其在具体应用时呈现出的结构较为简单,而且泛化能力极强,而对于属于而言,该模型对于高维度的数据处理非常快速,而且针对少量信用欺诈样本也很是适合。表1SVM非均衡数据实验描述表算法正样本数量负样本数量样本比例精度/%SVM200020001:191.235020001:4088.06SMOTE_SVM50020001:491.542020001;10088.22RUS_SVM50020001:488.522020001:10088.32通过上述信用欺诈识别数据在模型中的案例,不难发现不平衡数据出现在样本当中时,再次进行采样处理的方式,很大程度上有助于精度分类的提升[4],但是这种数据处理在面对大量的数据不平衡时,往往效果并不尽如人意。2征信欺诈识别的数据技术实现流程通过上述征信欺诈识别模型的建立,在当前大数据背景下,金融方面的改革也如火如荼地进行,在原有数据类型的基础上,半结构、非结构化数据开始大量出现,基于此而诞生的深度学习模式也成为当前数据处理驱动的方法,更值得一提的是,征信欺诈识别目前已经开始采用更为先进的方式进行数据的分析和处理。本文为了就征信欺诈进行精度更高的分析,首先要将原有的数据处理方法进行更为深层次的改善,具体可以就信念神经的深度网络部分进行集成化处理,进而使得其组成框架,然后采用双向联合取样法以及DBN深度集成算法。2.1基本算法与模型流程以集成算法为基础的DBN模型当中,存在三个阶段,这三个阶段相辅相成能够实现算法流畅,即分为数据划分阶段、训练基地分类阶段以及深度DBN集成阶段。划分数据阶段,采用联合法双向采集样本当中的平衡子集,并将训练值作为关键。训练基分类阶段,该阶段主要依靠训基分类器,主要被用于SVM的具体使用过程中解决数据处理不平衡的状态。深度DBN集成阶段,该阶段作为算法整体的框架,是后续数据处理和征信欺诈识别的基础,如下图所示。图1深度DNB集成算法计算框架图2.2数据算法的步骤根据上图所示流程,针对征信欺诈识别数据的处理主要以下方式进行:2.2.1阶段1进行数据划分阶段1作为征信欺诈识别数据处理的关键,需要对数据进行逐一的划分,在具体过程中,需要控制数据样本按照比例进行采取,在此过程中训练集中的样本可以通过控制形成以多数类和少数类的区分,进而使得在随机取样时能够更加准确,随后为了进一步就数据进行分类处理,使用SMOTE进行针对训练子集的过采样,从而帮助所收集数据呈现出非偶然化,即在遇到确定的训练子集之后,同样支持对其邻近数值的采取,若出现的近距离数值较多,则使用插值的方法来合成新数据,通过递进的方式覆盖前一过程的采样,循环往复直至提炼出与设计当中SVM数据分类流程重合的训练子集。在表2当中所呈现出的为设计的全局变量,其实除此之外基于数据分析征信欺诈识别还会就局部部分有所涉及,其中的L和S为代表,所表示的便是Tr中的多数类样本与少数类样本中欠采的数量,而N所表示的则是样品的过度被采百分比,而k值为倾向于少数类样本的近邻数。2.2.2阶段2分类训练基对于2阶段而言,分类对象为训练基的特点,使得该阶段可以通过算法进行进一步的分析,在该阶段当中的训练集基于SVM分类已经得到了对于地器簇,而且对于SVM当中的各个分类结果,都不能再次出现在对象集合中作为被抽取数,这样在就征信欺诈识别数据收集时,能够随着时间的推进以及处理量的增大,而实际处理的数据也会越来越少。2.2.3集成化深度计算深度计算之下,最开始要对已经选定的特定集合进行样本的抽取,在这过程中训练集的存在为最佳选择,唯有在此基础上,样本中的每一个对象才能够在征信欺诈识别过程中具有一定的科学预测性,即一旦出现风险则会被分类到信用欺诈风险存在领域,进而在进行二次数据处理和分析时,能够具有更加精准的分类与选择。3数据处理过程与结果针对征信欺诈设别的数据,经过上述的处理和分析之后,所得到的理论性实验结果在表征之后,呈现出如下表3的情况:表3实验数据论述数据类别数据来源样本结构特征属性征信欺诈学术期刊(Kaggle)少数类数量:356特征总数:28多数类数量:21337特征数据:数值型类不均衡不比例:1:60预处理:PCA3.1数据简介针对上表所呈现出的数据,不难发现在参与数据分析的两万余个样本当中,为数不多的特征向量才会在PCA作用下实现预先处理,而脱离宏观数据,就征信欺诈识别的角度来说,1与0分别代表的含义为信用的良好与非良好,其中的信用良好样本以0为表示,这部分数据往往呈现出数据数量多的特性,在数据分析模型中被称为负数样本,而1与0意义完全i相反[5]。所以由表所示,不难发现各个数据类型在征信欺诈识别模型当中的具体值。3.2数据处理结果表4征信欺诈识别在数据整理机器语言下的学习对比评价指标DBNRFBRFEERBSVMSMOTEMLP平均精度值TPR85.3581.8789.2990.198975.04876883.19TNR99.6399.9697.0396.1996.5299.96989998.25RCI95.1994.7591.8590.6691.0192.80939892.19通过对比征信欺诈识别数据处理,在样本非平衡比例之下,性能发生了变化,基于此DBN深度集成算法使用RCI标准化公式之后,能够表现出更加优质的识别结果。4数据分析征信欺诈背景下的优势综上所述的数据处理模型,信用欺诈识别已经得到了进一步的优化,基于此未来征信欺诈识别在数据分析的基础上,能够表现出更大的优势[6],理论性论述内容如下:4.1数据处理难度降低通过深度学习之下的数据处理,征信欺诈识别在具体作用过程中,能够有效的就非法数值进行排除与影响的消除,这主要得益于数据处理的分段函数化,这样的方式虽然在流程上存在一定的繁琐性,但是在实用性方面却表现出了数据处理的难度降低,从实际的角度出发,数据处理难度的降低会使得征信欺诈识别具体数据得到更为精准、高效的处理,对于企业来说,这样的数据处理之后,更加具有科学性[7]。4.2征信欺诈识别精准度提升有效的就信用欺诈进行识别只是金融系统分析数据的基础,而对进行进一步的信用识别才是真正的关键所在,基于此通过建模和数学公式的结合,征信欺诈识别的精准度得到了进一步的提升,进而使得后续发展过程中,企业和金融行业能够在大数据背景下,得到更加准确的信息,有利于最大程度减少征信欺诈情况的出现。4.3有利于处理大量数据当前在互联网与大数据背景下,金融行业与企业所面临的数据量越来越大,但是停滞不前的数据处理手段使得在征信欺诈识别时被大量数据所破坏,进而造成的非常规化数据被收集,进而加大了分析难度,也减小了准确性,所以通过上述方式的优化之后,有关征信欺诈识别的数据能够得到进一步的高效处理,从而能够有效的环节数据过度造成的问题[8]。5结论现如今信用相关业务规模在国内快速扩大,征信的使用也越来越普及,以信用卡为载体的交易数量急剧膨胀。在大量的征信消费交易带给银行巨额利润的同时,征信欺诈交易成为了信用相关业务风险来源之一。防范征信欺诈交易造成的损失需对每笔征信卡交易进行审核与检查,对于海量的交易数据和多变的欺诈模式,传统的基于征信规则及人工审核方式变得“力不从心”,探索数据挖掘技术有助于在征信欺诈交易识别上的应用。参考文献[1]赵家正,李辉.公安机关大数据领导力及其提升策略研究[J].智库理论与实践,2021,6(03):37-44.[2]孙秀兰,陈炳森.智慧新警务下侦查模式的变革[J].科技创新发展战略研究,2021,5(03):77-81.[3].习近平总书记对打击治理电信网络诈骗犯罪工作的重要指示在全国公安机关引发热烈反响[J].中国防伪报道,2021(05):16-18.[4]冷静,徐伟,陈礼坤,徐明伟,李国军.基于大数据的特定人群再犯罪预测模型[J].信息技术与信息

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论