下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 基于大数据分析的金融反欺诈建模方法研究 李云雪 刘静 闫雪梅摘要:承认混杂性,追求效率以及探索相关关系是大数据的核心。大数据分析的实质是依据策略划分数据、建立模型然后评估模型并持续优化。文章浅析了互联网大数据的特点和it架构;以互联网大数据的建模分析方法和模型特征为基础,重点解析了大数据征信模型的反欺诈应用,并给出大数据准备的优化方向。笔者最后依据大数据行业岗位特点,针对高职教育提出了学生的培养路径。关键词:大数据建模;数据准备;反欺诈模型;数据优化;培养路径一、引言21世纪是数字经济时代,数据成为经济资产带动新兴商业模式和投资机会。基于大
2、数据的建模分析和应用无处不在,比如春节客流量分析,客户画像和行为特征分析等。从数据使用角度来看大数据主要采用数据均参与的全量数据建模方法,并非指数据集合的巨大。但当前移动互联网社交软件、电子商务等海量应用已经把数据资产的体量提升到pb(1024tb)级,其数据组合也已呈现非结构和多样化态势。本文梳理了大数据与普通数据的异同,解析数据的采集与存储使用的行业it解决方案;在此基础上进一步深入研究基于大数据的模型特征;以互联网金融为主线,在业务策略模型、贷前风险评估和反欺诈评分方面,立足实践深入浅出归纳总结基于神经网络的金融反欺诈模型的优势。二、大数据特征与it架构大数据分析建模的前提是数据准备,互
3、联网金融反欺诈数据关注时间跨度和数据粒度,时间跨度越长得出相关性预测越准确,而数据的粒度和具体业务、数据采集和it处理有关。互联网金融领域反欺诈数据的准备有以下特点:1、数据量大,特别是移动互联网产业兴起后的各种应用app产生的海量登录数据,注册信息,位置信息,运动轨迹,页面点击数据和会话聊天等数据。2、数据类型多,有文本数据,有视频/音频数据,有文件数据,有二进制数据,也有结构化的数据如xml文档等。整体呈现异构化,在某些领域又存在标准的结构化数据。3、数据维度杂,比如客户维度的社交圈子,通话视频,购买能力,偿还能力和工作稳定度等。也有平台维度的信息和相关浏览点击和行为轨迹,也可从互联网黑名
4、单,客户特征画像等维度分析。4、数据敏感性和公开性交织,从信息安全和数据敏感角度,又有数据保密、公开使用和授权使用等法律法规要求。hadoop是google公司apache基金会所开发的分布式系统基础架构,其应用范围非常广泛。例如yahoo使用4000个节点的hadoop集群支持广告系统和搜索;百度用hadoop处理每周200tb的数据;中国移动研究院基于hadoop开发了“大云”(bigcloud)系统;金融反欺诈方面的应用主要是金融服务或政府机构利用hadoop来存储客户金融属性数据,包括一些非结构化的数据来发现客户的异常活动,拒绝欺诈行为。三、大数据建模方法及模型特征大数据建模首先需要确
5、定业务模型,业务模型指的是针对某个业务场景定义,用于解决问题的规则和流程,核心是场景化的应用。比如电商网站会有销售预测模型、商品关联模型等;媒体和自媒体应用会建立读者关注度模型。互联网大数据分析是在业务模型基础上实现数据建模,主要步骤是1)选择或定义模型;2)训练模型;3)评估模型;4)应用模型;5)优化模型。其中训练和评估模型采用不同的数据集合,以免过度优化参数。互联网大数据分析的典型模型有回归模型,分类模型,聚类模型,关联模型和归因模型等。模型有符合其业务和数据的特点,如可采用决策树算法来对客户分类,并在关键流失节点上加运营策略来减少流失;关联关系是互联网海量数据的天然应用体现,关联学习通
6、过寻找数据变量之间的规则,对多种数据的关系进行挖掘。典型案例是“啤酒和尿布”的捆绑销售。聚类是电商运营的重要分析模型,可采用k-means聚类模型快速分群,电商网站可以根据用户的购买行为将客户分为“年轻白领女性”、“家有小孩”、“单身青年”等类型,然后依据不同的用户画像发起营销。客户转换率和相关数据追踪是互联网app和会员系统类基本应用,归因的漏斗分析是一套流程式步骤,比如直播用户从激活app开始到花费,漏斗能够展现出各个阶段的转化率,通过漏斗各环节相关数据的比较,能够直观地发现问题所在并找到优化方向。四、基于互联网金融的征信反欺诈美国个人信用评估起源较早,在上世纪50年代形成了为金融零售商提
7、供分析的公司,fico(fairisaaccorporation)个人评分如今成为美国放款的重要指标之一。我国个人征信评分起步较晚,目前比较典型的是芝麻信用。反欺诈业务策略实质就是预测贷前欺诈的概率,互联网大数据征信评分模型中,主要应用的有神经网络,随机深林和logistics回归分析等。神经网络模型在预测准确率和稳健性方面有自身的优势。征信的神经网络评估模型主要纳入了金融交易数据和社交关系数据,形成以金融数据为中心其他数据为补充的征信评分。目前我国的在线征信和资质审查已快速展开,基于互联网大数据的反欺诈评分,已经成为贷前风控的重要依据,比如在线金融的“秒贷”就利用反欺诈评分来快速完成审批和放
8、款。五、结语基于互联网大数据分析的金融征信反欺诈建模是互联网海量大数据建模分析的一个典型应用,其特点是数据维度多,来源广泛且需要底层分布式大数据架构。在上层算法分析模型方面有选择性的构建适合于征信处理的神经网络模型,使得评分可被金融机构采纳并进行高效反欺诈判决。笔者结合实际工作经验提出数据准备优化的路径。对于区域封闭的行业数据如交通客服数据,交通装备数据,医疗诊断数据,病人回访数据,金融交易数据,金融画像数据等可形成统一数据标准,严格按照国家或行业标准来建设和治理。对开放的互联网数据,要加强采集机构和大型企业的监管,也要打破委办局之间的隔阂,做好大数据业务生态鼓励更多的企业和个人的创新使用。大
9、数据分析与数据处理岗位一般分为业务条线和it技术条线,业务人员要求精通业务,能够依据应用构建业务建模和梳理业务策略。it技术线主要分为数据准备维护类,数据建模实现类it人员。针对高职学生的主要大数据分析岗位一是在业务线,成为业务能手;二是在开发条线,主要是数据维护类相关工作。针对高职学生的大数据分析建模it能力主要是建模和数据呈现类工具使用,成为熟练的企业“提数”操作人才。互联网大数据既要融合共享,又要结合有偿和免费利用;既要做到人人提供数据,又要遵循法律法规对于敏感数据需授权使用。参考文献:1于曉阳.互联网+大数据模式下的征信以芝麻信用为例j.北方金融,2016,(11):73-75.2 吴俊一.基于logistic回归的信用反欺诈预测模型j.价值工程,2020,(1):206-210.3 仵伟强,后其林.基于机器学习模型的消费金融反欺诈
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 质量管理体系检查表产品品质保证
- 时光里的亲情记事作文10篇
- 护理工作中的情绪管理技巧
- 酒店运营管理和合作协议书
- 康复护理中的并发症预防
- 教育培训普及计划推行承诺书4篇
- 中国电子科技集团公司第四十、四十一研究所2026届校园招聘备考题库及完整答案详解一套
- 2026年中国科协所属单位公开招聘应届高校毕业生33名备考题库及参考答案详解
- 规范经营事项完成保障承诺书(3篇)
- 2026年新余燃气有限公司工作人员面向江投集团内部公开招聘备考题库附答案详解
- 江西省九江市2024-2025学年上学期期末考试 七年级 数学试题
- 品牌商户入驻大型购物中心流程
- 2025年应急环境监测车行业分析报告及未来发展趋势预测
- 学校食堂防鼠培训内容
- 应急管理概论真题及答案
- 储粮企业安全培训班课件
- AI生成时代虚拟生产力与生产关系变革
- 船舶进出港调度智能化方案
- 2024版2025秋新版小学道德与法治三年级上册全册教案教学设计含反思
- 农药剂型与加工课件
- 工程机械定义及类组划分
评论
0/150
提交评论