如何评估数据源_第1页
如何评估数据源_第2页
如何评估数据源_第3页
如何评估数据源_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、如何评估数据源对于一个金融机构而言,流量和风控决定利润,而数据质量是风控核心。 为提升风控水平,会引入新的数据源,面对新数据维度时,一般都会思 考两个方面:数据能否用,数据如何用。本篇文章会从线下数据测试、 线下数据评价、线上数据应用整个流程介绍如何谨慎的评估一个数据 源。一、线下数据评估1.1、不同类型数据源的评估首先,将数据分成4类,黑名单类、评分类,变量类,原始数据类。黑名单类应用在反欺诈环节,一般通过命中率、逾期率这两个 指标评估数据的有效性。一个好的黑名单应具有的性质是命中即逾 期”,即为保证准确性,黑名单的命中率一般不会很高(5%之内), 但只要命中,逾期概率就很高。评分类的变量直

2、接作为风控策略使用,一般通过缺失率有效性” “稳定性与现有数据共线性”投入产出这5个方面去评估。当评分具有稳定的排序能力,可用作客户分层或者准入。当评分具有明显 的尾部极端趋势,可做准入规那么,拦截掉极端的坏客户或者准入极端好 客户。变量类一般考虑策略/模型环节使用,一般通过缺失率有效性 稳定性变量之间的共线性与现有数据共线性”投入产出去评估。当变量具有稳定的排序能力,考虑建立模型。当变量具有极端 趋势且变量含义具有欺诈的性质,可考虑做一条反欺诈的规那么。原始数据类,一般是客户授权爬取的信息,需要做特征工程后评估数据 的价值。评估方法同变量类数据。1.2、评估指标(1)缺失率缺失率是考量数据覆

3、盖程度的指标。根据业务情况和数据的应用场景, 确定数据覆盖程度的需求。(2 )有效性分析单变量的GINI、KSJV值、趋势。评分类的变量,一般要求ks20 , 变量类的数据一般要求ks 10。同时,还有考量数据的可解释性和趋势 的稳定性。(3)稳定性无论是评分类还是变量类的数据源,都需要评估稳定性。稳定性的评估 是比照数据在两个不同时间段的分布情况,一般使用psi指标,psi0.1 认为数据有一定程度的偏移,psi0.25认为数据偏移很严重,需要迭 代相关策略或模型。(4)共线性(a )业务理解很多第三方的数据衍生逻辑都是笛卡尔积遍历所有组合可能,按照维度 切片拆分这些变量,初步预估整个数据含

4、有的信息量。(b)变量聚类进行变量聚类,观察聚类数以及每一类所含信息维度。(c)相关性分析可以进行相关性分析,分析数据的相关程度。(d ) VIF检验一般样本集在10w以上VIF大于10就有严重的共线性问题了,样本集 在10w以下,VIF4也是严重的共线性问题。在小样本时,一般保证 在2以下。(e )投入产出评估 在整个评估环节中,最重要的环节,就是将数据联动当前策略,评估这 个接口的投入产出,因为测试的接口基本上都是付费接口,所以我们要 评估,这个接口上线后所产生的收益能否覆盖这个接口的支出。方法1:主要考量的是数据上线前后批贷率,逾期率,收益、数据本钱等指标的 变化。例如:同批贷情况下,逾

5、期能降低多少,利润相比原来增加多少, 增加的利润能不能覆盖掉支出的数据本钱。方法2:综合考量用户整个借款流程、整个数据周期的利润情况。评估公式如下:(原策略收益-新策略收益)*数据命中率*策略应用客群量/月*策略生 命长度收益=回款额-放款额-运营获客本钱-数据本钱二、数据线上测试 虽然数据在历史样本上进行了完整的效果评估,已经证明将要上线的数 据、模型、策略是有价值的。但市场环境和客群是一个动态变化的过程, 况且历史的数据都是在线下回溯的,线上数据与线下回溯数据是否有差 异,是否会有操作失误,都未可知。模拟线上测试就是要评估数据在真 实应用时的效果。模拟线上测试是将新策略在实际业务环境中运行,记录相关结果,但并 不做决策。分析数据在线上环境的调取成功率。比照线上线下的数据分 布、覆盖率、策略设计的通过率是否一致。三、A/B test当数据验收无误后,就可以进行A/Btesto A/Btest是将一定比例的流量切换到新的策略中,将现有的规那么(冠军)和新规那么(挑战者)进行 比拟,这个比例可以随着用户贷后的真实表现逐渐调整。当确定新策略 比原策略的效果好的时候,就可以淘汰原来的策略,流量全部切换到新 的策略。四、数据监

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论