基于逻辑回归的企业大额可疑外汇资金交易识别模型MicrosoftWord文档.doc_第1页
基于逻辑回归的企业大额可疑外汇资金交易识别模型MicrosoftWord文档.doc_第2页
基于逻辑回归的企业大额可疑外汇资金交易识别模型MicrosoftWord文档.doc_第3页
基于逻辑回归的企业大额可疑外汇资金交易识别模型MicrosoftWord文档.doc_第4页
基于逻辑回归的企业大额可疑外汇资金交易识别模型MicrosoftWord文档.doc_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于逻辑回归的企业大额可疑外汇资金交易识别模型Microsoft Word 文档 .摘要:导出预测系数或权重后,最终的概率p用公式(1)来计算: . 根据公式(2)求得的p值是0到1之间的概率值,代表了企业洗钱的概率,p(1-p)是洗钱事件发生的可能性,即该 .关键词:概率,公式类别:专题技术来源:牛档搜索(Niudown.COM)本文系牛档搜索(Niudown.COM)根据用户的指令自动搜索的结果,文中内涉及到的资料均来自互联网,用于学习交流经验,作品其著作权归原作者所有。不代表牛档搜索(Niudown.COM)赞成本文的内容或立场,牛档搜索(Niudown.COM)不对其付相应的法律责任!摘要本文根据逻辑回归原理与数据挖掘技术,建立了企业大额可疑外汇资金交易识别模型,用于分析银行企业客户洗钱的概率及洗钱事件发生的可能性。本文的目的是通过对具有洗钱嫌疑的银行企业客户进行识别和预测,为银行反洗钱技术提供参考。关键词反洗钱,可疑金融交易,数据挖掘,逻辑回归本文试图从数据挖掘的角度来探寻银行企业客户大额可疑外汇资金交易的识别问题,同时借助SASEM挖掘工具,建立银行企业大额可疑外汇资金交易识别模型,对可能的洗钱事件进行分析、判别,并对可能出现的问题进行合理的预测,以有效地提高反洗钱的效率和力度。一、逻辑回归原理逻辑回归的原理可以简单地解释为一组前提、假设和结论。前提:依赖(目标)变量非连续,通过对依赖变量进行转换,使之成连续的值,即关于事件发生的概率的函数。假设:p为事件发生的概率p(1-p)是事件发生的可能性ln(P(1-p)是预测因子的线性函数结论:通过发现预测因子Xj与ln(p(1-p)之间的线性关系:导出预测系数或权重后,最终的概率p用公式(1)来计算:在公式(1)中,按照逻辑回归模型的定义,事件发生(即研究对象的反映结果为1时)的概率为p,事件不发生的概率为(1-p),p(1-p)通常叫做胜算比(odds ratio),表示事件发生的概率相对于不发生的概率的强度。结论中的回归系数j(j=1,2,m)的值通常采用极大似然法来估计。二、企业大额外汇资金数据源的构建本文的数据源是某省外汇管理部门企业大额外汇资金交易月报表两年14家银行的数据。表1是对企业大额外汇资金交易月报表属性的说明。根据总结分析发现,在洗钱活动中,“企业开户银行数目”、“连续5天交易的次数”、“连续5天交易的金额”、“报告标准编码”、“企业注册资金”、“企业活动是否与本行业相匹配”、“结算方式”以及“交易方向”这7个因素会单一或者组合地表现出洗钱活动。1、企业开户银行数目。一般说来,企业如果涉嫌洗钱,其金额是比较巨大的。洗钱企业倘若把资金全部放在一家银行,资金的大进大出必然会引起银行等有关部门的注意,况且银行等金融机构本身对企业客户的资金管理具有一定的限制,这样也会影响洗钱企业转移资金的速度。基于上述原因,洗钱企业必然会将资金分散到数家金融机构。我们通过对外汇管理部门已经查明的确定有洗钱嫌疑的企业开户银行数据的分析发现,这些企业开户的银行数目最少的是2家,最多可达7家,而平均居于5家的企业居多,约占80%左右,所以笔者以为,选择5家以上银行(包括5家),具有一定的代表性。2、连续5天交易的次数。企业获得了大量的“黑钱”,为了逃避法律的追究和调查,必然是要尽快把非法获得资金转变为合法的金钱。因此,在一段时期内,涉嫌洗钱的企业在银行进行交易的次数可能突然增多,根据央行颁布的金融机构大额和可疑外汇资金交易60项报告标准和识别标准释义第九条第六款的解释,结合外汇管理部门的调查数据,得出相对连续5天交易的次数倘若超过5次者,值得关注。3、连续5天交易的金额。企业洗钱通常都有一个共同的特征,即在短时间将巨额的非法资金进行转化。因此,除了洗钱企业在一定的时间段洗钱频率突增之外,交易的金额也是一个重要的衡量因素。根据金融机构大额和可疑外汇资金交易60项报告标准和识别标准释义第九条第六款的解释,连续5天交易金额现钞累计超过5万美金,现汇累计超过50万美金的,值得关注。4、报告标准编码。根据2005年国家外汇管理局的60项报告标准编码,交易分为现钞交易和现汇交易,其编码分别是0801和0802。企业洗钱一般也主要是现汇交易,倘若企业短期内频繁使用现汇交易,且数额较大,也可能存在洗钱嫌疑。严格区分交易方式,可以缩小关注面,从而反洗钱的针对性也更强一些。5、企业注册资金。根据企业理论,一般说来,一个企业的正常交易金额不会超过企业注册资金的50%,倘若超过了,则值得关注。6、企业活动是否与本行业相匹配。正常的企业只会经营与本行业相关的业务。根据以往查处的洗钱企业的案例和经验,像空壳公司这种形式的洗钱企业,存在的本身根本与该行业的业务毫无关系,只是为了掩人耳目,转移资金而已。因此,此种性质的企业洗钱的嫌疑是比较大的。7、结算方式。由金融机构大额和可疑外汇资金交易60项报告标准和识别标准释义第十条第六款的解释,企业通过其外汇账户频繁大量发生以票汇(支票、汇票、本票等)方式结算的出口收汇的,具有洗钱嫌疑。8、交易方向。随着中国改革开放的深入发展,企业洗钱的广度更多地表现出跨省、跨国洗钱的趋势,根据国际洗钱的趋势,笔者认为,交易方向也是洗钱的一个可能特征。通过以上分析,为了为本文后面的数据挖掘做准备,我们对原数据源,也就是企业大额外汇资金交易月报表进行重新整理,选取表1的7个属性作为挖掘数据源表的属性,同时,去除原来数据表中一些无关紧要的属性,比如交易对方银行名称等,然后对数据进行整理运算,构成数据挖掘数据源。如表2所示。其中,属性“序号”、“企业代码”、“交易方向”、“报告标准编码”与表1完全相同,这里不再赘述。“企业开户银行数目”是指在一周内企业开户的银行数目,这里“周?取值为5天。“连续5天交易金额”、“连续5天交易次数”则是根据企业大额外汇资金交易月报表以5为单位进行汇总。“企业注册资金”根据工商部门登记注册的企业为依据。“结算方式”主要分为票汇、支票、本票等。“与该行业是否匹配”是指该企业所从事的交易,是否是其所处的行业的正常交易。三、数据挖掘建模的数据准备数据挖掘建模数据准备是在建立好的数据挖掘数据源的基础上为实施各种数据挖掘方法而对数据源进行的包括数据探索、抽样、分块、变量转换以及缺失值替换等一系列的数据准备工作,主要内容如下:1、根据对数据源的数据基本情况与特征的了解,重新筛选数据,使得以现汇交易的企业比较集中。2、在进行抽样时,选择较多比例的抽样,达到数据源的95%以上。抽样后,使用现汇交易的企业客户的比例占到了98%,比抽样前增加了3个百分点。3、由于“企业注册资金”和“结算方式”数据很不完整,缺失值太多,即使保存下来进行最后的数据挖掘,也很难对结果产生显著的影响。所以,这两个属性在挖掘中忽略不计。4、从事洗钱犯罪活动的企业有一个共同的特征,即基本上都是使用现汇进行外汇资金交易。所以,在本文中假设可疑企业的“交易标准报告编码”的值为0802。5、在进行企业大额可疑外汇资金交易数据挖掘建模时,需要建立目标变量“laundry”作为可疑企业识别变量。laundry只有0和1两个值,1值代表可疑,0值代表正常。通过对可疑企业最终成为洗钱客户的概率及其进行洗钱活动的可能性进行预测,来实现数据挖掘的最终目标。6、本文经过反复试验,比较利用不同数据分块比例建模得到的模型评估效果,最后确定数据分块比例为训练数据占样本数据的80%,验证数据占样本数据的10%,测试数据占样本数据的10%,均采取随机抽取数据。7、通过对缺失值的处理可以保留所有记录的完整性,保持整体数据的分布不变,从而保证建模的效果。我们在此对“连续5天交易次数”、“企业开户银行数目”、“连续5天交易金额”三个属性的缺失值采用均值替换法,而对“交易方向”和“与该行业是否匹配”属性的缺失值采用回归替换法。四、企业大额外汇可疑资金交易识别模型建立与结果分析本文利用SASEM工具,对所研究的对象进行分析。设企业客户信息变量为xp,银行企业客户涉嫌洗钱的为p,则在利用SASEM回归工具建模的相关设置如下:1、将laundry设为目标变量;2、根据逻辑回归原理选择LOGIT为链接方程;3、由于引入的预测中存在离散的字符型变量,所以在引入回归过程的时候要进行数量化编码,又因为“与该行业是否匹配”属性包括两个值,所以建模的时候选择通用线性模型法(GLM,General Linear Models)进行数量化编码;4、为了逐一验证银行企业客户信息中影响目标变量的因素,选择回归方式为逐步回归法(Stepwise),即每次引入模型一个最显著的变量,然后考虑从模型中剔除一个最不显著的变量,直到既没有变量引入也没有变量剔除为止。通过逐个引入表2中的相关变量,利用上述回归原理,预测该变量与目标变量之间的关系,最后不仅可以得到反映各个变量与目标变量之间的关系,同时还可以得到在各个变量的作用下每一个企业客户涉嫌洗钱的概率。逻辑回归模型的运行结果可以用直方图的形式展现出来,如图1所示。柱形越高,表明该变量对目标变量的影响越大,反之则越小。从图1可以看到,“连续5天交易累计金额”属性对目标变量的影响最大,影响T-scores值达到了3.06,其次是“企业开户银行数目”,“交易方向”,“连续五天交易次数”几个属性变量。反应在统计图上,如图2所示。在图2中可以看到,_COL5是最先引入模型的,根据stepwise算法原理,它对于目标变量的影响是最大的,然后依次为_COL3,_COL4,_COLl0,_COL8。将_COL5,_COL3,_COL4,_COL10,_COL8作为预测因子,可以生成预测目标变量laundry的回归方程。各预测因子的回归系数如图3中的Estimate值。其中,由于“企业开户银行数目”_COL3作为分类变量而非连续变量,所以回归方程中会针对不同的开户银行数给出不同的回归系数。为了把_COL3这一分类变量反映到模型中去,我们引进了6个虚拟变量COL3a、COL3b、COL3c、COL3d、COL3e、COL3f。此时,可以得到识别可疑企业的回归方程:根据公式(2)求得的p值是0到1之间的概率值,代表了企业洗钱的概率,p(1-p)是洗钱事件发生的可能性,即该企业洗钱事件发生的概率相对于该企业未发生洗钱事件的概率的强度。将表2中有关影响目标变量的属性值,即公式(2)中的COLl0、COL3、COL4等属性中具体到每一个企业的相应值代入公式(2),即可得到该企业洗钱的概率及洗钱事件发生的可能性。五、结论本文在某省两年的企业大额外汇资金交易数据的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论