版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、ATM 交易状态特征分析与异常检测摘要 ATM机即基本无人监管的自动化处理机制的金融交易自助服务机,商业银行需要通过总行的数据中心处理系统及时汇总各分行的数据信息来判断某处的ATM交易及是否存在交易异常。 为了能够及时有效的检验出ATM机是否存在异常,本文从交易量,成功率和响应时间这三个指标入手,通过绘制各指标的散点图来分析各个指标的数据特征,再分别提取各自的特征参数,并通过拉依达准则法,阈值划分等方法设计出一套交易状态异常检测方案。针对问题一,通过spss的Pearson系数法进行相关性检验判断出三个指标并无明显的相关性,只有交易量和时间存在相关性,因此我们对三个指标分别处理求特征参数。首先
2、作图分析了日交易总量与日期的关系,发现除了1月期间,日交易总量相较其他月份数值较高且波动较大,我们猜测是因为春节的影响,在处理时应分别处理。接下来通过作图分析知,除春节外,工作日和非工作日的交易量-时间散点图相似程度很高,因而得出工作日和非工作日不会对交易量产生显著影响。然后通过作不同日期相同时间的交易量的频数分布直方图,发现除去春节影响其符合正态分布特征,取其平均值和方差作为特征参数;而对于成功率指标,我们作出了成功率-时间(分钟)散点图,发现成功率分布范围较为集中(在0.8到1.0之间),但是相比其他时间成功率的分布,发现237点时成功率离散程度较高,明显该时段异常值较多。在未对数据进行处
3、理的情况下若直接求成功率的平均值和方差作为特征参数,这样误差过大,不够精确。于是考虑排除异常值,为了排除异常值,我们考虑使用两次拉依达准则法排除异常值,从而得出了拟合较为集中且已排除部分异常值的数据,再提取其均值和方差偶为特征参数;对于响应时间指标,因为发现响应时间和时间的散点分布与成功率相似,所以我们使用了同样的方法来处理数据,即连续使用两次拉依达准则法排除异常值,再取其均值和方差作为特征参数; 针对问题二,通过问题一已得到各指标的的特征参数。对于交易量的异常检验,先考虑使用作为置信区间,被检测的交易量若在置信区间以外则视为异常;但是因为23-7h平均交易量较小,标准差较大,导致置信区间低于
4、零,会将比较小但显著异常的交易量包含进去,所以我们另外建立了一个新的模型专门检测23-7h的异常值。我们在新的模型中加入一个交易量下限指标,即某时间段交易量正常值最低限度A,检测该时段内交易量低于A的个数超过一个阈值,就判定该时段交易量数据出现异常;而对于成功率和响应时间异常检验,在得到特征参数即均值和标准差的情况下,将在以外的点判断为异常点。在建立了异常检验模型后,对现实各指标数据进行每分钟即时检测,在发现异常值时,立即进行异常检测报警,然后针对异常值对应的指标再确定故障类型。 针对问题三,考虑增加实际各时间异常交易量数量趋势、中央数据处理系统的负载能力、故障的修复时间、每分钟交易金额对应需
5、要耗费的处理时间这四个指标来进行分析。增加对这些指标的考虑能够从更多的角度定位异常值,从而便于判断故障类型。关键词:相关性分析 Pearson系数法 散点图 拉依达准则法 正态分布 均值 标准差 置信区间 某商业银行的 ATM 应用系统包括前端和后端两个部分。前端是部署在银行营业部和各自助服务点的 ATM 机(系统),后端是总行数据中心的处理系统。前端的主要功能是和客户直接交互,采集客户请求信息,然后通过网络传输到后端,再进行数据和账务处理。持卡人从前端设备提交查询或转账或取现等业务请求,到后台处理完毕,并将处理结果返回到前端,通知持卡人业务处理最终状态,我们称这样完整的一个流程为一笔交易。商
6、业银行总行数据中心监控系统为了实时掌握全行的业务状态,每分钟对各分行的交易信息进行汇总统计。汇总信息包括业务量、交易成功率、交易响应时间三个指标,各指标解释如下:1、业务量:每分钟总共发生的交易总笔数;2、交易成功率:每分钟交易成功笔数和业务量的比率;3、交易响应时间:一分钟内每笔交易在后端处理的平均耗时(单位:毫秒)。交易数据分布存在以下特征:工作日和非工作日的交易量存在差别;一天内,交易量也存在业务低谷时间段和正常业务时间段。当无交易发生时,交易成功率和交易响应时间指标为空。商业银行总行数据中心监控系统通过对每家分行的汇总统计信息做数据分析,来捕捉整个前端和后端整体应用系统运行情况以及时发
7、现异常或故障。常见的故障场景包括但不限于如下情形:1、分行侧网络传输节点故障,前端交易无法上送请求,导致业务量陡降;2、分行侧参数数据变更或者配置错误,数据中心后端处理失败率增加,影响交易成功率指标;3、数据中心后端处理系统异常(如操作系统 CPU 负荷过大)引起交易处理缓慢,影响交易响应时间指标;4、数据中心后端处理系统应用进程异常,导致交易失败或响应缓慢。附件是某商业银行 ATM 应用系统某分行的交易统计数据。假设附件的数据对应的交易状态无异常。你的任务是:(1) 选择、提取和分析 ATM 交易状态的特征参数;(2) 设计一套交易状态异常检测方案,在对该交易系统的应用可用性异常情况下能做到
8、及时报警,同时尽量减少虚警误报;(3) 设想可增加采集的数据。基于扩展数据,你能如何提升任务(1)(2)中你达到的目标?问题分析 对于交易量,成功率和响应时间这三个指标及时间和日期,我们首先运用SPSS采用求Pearson相关系数的方法,对14月的各指标数据进行相关性分析,下图为相关性矩阵: 由相关性矩阵可以看出: 交易量,成功率和响应时间这三个指标以及日期没有明显的相关性; 交易量和时间存在相关性;根据这种情况,我们选择分开处理交易量,成功率和响应时间并提取特征参数;多元统计分析中的简单相关分析(Pearson相关系数): Pearson相关系数适用于测量两数值变量的相关性。设两随机变量为X
9、和Y,则两总体的相关系数为:式中,是两变量的协方差;是变量X和Y的方差。总体相关系数是反映两变量之间线性关系的一种度量。 事实上,总体相关系数一般都是未知的,需要用样本相关系数来估计。设分别为来自X和Y的两个样本,则样本相关系数为: 统计上可以证明,样本相关系数r是总体相关系数的一致估计量。 r取值在-1与1之间,它描述了两变量线性相关的方向和程度:r0,两变量之间为正相关;r0,两变量之间为负相关;r=1,两变量之间完全相关;r=0时,两变量之间不存在线性相关关系,但可能存在其他形式的相关关系(如指数关系、抛物线关系等)。而且|r|离1越近,两变量之间的线性相关程度越高;离0越近,线性相关程
10、度越弱。 在说明变量之间的线性相关程度时,根据经验,按照相关系数的大小将相关程度分为以下几种情况:|r|r|0.5时,视为低度相关;|r|3则认为是含有粗大误差值的坏值,应予剔除。在整理试验数据时,往往会遇到这样的情况,即在一组试验数据里,发现少数几个偏差特别大的可疑数据,这类数据称为Outlier或Exceptional Data,他们往往是由于过失误差引起。对于可疑数据的取舍要慎重。在试验进行中时,若发现异常数据,应立即停止试验,分析原因并及时纠正错误;当为试验结束后时,应先找原因,在对数据进行取舍。如发现生产(施工)、试验过程中,有可疑的变异时,该测量值则应予舍弃。这类数据的不能清楚地判
11、定原因时,可以借助一些统计方法进行验证处理,方法很多,如常用的拉依达准则和格拉布斯准则,还有如狄克逊准则,肖维勒准则、t检验法,F检验法等。这些方法,都有各自的特点,例如,拉依达准则不能检验样本量较小(显著性水平为0.1时,n必须大于10)的情况,格拉布斯准则则可以检验较少的数据。在国际上,常推荐格拉布斯准则和狄克逊准则。但对于异常数据一定要慎重,不能任意的抛弃和修改。往往通过对异常数据的观察,可以发现引起系统误差的原因,进而改进过程和试验。现通过spss运用拉依达准则法得到第一次处理后的数据第一次处理后的数据的散点图如下:运用spss对第一次处理后的数据(即第一次排除异常值后)进行数据分析可
12、得:描述统计量N均值标准差成功率129158.960492.0199457有效的 N (列表状态)129158对比未处理数据知已排除131013-129158=1855个异常数据。为增加数据精度,在第一次处理后的数据的基础上重复使用拉依达准则法筛选数据;第二次处理后的数据的散点图如下:此时数据拟合较好,精度也比较高;再对第二次处理后的数据进行数据分析可得:描述统计量N均值标准差成功率127642.961306.0185891有效的 N (列表状态)127642对比第一次处理后的数据知再次排除了129158-127642=1516个异常数据;以上求得的结果即为成功率的特征值;.3响应时间的特征参
13、数提取一运用spss作出未处理时响应时间-时间的散点图:二对未处理的数据进行数据分析可得:描述统计量N均值标准差响应时间131013有效的 N (列表状态)131013求响应时间特征参数与求成功率同理,也采用拉依达准则法排除异常值,同样也处理两次。先采用拉依达准则法排除异常值,得到第一次处理后的数据:第一次处理后的数据的散点图如下:对第一次处理后的数据进行数据分析(即第一次排除异常值)情况下的得到的结果:描述统计量N均值标准差响应时间130962有效的 N (列表状态)130962对比未处理数据知已排除131013-130962=51个异常数据;在第一次处理后的数据的基础上重复拉依达准则法,得
14、到第二次处理后的数据:第二次处理后的数据的散点图如下:对第二次处理后的数据进行数据分析可得:描述统计量N均值标准差响应时间130523有效的 N (列表状态)130523此时数据拟合较好,精度也比较高。故以上第二次处理后的数据即为所求的特征值;5.2 问题二的建模与求解.1 交易量异常检验 在问题一中已经求出交易量-时间(分钟)的特征参数,对每一分钟求其置信区间:根据其正太分布特征性,尝试选取或作为其置信区间,在置信区间外即判断为交易量数据出现异常,我们首先尝试选取作为其置信区间,但是发现排除了过多的正常值,于是考虑选取作为其置信区间,发现模型合理性更高。 通过对该模型的进一步分析可以得出在交
15、易量低于一定值的一段时间区间内,置信区间下界小于0,会将比较小但显著异常的交易量包含进去,因而该模型在这种情形下不能达到其预期效果。因为23-7h交易量较低,易出现置信区间下界小于0的情况,所以考虑在用原模型检测8-22h异常交易量基础上再设计另一模型来检测23-7h的异常交易量。 由于交易量异常一般对应交易量过小严重偏离正常值的情况,于是考虑在新的模型中加入一个交易量下限指标,即某时间段交易量正常值最低限度A,检测该时段内交易量低于A的个数超过一个阈值,就判定该时段交易量数据出现异常.考虑到该模型的精确度,被检测的交易时段时间不能太长,理想时间是1050min,因为该时间段内各分钟的交易量差
16、别不会太大,且便于在发现该时段存在异常交易量之后寻找异常交易量时间点。该时间段交易量正常值最低限度A取该时间段每分钟交易量的的均值。该模型用于实际检验时要注意区分检验时间对应的日期,即检验时间在春节期间时应使用第一题中求得的春节期间的特征参数,非春节期间同理。 (编写的程序见附录一).2 成功率异常检验在第一题中运用拉依达准则法对成功率异常点筛选结果如下:原数据用拉依达准则法第一次处理用拉依达准则法第二次处理N131013129158127642均值标准差排除异常点数量18551516作为其下限,不考虑上限,成功率越高越好,在其下限外即判定该交易成功率出现异常。(编写的程序见附录二) 响应时间
17、异常检验由于响应时间与成功率数据分布类似,故异常检验方法也类似。在第一题中运用拉依达准则法对响应时间异常点筛选结果如下:原数据用拉依达准则法第一次处理用拉依达准则法第二次处理N131013130962130523均值标准差排除异常点数量51439作为其上限,没有下限,响应时间越低越好。超过上限即判定该交易响应时间出现异常。(编写的程序见附录三)分行侧网络传输结点故障业务量异常下降分行侧参数数据变更或配置错误数据中心后端处理系统异常数据中心后端处理系统应用进程异常交易成功率异常下降响应时间异常增加各个已知的故障对各指标的影响实际操作时,三个指标的异常检验模型结合银行报警系统同时进行,当检验出某指
18、标出现异常情况时立即进行警报提醒,在确认某时间或时间段出现某指标异常后,再依据上图进行故障检验一一排查即可。5.3 问题三的建模与求解实际各时段异常交易量数量趋势:由之前分析可知在低交易量时段即23-7h成功率波动较大且出现较多异常偏离的较小值。但是这些成功率较小点可能不是异常值。因为我们猜测可能异常交易量在各时段发生频数相近,而在低交易量时段对影响成功率贡献较大,而在高交易量时段对影响成功率贡献较小所导致低交易量时段成功率较小值较多,但实际并未发生故障。考虑到这种影响,可以对这方面的数据进行适当采集和分析,从而减少在低交易量时段成功率的误报。中央数据处理系统的负载能力:在交易量大的时段出现交
19、易量骤减或者成功率下降可能是因为处理系统负荷过大引起的处理缓慢或者传输堵塞,经过一段时间即可恢复正常,而不是前端或后端的故障问题导致,采集这个数据能在一定程度上减少误报。故障的修复时间:根据三个指标的数据异常对应的不同的故障修复时间可以更加准确的判断数据异常是否是由于故障所致。每分钟交易金额对应需要耗费的处理时间:大笔交易金额可能会显著增加交易的响应时间或者减少每分钟的交易量,采集这个数据可以在出现交易量下滑或者响应时间骤长时更加准确判断是否为故障所致。模型的综合评价模型的优点将影响ATM机正常交易的各个指标影响因素都考虑在内,给各个指标赋予特征参数,从而考虑对交易的影响。在求特征参数过程中,
20、多次采用拉依达准则,充分提高参数的精度,这样处理使得模型更加合理有效。模型的缺点在对异常值进行检验时,还是会错误处理正常值,这个无法避免。模型在实际检验预警过程中是针对每分钟各指标进行检验的,可能存在工作量大等问题。而实际中故障的影响一般存在连续性,即某一时间段皆异常或者异常点明显偏多,而某一时间单一点检测出现异常可能是由于系统误差导致的,而实际并不存在故障,从而出现增加误报的问题。模型的改进考虑更多的指标,如5.3所示,实际各时间异常交易量数量趋势;中央数据处理系统的负载能力;故障的修复时间;每分钟交易金额对应需要耗费的处理时间。增加对这些指标的考虑能够从更多的角度定位异常值,从而便于判断故
21、障类型。在检验报警时,考虑对一段时间的异常点进行检验,当连续出现异常或者异常值超出某一范围时进行预警,这样既能减少工作量,避免频繁预警,还能减小误报率。模型的推广 本文所涉及的模型主要建立在数据分析上,适用于统计量庞大,多变量多指标问题的解答。参考文献1 汪冬华,多元统计分析与spss应用,上海:华东理工大学出版社,2010.92 刘桂荣,统计学原理,上海:华东理工大学出版社,3 张冬泉,ATM业务及故障监控系统的研究与开发,20064 陈化年,ATM监控及故障分级管理系统的研究与实现,2010 附录附录一:交易量异常检测模型程序#include#define N 10double AVR21
22、440= ,;/*非春节期间与春节期间交易量对应于每一分钟的平均值*/double DEV21440= ,;/*非春节期间与春节期间交易量对应于每一分钟的标准差*/int main() int i=0,j=0,m=0,n=0,check;int number=0,number1=0,number2=0;int timeN,time1N=0,time2N=0,t;double tradeN,trade1N,trade2N;while(1) printf(检测时间是否在春节期间?是输入1,否输入0(输入结束按回车键)n); scanf(%d,&check); printf(请输入%d分钟内的每分钟交易量与对应的时间(时间在前,交易量在后,两者以逗号隔开)n,N); printf(如:0000,15(输入结束按回车键)n);for(i=0;iN;i+)printf(请输入下一组数据:n);scanf(%d,%lf,&timei,&tradei); switch(check) case 0: /*非春节期间交易量分段处理*/ for(i=0;i=800&timei=2300) trade1m=tradei; time1m=timei/100*60+timei%100; m
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新疆喀什地区2025-2026学年九年级上学期期末考试物理试卷(含答案)
- 广东省揭阳市惠来县2025-2026学年八年级数学上学期期末考试(含答案)
- 甘肃省定西市临洮县2025-2026学年下学期九年级化学一模练习试卷(含答案)
- 物化考试题及答案
- 蚊虫危害题目及答案
- 网上答题题目及答案
- 办事处行政专员岗位职责
- 部编版一年级数学上册期末试卷及答案(真题)
- 山西省忻州市忻府区播明联合学校2022年高二语文测试题含解析
- 2026年培训师专业技能提升
- 2026年张家界航空工业职业技术学院单招职业倾向性考试模拟测试卷新版
- 2026辽宁机场管理集团校招面笔试题及答案
- 2025徽银金融租赁有限公司社会招聘笔试历年典型考题及考点剖析附带答案详解
- 2026年辽宁轨道交通职业学院单招综合素质笔试备考题库带答案解析
- 碳排放核算及企业减排策略
- 冬季电气设备安全培训课件
- 安徽省滁州市天长市2025年小学六年级期末数学试卷及答案
- 高密度聚乙烯(HDPE)排水管(八角双密封)
- 化妆培训行业分析
- 孩子如何正确与师长相处与沟通
- 塔吊运行日志
评论
0/150
提交评论