




已阅读5页,还剩16页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关于ATM机异常检测的数学模型摘要随着现代自动化程度提高,ATM机逐渐步入人们的生活,因此ATM机的正常运行就显得非常重要。由于ATM机是24小时无人监管,为了能够帮助银行更好地发现ATM机的异常状态,我们通过建立数学模型,设计了ATM机交易异常检测方案。对于问题一,由于题目中提到工作日和非工作日的交易量存在差别,因此,我们将附件中的数据按春节前、春节后、小长假、周六日和正常工作日分别进行分析。特征参数是用于表征物质或现象特性的参数信息,是一组数据的数理特征,有别于题中所给的交易量,成功率和响应时间三个指标。因此,我们选择每个时刻ATM机交易量、成功率和响应时间的平均值和标准差作为特征参数进行提取和分析。然后对五种日期的特征参数进行T型假设检验,得出了以下结论:对于交易量,春节前、春节、清明三天小长假与工作日存在显著性差异,而周六日与工作日不存在显著性差异;对于成功率,则不存在显著性差异;对于响应时间,春节前与工作日存在显著性差异,其余时间段则不存在。对于问题二,我们基于问题一得出的结论,将方案分为工作日和法定节假日,根据其各自的特点,提出不同的异常情况检测方案。对于工作日,我们提出了基于欧式距离和基于偏差的异常检测方案。首先,我们先利用SPSS对数据进行标准化,消除数量级与单位对数据的影响。然后求解出各个时刻的交易量、成功率、响应时间三个指标与该时刻正常水平的距离,当其落在异常区间时就可认为是异常数据。对于法定节假日,由于数据较少且较工作日差别较大,因此对于交易量,我们采用基于邻域的异常数据检测方法。因为交易量随时间是连续变化,因此当交易量出现骤降时,可认为该时刻出现异常。而对于临界异常度的确定,我们通过单样本的K-S检验确定样本数据的正态性,检验结果可知其服从正态分布,因此,其临界值可根据原则确定。对于成功率与响应时间,采用基于偏差的异常检测方案,当其偏差落在异常域时,则该时刻出现异常。同时我们通过建立时间序列预测模型,用已知数据检验,来求得虚警误报率分别为0.011和0.009。以此来检验模型的准确性。对于问题三,我们提出了网络负载率、响应率、每种故障的修复时间、每笔交易金额等指标进行数据拓展,对可疑数据进行异常性分析,可以筛选出更准确的异常数据点,以减少误报情况,从而达到提升问题一、问题二中的目标。关键词:假设检验 距离检测 时间序列 邻域检测 K-S检验 一.问题重述某商业银行的ATM应用系统包括前端和后端两个部分。前端是部署在银行营业部和各自助服务点的ATM 机(系统),后端是总行数据中心的处理系统。前端 的主要功能是和客户直接交互,采集客户请求信息,然后通过网络传输到后端,再进行数据和账务处理。持卡人从前端设备提交查询或转账或取现等业务请求,到后台处理完毕,并将处理结果返回到前端,通知持卡人业务处理最终状态,我们称这样完整的一个流程为一笔交易。 商业银行总行数据中心监控系统为了实时掌握全行的业务状态,每分钟对各 分行的交易信息进行汇总统计。汇总信息包括业务量、交易成功率、交易响应时 间三个指标,各指标解释如下:1、业务量:每分钟总共发生的交易总笔数; 2、交易成功率:每分钟交易成功笔数和业务量的比率;3、交易响应时间:一分钟内每笔交易在后端处理的平均耗时(单位:毫秒)。 交易数据分布存在以下特征:工作日和非工作日的交易量存在差别;一天内, 交易量也存在业务低谷时间段和正常业务时间段。当无交易发生时,交易成功率 和交易响应时间指标为空。商业银行总行数据中心监控系统通过对每家分行的汇总统计信息做数据分析,来捕捉整个前端和后端整体应用系统运行情况以及时发现异常或故障。常见的故障场景包括但不限于如下情形:1、分行侧网络传输节点故障,前端交易无法上送请求,导致业务量陡降;2、分行侧参数数据变更或者配置错误,数据中心后端处理失败率增加,影响交易成功率指标;3、数据中心后端处理系统异常(如操作系统 CPU 负荷过大)引起交易处理 缓慢,影响交易响应时间指标;4、数据中心后端处理系统应用进程异常,导致交易失败或响应缓慢。附件是某商业银行ATM应用系统某分行的交易统计数据。我们根据附件完成以下三个任务:(1)选择、提取和分析 ATM 交易状态的特征参数; (2)设计一套交易状态异常检测方案,在对该交易系统的应用可用性异常情况下能做到及时报警,同时尽量减少虚警误报; (3)设想可增加采集的数据。基于扩展数据,提升任务(1)(2)中达到的目标。二.问题分析2.1问题一的分析针对问题一,题目要求选择、提取和分析 ATM 交易状态的特征参数。首先,我们对ATM 交易流程进行研究,流程图如下:持卡人数据处理中心(后端)ATM机系统(前端) 网络传输图一.ATM机交易流程图对于附件给出的交易数据,我们可以先对其做出散点图,可以发现:每一天的交易量随时间变化而变化,与时间呈现出很强的相关性,一天内,交易量也存在业务低谷时间段和正常业务时间段。且每天的交易量大致成“M型” 。特征参数是用于表征物质或现象特性的参数信息,是一组数据的数理特征,有别于题中所给的交易量,成功率和响应时间三个指标,因此,我们选择每个时刻ATM机交易量、成功率和响应时间的平均值和标准差作为特征参数进行提取和分析,平均值反映每个时刻三个指标的平均水平,标准差反映某个时间段三个指标的波动水平。又因为题目中提到工作日和非工作日的交易量存在差别。因此我们对题目数据中出现国家法定节假日、周六日与工作日分别进行假设检验,利用两个正态总体参数的T假设检验对其总体期望值进行比较,分析工作日与非工作日中交易量、成功率、响应时间的差别。2.2问题二的分析针对问题二,题目要求设计一套交易状态异常检测方案,在对该交易系统的应用可用性异常情况下能做到及时报警,同时尽量减少虚警误报。首先,我们先对ATM机异常的情况进行研究,存在于以下几种情况:1、分行侧网络传输节点故障,前端交易无法上送请求,导致业务量陡降;2、分行侧参数数据变更或者配置错误,数据中心后端处理失败率增加,影响交易成功率指标;3、数据中心后端处理系统异常引起交易处理缓慢,影响交易响应时间指标;4、数据中心后端处理系统应用进程异常,导致交易失败或响应缓慢等。经过分析得:这些故障最终都是通过业务量、成功率、响应时间反应出来的。由此,我们以问题一中提取的特征参数为依据,对这些异常进行刻画。由问题一中的分析可得,工作日与非工作日的交易量存在显著性差异,表现在国家法定节假日的交易量等与工作日存在显著性差别。因此,分别提出对工作日和法定节假日的异常数据检测方案。对于工作日,我们运用基于距离和偏差的异常数据点检测方案。首先,由于数据单位及数量级的影响,我们先对数据进行标准化。然后运用基于距离的异常数据检测方案,求取每个时间点的欧氏距离。通过单样本的K-S检验得知欧氏距离具有正态性,因此我们可以根据原则,即当欧氏距离大于时,为可疑的异常点;然后对这些时刻数据运用基于偏差的异常数据检测,设立交易量、成功率、响应时间的异常区间,当这些异常点的某个指标落入异常区间时,则该时刻交易状态出现了异常。由于法定节假日每一时刻的交易量数据较少,且与工作日存在显著的差异性。因此,我们选择用基于邻域的异常数据检测方案。对于法定节假日,其每天的交易量变化看做是一条随时间连续变化的曲线,且后一个时刻与前一个时刻之间的变化量是服从正态分布的,因此,出现突变的可能性极小。而对于成功率与响应时间,根据第一问可得,法定节假日与工作日不存在显著性差别。因此还是利用基于距离和偏差的异常数据检测方案。1同时我们通过建立预测模型,预测每一时刻的数值并与上述异常检测方案中确定的正常区间比较,来求得虚警误报率,以此验证该模型的准确性,达到题目中要求的减少虚警误报的情况。2.3问题三的分析针对问题三,题目要求我们拓展数据并对第二问提出的异常数据检测方案进行改进。 ATM机的交易系统包含有前端和后端的网络传输。假定分行侧网络传输节点故障,使得前端交易无法上送请求,导致整体应用系统发生故障。为了更好的检测该故障,我们引入网络负载率进行分析拓展。当ATM机的数据中心后端处理系统异常出现故障时,会引起交易处理缓慢,从而导致系统崩盘。为此,我们设立了响应率来进行拓展分析。在我们检测故障的时候,会发现在该故障所处的一段时间内都为故障点,即该时间段为系统的故障修复时间。所以我们需要考虑每种故障的修复时间来更加精准的检测系统故障。增加把每笔交易金额的数量,可以很好的提高异常检测的正确率,提高交易的正常水平,所以通过交易金额检测系统故障。所以我们设立了网络负载率、响应率、每种故障的修复时间及交易金额这四个拓展数据和交易量、成功率、响应时间同时进行考虑和分析,来对异常数据挖掘方案进行改进。三.模型假设1、响应时间仅与ATM交易数据速度有关,而与持卡人的操作水平无关。2、假设仅考虑该银行ATM机前后端系统应用程序故障。3、假设交易量差异仅与工作日(非工作日),节假日(非节假日)有关,不存在洗钱等行为。4、假设该银行数据中心统计数据准确,无误。四.符号说明符号说明平均值偏差标准差第时刻的交易量第时刻的成功率第时刻的响应时间异常度时刻交易量的变化量五.模型建立与求解5.1特征参数的选择,提取和分析5.1.1特征参数的选择问题一要求我们选择、提取和分析ATM交易状态的特征参数。特征参数是用于表征物质或现象特性的参数信息,是一组数据的数理特征,有别于题中所给的交易量,成功率和响应时间三个指标,因此,我们选择每个时刻ATM机交易量、成功率和响应时间的平均值和标准差作为特征参数进行提取和分析。1、特征参数为的平均值, (1)其中为;表示三个指标样本数目;分别表示时刻交易量、成功率、响应时间;分别表示时刻的交易量、响应时间、成功率的平均值。 2、 特征参数为的标准差, (2)分别表示时刻的交易量、响应时间、成功率的标准差。5.1.2 特征参数的提取与分析一天当中有1440个时间点,需要对每个时间点进行特征参数的提取与分析。现我们提取了每个时间点的交易量、成功率、响应时间的特征参数。根据题中工作日与非工作日的存在差别的要求,将附件中数据分为春节前、春节、清明小长假、周六日及工作日五类进行分别提取。由于每个时间点提取分析方法一样,我们取任意时刻(如:10:50)求取特征参数如下: 表一:时刻10:50特征参数表交易量成功率响应时间春节前均值2350.40.9666.12标准差283.60.012.11春节均值8140.9582.85标准差178.50.012.93三天假期均值957.670.9677.1标准差28.520.010.977周六日均值10820.9680标准差116.80.0067.85工作日均值1062.790.9682.03标准差120.90.018.93通过对该时刻特征参数计算结果的分析可知:(1)除春节外,其余各种节假日的交易量均比工作日低,而春节前的交易量则比工作日大很多。因为各种假期,随着人们放假、外出,导致业务量减少。而对于春节前,由于置办年货等,开销增大,ATM机的业务量也随之上升。(2)对于成功率,各种节假日及工作日的成功率都相差不大,且成功率较高,都在0.96附近,标准差接近0,也较稳定。(3)对于响应时间,各种节假日及工作日的响应时间都相差不大,正常范围在7090毫秒之间。除该时刻外,我们对其余时刻特征参数进行计算分析后,得出了与上述相同的结论5.1.3假设检验两总体的方差未知,因此应利用利用两个正态总体参数的假设检验对两个样本总体期望比较。当样本数量较多(一般数据量大于40)时,统计量趋向于统计量,故现进行假设检验。7欲检验假设, 将上表数据带入 (3)可得,春节前、春节、清明小长假、周六日每个时刻与对应工作日的每个时刻统计量的观测值。取任意时刻(如:10:50)U值观测值: 表二:10:50统计量U值观测值与工作日的U值交易量春节前10.0702春节-3.3325三天假期-4.5564周六日0.272成功率春节前0春节-0.2328三天假期0周六日0响应时间春节前-10.458春节0.4853三天假期-3.7351周六日-0.9724在本题中,我们选取,查正态分布分位数表可得:当,即观测值落在拒绝域内时,故拒绝原假设,认为两组数据存在显著性差异;当,即观测值落在拒绝域外时,故接受原假设,认为两组数据不存在显著性差异。因此,由该时刻的U值综合分析可得:(1)对于交易量春节前、春节、清明三天小长假与工作日存在显著性差异,而周六日与工作日不存在显著性差异。故可推知,在国家法定节假日与春节前,交易量较工作日存在差别,其他则为工作日的正常交易量水平;(2)对于成功率而言,春节前、春节、清明三天小长假与工作日不存在显著性差异;(3)春节前的响应时间与正常工作日存在显著性差异,而其他则与工作日不存在显著性差异。除该时刻外,我们对其余时刻U值进行计算分析后,得出了与上述相同的结论5.2ATM交易异常数据检测方案问题二要求我们设计一套交易状态异常检测方案,在对该交易系统的应用可用性异常情况下能做到及时报警,同时尽量减少虚警误报。针对题目中提到ATM可能存在的四种故障,我们分析得:这些故障最终都是通过业务量、成功率、响应时间反应出来的。由此,我们以问题一中提取的特征参数为依据,对这些异常进行刻画。由问题一中的分析可得,工作日与非工作日的交易量存在显著性差异,表现在国家法定节假日的交易量等与工作日存在显著性差别。因此,分别提出对工作日和法定节假日的异常数据检测方案。对于工作日异常数据检测,由于工作日数据较多,因此我们运用基于距离和偏差的异常数据点检测方案。对于法定节假日的异常数据检测,由于其某时刻的交易量数据较少,且与工作日存在显著的差异性。因此,我们选择用基于距离与偏差的异常数据检测方案。5.2.1 异常数据检测模型的建立由第一问对两个样本的总体均值的假设检验可知:工作日(正常工作日与周六周日)与法定节假日(春节、小长假、春节前夕等)存在显著性差别,因此,分别确定工作日与法定节假日的异常检测方案。(1)工作日异常点数据检测方案模型建立对于工作日,由于其数据量比较大,数据的普遍性较强,偶然性较弱。因此,我们建立了基于距离和基于偏差方法的异常检测模型。3首先我们建立基于距离的异常数据点检测模型。设表示时刻的交易量,表示时刻的成功率,表示时刻的响应时间。由于之间单位及数量级之间存在较大差异,所以需要对其进行标准化: (4) (5) (6)而此时,标准差定义临界异常度常数,其均表示一组数据的临界异常程度。对于可疑度,可以用标准差来描述,即: , ,为常数其中: (7)当 (8)时,可认为有可能出现异常。其次,我们建立基于偏差的模型。定义为交易量、成功率、响应时间与各自正常水平的偏差,即 (9) 当 (10)时,可认为可能出现异常。(2)法定节假日异常数据点的检测方案模型建立对于法定节假日,由上述假设检验可知交易量较工作日有显著性差别,而成功率与响应时间较工作日不存在显著性差别,因此可将交易量与成功率、响应时间引起的异常分开进行检测。对于交易量,由于数值连续性强,因此我们建立基于邻域数据变化的异常点检测模型方案。而对于成功率与响应时间,我们依旧运用基于距离与偏差的异常检测点方案。4对于非工作日的由于交易量引起的异常,运用基于邻域数据变化的异常点检测模型方案,其侧重于寻找局部异常点。其理论是,每天的交易量随时间变化是连续的,交易量随时间的变化应该是一条光滑连续的曲线,出现突变点的概率几乎为0;因此出现突变点,其极可能出现异常,特别是对于出现骤降的数据。因此,我们计算后一个时刻与前一个时刻的变化量:5 (11)当大于某一值时,即时刻比时刻下降太多时,时刻就是异常可疑点,定义为异常度,它表示某时刻的临界异常度。因此,当 (12)时,可认为该点位异常点。而对于非工作日由于成功率与响应时间引起的异常,运用基于距离与偏差的异常检测点方案。由于单位及数量级存在较大差异,所以需要对其进行标准化: (13) (14)即当 (15)时,该点为可疑点。对于查找出的可疑异常点,我们运用基于偏差的方法进一步检测,即当 (16)时,该点就可以被认为可能是异常点。6(3)临界异常度的确定对于在上述模型中定义的临界异常度常数,其表示每组数据的临界异常程度,为确定异常度值大小,我们需要将对应每组数据进行正态性检验。7单样本的K-S检验可以用来检验某一样本数据分布是否与正态分布相吻合,方法简单,快速。在这里,我们通过单样本的K-S检验进行数据的正态性检验。K-S检验过程如下:8 建立原假设:非工作日交易量变化量呈正态分布。:非工作日交易量变化量不呈正态分布。 我们假定非工作日交易量变化量经验分布为正态分布,并设为该组数据的经验分布函数,定义为阶梯函数: (17)的值小于等于x。将中的数据从小到大排列,计算经验累积分布和理论累积分布,记作 (18)构造K-S检验统计量,最终求得P值,求解过程如下:将五组数据通过Excel计算出来,然后导入到SPSS当中,分开进行单样本的K-S检验,求得对应的P值。2表三:非工作日交易量SPSS处理数据表样本数平均值标准偏差P值春节前57590.0119.4910.125春节期间10073-0.0122.9430.169正常节假日4320-0.0124.0460.108 在这里我们取显著性水平为SPSS中的默认值为0.05。SPSS计算得非工作日交易量的P值即显著性水平为分别为0.125,0.169,0.108,均大于0.05,则不能拒绝,即认为三种情况下非工作日交易量变化量呈正态分布。同理,我们对四组数据采取同样的方法进行正态性检验,结果见下表,表四:对进行的K-S检验P值异常度对应数据P值0.0740.2000.2000.066若值过大,或显著性值太小,则拒绝原假设;反之,不能拒绝。我们发现各异常度对应数据得出显著性水平P值均大于0.05,由此可认为五组数据均服从正态分布。对于临界异常度,我们根据原则,由于在工程中,常取作为正常数据的随机误差区间,即当数据处于之外时,可认为该数据并非随机误差,而属于异常数据,即数据对应时刻ATM机发生异常。5.2.2异常数据点的求解(1)工作日异常数据点的检测方案模型求解一天当中有1440个时间点,我们需要对每个时间点进行数据异常点的检测来验证上述异常检测方案。 我们取每天任意时刻(如:10:50)的三个指标,利用SPSS对该时刻的数据标准化后,对于式(9),根据原则取为3,,对于各个特征点,其基于距离的异常检验的分析,编写程序有MATLAB求解可得到效果图如下: 图二.10:50异常检测图 在图中,球心是原点,表示交易量、成功率及响应时间的正常水平,而球面表示异常度K,越靠近球心,说明它越正常,图中大部分的点都是落在球心附近的。它远离球心,表明它某个或某几个因素偏离其对应的正常水平,即表现异常。对于式(8),可以取为3,得到球的半径为,即异常度为,因此我们可以认为,在球心外面的为异常可疑点,需要根据式(10)来进一步判断其是否为异常点。可以筛选出来的部分可疑异常点如下表:表五:部分工作日可疑异常点数据序号日期时间交易量成功率响应时间标注化交易量标准化成功率标准化响应时间d1032010501,1080.9585107.79 0.3576 0.2803 3.0086 3.0427 2032110501,0980.9636108.43 0.2747 1.0535 3.0815 3.2682 3032210509650.9585109.50 -0.8275 0.2803 3.2033 3.3203 40417105011080.9675104.720.3576 1.6447 2.6590 3.1469 5041910509910.9576107.81-0.6120 0.1439 3.0109 3.0758 60416105011370.9437103.50.5979 -1.9632 2.5201 3.2500 根据式(10),利用基于偏差检测的方法,对找出的可疑点进行检测。当某个时刻交易量比正常水平的交易量小于临界异常度时,在该时刻,有99.7%的概率被认为是异常数据。同理,当成功率比正常成功率小于、交易响应时间比正常响应时间大于,99.7%的概率可判断该时刻出现了异常。从可而找出,ATM机交易的异常时刻。由此,可以推知题中所给数据的部分异常点,如下:表六:部分工作日典型异常点数据序号日期时间交易量成功率响应时间10208034640.51306202090217170.76476735.12302090228180.72226310.94403230051170.058853542.94503230052220.136449017.5603230053150.133349592.7370323005414057210.64803230055180.055653889.44903230056120.166747396.75100207044660.5100.5110207044720.5100120222040850.61011303230103420.547688.86由此便可得到所有时刻的异常数据。表中1、10、11、12组数据交易量出现了陡降,而导致了异常;49组数据中,因成功率较低且响应时间长而出现了异常;1013组因成功率较低而异常; 2、3组数据因响应时间过长而出现异常; (2)非工作日异常数据点的检测方案模型求解 利用节假日的异常数据检测方案,可以找出一些异常数据,如下表:表七:部分非工作日异常点数据序号日期时间交易量成功率响应时间1012617182,3890.961566.235012610212,8810.962562.45601230342130.769298.921101230217240.791794.423602020404140.7857973701282244820.98781328.28380128044740.75687.253901280628170.9412522.12400402041224.000.6798.96430402025412.000.7591.674404020845934.000.94847.544504031746903.000.96801.28表中数据为法定节假日春节、春节前(因假设检验得出其交易量等与正常工作日的存在显著性差异)小长假的异常数据。表中1-5组中为交易量异常,其表示该时刻的交易量较前一个时刻出现了骤降突变,骤降突变大于了平均变化的,因此,被检测为异常数据。而对于6-36、38、40-43组为成功率异常,其成功率普遍在0.8以下,较平均水平0.95相差大于,因此其99.7%的概率被确认为异常数据。而37-39组中,其响应时间较正常情况下的时间来说过长,有的甚至达到了1328.28,较正常水平相差大于,因此这些数据被认为是异常数据。5.2.3虚警误报率模型的建立与分析对于上述提到的异常数据检测方案,我们通过建立预测模型,预测每一时刻的数值并与上述异常检测方案中确定的正常区间比较,来求得虚警误报率,以此验证该模型。(1)时间序列模型的建立。时间序列是按时间顺序排列的、随时间变化且相互关联的一组数据序列。通过作交易量的散点图,发现交易量随时间作周期性变化,故考虑建立时间序列模型来进行预测。首先,对交易量的数据进行预处理,然后选择合适的方法建立时间序列模型。时间序列的预处理 通过绘制交易量的序列图、样本自相关系数图等对其进行直观分析和相关分析:图三:交易量的序列图从图中可以看出,该序列有明显周期性,且随时间按一定规律变化。然后SPSS软件进行相关性分析,如下表所示;表八:交易量的相关性分析落後自動相關性平均數的錯誤aBox-Ljung 統計資料數值df顯著性b1.996.00544296.0431.0002.996.00588538.8092.0003.995.005132743.4813.0004.995.005176920.7164.0005.994.005221072.5355.0006.994.005265195.7906.0007.994.005309290.8147.0008.993.005353352.0728.0009.993.005397378.8569.00010.993.005441367.62210.00011.992.005485312.23311.00012.992.005529216.33412.00013.991.005573080.11813.00014.991.005616896.14014.00015.990.005660658.72815.00016.989.005704374.03016.000a. 採用的基本處理程序是獨立的(白色雜訊)。b. 基於漸近線卡方近似值。从表中可以得出:在SPSS中给出了不同滞后期的样本自相关系数的值(自相关系数列),样本自相关系数的标准误差(标准误差列),以及Box-ljung 统计量的值、自由度和相伴概率。通过标准误差值以及Box-ljung 统计的相伴概率都可以说该时间序列不是白噪声,是具有自相关性的时间序列。在SPSS中画出了自相关系数图。图中的横轴为滞后期,纵轴为样本自相关系数。图中用条形形状来表示样本自相关系数,并画出了95%的置信上下限的线条。图四:交易量的自相关系数图从图中可以看出该时间序列的自相关系数较平稳的,其衰减速度比较慢,不是平稳时间序列。时间序列预测模型的建立通过上述分析,我们采用指数平滑法进行建立模型:而初始值:对于比例系数,因为此时间序列具有迅速且明显的变动倾向,则应取大一点,如(0.6-0.8),使预测模型灵敏度高一些,以便迅速跟上数据的变化。虚警误报率模型的建立 通过SPSS对附件中的数据的交易量进行预测,则可以得到每一时刻的预测值,将某一时刻的预测值与该时刻正常水平范围进行比较,从而建立虚警误报率的模型:现随机抽取一些时刻点,对模型进行检验,结果如下表所示:表九:数据的统计预测正常预测异常实际正常127614实际异常1230在抽取的1332个数据点后,进行检验,其中预测该时刻正常而实际也正常的有1276个数据点,预测异常而实际正常(即虚警)的数据点有14个,预测正常而实际异常(即误报)的数据点的数据点为12个,预测异常实际也是异常的数据点为30个。根据上述数据,可求得虚警率、误报率、正常报告率如下表所示:表十:虚警误报率虚警率0.011误报率0.009正常报告率0.980从表中可以得出,正常汇报率的概率高达0.98,而虚警率、误报率则分别为0.011、0.009,所以我们的模型能及时起到预测报警的作用。(2)虚警误报率的降低在异常检测方案中,其临界值是根据标准差确定的,当增大标准差前面的系数时,犯错误的概率得到降低。因此,可通过增大的系数及提高值来降低虚警误报的概率。同时,预测的准确性也会影响虚警误报率的大小,因此,正确的预测也是降低虚警误报率的一种可靠途径。5.3 拓展数据及检测方案的改进问题三要求我们在一、二问的基础上,设想可增加的数据,为减少在对该交易系统的应用可用性异常虚警误报的情况,提升异常检测方案的性能。因此,我们通过设立网络负载率、响应率及每种故障的修复时间来对异常数据挖掘方案进行改进。5.3.1 数据的拓展(1)网络负载率ATM机的交易系统包含有前端和后端的网络传输。假定分行侧网络传输节点故障,使得前端交易无法上送请求,导致整体应用系统发生故障。为了更好的检测该故障,我们引入网络负载率进行数据拓展。网络负载率是描述当前网络状态的重要标志。我们定义: (23)如果交易时网络负载率是0,就意味着网络属于完全空闲状态,即前端交易无法上传请求;而当网络负载率为100%时,网络已经满负荷运转,即传输网络出现故障。(2)响应率当ATM机的数据中心后端处理系统异常(如操作系统 CPU 负荷过大)出现故障时,会引起交易处理缓慢,从而导致系统崩盘。为此,我们设立了响应率来进行拓展分析。定义如下: (24)ATM机交易过程中,响应率越高,则说明系统越正常。但当响应率低于一定值的时候,系统检测出异常,即数据中心后端处理系统异常。(3)每种故障的修复时间在我们检测故障的时候,会发现在该处的一段时间内都为故障点,即该时间段则为系统的故障修复时间。所以我们需要考虑每种故障的修复时
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030中国电弧喷涂涂料行业市场占有率及投资前景评估规划研究报告
- 地铁给排水专业试题及答案
- 题库学习用电安全及答案解析
- 期货从业资格考试投资及答案解析
- 肺癌护理题简答题题库及答案解析
- 安全b证新题库及答案解析
- 安徽省安全a证题库及答案解析
- 2025年育婴师试卷及答案
- 药品培训考试试题及答案
- 安全电气考试题及答案
- 人教版四年级数学上册 第八单元 优化 田忌赛马 课件
- 放化疗相关口腔黏膜炎预防及处理中华护理学会团体标准
- 脚手架知识试题集及答案
- 融资租赁信用评估体系构建-全面剖析
- 英语四级+六级词汇大全(带音标)
- 《透视画法基础:艺术绘画基础课程教案》
- 社会治安综合治理中心规范化建设推进会
- 全套设备安装施工记录表
- 质量保证部三年发展规划
- 2025年消防执业资格考试题库(专业技能提升题)-实操技能模拟试题
- GB/T 15180-2025重交通道路石油沥青
评论
0/150
提交评论