已阅读5页,还剩75页未读, 继续免费阅读
(计算机应用技术专业论文)etc系统客户数据异常检测方法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着经济的发展,汽车运输量大幅度提高,在路车辆也越来越多,从而使传 统的人工收费和半自动收费方式,越来越难以满足收费公路运营和管理的要求, 在收费出入口处经常因收费效率低下而引起严重的交通阻塞和车辆延误,造成惊 人的经济损失。为了解决这一问题,各国正积极开发电子收费系统,并已进入实 用阶段。电子收费虽然会减少收费作弊以及逃费的行为,但是仍然不可避免。单 纯采用硬件检测的方法既增加了建设成本,又不能充分的利用公路管理部门储存 的e t c 系统客户的海量信息。因此如何更多的了解客户的信息,并将这种信息转 变成知识,从而更好的为客户提供高质量的服务,保持和发展高价值的客户,降 低客户流失率,检测逃费和欺诈客户将成为高速公路客户管理的一个紧追课题。 新兴的数据挖掘技术能够从海量的存储数据中发现一些未知的、有价值、潜在的 规律,无疑为高速公路管理和服务提供了强有力的支持。 本论文重点对高速公路e t c 系统客户的开户行的账单记录以及高速公路收 费记录的调查研究和采集到的数据信息进行模拟分析,发现e t c 系统客户异常行 为的方法,及时发现流失、逃费以及欺诈的客户。然后通过数据挖掘的多种方法, 找出它们在数据上的表现形式,以便采取必要的措施杜绝或减少逃费欺诈现象, 减少通行费和客户的流失,实现科学、合理、高效的管理。 本论文的主要研究内容如下: ( 1 ) 将数据挖掘引入到国内高速公路的e t c 系统业务的分析中。主要是对 数据异常检测中的一些应用。 ( 2 ) 采用一种改进的b p 神经网络算法预测e t c 系统客户是否流失。 ( 3 ) 采用一种模糊聚类和c 均值聚类方法相结合的方法和提出一种基于稳 定遗传算法的神经网络模型,用来预测e t c 系统客户是否有逃费行为。 ( 4 ) 提出一种改进的模糊i d 3 算法以及采用回归分析算法判断e t c 系统客 户是否有欺诈行为。 关键字:数据挖掘、不停车收费、异常检测、遗传算法、神经网络、决策树、回 归分析、聚类分析 w i t ht l l ed e v e l o p m e n to f e c o n o m y , t h et r a f f i cq u a n t i t i e so fv e h i c l ea r ei n c r e a s i n g l a r g e l ya n dt h e r ea r em o r ea n dm o r ec a r so nt h er o a d ,s ot h a ta r t i f i c i a lt o l l c o l l e c t i o n a n dh a l fa u t o m a t i ct o l l c o l l e c t i o na r eh a r dt ob es a t i s f i e dw i t ht h e o p e r a t i o na n d m a n a g e m e n tr e q u e s to ft o l l c o l l e c t i o n s e r i o u st r a f f i cb l o c ka n dt r a f f i cd e l a yb e c a u s e o fl o wt o l le f f i c i e n c yi nt h ep a s s a g e w a yo ft o l ls t a t i o nc a u s es t r i k i n ge c o n o m y l o s i n g i no r d e rt os o l v et h i sp r o b l e m ,e a c hd e v e l o p e dc o u n t r i e sa r et r y i n gh a r dt o o p e nu p e l e c t r o n i ct o l lc o l l e c t i o ns y s t e m ,a n dh a v ec o m ei n t op r a c t i c a ls e g m e n t t o l lc o l l e c t i o n a l t h o u g hc a r ld e c r e a s et h ea c t i o no ft o l lf r a u da n de s c a p e dt o l l ,b u ti ti si n e v i t a b l y s i m p l eu s i n gh a r d w a r e d e t e c t i o nn o to n l yi n c r e a s e sc o n s t r u c tc o s t ,b u ta l s oc a l l tm a k e f u l lu s eo f l a r g ei n f o r m a t i o no f e t c s y s t e mc u s t o m e r t h a ti ss t o r e di nt h e m a n a g e m e n t d e p a r t m e n to fe x p r e s s w a y s h o wt of u r t h e rk n o wi n f o r m a t i o no ft h ec u s t o m e r , m a k e t h ei n f o r m a t i o nc h a n g ei n t ok n o w l e d g e ,f u a h e r m o r ep r o v i d eh i g l lq u a n t i t ys e r v i c et o c u s t o m e r s ,k e e p a n d d e v e l o ph i g h v a l u ec u s t o m e r s ,d e c r e a s i n gc h u mr a t eo fc u s t o m e r , c h e c k i n ge s c a p e dt o l la n d f r a u dc u s t o m e r sh a v eb e c o m ei n t oa l lu r g e n tp r o b l e mt ot h e e x p r e s s w a yc u s t o m e rr e l a t i o n s h i pm a n a g e m e n t r i s i n gd a t am i n i n gt e c h n o l o g yc a l l f i n ds o m eu n k n o w n ,v a l u a b l e , p o t e n t i a lr u l e sf r o ml a r g ed a t i tp r o v i d es t r o n g l y s u p p o r t f o re x p r e s s w a y s m a n a g e m e n t a n ds e r v i c e t h i sp a p e rm a k e s e m p h a s e sa n a l y s i so na c c o u n tb a n kd a t aa n de x p r e s s w a yt o l l d a t ao fe t c s y s t e mc u s t o m e r , t of i n dt h em e a s u r e o fa b n o r m a la c t i o nt oe t c s y s t e m c u s t o m e r , a n df i n di nt i m ee s c a p e da n df r a u dc a ra n dp e o p l e ,a n dt h e nb yu s i n gs o m e k i n d so f m o d i f i e dd a t am i n i n gm e a s u r e sw ec a l lf f m db e h a v i o rf o r m a to f d a t a ,i no r d e r t ot a k ee s s e n t i a lm e a s u r et oa v o i do rd e c r e a s ee s c a p e da n df r a u da c t i o n ,a n dd e c r e a s e c h u mo fp i k ea n dc u s t o m e r s ,a n dr e a l i z es c i e n t i f i c ,r e a s o n a b l ea n dh i g l le f f i c i e n t m a n a g e ;m e n t t h e m o s t l y r e s e a r c hc o n t e n ti nt h ep a p e ri sa sf o l l o w s : ( 1 ) m a k i n g d a t am i n i n gi n t oa n a l y s i so fe t c s y s t e mo p e r a t i o ni n o u rc o u n t r y s e x p r e s s w a y t h a t i sm o s t l y a p p l i c a t i o no fa n o m a l y d a t ad e t e c t i o n ( 2 ) a d o p t i n g am o d i f i e db pn e u r a ln e t w o r k a l g o r i t h mi su s e df o r e c a s tw h e t h e r o r n o tc h u r na b o u te t c s y s t e m c u s t o m e l ( 3 ) a d o p t i n gc o m b i n a t i o na n a l y s i sa l g o r i t h mo fam o d f i e df u z z yc l u s t e r i n ga n d i l l c - m e a n sc l u s t e r i n ga n dp u t t i n gf o r w a r dan nm o d e lb a s e do ns t a b l eg aa r eu s e dt o f o r e c a s tw h e t h e ro rn o th a v ee s c a p e dt o l la c t i o na b o u te t c s y s t e mc u s t o m e r ( 4 ) p u t t i n gf o r w a r dam o d i f i e df u z z y1 1 ) 3a l g o r i t h ma n da d o p t i n gl i n er e g r e s s i o n a l g o r i t h mj u d g e w h e t h e ro rn o th a v ef r a u da c t i o na b o u te t c s y s t e m c u s t o m e r k e y w o r d :d a t a m i n i n g ,e t c ,a n o m a l yd e t e c t i o n ,g a , n n ,d e c i s i o nt r e e ,r e g r e s s i o n a n a l y s i s ,c l u s t e r i n ga n a l y s i s i l l 长沙理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特另, j 3 n 以标注引用的内容外,本论文不包含任 何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡 献的个人和集体,均己在文中以明确方式标明。本人完全意识到本声明的 法律后果由本人承担。 作者签名:月日期磷,月参7 e l 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权长沙理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存 和汇编本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密口。 ( 请在以上相应方框内打“”) 作者签名:习矗骑羊 日期尹哗j 一一月7 1 日 导师签名:叫锋减 日期:2 一f 年5 月臼 1 1 研究背景 第一章绪论 本选题来源于联网收费系统数据信息综合应用研究项目,属于国家“十 五”科技攻关项目跨省市国道主干线电子( 收费) 支付研究与应用。 伴随着经济的发展,交通量不断的增长,在一些建成的收费站,服务时间与 服务水平已愈来愈不能满足要求,因此收费站已成为高速公路一个主要瓶颈【1 l 【2 1 。 据i s o t c 2 0 4 中国委员会统计资料,仅广州地区停车等待交费损失的车时就达数 百万小时,由此导致的汽油浪费以亿元计算;而日本道路约3 0 的拥挤是由于停 车收费造成的,而日本东京目前因交通拥堵每年造成的经济损失约为1 2 3 0 亿美 元。在这种背景下e t c ( 电子不停车收费系统) 便应运而生。据统计e i 是人 工收费方式效率的5 8 倍【3 l ,采用不停车收费系统,可以使车道收费过程完全自 动化,并大大提高公路的通行能力和服务水平,增加车辆行驶的舒适程度,减少 车辆在排队等候中的噪声水平和尾气排放。车辆不停车通过收费口不仅使道路的 通行能力得以充分发挥,而且有利于提高车辆的营运效益。并且不停车收费使公 路收费走向无纸化,无现金化管理,可以很大程度上堵塞收费票款流失的漏洞, 解决公路收费中的财务管理混乱问题。另外,实施不停车收费系统,从长远来讲, 还可以节约基建费用和管理费用。它是未来道路收费系统的主流趋势f 4 l o 采用不停车收费系统给顾客一个选择付费方式如现金、支票、智能卡的机会。 对于使用智能卡的顾客,可从智能卡账户上自动转账,因此免去了顾客为收费不 断补充资金的繁琐事情f ”,马来西亚发展的智能卡还可用于公车、公用电话等方 面。顾客每月都能收到付费的详细清单,因此不必去索要收据。由于电子收费技 术相对于传统收费技术有其显著的优点,其受关注程度逐渐增长,并且随着其技 术的完善和推广,e t c 系统客户将逐渐增多,其市场也将不断扩大。但是在很长 的一段时间中,e t c 系统客户的经营和管理仍只处于不完善阶段,电子收费硬件 设施改造也需要一定的时间,在e t c 系统客户中也就不可避免的出现一些流失、 逃费和欺诈客户。客户的流失会造成交通流的大量转移,引起交通拥挤:客户逃 费和欺诈主要是通过利用一些非法手段获得不合法的服务,造成通行费的大量流 失。 现有的方法主要是通过硬件检测的方法来避免或减少通行费的流失,既增加 了建设成本,又没有充分的利用e t c 系统客户数据进行软件检测。这些资源由上 端管理机进行管理,由监控部门所掌握。计算机管理的优越性就体现在对庞大、 纷繁的数据资料能够进行有效管理和便捷处理上。在稽查活动中,必须充分利用 这一优势条件。而新兴的数据挖掘技术能够从海量的存储数据中发现一些未知 的、有价值、潜在的规律,这为我们建立科学的稽查分析系统,以实现对大量原 始数据资料的充分利用,提高高速公路管理和服务水平提供了强有力的支持。 由于e t c 系统的发展仍处于起步阶段,客户流失、逃费和欺诈问题还没有引 起人们的重视,因此在这方面的分析很少。本文主要借鉴其他行业上的分析方法, 引入到e t c 系统中,建立e t c 系统客户模拟数据库,针对客户的流失、逃费和 欺诈行为进行研究,发现e t c 系统客户流失、逃费和欺诈的方法,找出它们在数 据上的表现形式,通过模拟数据建立模型,提取规则,以减少通行费和客户的流 失,提高高速公路的营运效益。 1 2 研究目的 本论文的目的主要有两点: ( 1 ) 事前预测。随着e t c 系统的发展,虽然在一定程度上避免了传统的一 些收费贪污欺诈的方法,但是也出现了一些新的逃费欺诈方法,。降低了高速公路 的运营效益。传统的硬件检测方法,不但造价昂贵,而且容易产生故障以及对车 辆的识别能力也受到一定程度上的限制,不能对高速公路和开户行存储的历史数 据进行充分的运用。本文我们采用数据挖掘的方法,不但可以降低检测成本,而 且可以对e t c 系统客户的数据进行异常分析,找出它们在数据上的表现形式,发 现规律,针对e t c 系统客户流失问题、逃费闯题以及欺诈问题进行预测与防范, 为高速公路稽查人员和管理人员的决策提供可靠的参考标准。 ( 2 ) 事后评估。我们通过数据挖掘的方法对e r i c 系统客户进行流失分析、 逃费分析和欺诈分析,就可以建立分析模型。通过分析模型,我们就可以根据收 集到的e t c 系统客户数据分别进行流失分析、逃费分析和欺诈分析,发现历史数 据中具有较大的流失、逃费和欺诈嫌疑的客户,通过对软件检测结果和硬件检测 记录进行分析,检测出硬件检测方法漏掉的异常数据样本。对此类样本对应的客 户我们就可以记录在案,通知高速公路稽查人员追缴通行费,并在以后的检测 过程中要对其进行重点检测与分析。 1 3 研究内容 根据上述讨论的研究目的,可以知道本论文的研究内容包括以下几点: 1 高速公路e t c 系统客户流失分析。详细研究了如何建立e t c 系统客户流 失基本模型。通过对客户的基本数据进行神经网络预测,可以发现描述流失客户 基本特征的属性值集合以及对应的是否流失结论。 2 高速公路e t c 系统客户逃费分析。我们首先通过调查分析现有的客户逃 费的方法,然后对这些方法进行分析,确定逃费行为与那些数据属性相关联,再 通过模糊c 均值算法和遗传神经网络算法确定逃费用户。 3 高速公路e t c 系统客户欺诈分析。通过分析客户的行为特征和开户行与 顾客联系的时间、地点、方式、费用开支、给予的优惠、提供服务记录、合作与 支持行动、为争取和保持每个客户所作的其他努力和费用等方面的数据,提取与 欺诈行为相关的数据属性,利用数据挖掘中的模糊决策树算法以及线性回归方法 分析客户是否有欺诈的行为。 1 4 主要创新点 本文采用理论与实证相结合,定性与定量相结合的研究方法。在阅读大量文 献的基础上,结合实际调研、调查以及相关数据的挖掘分析,对现有的异常检测 算法分析的同时提出了一些改进,应用于e t c 系统客户数据分析中,建立了数据 挖掘的模型进行异常分析。 本论文的主要创新点如下: ( 1 ) 将数据挖掘引入到国内高速公路的e t c 系统业务的数据分析中。主要 是对数据异常检测中的一些应用。 ( 2 ) 结合模糊c 一均值聚类和c 均值聚类分析方法,检测出数据中的异常点, 从而对该类异常点进行重点分析。并提出了一种基于改进的稳定遗传算法的神经 网络模型,用来预测e t c 系统客户是否有逃费行为。 ( 3 ) 提出一种改进的模糊决策树算法,基于最优分割熵模糊化后,建立模 糊决策二叉树模型,并利用产生的规则来判断e t c 系统客户是否有欺诈行为。 1 5 研究章节结构及流程 本文共分为六章。 第一章是绪论,主要介绍了论文的研究背景、目的、内容、创新点以及论文 3 流程。 第二章首先对数据挖掘理论进行了回顾,然后介绍常用的异常检测算法,再 对数据挖掘在客户关系管理中的应用作了简要介绍,最后对我国高速公路电子收 费的现状作了简要地分析。 第三章建立了高速公路e t c 系统客户的流失分析模型,采用改进的神经网络 方法。 第四章建立了高速公路e t c 系统客户的逃费分析模型,采用改进的模糊c 一 均值聚类和基于改进稳定策略的遗传神经网络方法。 第五章建立了高速公路e t c 系统客户的欺诈分析模型,采用改进的模糊决策 树和多元线性回归方法。 第六章是论文的总结与展望。 总结研究的流程如图1 ,1 所示: 研究范围与目的 文献回顾 数据挖掘理论i 异常检测理论1i 客户管理理论l 电子收费理论 数据的获取与处理 客户流失分析j;客户逃贽分析,客户欺诈分析 神经网络 if 稳定饕鬻蠢耋网络f8 l i ; 曹孑 图1 - 1e t c 系统客户异常数据分析功能图 第二章文献回顾 2 1 数据挖掘理论综述 数据挖掘技术始于2 0 世纪8 0 年代,是数据库技术的进一步扩展。数据库系 统的广泛流行以及计算机技术的快速发展使得人们收集数据的能力大大提高。 特别是随着网络系统的流行更使得数据和信息爆炸性增长。大量信息在给人们带 来方便的同时也带来了一大堆问题【6 】:第一是信息过量,难以消化:第二是信息 真假难以辨识;第三是信息安全难以保证;第四是信息形式不一致,难以统一处 理。人们开始考虑如何才能不被信息淹没,而是从中及时发现有用的知识、提高 信息利用率? 在这种情况下,数据挖掘( d a t am i n i n g ) 概念和技术应运而生。 2 1 1 数据挖掘的定义 技术上的定义:数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声 的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、 但又是潜在有用的信息和知识的过程。 这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现 的是用户感兴趣的知识;发现的知识可接受、可理解、可运用;并不要求发现放 之四海皆准的知识,仅支持特定的发现闯题。 商业角度的定义:数据挖掘是一种新的商业信息处理技术,其主要特点是对 商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提 取辅助商业决策的关键性数据。 简而言之,数据挖掘其实是一类深层次的数据分析方法【”。数据分析本身已 经有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究,另外, 过去由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很 大限制。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据, 这些数据不再是为了分析的目的而收集的,而是由于纯机会的( o p p o r t u n i s t i c ) 商业运作而产生。分析这些数据也不再是单纯为了研究的需要,更主要是为商业 决策提供真正有价值的信息,进而获得利润。但所有企业面临的一个共同问题是: 企业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过 深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样, 数据挖掘也因此而得名。 5 因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行 探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的 先进有效的方法。 2 1 2 数据挖掘用到的技术 ( 1 ) 决策树方法【8 1 。 利用信息论中的互信息( 信息增益) 寻找数据库中具有最大信息量的字段,建 立决策树的一个结点,再根据字段的不同取值建立树的分支;在每个分支子集中 重复建立树的下层结点和分支的过程,即可建立决策树。国际上最有影响和最早 的决策树算法是q u i u l a n 研制的i d 3 方法,数据库越大它的效果越好。 ( 2 ) 神经网络方法。 它模拟人脑神经元结构,以m p 模型和h e b b 学习规则为基础,用神经网络 连接的权值表示知识,其学习体现在神经网络权值的逐步计算上。目前主要有3 大类多种神经网络模型。 前馈式网络。它以感知机、反向传播模型、函数型网络为代表,可用于 预测、模式识别等方面。 反馈式网络。它以h o p f i e l d 的离散模型和连续模型为代表,分别用于联 想记忆和优化计算。 自组织网络。它以a r t 模型、k o h o l o n 模型为代表,用于聚类。 ( 3 ) 覆盖正例排斥反例方法。 它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合 中任选一个种子,到反例集合中逐个比较,与字段取值构成的选择子相容则舍去, 相反则保留。按此思想循环所有正例种子,将得到正例的规则( 选择子的合取式) 。 比较典型的算法有m i c h a l s k i 的a q l l 方法、洪家荣改进的a q l 5 方法以及他的 a e 5 方法。 ( 4 ) 粗集( r o u g h s e t ) 方法。 粗集理论主要是用上下近似集来处理不确定性问题,主要用在数据库中发现 分类规则其基本思想如下: 用户提出发现任务。由用户指定数据库中某一个或多个属性作为分类的 决策属性,根据这些属性的不同取值,将数据库中数据分成不同的类别,发现任 务就是生成这些不同类别的判定规则。 用租集理论的规则发现算法,获取分类规则。 6 ( 5 ) 概念树方法。 对数据库中记录的属性字段按归类方式进行抽象,建立起来的层次结构称之 为概念树。利用概念树提升的方法可以大大浓缩数据库中的记录。对多个属性字 段的概念树进行提升,将得到高度概括的知识基表,然后可再将它转换成规则。 ( 6 ) 遗传算法。 遗传算法是模拟生物进化的自然选择和遗传机制的一种寻优算法。它模拟了 生物的繁殖、交配和变异现象,从任意意初始种群出发,产生一群新的更适应环 境的后代。这样一代一代不断繁殖、进化,最后收敛到一个最适应环境的个体上。 遗传算法已在优化计算和分类机器学习方面显示了明显的优势。 ( 7 ) 公式发现。 在工程和科学数据库( 由实验数据组成) 中,对若干数据项( 变量) 进行一定的数 学运算,求得相应的数学公式。比较典型的b a c o n 发现系统完成了对物理学中 大量定律的重新发现,其基本思想是:对数据项进行初等数学运算( 加、减、乘、 除等) ,形成组合数据项,若它的值为常数项,就得到了组合数据项等于常数的公 式。 ( 8 ) 统计分析方法。 利用统计学原理对数据库中的数据进行分析,能得到各种不同的统计信息和 知识,它是一门独立科学,也作为数据挖掘的一大类方法。对它们的分析采用如 下方法:回归分析、相关分析、主成分分析、差异分析、聚类分析、判别分析。 ( 9 ) 模糊集方法。 利用模糊集理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊 聚类分析。模糊性是客观存在的,当系统的复杂性越高,精确化能力就越低,即 模糊性就越强。这是z a d e h 总结出的互克性原理。 ( 1 0 ) 可视化技术。 可视化数据分析技术是一种图形显示技术,使用户对数据的剖析更清楚。例 如,把数据库中的多维数据变成多种图形,这对揭示数据的状况、内在本质及规 律性起了很大作用。对数据挖掘过程可视化,并进行人机交互可以提高数据挖掘 的效果。 需要强调的是,数据挖掘技术从一开始就是面向应用的。目前,在很多领域, 数据挖掘都是一个很时髦的词,尤其是在如银行、电信、保险、交通、零售( 如 超级市场) 等商业领域。 随着人们对d m 技术更深的认识和理解以及d m 在实际应用中产生的显著经 7 济效益,d m 在各个领域中的应用迅速发展。如电讯公司、信用卡公司、保险公 司和证券公司是利用d m 检测欺诈行为:医疗应用中通过挖掘巨大的化学物质和 基因对疾病的影响的数据库来判断哪些方法可能对治疗某种疾病产生效果等等。 正因为d m 在各个领域的效果,它被列为未来三到五年内将对工业产生深远影响 的五大关键技术之一。 2 1 3 数据挖掘流程 数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的,有 效的,可实用的信息,并使用这些信息做出决策或丰富知识。 数据挖掘的基本过程和主要步骤1 9 】如图2 - 1 所示。 图2 1 数据挖掘的基本过程和主要步骤 过程中各个步骤的大体内容如下: f 1 ) 确定业务对象 清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘 的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据 挖掘则带有盲目性,是不会成功的。 ( 2 ) 数据准备 1 1 数据的选择 搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据 挖掘应用的数据。 2 1 数据的预处理 研究数据的质量,为进一步的分析作准备,并确定将要进行的挖掘操作的类 型。 3 1 数据的转换 将数据转换成一一个分析模型。这个分析模型是针对挖掘算法建立的。建立一 个真正适合挖掘算法的分析模型是数据挖掘成功的关键。 8 ( 3 ) 数据挖掘 对所得到的经过转换的数据进行挖掘。除了完善从选择合适的挖掘算法外, 其余一切工作都能自动地完成。 ( 4 ) 结果分析 解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定,通常会用 到可视化技术。 ( 5 ) 知识的同化 将分析所得到的知识集成到业务信息系统的组织结构中去。 2 2 异常检测算法综述 2 2 1 异常检测定义 r 异常检测是数据挖掘【1 0 】中一个重要方面,被用来发现小的模式。相对于聚类, 即数据集中显著不同于其它数据的对象,异常检测现在已经应用在电信和信用卡 欺骗、贷款审批、气象预报、金融领域和客户分类等领域中。 h a w k i n s 给出了异常的本质性的定义【”i :异常是在数据集中与众不同的数据, 使人怀疑这些数据并非随机偏差,而是产生于完全不同的机制。后来研究者们根 据对异常存在的不同假设,发展了很多异常检测算法,大体可以分为基于统计的 算法、基于深度的算法、基于距离的算法、基于密度的算法,以及面向高维数据 的算法等。 。 2 2 2 异常检测发展历史, 从2 0 世纪8 0 年代起,异常检测问题就在统计学领域【1 2 】里得到广泛研究,通 常用户用某个统计分布对数据点进行建模,再以假定的模型,根据点的分布来确 定是否异常。许许多多针对不同分布的异常测试( d i s c o r d a n c yt e s t ) 方法发展起 来,它们分别适用于不同的情形:数据分布状况;数据分布参数是否已知: 异常数据数量;异常数据类型高于或低于一般抽样值。这些方法的最大缺陷 是:在许多情况下,用户并不知道这个数据分布。而且现实数据也往往不符合任 何一种理想状态的数学分布【1 3 】。 r u t s 和r o u s s e e u w 提出了基于深度的算法【1 4 】。根据算法,每一个数据被映射 到一个k 维数据空间上的点,并且每个点被赋予一个特定定义的“深度”,并根 据不同的“深度”将数据划分成不同层次。基于统计学的结论,异常往往存在于 较“浅”的层次中。由于基于深度的算法要求计算k 维数据空间的凸闭包,复杂 9 度为q ( 4 “) 。实际上,仅仅当k = 2 ,3 时,算法性能可以忍受。 a r g r a w a l 和r a g a r a n 1 s 在1 9 9 6 年提出过“序列异常”的概念。他们采用这样 一个机制:扫描数据集并观测到一系列相似数据,当发现一个数据点明显不同于 前面的序列,这样的点就被认为是异常数据。这个算法复杂度与数据集大小呈线 性关系,有优异的计算性能。但是序列异常在对异常存在的假设太理想化,对现 实复杂数据效果不太好。 k n o r r 和n g l l 6 l 在1 9 9 8 年提出了基于距离的异常检测算法。r a s t c i g i 和 r a m a s w a m y 改进了他们的异常定义。 在聚类算法研究中,如c l a r a n s ,d b s c a n ,b i r c h 都具有一定的噪声处理能力。 但是聚类中的噪声和异常在概念上还是有些偏差的。噪声是定义在聚类基础之 上,即噪声是不隶属于任何聚类的数据;而异常的定义不依赖于是否存在聚类。 而且这些算法出发点是优化聚类查找,而不是异常检测。当然一般而言,假设聚 类存在的话,低维数据集往往更容易定义聚类,噪声和异常概念上还是有很多重 叠处。b r e u n i g 和k r i e g e l 作了将基于密度的聚类算法o p t i c s 与异常检测合并到 一起的研究。这个算法的主要计算消耗在聚类的查找上,只需要很小的额外代价 就可以检测到异常。这些研究也奠定了基于密度的异常概念的产生。在此基础上, b r e u n i g 和k r i e g e l 提出局部异常因子的概念。a g g a r w a l 和y u 提出了一个针对 高维数据集进行降维异常检测的新思路【1 8 l ,并利用遗传算法优化性能。 2 2 3 异常检测的常用算法 一般的计算机异常识别软件使用了误用检测和基妒统计分析的异常检测术。 概率统计方法是异常检测中应用最早也是最多的_ 神方法。首先,我们根据用户 对象的动作为每个用户都建立一个用户特征表,通过比较当前特征与已存储定型 的以前特征,从而判断是否是异常行为。, 数据挖掘现在也给出了一些适用的算法,主要包括决策树、神经元网络、k 个最近邻居( k - n n ) 、n a i v e b a y e s 等分类器、聚类、关联规则和序贯模型、时间 序列分析、粗糙集等。其中决策树、神经元瞬络和序列模型对异常检测1 1 9 】尤其有 用。 结合以上分析我们可以归结为表2 - 1 所示: 1 0 表2 - 1 异常检测算法分析 任务目标数据挖掘技术 发现异常数据检测全局异常记录异常分析 检测多发生时间的值 检测记录之间的连接关系 通常的欺诈行为特征基于历史数据找到标准,如预测模型、决策树 检测欺诈行为的规则 记录下可能或类似欺诈事务 证实无法解释的关系检测具有不正常值的记录聚类分析和异常分析 确定嫌疑人的图表聚类分析 检测相同或相近的记录聚类分析 检测记录之间的非直接联系神经网络和连接分析 检测混合的异常记录联合分析和序列分析 2 2 4 基于数据挖掘的异常检测模型 异常检测是目前数据挖掘的一个主要研究方向,其特点是通过对数据库中的 数据进行检测,可以发现未知的异常行为。 基于数据挖掘的异常检测模裂主要有数据采集预处理横块、数据挖掘模块、 模式更新模块以及决策模块等,模型结构如图2 2 所示。其中数据源可以来自应 用程序、主机或网络。在本文的研究中,数据源主要来自于主机数据。 图2 - 2 基于数据挖掘的异常检测模型图 各模块【2 0 】的主要功能如下: ( 1 ) 数据采集及预处理模块:主要对数据源进行处理。产生符合挖掘要求的 特定格式的事件序列。它是基于数据挖掘的异常检测模型中的一个重要组成部 分。 ( 2 1 数据挖掘模块:数据挖掘模块利用数据挖掘的相关算法对事件库进行挖 掘,发现f 常和异常模式。在此模型中,我们可以使用如下一些算法:( a ) y t 类。 把一个数据集映射成定义好的几个类。这类算法的输出结果就是分类器,常用决 1 l 策树或规则集的形式来表示。在异常检测中的主要应用就是对用户或应用程序收 集足够“正常”和“异常”的数据,然后用分类算法得到一个分类,标记或预 测新的数据属于正常还是异常类。( b ) 关联分析。决定数据库记录中属性间的关 系。利用数据中系统属性间的相关性作为构建正常使用模式的基础。( c ) 序列分 析。获取序列模式模型。这类算法可以发现事件中频繁发生的时间序列。这些频 繁事件模式为构建异常检测模型时选择统计特征提供了指导准则。 ( 3 1 模式更新模块:该模块用来不断修正和更新用户或系统的正常规则或模 式。在现实世界中,数据是随时间的变化而变化的,用户行为的模式很可能随时 间呈现出某种发展趋势,使得当前已发现的用户行为模式可能不再生效,而可能 存在新的用户行为模式有待于进一步去发现。因此,不仅需要有高效的算法来挖 掘出用户行为模式,而且也迫切需要有高效韵算法来更新、维护和管理已挖掘出 来的用户行为模式。 ( 4 ) 决策模块:将对规则库中的历史行为模式和当前行为模式进行比较,以 检测用户行为是否呈现异常。对由数据挖掘模块输入的已分类的“正常”和“异 常”规则,根据规则库中的正常和异常规则,用上述的相似度来检测规则之间的 匹配程度。相似度的取值范围为0 1 ,取值越大,说明两个规则越吻合,若为1 说明两者完全相同,若为0 说明两者完全相异。对两个规则采用模式比较算法求 得相似度。这种检测方法利用了异常检测和误用检测技术各自的优点,提高了结 果的准确性。 2 2 5 异常检测算法的应用领域 异常检测算法现在在许多行业都有了广泛的应用,下面简单介绍一下在电 信、金融和网络入侵检测等应用。+ ( 1 ) 网络入侵检测 入侵检测技术1 2 1 l 是为保证计算机系统的安全而设计与配置的一种能够及时 发现并报告系统中未授权或异常现象的技术,是一种用于检测计算机网络中违反 安全策略行为的技术。它通过对计算机网络或计算机系统中的若干关键点收集信 息并进行分析,从中发现网络或系统中是否有违反安全策略的行为和被攻击的迹 象。进行入侵检测的软件与硬件的组合就是入侵检测系统( i n t r u s i o nd e t e c t i o n s y s t e i n ,r d s ) 。该系统能够识别出任何不希望有的活动,从而达到限制这些活动, 保护系统安全的目的。入侵检测系统的应用,能在入侵攻击对系统发生危害前, 就检测至u 入侵攻击,并利用报警与防护系统驱逐入侵攻击:在入侵攻击过程中, 能减少入侵攻击所造成的损失;在被入侵攻击后,收集入侵攻击的相关信息,作 为防范系统的知识,添加入知识库,以增强系统的防范能力。 目前,入侵检测系统主要分为基于知识的和基于行为的入侵检测。 在上述两种入侵检测模型中,异常检测是一个非常活跃的入侵检测方法,它 具有的优点包括:与系统相对无关,通用性较强,可以检测出以前未出现过的攻 击方法等。常用的异常检测方法和技术包括:阈值检测、统计方法、基于规则的 方法,其它的方法( 如数据挖掘、神经网络、遗传算法、免疫系统方法、模糊识别 等1 。这些方法目前基本上停留在理论研究阶段。 ( 2 ) 金融欺诈检测 随着经济的发展,在金融领域的欺诈行力己经越来越多,为防止和检测金融 欺诈所带来的费用也逐年增加。有调查表明,此项费用将继续呈上升的趋势。金 融欺诈所带来的损失是巨大的,同时调查这些欺诈的费用也十分惊人。如何有效 地减少这种损失,及时发现欺诈行为是非常重要的。 大型数据库管理系统是金融和保险系统使用的一种基本系统软件,在大型数 据库系统中采用数据挖掘的方法是检测金融欺诈的一种先进的技术手段。在大量 的处理业务数据中对数据进行聚类分析找出相应的规则、规律、论断,再结合人 的分析,是检测金融欺诈的一项有效的方祛。数据挖掘是用来处理大型数据库的, 因此它提供了对金融欺诈进行检测分析的环境。决策树作为知识发现的算法首先 在a c s y s 数据挖掘系统( w l l i a m s 和h u a n g 1 9 9 6 ) 中使用。 这种方法相对于以往的警示系统而言的优点,是它的可信赖度可以被统计评 估和证实。如果可信任度很高,那么大多数的调查可以集中处理实际的欺诈事件, 而不是在大量似是而非的案例上寻找。 ( 3 ) 信用卡欺诈检测【2 2 】 伴随着信用卡业务的发展,信用卡欺诈行为也越来越多,主要表现为:伪造 信用卡进行诈骗、使用作废信用卡诈骗、冒用他人信用卡诈骗和恶意透支诈骗, 严重扰乱了正常的金融秩序,危害了银行信用卡业务的健康发展,给银行及持卡 人造成严重的经济损失。 对于信用卡欺诈行为的发现,检测的方法主要来源于这样的思想:任何人使 用信用卡的正常行为都是有一定的规律的,并且可以通过这些行为产生的信息总 结出这些规律,而欺诈行为和正常的行为存在严重的差异,通过检查出这些差异 就可以检测出是否有信用卡欺诈发生,故该过程也就是异常数据挖掘的过程。具 体的实现可以利用计算机算法分析信用卡用户的购买习惯,从而认识客户的模 式,并分辨出偏离模式的信用卡欺诈行为,这个过程可以用提供正反两方面的偏 离例子用数据挖掘程序来完成,推导出合法交易的定义,并预测出个新的交易 是合法还是非法。 ( 4 ) 电信欺诈检测 电信欺诈是令全球电信运营商都十分头疼的难题,据统计,每年全球因电 信欺诈造成的损失占电信服务总收入的5 1 0 之多,对电信运营商的信誉和正 常业务运营造成了沉重冲击。如何防范电信欺诈? 2 0 0 2 年7 月1 1 日,n c r 公司 t e r a d a t a 数据仓库事业部举办了“防范电信欺诈,提升竞争优势”研讨会,会议 提出,利用基础数据的汇集分析,建立数据仓库可以协助电信侦测和预防欺诈, 还可提升运营绩效。 国际电信行业将电信欺诈防范方法分为行政防范和技术防范两类。 电信欺诈防范的重点是预防,因为此时损失最小。因此电信运营商应当加载 完整的源数据,然后依靠应用软件分析整理,追踪行为异常的用户,预测和发觉 可能存在的欺诈帐户,然后采取防范措施。在此过程中,n c rt e r a d a t a 数据仓库 可以完成近实时侦测、客户特征分析、多线程多流程加载体系、案例管理、o i 2 k p 报表功能。根据客户跟踪的结果,t e r a d a t a 数据仓库可以发现8 0 的手机用户欺 诈行为,减少5 0 的欠赞欺诈用户,挽回3 0 5 0 的欺诈收入损失,减少1 0 的 客户流失率。 2 3 数据挖掘在客户关系管理中的应用 2 3 1 客户关系管理概念 客户关系管理1 ( c u s t o m r e l a t i o n s h i pm a n a g e m e n t ,c r m ) 是一种旨在改善 企业与客户之间关系的新型管理方法,它是企业通过富有意义的交流和沟通,理 解并影响客户行为,最终实现提高客户获取、客户保留、客户忠诚和客户创利的 目的。为了提高客户满意度,企业必须完整掌握客户信息,准确把握客户要求, 快速响应客户个性化需求,提供便捷的购买渠道、良好的售后服务与经常性的客 户关怀。随着计算机技术、网络技术、通讯技术和i n t e m e t 技术的发展,企业业 务操作流程日益自动化,营销过程中产生了的大量的客户数据,这些数据和由此 产生的信息是企业的宝贵财富,它如实地记录了企业经营的本质状况,但是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中职(小学教育)小学教育心理学阶段测试试题及答案
- 2025年高职国际经济与贸易(国际经济与贸易教育心理学案例分析)试题及答案
- 2025年中职(工业机器人技术)机器人装配试题及答案
- 2025年中职电气运营应用(应用技术)试题及答案
- 2025年大学本科 体育运营与管理(运营实务)试题及答案
- 2025年中职(动漫与游戏制作)动画角色设计试题及答案
- 2025年中职(环境监测技术)水质检测实操试题及答案
- 2025年大学二年级(医疗器械与装备工程)器械检测阶段测试题及答案
- 2025年本科工业互联网工程(工业互联网设计)试题及答案
- 2025年大学二年级(人工智能教育)教学应用综合测试题及答案
- 养老院老人生活设施管理制度
- (2025年)林业系统事业单位招聘考试《林业知识》真题库与答案
- 2026年七台河职业学院高职单招职业适应性考试备考题库有答案解析
- 2026年直播服务合同
- 挂靠取消协议书
- 哲学史重要名词解析大全
- 辅导员工作的职责与使命课件
- 新疆交通职业技术学院教师招聘考试历年真题
- 吊篮租赁安拆分包合同
- (财务知识)用友T财务通普版基本操作详细资料
- GB/T 156-2017标准电压
评论
0/150
提交评论