(计算机科学与技术专业论文)数据挖掘技术在信用卡数据仓库中的应用研究.pdf_第1页
(计算机科学与技术专业论文)数据挖掘技术在信用卡数据仓库中的应用研究.pdf_第2页
(计算机科学与技术专业论文)数据挖掘技术在信用卡数据仓库中的应用研究.pdf_第3页
(计算机科学与技术专业论文)数据挖掘技术在信用卡数据仓库中的应用研究.pdf_第4页
(计算机科学与技术专业论文)数据挖掘技术在信用卡数据仓库中的应用研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机科学与技术专业论文)数据挖掘技术在信用卡数据仓库中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着货币的电子化发展,信用卡在银行业务中所占的比例越来越 大。信用卡业务的开发、应用、服务、管理的水准直接关系到银行的 经济收益。通过对信用卡业务数据的分析、挖掘,可以有效地为银行 进行银行卡业务的客户关系管理、风险管理、收益分析和绩效评估等 服务。 本文在分析银行信用卡信息管理系统现状的基础上,针对传统的 信用卡业务信息管理系统存在数据量大利用率低、信息量大有价值的 少、使用频度高智能程度低、定性判断多定量分析少等问题引入数据 仓库和数据挖掘技术,结合某商业银行的实际,进行了理论和实验研 究。 论文从银行信用卡业务的角度出发,阐述了信用卡数据仓库的概 念及其特点,分析了建设信用卡数据仓库的必要性和可行性,探讨了 信用卡数据仓库数据的访问,并对信用卡数据仓库进行了规划,构建 了信用卡数据仓库模型。论文在建立信用卡数据仓库的基础上,分析 了p s o 算法及其特点,指出了算法中存在的后期搜索速度变慢及过早 收敛等不足,并结合p s o 算法和b p 网络的优势,提出了改进的p s o 算法,采片jm a t l a b 6 5 搭建了系统仿真平台,对改进后的p s o 算法进 行了仿真。并将该算法应用到某银行信用卡数据仓库中,通过理论研 究和仿真实验,取得了较为理想的结果,证明了该方法的有效性。 关键词数据仓库,数据挖掘,p s o 算法,b p 网络 a bs t r a c t w i t ht h ee l e c t r o n i cd e v e l o p m e n to fc u r r e n c y , c r e d i tc a r da f f a i r sh a v e ab i g g e ra n db i g g e rs h a r ei nb a n k i n ga f f a i r s t h u s ,b a n k e r sp r o f i tr e l a t e s d i r e c t l yt ot h el e v e lo fe x p l o i t a t i o n ,a p p l i c a t i o n ,s e r v i c ea n dm a n a g e m e n t o fc r e d i tc a r da f f a i r s b ya n a l y z i n gt h ed a t ao fc r e d i tc a r da f f a i r sa n dt h e m a n a g e m e n to fc u s t o m e rr e l a t i o n sa n dr i s k ,a n a l y s i so fp r o f i ta sw e l la s p e r f o r m a n c ee v a l u a t i o nc a nb ed o n ef o rb a n k e r se f f e c t i v e l y b a s e do nt h ef u l l s c a l es t u d yo nt h ea c t u a l i t i e sa n dc u r r e n ta d v a n c e i nc r e d i tc a r di n f o r m a t i o nm a n a g e m e n ts y s t e m t h er e s e a r c hb r i n g si nd a t a w a r e h o u s ea n dd a t am i n i n gt e c h n o l o g y , a i m i n ga ts o l v i n gs u c hp r o b l e m s i nc r e d i tc a r di n f o r m a t i o nm a n a g e m e n ts y s t e ma sl a r g eb u tl o wu s i n g p r o p o r t i o nd a t a ,m u c hb u tj u s tal i t t l ev a l u a b l ei n f o r m a t i o n ,f r e q u e n tb u t l o wi n t e l l e c t u a l i z e du s e d e t e r m i n a t i o nb ye x p e r i e n c em o r et h a nb y q u a n t i t a t i v ea n a l y s i s c o m b i n i n gt h ep r a c t i c eo fac o m m e r c i a lb a n k e lt h e p a p e rh a sd o n es o m er e s e a r c hi nt h e o r i e sa n de x p e r i m e n t a t i o nd e e p l y b e g i n n i n gw i t hs t r a t e g yo fc r e d i tc a r da f f a i r s ,t h ep a p e re x p a t i a t e s o nt h ec o n c e p ta n dc h a r a c t e r i s t i co fc r e d i tc a r dd a t aw a r e h o u s e ,a n a l y z e s t h e n e c e s s i t ya n df e a s i b i l i t yo fb u i l d i n gc r e d i t c a r dd a t aw a r e h o u s e , s t u d i e st h ep r o b l e mo fd a t a si n t e r v i e w i n go fi tc a r e f u l l y , a n dd e s i g n st h e p r o g r a m m i n g b a s e do nh a v i n gb u i l tac r e d i tc a r dd a t aw a r e h o u s e ,t h e p a p e rm a i n l ys t u d i e st h ep s oa l g o r i t h ma n di t sc h a r a c t e r i s t i c s a n ds o m e d e f i c i e n c ys u c ha sr e f r a i n i n gp r e m a t u r l ya n ds e a r c h i n gs l o w l yl a t e rs t a g e h a v eb e e ne n u m e r a t e di nt h i sp a p e r b ya n a l y z i n gb pa l g o r i t h ma n d c o m b i n i n gt h ea d v a n t a g eo fp s oa l g o r i t h ma n db pa l g o r i t h m ,t h ep a p e r p u t sf o r w a r da ni m p r o v e dp s oa l g o r i t h mw h i c hi se x p e r i m e n t e do na n i m i t a t ep l a t f o r mb u i l tb ys o f t w a r em a t l a b 6 5 a t i e rt h e o r ys t u d ya n d i m i t a t e p r a c t i c e ,t h ei m p r o v e da l g o r i t h mi s a l s o e x p e r i m e n t e d i na c o m m e r c i a lb a n k e r sd a t aw a r e h o u s e w h i c hi sp r o v e dt ob ee f f e c t i v e k e yw o r d s :d a t a w a r e h o u s e ,d a t am i n i n g ,p a r t i c l e s w a r m o p t i m i z a t i o n ( p s o ) a l g o r i t h m ,b a c kp r o p a g a t i o n ( b p ) n e t w o r k 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名:i 氇! 量日期:兰生年上月丝日 学位论文版权使用授权书 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文并根据国家或湖南省有关部门规定送交学位论文, 允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内 容,可以采用复印、缩印或其它手段保存学位论文。同时授权中国科 学技术信息研究所将本学位论文收录到中国学位论文全文数据库, 并通过网络向社会公众提供信息服务。 作者签名:伍:壁导师 硕士学位论文 第一章前言 第一章前言弟一早日i ji 1 1 研究意义和目的 银行卡通常被定义为任何由银行、或者是非传统意义的银行发行的,能使得 客户获得资金来源的卡片。本文所讲信用卡主要是指银行信用卡,是由银行发 行的,可在任何接受信用卡的特约商户处使用,并能提供储蓄存款服务等。 银行信用卡实质是一种消费贷款,它提供一个有明确信用额度的循环信贷账 户,借款人可支取部分或是全部额度,一旦己使用余额得到偿还,该信用额度又 重新恢复使用,这种信用方式最初是一些本地商户为鼓励客户购买小额物品而创 造的,而如今信用卡则成为消费者购买商品和服务的主要支付方式。一般的信用 卡还提供其他各种服务,如预支现金、便利支票等,除了最基本的信用卡之外, 许多银行还推出“金卡”,这种金卡不仅提供更高的信用额度,还具有其他一些 附加功能,如自动提供差旅保险等。 1 9 5 1 年,纽约市的弗兰克林国民银行发行了第一张现代意义上的信用卡。 随后,5 0 年代末6 0 年代初,成百上千的银行开始效仿弗兰克林国民银行的信用 卡方案。在短短几十年的时间里,信用卡就已成为了美国金融体系中不可缺少的 一部分。今天,大多数消费者都持有一种以上的信用卡,并每年使用它完成上百 甚至是上千笔的交易。从美国银行家协会1 9 9 5 年银行卡行业凋查报告可以看出, 在1 9 7 0 年,消费者持有的信用卡的数目约为6 ,0 0 0 万张左右,到了1 9 8 0 年术, 这个数字就猛增到了1 3 ,0 0 0 力张。银行信用卡在整个8 0 年代一直保持着稳定的 增长,到1 9 9 0 年,该数字超过了2 亿张。截至1 9 9 5 年第二季度,消费者持有的 信用卡总数达到了3 8 ,7 0 0 万张。 改革丌放以来,随着对外交流的增加,信用卡这一世界流行的支付工具被引 进我国,丛1 9 8 5 年中国银行珠海分行发行第一张信用卡以来,信用卡业务在我国 得到了迅速发展,各家专业银行先后发行了各自的信用卡并与国际信用卡组织建 立了联系和进行合作,到1 9 9 3 年,全国发卡城市已达3 0 0 多个,发卡量4 0 0 余万张, 总交易额约2 0 0 0 亿元,我国信用卡业务已初具规模乜3 。 目前,信用卡发行量还在不断增多,交易额也随之增大,市场的拓展以及竞 争也同益激烈,不论是银行市场丌拓人员还是管理决策人员都迫切地希望能对信 用卡业务进行有效地管理和全面地分析,以便安全高效地开展信用卡的各项业 务,这就是信用卡数据分析。信用卡数据分析是对银行积累的大量历史数据的探 索和潜在的规律发现,其主要功能是利用业务系统所积累的有关客户的各类数据 来获取信息,从客户关系、风险控制、透支等多方面进行分析,然后导出图形、 硕士学位论文 第一章前言 报表与结论。其主要目标包括客户关系管理、风险管理、收益分析和绩效评估、 决策分析等。 作为一种数据分析技术,数据挖掘允许数据处理者从不同的角度去分析数 据,找出数据集中各数据子集所蕴涵的知识,并能发现这些数据子集间的关系, 从而找出隐藏在被处理数据中的数据关系规则。数据挖掘侧重于探寻数据的四种 类型关系:分类、聚类、关联、顺继模式等。数据挖掘从大量的交易数据中抽取 这些关系,并根据不同的主题,组合成客户的消费行为模式,完成从已知的交易 数据中寻找出未知的客户消费行为模式这一全新的知识的过程。 本文选择基于银行信用卡的数据为研究对象,使理论研究紧密联系实际,设 计并实现一个基于信用卡的数据仓库,基于该数据仓库,有效地针对当前急需的 客户消费行为和模式进行数据挖掘。较好地解决了信用卡数据多而不能充分利用 的问题,为银行系统的安全运行和业务的丌展提供了有效的保证,促进了信息资 源的合理配置和高效利用,产生重大的社会意义和经济效益,具有广阔的应用前 景。 1 2 国内外研究现状 1 2 1 我国信用卡业务中存在的问题 过去若干年,大多数国内发卡银行重视的是抢占信用卡市场,重视发卡规模 和数量。但在信用卡价值链各环节上的运作模式缺少足够的关注,包括客户获取、 客户保留和账户管理等环节。目前很少有发卡银行采用完整的数据挖掘手段,在 现有银行客户中发掘目标客户进行交叉销售,很少对客户的刷卡消费潜力和潜在 风险进行评估,很少以客户价值为依据进行发卡审批。国内信用卡市场的监管还 需要进一步完善,国内银行在信用卡业务上的风险控制能力仍有待进一步提高。 总体而言,由于客观条件的制约和经验不足,我国信用卡业务的发展与发达 国家相比还有很大差距,并且存在许多亟待解决的问题,这主要表现在: ( 1 ) 信用卡业务的发展缺乏统一的规划和统一的标准,各发卡行自成体系,卡 种之间没有通用性,设备不能共享,这是制约我国信用卡发展的主要因素之一。 ( 2 ) 信用卡系统存有海量数据,却不能充分利用。随着数据挖掘技术的不断 发展,人们越来越不能满足这种现状,无论是银行市场开拓人员还足管理决策人 员都迫切地希望能充分地利用这海量资源,对信用卡业务进行有效地管理和全面 地分析,以便安全高效地开展信用卡的各项业务。 ( 3 ) 对信用卡系统的使用仅停留在财务查询和报表打印等初步阶段。其产生 的海量数据只是作为历史数据以便进行查询再现,而隐藏在这些数据之间的各种 关系和信息人们无法获取并进行进一步的分析。 ( 4 ) 对客户的消费意向和信用卡风险管理往往仅凭管理者个人的经验,未能 2 硕士学位论文 第一章前言 充分考虑环境因素和客观主体的不同影响,不能从定量的角度进行决策控制。 ( 5 ) 对信用卡系统隐藏的安全问题缺乏有效地防范措施和顸警机制,目前虽 然运行平稳也有充分的备用系统,但那是发生事故以后的解决办法,最好的方法 是在问题还未引起事故以前就能被发现,并采取相应措施加以解决。 以上问题的存在严重制约着我国信用卡业务的发展,并对我国经济的高速发 展产生不利的影响,采取有力措施解决这些问题己成为当务之急。 1 2 2 数据挖掘在信用卡数据仓库中的应用研究现状 数据挖掘是当前计算机应用的一个热点研究方向。经过多年的发展,数据挖 掘技术取得了长足的进步,许多成熟的数据挖掘技术被丌发出来并投入实用。到 目前为止,数据挖掘在信用卡数据仓库中的应用主要表现在通过对银行卡业务数 据的分析,为银行进行银行卡业务的客户关系管理、风险管理、收益分析和绩效 评估等服务n 引。 例如,在信用卡一级代理过程中运用数据挖掘算法和技术对潜在客户进行分 类,以便能在开展业务的过程中有所针对性畸8 。在信用卡业务中应用数据挖掘技 术分析客户关系管理( c r m ) 、风险管理和运营管理璐引。将数据挖掘技术应用到信 用卡行业中的市场开拓和客户维护方面以及风险控制方面。并针对不同的主题建 立相应的模型,如客户细分模型、客户激活模型、客户流失模型、申请记分模型、 行为记分模型、欺诈监测模型等咖3 。 1 、所用分析方法 随着对数据挖掘技术研究的不断深入及应用领域的不断扩大,作为数据挖掘 未来的一个发展方向,信用卡客户消费行为和模式分析已受到越来越多人的广泛 关注。企业在实际营销决策中常会遇到两个难题:一是在什么时间、什么地方、 向客户供应什么种类的产品,也就是要了解客户的消费习惯和消费偏好:二是如 何培养客户的忠诚度,使之成为“回头客”。目前,客户消费行为和消费者信用 评估是金融与银行界研究的重要内容。数据挖掘有很多方法,包括分类分析、聚 类分析、序列模式分析、关联分析、决策树、神经网络等方法。关联规贝i j 分析是 研究客户消费行为最常用的方法之一。而研究消费者信用评估的方法也层出不 穷。 ( 1 ) 关联规则是形式如下的一种规则,“在购买面包和黄油的顾客中,有9 0 的人同时也买了牛奶”:( 面包+ 黄油) 一( 牛奶) 。用于关联规则发现的主要对象是 事务型数据库,其中针对的应用主要是售货数据,也称货篮数据。一个事务一般由 如下几个部分组成:事务处理时间、一组顾客购买的物品和顾客标识号( 如信用卡 号) n 7 1 。 ( 2 ) 序列模式分析与关联分析类似,其目的也是为了挖掘出隐藏在数据问 硕十学位论文 第一章前言 的相互关系,但其侧重点在于分析数据问的因果关系,如顾客在购买某商品之前 最常购买何种其它商品。 ( 3 ) 目前信用评估最常用方法是“分类”方法根据消费者的若干原始 资料,将其分为正常类( 按期还本付息) 和违约类,或给出一个违约概率或信用等 级,这样信用评估就可转化为统计学上的某种分类问题。多元判别分析技术( m d a ) 嫡蛆就是其中的一种,但其要求数据服从多元正态分布和协方差矩阵相等的前 提条件,明显与现实中的大量情形相违背,由此在应用中产生很多问题。针对这些 缺陷,国内外许多学者对该技术从不同角度进行了改进,比如引入对数变换、二次 判别分析( q d a ) 模型、l o g it 分析模型、神经网络技术( n n ) 、决策树方法等等。 ( 4 ) 最近的研究显示统计学习理论( s l t ) 方法在信用评估中有优势畸引。 ( 5 ) 还有支持向量机方法( s v m ) ,该方法具有号门针对有限样本、算法复杂 度与样本维数无关等优点。但是,该方法也存在一些不足,它的预测能力不如训 练所得出的好,今后的研究将集中于如何来改进支持向量机的分类效果和与其它 常用方法如决策树、神经网络等的结果比较上。更为深入的数据预处理和选取更 合适的核函数等均将有利于提高分类的j f 确率嵋引。 ( 6 ) 另外还有基于主成分线性加权模型( pcalwm ) 的消费者信用评估 方法,它具有评估的客观性、可行性、适应性、有效性等优点。但从对初步结果 的分析,如果在数据预处理( 采用更加合适的处理方法) 、样本规模( 合适的样本分 类规模) 、选用更加专业的软件等方面做更深入的工作,该方法有望能得到更好的 结果畸川。 根据数据挖掘中所采用的不同方法,生产经营分析系统中的数据挖掘模型可 以分为以下几种:模糊聚类模型n 踟n 引、多元回归分析模型嘞3 、时问序列与周期 分析模型嵋1 5 引、灰色关联模型瞄3 训、人工神经网络模型朝等。这些模型各有自己 的特点。模糊聚类模型是对批量数据进行归类分析,主要进行模式分析;回归分 析提供建立不同变量之问相关关系的数学表达式( 通常为经验公式) ,并且通过 检验计算对所建立的经难公式进行有效性分析,使之能够用于预测和控制;时间 序列和周期分析模型主要通过时间周期分析方法来实现预测、分析的目的;灰关 联模型主要在原始信息很少的情况下建立模型以进行预测;神经网络模型主要用 于分析与预测,具体说就是根据输入数据进行隐含计算后输出预测数据。 2 、所建分析模型 数据挖掘从一开始就表现出明确的目的性,数据仓库都是围绕某一确切的主 题而建立的。信用卡数据仓库主要包括客户关系管理、风险管理、绩效评估、决 策分析等四个主题域,针对这几个主题域,目前已成功建立的数据挖掘模型有客 户细分模型、客户激活模型、客户流失模型、中请记分模艰、行为记分模型、欺诈监 4 硕士学位论文 第一章前言 测模型等。 ( 1 ) 客户细分模型 对所有客户按照研究目的不同设定不同的目标变量,例如,研究客户的活跃 状态就可以把客户分为活跃户、一般户和静止户;研究客户的透支行为可以把客 户分为经常利用循环信贷户、偶尔利用循环信贷户和从不利用循环信贷户;研究 客户对银行的贡献大小可以把客户分为大贡献、中贡献、小贡献等等,这样就可 以根据不同的目的建立不同的客户细分模型。例如,为了提高信用卡业务收益水 平,可以建立以贡献大小为目标变量的客户细分模型,根据模型的结果看高贡献 客户的基本特征,在开拓市场时具有这些特征的客户就是目标客户。 ( 2 ) 客户激活模型 随着发卡量的增加,睡眠卡的客户数量也在不断增加,这样不但不能给银行 带来收益,反而会增加系统负担和运营成本,通过激活模型可以很好地解决这个 问题。激活模型用于预测某个账户成为活跃客户的概率。通过建立模型,可以给 睡眠客户计算激活的概率,对激活概率高的客户采取一定的措施让其成为活跃 户。采取这种措施激活客户比对所有静止客户都采取激活的措施成本低、效果好, 也就是所渭的数据库营销。 ( 3 ) 客户流失模型 营销学所提到的丌发一个新客户是挽留一个老客户的成本的8 倍的规律在 信用卡行业中同样适用。当一个客户以前是活跃户,最近几个月基本上处于静止 状态,再综合考虑其他因素就可以基本判断这个客户有流失倾向的概率。客户流 失模型就是通过判断客户用卡行为的变化来预测客户流失的可能性,那么针对流 失可能性比较大的客户采取一定的挽留措施将极大地减少客户流失。 ( 4 ) 申请记分模型 当客户把申请表递交到银行,怎么判断是否给他发卡? 如果发卡应该给多少 授信额度? 申请记分模型可以解决这些问题。申请记分模型的核心思想就是通过 客户的基本特征如年龄、性别、学历等判断这个客户是好客户的可能性,再根据 这个概率和年薪等因素确定应该给多少授信额度。 ( 5 ) 行为记分模型 当一个客户经常出现信用额度不够用或只能使用信用额度的很小一部分,银 行应该怎么调整信用额度? 当一个客户还款出现了延滞,是否一定要对其进行催 收? 如果催收,催收的力度应该怎么控制? 等等,这些问题可以借助行为记分模 型解决。行为记分模型用客户过去的行为数据和规律来判断客户未来信用好坏的 概率。有了这个概率就可以对信用好的客户调高信用额,出现延滞的也可以不催, 即使催也只要提醒客户就可以了。这样不但可以保持与客户之问的良好关系,还 5 硕士学位论文第一章前言 可以降低操作成本。 ( 6 ) 欺诈监测模型 由于信用卡交易不需密码,致使信用卡交易发生欺诈的可能性比借记卡要大 很多,欺诈损失占信用卡业务成本的相当一部分,因此国外银行或信用卡公司普 遍使用欺诈监测模型来监测每一笔交易,尽可能减少欺诈损失。欺诈模型通过分 析每个客户的历史用卡行为,当发现某笔交易与他的历史行为不太一致时就会认 为这种交易是欺诈的可能性比较大,提醒值班人员注意并尽可能与持卡人联系以 证实是否为其交易,如果确实是欺诈就可以不给授权以避免欺诈。 上面只是简单介绍数据挖掘技术在信用卡行业中的一些应用,其实还有很多 应用,例如图外有些银行使用的风险利润平衡模型、交叉销售和提升销售模型、 生命周期价值模型等。 3 、不足之处 随着人们对数据挖掘技术研究的不断深入,越来越多的问题也不断地呈现在 人们的面前,这些问题也给数据挖掘技术的未来指明了发展方向。数据挖掘是网 络数据库以及数据仓库的最新功能,是对数据库数锯的统计分析,其基础是人工 智能,与机器学习机制有关口1 。但是由于其数据挖掘算法简单,数据挖掘的现有 学习能力和功能发展存在瓶颈。 主要表现在以下几个方面: ( 1 ) 还未形成统一的标准化的数据挖掘语言。 ( 2 ) 用户化和交互操作不明显,即非可视化的数据挖掘过程,用户难于理 解挖掘和操纵。 ( 3 ) 数据挖掘服务器和数据库服务器结合不够紧密,很难实现w e b 下的网 络数据挖掘。 ( 4 ) 数据挖掘模型不少,但有明显优势和具实用性的模型不多。 ( 5 ) 各种算法的效率、鲁棒性和安全性仍需提高5 1 。 总之,关于数据仓库与数据挖掘的研究,侧重于对单一数据仓库的研究,侧 重于对数据仓库建模的研究,侧重于对数据挖掘技术和方法的理论研究,还没有 涉及如何透明地、统一地对异构环境下、地理位置分散的多个数据仓库实施管理, 没有把数据仓库与数据挖掘很好地结合起来进行研究,特别是在信用卡数据仓库 与数据挖掘领域的研究还不够。现代数据仓库与数据挖掘应该结合实际,以解决 实际问题为根本出发点;应该有丌放的体系结构;应该可以对更广范围内的多种 不同类型的数据进行挖掘;应该要开发出更多的挖掘工具和挖掘模型;不同的挖 掘技术与方法应该多层次、交叉地运用到多个领域:应该有反馈机制,以提高数 据挖掘的效率和质量。与因外相比,国内对数据挖掘的研究稍晚,上述问题也表 6 硕士学位论文第一章前言 现得更为突出,技术水平亟待提高。 1 3 论文的主要工作及章节安排 论文的主要任务是以数据挖掘技术在信用卡数据仓库中的应用为研究内容, 以解决上述问题为目标,进行了较深入的实验研究和理论探讨,实现了对信用卡 数据仓库中的部分数据进行挖掘分析。所研究的主要工作如下: 基于数据挖掘的信用卡系统是信息管理系统,其目的是为了查询、分析和辅 助决策,面向的对象是数据,要从数据中挖掘信息,获取知识,其主要任务是联 机分析处理( olap ) 。如何构建一个有针对性的方便的数据仓库是以后开展数 据挖掘工作的基础; 信用卡系统中的数据具有特殊性,直接将这些数据导入数据仓库将会导致数 据的冗余、不完整等,需要进行清理、抽取、转换等数据预处理过程。如何实现 对数据的预处理是研究过程中的一项重要任务; 在信用卡系统中,存在着大量的客户信息和消费数据,这些数据隐含着客户 的消费喜好、消费意识和消费动态,如何从这些海量数据中挖掘出客户的分类信 息,是研究过程中的另一个重要任务; 论文在构建信用卡数据仓库的基础上,重点对数据挖掘技术中的神经网络方 法进行了研究,对p s 0 算法进行整理、分析、改进,并采用m a t l a b 6 5 搭建了系 统仿真平台,对改进后的p s 0 算法进行了仿真。论文章节安排如下: 第一章介绍了论文的研究背景、国内外研究现状,以及研究的目的和意义。 第二章对信用卡数据仓库技术进行了综述,讨论了构建信用卡数据仓库的 必要性和可行性,并详细说明了数据仓库数据的访问及数据仓库模型的构建。 第三章是论文研究的主要部分,对数据挖掘技术进行了较深入的研究,重 点对p s 0 算法基本原理进行了阐述,并对其进行了分析改进,并结合b p 网络进 行了仿真分析。 第四章在前几章的基础上,运用改进的p s 0 算法对客户消费行为进行了分 析、建立了数据挖掘模型,并对挖掘的效果进行了分析评价。 第五章对全文工作进行总结,提出了有待进一步研究的问题。 7 硕士学位论文 第二章信用卡数据仓库技术概述 第二章信用卡数据仓库技术 随着金融业的不断繁荣,信用卡业务在我国已取得了长足的发展,现在已成 为我国银行业务中必不可少的一个重要组成部分。构建完整的、综合性的数据仓 库,为数据挖掘和分析提供强有力的支持已成为当务之急。 2 1 信用卡数据仓库的概念及其特点 8 0 年代中期,被誉为“数据仓库之父”的著名数据仓库专家w h i n m o n 在 其著作b u il d i n gt h e d a t aw a r e h o u s e 一书中是这样定义的:数据仓库( d a t a w a r e h o u s e ,简称d w ) 是一个面向主题的( s u b j e c to r i e n t e d ) 、集成的 ( i n t e g r a t e ) 、相对稳定的( n o n - v o l a t il e ) 、随时间而变的( t i m ev a r i a n t ) 数据 集合6 。 当前,随着改革的不断深入,市场丌放程度不断加大,银行间的竞争也越来 越激烈。单一的以产品为中心的市场正逐步向以客户为中心的多元化市场转变。 所以,银行必须尽快建立起自己的信用卡数据分析系统,以客户为中心,以信用 卡数据为基础,有针对性地分析出客户的有效信息,及时了解客户的需求动态, 准确掌握客户的忠诚度,从而把握机会,及时、准确地做出决策。作为数据分析 的一种通用手段数据挖掘技术,是建立在数据仓库基础之上的。 信用卡数据仓库主要是为了对银行积累的大量历史数据进行探索和对潜在 的规律进行发现,它的主要功能是便于信用卡数据挖掘系统利用业务系统所积累 的有关客户的各类数据来获取信息,从客户关系、风险控制、透支等多方面进行 分析,然后导出图形、报表与结论。信用卡数据仓库的数据组织也不同于银行信 用卡信息管理系统数据库里的数据,有其自身的特点: 银行信用卡信息管理系统所进行的业务操作对象是实时的交易数据,处理的 是事务级的请求,如记录的插入、删除等存储或更新操作,这些数据通常存放在 关系型数据库中,该数据库内容也是动态变化的。而信用卡数据挖掘系统操作的 数据往往是大量的历史数据,也有即时数据,通常不多,处理的足大规模的数据 检索,要从大量的历史数据中挖掘信息,获取知识,这些数据可以存储在关系型 数据库,也可以存储在多维数据库,数据库内容是相对静止不变的。 作为一项新兴的技术,数据仓库的优势是明显的: ( 1 ) 数据仓库有效集成了企业的业务数据,提供了标准的报表和图表的功 能; ( 2 ) 数据仓库可以对分布在不同系统的业务数据进行清洗和加:1 2 ; ( 3 ) 数据仓库支持多维分析; 硕士学位论文 第二章信用 数据仓库技术概述 ( 4 ) 数据仓库技术可以帮助企业决策者对企业未来状况做出预测; ( 5 ) 成功的数据仓库系统可以为企业带来高的投资回报; 但同时数据仓库也存在一些局限性,突出表现在: ( 1 ) 无法使用企业内部非结构化数据,如w0rd 文件、声音、图像; ( 2 ) 数据仓库的主要使用对象是高层决策者,不面向各层次用户; ( 3 ) 提供了千篇一律的操作界面,缺乏个性化n 1 ; 总之,数据仓库作为数据库技术的发展已具有巨大的应用潜力,数据仓库技 术将会在不同领域中发挥重大作用旧1 。 2 2 信用卡数据仓库的可行性及主题域分析 2 2 1 信用卡数据仓库的可行性分析 建立信用卡数据仓库的主要目的就是要使数据成为企业内共享的资源;使报 表和业务数据分析更加有效、准确,提高企业竞争力和生存能力;为数据挖掘和 知识管理提供数据基础。目前,我国大多数商业银行都已建成各种管理信息系统, 并能在一定程度上实现跨行跨界交易。在商业银行应用信息系统多年经验的基础 上,业务部门普遍认为,数据必须作为企业的共享财富加以开发利用,以充分发 挥其重要价值,业务条件已相当成熟。同时,在实施企业级数据仓库方面,大多 数商业银行己具有足够的技术实力,包括具有支持企业级数据仓库的软硬件资 源;具有完整的广域网络环境;企业内部的i t 人员对具体业务和数据知识具有 深刻的理解。下面具体从数据仓库技术层面和信用卡业务角度对构建信用卡数据 仓库进行可行性分析。 l 、数据仓库技术 数据仓库是用以支持管理决策过程,面向主题的、集成的、稳定的、不同时 间的数据集合。数据仓库从分析的视角,采用全新的思想管理仓库中的数据:数 据被按照业务管理对象( 即主题) 重新组织,在每一个主题内部,还可以按照逻 辑关系再进一步划分层次,形成对数据的多维视图。几乎所有的数据都带有时间 标记( 时间戳) 。为了体现数据原貌和更改记录,仓库中的数据一般不予更新, 具有很高的稳定性呻1 。 数据仓库全套技术包括e t l 过程、多维分析、数据挖掘和元数据管理技术。 ( 1 ) e t l 过程,即数据抽取( e x t r a c t ,) 、数据转换( t r a n s f o r m ) 及数据加 载( l o a d ) 。e t l 的作用就是建立一个一致的、准确的基础数据环境,业务源数 据通过e t l 处理后,被统一存放到数据仓库中。 9 硕士学位论文 第二章信用卡数据仓库技术概述 ( 2 ) 多维分析。o l a p 的应用让数据仓库中的数据产生数据层次的概念,它 以星型模型为基础,逐层综合数据仓库中的基础数据,并提供切片、钻取和旋转 操作。 ( 3 ) 数据挖掘也称为数据仓库中的知识发现,是数据仓库分析的最高层次。 数据挖掘技术运用各种数理统计分析方法,如回归分析、聚类分析、时间序列分 析等,高度自动化地分析仓库中的数据,从而挖掘出潜在的模式进行预测和辅助 决策。 ( 4 ) 元数据管理贯穿数据仓库建设的整个过程。元数据就是数据的数据, 用于描述数据仓库中各类数据的结构和建立方法。元数据通常包括基础数据描述 ( 数据源名称、存储地点、存储内容) ,主题描述( 主题名、键值信息) ,转换规 则( 主题名、属性名、数据源系统、源表名、源属性名) ,逻辑模型定义( 关系 名、属性1 、属性2 属性! ) ,粒度与分割和索引定义。元数据的记录是一个 动态的过程,最终形成数据仓库档案。 2 、银行信用卡业务系统 ( 1 ) 信用卡业务系统包含的数据内容丰富。从业务角度看,包括会计、信 贷、信用卡、清算等银行r 常经营所有的金融产品和服务以及各项行政管理费用; 从系统角度看,信用卡业务系统需要存储的数据内容必须包括与业务要求相对应 的所有核心业务系统的交易信息、客户信息和账户信息。 ( 2 ) 信用卡业务系统对数据质量要求很高。信用卡业务工作的主要内容之 一就是审查所有的数据。系统必须保证来自核心业务系统的数据彼此一致、相互 印证,对不兼容的数据,需要设计校验规则和处理程序将其转换为一致的、无歧 义的数据。 ( 3 ) 信用卡业务系统需要对数据进行组织。信用卡业务系统都有一个明确 的主题,要求数据以该主题为中心,并具有一定的逻辑关系,如客户的消费行为 分析通常从报表丌始,然后追踪到总账、明细账直至各种凭证和登记簿。所以, 系统采集的数据必须按一定的业务逻辑重新进行组织。 ( 4 ) 信用卡业务系统需要支持数据分析。搭建数据平台,满足业务人员操 作、查询的需要只是信用卡业务系统最基本的功能。信用卡业务系统的最终目标 是支持各种比较分析、趋势分析,并发展为决策支持的一个重要组成部分。 由此可见,信用卡业务系统是一个面向分析的系统,它需要实现海量交易 数据和历史数据的存储、查询、分析、管理和在全国范围内的部署与应用。而数 据仓库以关系数据库、并行处理和分布式技术为基础,能够提供有效的数据访问 手段,支持高层管理人员在数据仓库中进行统计、分析和挖掘,从而获得相关信 息和规律。因此,数据仓库技术能够实现信用卡业务系统的数据要求和功能要求。 l o 硕士学位论文第二章信用譬数据仓库技术概述 e t l 可以提升并确保数据质量,建立统一的数据平台;星型模型确定了数据的组 织方式;o l a p 技术支持数据的随机查洵和深度分析;数据挖掘支持模型的定 义与验证,从而服务于预决策。 2 2 2 信用卡数据仓库的主题域分析 数据仓库的一大特点就是面向主题。对主题概括性描述的恰当与否是信用卡 数据仓库成功与否的标志口引。随着在数据仓库建设项目中对更多有用信息的获 取,对主题域的描述将更完善,通过对银行信用卡战略目标和任务的评估,通常 可以确定客户关系管理、风险管理、收益分析和绩效评估、决策分析等四个主题 域。如图2 - 1 所示。 图2 - 1 信用卡数据仓库分析的主题结构 ( 1 ) 客户关系管理 客户关系管理通过建立客户单一的视图,对客户的基本情况、账户信息、交 易数据等进行分析。根据客户的属性,从不同角度深层次分析客户,确定不同客 户群的特征和行为。例如,分析持卡人的构成,如性别、年龄、收入、地域等因 素;按不同的客户群分析不同人群的交易、消费行为和模式等;评估客户的忠诚 度:分析客户服务的信息,对市场活动进行评估和分析。 客户关系分析模块包括:每天每月的交易笔数、总金额的对比分析;按交 易类型统计每天每月的笔数、总金额;卡户和商户的综合分析;各种类型商户 的卡类交易量;各科类型商户中卡户交易的年龄层次等。 硕士学位论文第二章信用譬数据仓库技术概述 ( 2 ) 风险管理 风险管理是识别、防范和控制银行卡申办和使用过程中的各种风险,通过对 客户的资信评估,确定信用等级、分析透支情况、降低透支风险等。其中资信评 估是重要的部分,通过建立资信评估系统,对客户进行信用等级分类。 风险控制模块包括:透支总量的对比分析;透支持卡人的特征分析;透支持 卡人的年龄层次分析;冻结止付挂失卡的比例;持卡人、担保人的信用评估等, 经过对这些分析可以改进各项设施、减少风险度、有效地提高客户忠诚度,并与 之保持长期的和有益的业务关系。 ( 3 ) 收益分析和绩效评估 盈利能力是衡量银行战略管理和同常管理的重要指标,连续创造优秀的盈利 业绩,对银行的持续经营和稳健发展至关重要。对银行盈利能力的分析,不仅要 看其整体状况,更重要的是要看其盈利结构和路径。收益分析就是对利润的来源、 取得和形成过程加以跟踪分析。一方面,通过收益分析了解收益结构及整体收益; 另一方面,通过分析知道,收益的构成和变化也反映了银行的管理战略和经营理 念。 绩效评估系统的信度和效度越高预示着该评估系统越能精确地测量出员工 的工作绩效。实际工作中,我们一方面要了解影响绩效评估系统精确性的种种因 素,尽量控制和缩小评估中的偏差,提高精确性:另一方面也要避免陷入单纯追求 评估系统精确性的误区。有效的绩效评估系统还必须在精确性和实用性两者问达 到很好的平衡。 ( 4 ) 决策分析 决策分析是银行数据仓库建设的最终目的,其结果往往是配合一定的商业目 标,建立起相应的数学模型,使得发卡银行可以据此制定符合市场需求的商业策 略,包括:客户信用评估标准、透支额度、年费、产品定位、渠道选择等等。常 见的有信用风险控制模型、客户流失预警模型、数据库营销模型等。 2 3 信用卡数据仓库数据的访问 2 3 1 数据仓库数据的直接访问 操作型环境下的一个传统应用向属于数据仓库的数据提出访问,访问在数据 仓库中查询到所需要的数据,再传输到操作型环境中,这个过程是对数据仓库数 据的直接访问的过程。如图2 2 所示。 1 2 硕士学位论文 第二章信用卡数据仓库技术概述 圈圈 查询的结果 图2 - 2 对数据仓库数据的直接访问 对数据仓库数据的直接访问必须遵循一些严格的、不可改变的限制: ( 1 ) 请示数据仓库数据的处理不具有在线的特性,即从提出数据访问的请 示到获得所需要的数据可能要经过比较长的响应时间; ( 2 ) 所请示的数据量必须是最小量的,因为数据的传输单位很小,是以单 个字节为单位; ( 3 ) 管理数据仓库的技术操作型环境所用的技术一致,如协议、容量等; ( 4 ) 从数据仓库所得到的、准备传输到操作型环境的数据,必须不做或做 最小的格式变化。 上述限制条件,限制了从数据仓库到操作型环境的数据传输,因此很少采用。 2 3 2 数据仓库数据的间接访问 对数据仓库数据的访问大多采用间接访问方式n 。所谓间接访问是利用程序 对数据仓库的数据进行定期的分析,将分析的结果产生新的文件,用来满足操作 型应用的需要。如图2 3 所示。 结果 图2 - 3 对数据仓库数据的间接访问 然而问接访问应考虑以下问题: ( 1 ) 分析程序。分析程序应具有以下特征:具有尽可能多的人工智能特征; 可以运行在任何可用的数据仓库中;能够在后台运行;程序的运行与数据仓 库数据发生变化的速度一致。 ( 2 ) 周期性刷新。原则如下:不是经常进行刷新,选择合适的刷新频率; 硕士学位论文 第二章信用暑数据仓库技术概述 刷新的数据采用替代模式操作,避免每一次刷新的数据都保存,而占用大量的存 储空间;具有从支持数据仓库的技术传送数据到操作型坏境的技术。 ( 3 ) 分析结果的新文件。对于分析结果所产生的新文件有以下要求:每个 数据单元仅包括少量的数据;可以有多的数据单元;准确地包含操作型环境中所 需要的内容;不是经常刷新但要定期刷新;访问效率要高;可以访问到单个数据 单元。 例如,在银行金融领域中的信用审核过程中常常要间接利用数据仓库。它 是用来确定一个顾客是否有资格获得贷款的一种审核过程n 2 i 。 假设顾客来到出纳窗口要求贷款。出纳员工获知有关用户的一些基本信息, 然后决定是否提供贷款。这种交互过程也发生在很短的时间内大概5 到1 0 分钟。为了确定是否提供贷款,需要进行一些处理,首先是简单筛选处理,如果 简单筛选无法确定,那就需要继续审查。 后台审核程序依赖于数据仓库。事实上,这种审核是综合的,需要对顾客的 各个方面进行调查,如:偿还历史、私有财产、财务管理、净值、全部收入、全 部开销、其他的无形资产。这种大范围的背景检查过程需要大量的多方面的历史 数据。这部分贷款审核处理过程是花几分钟时间就能完成的。 为了在最短的时i n j 内满足尽可能多的顾客要求,需要编写一个分析程序。以 协调信用审核过程中其他部分的工作。分析程序定期启动运行,为操作型环境提 供一个预先审核过的文件。除了其他数据以外,这个文件还应包括以下信息:客 户身份信息、核准的信贷限额、特殊的核准限额。 这样,当顾客想申请获得贷款时,出纳员利用高性能的在线方式就可以决定 给予( 或不给予) 客户贷款。仅当顾客贷款金额超过预先核准的限额时,才需要 经过贷款官员的进一步审核。 2 4 信用卡数据仓库模型的构建 2 4 1 系统体系结构 在具体的信用卡数据仓库的设计中可以 根据数据仓库的框架结构构建合适的数据仓 库解决方案。数据仓库的框架结构由不同的 层次组成,这些层次包含了数据仓库访问层、 数据仓库功能层、数据仓库管理层和数据仓 库环境支持层0 1 ,如图2 - 4 所示。 信用卡数据仓库访问层为用户操作和使 1 4 图2 - 4 信用卡数据仓库总体框架结构

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论