(计算机系统结构专业论文)基于分布式的银行信用卡数据挖掘系统的预处理.pdf_第1页
(计算机系统结构专业论文)基于分布式的银行信用卡数据挖掘系统的预处理.pdf_第2页
(计算机系统结构专业论文)基于分布式的银行信用卡数据挖掘系统的预处理.pdf_第3页
(计算机系统结构专业论文)基于分布式的银行信用卡数据挖掘系统的预处理.pdf_第4页
(计算机系统结构专业论文)基于分布式的银行信用卡数据挖掘系统的预处理.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机系统结构专业论文)基于分布式的银行信用卡数据挖掘系统的预处理.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 现代社会从某种意义上讲,是一个信息社会。随着现代科学技术的高速发展, 特别是以计算机为核心的信息处理技术的推广,社会各个领域的知识和技术更新 加快,对各种信息需求量加大。信息资料的收集、开发和应用,对经济建设,对 社会的发展和进步,起着越来越大的作用。信息本身就是一种财富,这一点已被 越来越多的人所认识。 随着银行界数据仓库技术的不断发展成熟,人们积累的数据越来越多,人们 希望从这些海量的数据里面获取出一些以前不知道的,隐含在其内部的知识和规 律,用来指导决策。这个时候,数据挖掘技术应运而生,正好可以满足人们的这 个需要。 数据挖掘是数据库中的知识发现,也就是从数据中发现知识和寻找舰律,并 用它们指导生产或管理,提高效益。数据挖掘是一个有着广阔应用前景的新型领 域,目前,许多行业都可以用数据挖掘束为其解决问题,提供决策。 在数据挖掘的流程中,比较重要的一步就是数据的预处理,包括数据理解和 数据准备。数据理解就是对企业现有数据的理解,在此基础上进行数据质量问题 的鉴定;数据准备又可以分为数据抽样、数据清理、数据离散化和数据转换等等 步骤。本论文就是研究整个数据预处理的过程。 现阶段,由于银行大量数据都是存储于各地分行中,即数据是分布式存储的, 而总行要进行数据挖掘时,把各分行数据全部汇总到一起显然不可能,一个是数 据量实在太大,会浪费很多时间,另外一个原因是,目前数据挖掘算法所能处理 的数据量毕竟有限,不可能同时处理这么多的数据。 本文提出了一一种解决方案,就是利用整群抽样方法与其他如分层随机抽样和 分层等距抽样等方法结合,先利用分布式抽样来抽取出一部分分行数据样本,再 对这些样本进行预处理及数据挖掘,这样就大大节省了时间,提高了效率。 另外,在预处理中,分析表建成后,根据不同的任务可能会再抽取出一部分 数据进行挖掘,通过对分析表里的数据进行分析,本文提出了另外一种数据抽样 方法,即分层二次等距抽样,实验证明,分层二次等距抽样的效果比其他几种抽 样的效果都要好得多。 目前,本系统已经调试成功,并在某银行数据仓库上运行通过,正在进行加 入新的模块等升级工作。 关键词:数据挖掘:预处理;数据抽样;分布式 华南理r 。大学硕十学位论文 a b s t r a c t i ns o m es e n s e ,i t sa ni n f o r m a t i o n a ls o c i e t y t h ek o w n l e d g ea n dt h et e c h n o l o g y a r ec h a n g i n gq u i c k l ya n dt h en e e d so ft h ev a r i o u si n f o r m a t i o ni n c r e a s ev e r yf a s tw i t h t h ed e v e l o p m e n to ft h et e c h n o l o g yo ft h es c i e n c e ,e s p e c i a l l yt h ee x t e n d e n to ft h e s c i e n t i f i ct e c h n o l o g ya st h ec o m p u t e rt ob et h ek e r n e l t h ec o l l e c t i o n ,d e v e l o p m e n t a n da p p l i c a t i o na r em o r ea n dm o r eu s e f u lt ot h ee c o n o m i c c o n s t r u c ta n dt h e d e v e l o p m e n to ft h es o c i e t y m o r ea n dm o r ep e o p l ek n o w t h a ti n f o r m a t i o ni sw e a l t h d a t am i n i n gi st h ek n o w l e d g ed e t e c t i o ni nt h ed a t aw a r e h o u s e i tf i n d st h er u l e s a n dt h ek n o w l e d g ei nt h ed a t aa n du s e st h e mt og u i d et h ep r o d u c ea n dm a n a g e m e n t , a n dt h e nr a i s et h eb e n e f i t d a t am i n i n gh a st h eg o o df o r e g r o u n d a n dn o w a d a y s ,m a n y e n t e r p r i s e so s ed a t am i n i n gt os o l v et h ep r o b l e m t h ei m p o r t a n ts t e pi nt h ef l o wo ft h ed a t am i n i n gi sd a t ap r e p r o c e s s i n g i t c o n t a i n sd a t au n d e r s t a n d i n ga n dd a t ap r e p a r a t i o n d a t au n d e r s t a n d i n g i st h e u n d e r s t a n d i n go ft h ed a t a ,a n dt h ec h e c k u po ft h ed a t aq u a l i t y d a t ap r e p a r a t i o nc a n d i v i d ei n t of o u rp a r t s :d a t as a m p l i n g ,d a t ac l e a n i n gu p ,d a t ad i s p e r s i n ga n dd a t a t r a n s f o r m a n dt h i sp a p e rd e s c r i b e st h ep r o c e s soft h ed a t ap r e p r o c e s s i n g i nn o w a d a y s ,t h ed a t ao ft h eb a n ki ss t o r e di nt h eb r a n c h e si ne v e r yp l a c e s , o b v i o u s l y ,i t si m p o s s i b l et oc o l l e c ta l lt h ed a t at o g e t h e rt oa n a l y s e o n er e a s o ni st h e q u a n t i t yi st o ol a r g ea n di t s aw a s t eo ft i m e ,a n dt h eo t h e rr e a s o ni st h en u m b e r so f t h ed a t at h ed a t am i n i n gs y s t e mc a nd i s p o s ea r el i m i t e d t h ep a p e rc o m e su pw i t has o l u t i o nt os o l v et h i sp r o b l e m i tw i l lu s et h e c o n b i n a t i o no ft h ec l u s t e rs a m p l i n ga n dt h es t r i t e f i e ds a m p l i n g i tt a k e so u tap a r to f t h ed a t aw i t ht h ed i s t r i b u t e ds a m p l i n ga n dt h e np r e p r o c e s st h e m t h i sw i l ls a v et h e t i m ea n dr a i s et h ee f f i c i e n c y i na d d i t i o n ,i tw i l tt a k eo u ta n o t h e rp a r to ft h ed a t ai nt h ep r e p r o c e s s i n ga f t e rt h e a n a t y z i n gt a b l eb e i n ge s t a b l i s h e d t h i sp a p e rc o m e su pw i t ha n o t h e rd a t as a m p l i n g a p p r o a c h ,s t r a t i f i e dd o u b l es y s t e m a t i cs a m p l i n g ,a n di tt u r n so u tt ob eb e t t e rt h a nt h e o t h e rs a m p l i n ga p p r o a c h t h es y s t e mh a ss u c c e s s f u l l ye s t a b l i s h e d ,a n di tw i l lb eu p d a t e dt oa d dn e w m o d u l e s k e y w o r d :d a e t am i n i n g ,p r e p r o c e s s i n g ,s a m p l i n g ,d i s t r i b u t e d 华南理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任 何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的 法律后果由本人承担。 作者签名: 看诌 日期:7 ,哆笋f 占月1 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权华南理工大学可以将本学位沦文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存 和汇编本学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密口。 ( 请在以上相应方框内打“4 ”) 作者签名: 导师签名: 秀骛 弼傲 0 日期:埘年 f 月日 日期:椭厂年6 月日 第一章绪论 1 1 选题背景与研究意义 第一章绪论 近十几年,随着科学技术的飞速发展,经济和社会都取得了极大的进步,与 此同时,在各个领域产生了大量的数据,如人们对股票市场的研究、银行每天的 巨额交易数据等。出于数据的长期积累,有些数据库变得非常庞大,目前数百力i 乃至上千万条记录的数据库己不罕见。在这些数据中有着丰富的信息,如何处理 这些数据得到有益的信息,人们进行了不断的探索。计算机技术的迅速发展使得 处理数据成为可能,这就推动了数据库技术的极大发展,但是面对不断增加如潮 水般的数据,人们不再满足于数据库的查询功能,提出了深层次问题:能不能从 数据中提取信息或者知识为决策服务。就数据库技术而言已经显得无能为力了, 同样,传统的统计技术也面临了极大的挑战。这就急需有新的方法来处理这些海 量的数据。因此,一个新的研究领域一一知识发现( k n o w l e d g ed i s c o v e r ) 应运 而生,由于蕴藏知识的信息大多数存储于数据库中,所以对数据库中的知识发现 k d d ( k n o w l e d g ed i s c o v e ri nd a t a b a s e ) 的研究在学术界空前繁荣。k d d 又有人 称其为数据挖掘( d a t am i n i n g ) ,目前已成为人工智能、统计技术、数据库等领 域的研究热点之一。 k d d 一词首次出现在1 9 8 9 年举行的第十一届国际联合人工智能学术会议上。 到目前为止,由美国人工智能办会主办的k d d 国际研讨会已经召开了十多次, 规模由原来的专题讨论会发展到国际学术大会,研究重点也逐渐从发现方法转向 系统应用,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。1 9 9 9 年,亚太地区在北京召开的第三届p a k d d 会议收到15 8 篇论文,空前热烈。i e e e 的k n o w l e d g ea n dd a t ae n g i n e e r i n g 会刊率先在1 9 9 3 年出版了k d d 技术专刊。并 行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知 识发现列为专题和专刊讨论,甚至到了脍炙人口的程度。 我国学者及时开展了知识发现方面的研究工作,一些高等院校与科研机构也 开发了相应的知识发现原型系统。目前,在国内许多重要的学术会议如中国人工 智能联合学术会议、数据库学术会议、机器学习学术会议等也都将知识发现列为 重要的研究专题。 数据挖掘就是从数据中发现知识和寻找规律,并用它们指导生产或管理,提 高效益。由于现实世界中产生的数据都是复杂数据,其复杂性表现为:非线性、 多因子、高噪声、非高斯分布、非均匀分布、以及自变量相关。因此,如何处理 华南理t 大学硕士学位论文 复杂数据,研究数据挖掘的理论,寻求运用这些理论解决各种实际问题的方法, 是形成核心技术的基础。 发展到如今,数据挖掘的算法已经有很多,不少算法也已经很成熟,不同的 算法针对不同的数据有不同的效果,就算是同一批数据,如果用不同的算法来挖 掘结论都有可能不同,所以,尉数据挖掘来解决问题时,一定要具体问题具体分 析。 本文就是基于上述背景,以银行业信用卡数据仓库中的大量数据为基础,分 析研究了银行信用卡数据挖掘系统的预处理过程。 1 2 国内外现状 1 9 8 9 年8 月在美国底特律召开的第十一届国际人工智能会议上首先出现 k d d 这个术语后,引起国际人工智能领域和数据库领域专家的广泛关注。1 9 9 5 年在加拿大蒙特利尔召开了首届k d d & d a t am i n i n g 国际学术会议。从此以后, k d d & d a t am i n i n g 国际学术会议每年召开一次。经过1 0 多年的努力,数据挖掘 技术的研究已经取得了丰硕的成果。不少软件公司已研究出数据挖掘的软件产品 并在北美、欧洲等国家得到应用。 目前,世界上比较有影响的典型数据挖掘系统有:i b m 公司开发的q u e s t 和i n t e l l i g e n tm i n e r 、s a s 公司的e n t e r p r i s em i n e r 、s p s s 公司的c l e m e n t i n e 、s y b a s e 公司的w a r e h o u s es t u d i o 、s g i 公司丌发的s e t m i n e 、r u l e q u e s tr e s e a r c h 公司的 s e e 5 、a n g c - s ss o f t e w a r e 公司丌发的基于规则和决策树的k n o w l e d g es e e k e r 、 a d v a n c e ds o f t w a r ea p p l i c a t i o n 公司开发的基于人工神经网络的d b p r o f i l e 和加拿 大s i m o nf r a s e r 大学开发的d b m i n n e r 等。 与国外相比,国内对数据挖掘的研究稍晚,没有形成整体力量。1 9 9 3 年国家 自然科学基金首次支持对该领域的研究项目。目前,国内的许多科研单位和高等 院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科 院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工 程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学在开展 对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、 中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造, 南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知 识发现以及w e b 数据挖掘。 1 3 所研究的主要问题 在新世纪,经济全球化和多事一体化的发展,尤其是随着知识经济的逐步形 第一章绪沧 成和兴起,银行业正在经历着一场深刻的革命,银行信息技术应用的重点也f 在 向业务处理电子化、数据管理集中化、管理决策信息化等方向发展。尤其在电子 化手段日趋“同质化”的情况下,银行业信息技术的应用重心将逐步转向管理决 策信息化。 现今银行数据仓库f 发展得如火如荼,大量历史交易数据可以完整保存下来, 在这些海量数据里面一定蕴含着大量的知识和信息,如果能将这些知识挖掘出来, 为人f f 作出更好的决策提供服务,那真是再理想不过的了。于是人们想到了数据 挖掘,用它来解决这个问题。 如今,各大银行数据仓库技术已经发展得颇具规模,数据仓库是支持管理决 策过程的一个数据集合,这个数据集合是由企业内的历史详细数据和当前详细数 据、操作数据和外部( 环境) 数据按照一定的主题标准归类,进行加工和集成而 建立的,是为企业决策服务的。 而数据挖掘就是建立在数据仓库基础上的,从大量的原始数据中发现未知的、 有用的知识( 如知识规则,限制等) ,被认为是解决“数据爆炸”和“数据丰富, 信息贫乏”的一种有效方法。 对数据仓库中的数据进行数据挖掘,首先也是很重要的一个步骤就是数据的 预处理。海量数据存储于数据仓库中,并不可能直接输入数据挖掘算法进行挖掘, 而足要针对不同的挖掘主题作不同的预处理。 在本篇论文中,主要解决了以下几个问题: ( 1 )由于现今银行业的数据分布于各个分行,并且数据量都非常地大,本 文提出了一种分布式抽取数据的方法,即整群抽样结合分层随机抽样或分层等距 抽样方法抽取出一部分数据汇总到总行进行挖掘分析; ( 2 ) 通过数据清理、缺值处理及计算组合等将数据仓库中的数据制作成一 张分析表,并加工成挖掘算法所能处理的格式输入挖掘算法: ( 3 ) 分析表建好后,根据每次不同的挖掘主题所要处理的数据量来对分析 表进行抽样,本文提出了一种新的抽样方法,即分层二次等距抽样方法,通过比 较,分层二次等距抽样方法不论在理论分析上还是实验结果中都比以前用的等距 抽样方法在银行信用卡数据上所表现出的抽样效果要好得多。 我们在数据的预处理中加入数据抽样,不但解决了某些挖掘算法所能处理的 数据量有限的问题,而且还提高了挖掘速度,在挖掘的结果上也不会与对总体数 据进行挖掘有太大的差异,真是一举三得的好方法。 1 4 论文结构 论文第二章介绍了银行信用卡的主要概念,发展现状以及数据仓库的有关知 华南理下大学硕士学位沦文 识:第三章主要介绍了数据挖掘技术,数据挖掘的步骤,数据挖掘技术在银行信 用卡方面的应用以及银行信用卡分析与预测系统的大体情况,包括架构、功能及 界面等;第四章为数据抽样知识的介绍,数据抽样是预处理过程的一个很重要的 步骤;第五章详细介绍了预处理的步骤和方法,即怎样从数据仓库中抽取数据制 成一张分析表等,讨论了数据抽样及分布式数据抽样在银行信用卡分析与预测系 统预处理中的应用,并通过理论与实验结果分析比较了几种抽样方法的优劣。 4 第二章银行信_ l | :】 简介及数据仓库技术 第二章银行信用卡简介及数据仓库技术 2 1 信用卡及其发展现状 信用卡是当今银行发展最快的一项金融业务之一,它是一种可在一定范围内 替代传统现金流通的电子货币。随着信息技术的不断发展,信用体系的不断完善, 信用卡的应用将不断得到普及。国内各大银行纷纷将其作为重点业务加以发展, 也已经成为各大外资银行的必争之地。 信用卡是指由银行、非银行金融机构或专营公司向资信良好的单位、个人签 发的,可以在指定的商店或场所进行直接消费,并可在发卡银行及联营机构的营 业网点存取款、办理转账结算的一种信用凭证和支付工具。信用卡是国际上广泛 流行的、先进的、新型的支付手段与信用工具,是,生于经济发达国家和地区的 一种新型的消费信贷方式。信用卡于1 9 1 5 年起源于美国,随后发展异常迅猛。目 前在囤际上主要有维萨国际组织( v i s ai n t e r n a t i o n a l ) 及万事达卡国际组织 ( m a s t e r c a r di n t e r n a t i o n a l ) 两大组织及美国运通国际股份有限公司( a m e r i c a e x p r e s s ) 、大来信用征有限公司( d i n e r sc l u b ) 、j c b 日本国际信用卡公司( j c b ) 三家专业信用卡公司。在各地区还有一些地区性的信用卡组织,如欧洲的 e u r o p a y 、台湾地区的联合信用卡中心等等。仅以v i s a 国际组织为例,v i s a 目前有会员单位约2 2 万个,发卡逾1 0 亿张,商户超过2 0 0 0 多万家,联网a t m 机约6 6 万台。2 0 0 1 年,v i s a 处理了总值逾2 兆亿美元的交易,仅在亚太区v i s a 的签账额就比2 0 0 0 年增长了4 4 ,达到3 1 0 0 美元。 信用卡有很多个种类,但是总的概括起来,可以简单地分为两种类型,即广 义信用卡和狭义信用卡。 从广义上说,凡是能够为持卡人提供信用证明、持卡人可凭卡购物、消费或 享受特定服务的特制卡片均可称为信用卡。广义上的信用卡包括贷记卡、准贷记 卡、借记卡、储蓄卡、提款卡( a t m 卡) 、支票卡及赊账胃等。 从狭义上说,信用每主要是指由银行或其它财务机构发行的贷记卡,即无需 预先存款就可贷款消费的信用卡,是先消费后还款的信用卡。 在我国,根据中国人民银行1 9 9 9 年3 月1 日颁布执行的银行卡业务管理办 法的定义,该办法所称银行卡,是指由商业银行向社会发行的具有消费信用、 转账结算、存取现金等全部或部分功能的信用支付工具。银行卡包括信用卡和借 记卡。信用卡按是否向发卡银行交存备用金分为贷记卡、准贷记卡两类。贷记卡 是指发卡银行给予持卡人一定的信用额度,持卡人可在信用额度内先消费、后还 华南理工大学硕卜学位论文 款的信用卡。准贷记卡是指持卡人须先按发卡银行要求交存一定金额的备用金, 当备用会账户余额不足支付时,可在发卡银行规定的信用额度内透支的信用卡。 借记卡按功能不同分为转账卡、专用卡、储值卡。借记卡不具备透支功能。 我国丌展信用卡业务比较晚,1 9 8 6 年中国银行在国内率先成功地推出第一张 信用卡,经过1 6 年的发展,我国的信用卡业务也取得了氏足的进步。目前我国政 府正在大力促进银行卡的推广和普及。 当前国内银行的信用卡业务服务还停留在较落后的水平。中国银行业与国外 银行最大的差距就是在于服务。比如说在客户关系管理方面,国外已有将近二十 年的历史,积累了相当的经验,而中国银行业刚从计划经济时期转变过来,对“以 客户为中心”的理解一直处于表面状态,不能够深入的了解客户的需求,长期以 来对客户实行无差别服务策略,不能够抓住真正的赢利客户,进行区别对待,更 不用说为客户提供一对一的服务。银行的数据库中积累了大量的客户信息,但是 缺乏一套行之有效的数据挖掘系统进行信息分析,使得各种数据不能有效结合, 形成了很多“信息孤岛”。金融机构很难将各种各样的客户信息统一起来,领导 决策层也很难搞清楚数据库系统的整体情况,不能提供有效的决策帮助。现在, 随着数据挖掘技术的不断成熟和完善,在国内各银行开展个性化的信用詹营销也 逐渐变为可能。 2 2 使用信甩卡的优点 信用卡作为特殊的金融商品、现代化的金融工具,是国际流行的先进结算手 段、支付工具和新颖的消费信贷方式,日益受到人们的青睐。 信用卡有许多优点,比如改现金交易为转账结算,取代了一定数量的市场流 通货币,减少了货币的发行量,也就因此减少了国家每年用于货币印刷、调拨、 运输、仓储和投放所耗费的资金,同时加快了社会流动资金周转速度,促进经济 发展等。 对于消费者而言,信用卡的主要功能,就是作为消费签账的工具。消费者可 以使用信用卡进行取现、透支和刷卡消费,免除了携带大量现金的不便和风险, 回时还可通过透支简便地获得银行贷款,所以有些消费者亦会把信用卡视作短期 融资的工具。同时贷汜卡持卡人非现金交易还可以享受如下优惠条件( 中国人民 银行1 9 9 9 年3 月1 日颁布执行的银行卡业务管理办法) : ( 1 ) 免息还款期待遇。银行记账日至发卡银行规定的到期还款日之问为免息 还款期。免息还款期最长为6 0 天。持卡人在到期还款日前偿还所使用全部银行款 项即可享受免息还款期待遇,无须支付非现金交易的利息。 ( 2 最低还款额待遇。持卡人在到期还款日前偿还所使用全部银行款项有困 6 第二章银行信用譬简介及数据仓库技术 难的,可按照发乍银行规定的最低还款额还款。 对于特约商户来说,由于有信用卡发卡银行的信用保证,特约商户可以放心 地为持卡人提供商品和服务,从而扩大商品的销售量,并减轻收款、点款工作量, 简化了支付、记账和结账的过程。 对于各大银行而言,信用书业务的收入主要包括存款利差收入、年费、结算 手续费、透支利息等。在这几项收入中,年费收入是固定不变的,普通信用卡大 约2 0 元到4 0 元一年,只要发卡就会有年费收入,其他几项收入随业务量的大小 而变化,结算手续费收入随卡均消费额的变化而变化,利息收入随透支额的变化 而变化【z 1 。 总之,信用卡的发行,使银行有了一种新的争取特约商户和信用卡客户存款 的手段,有利于扩大银行转账结算业务,同时增加银行信贷资金的来源,从而获 得更多的利差收入,现今,信用卡已经成为银行的重要盈利手段。据统计,国外 信用卡业务给银行带来的利润一般占到银行利润的3 0 左右,花旗银行甚至还要 高,占5 0 以上。美国运通公司更是凭借运通卡成为全球服务、旅游、娱乐业界 的巨无霸。 由于信用卡有这么多的优点,所以现今各个银行正大力发展信用书业务。 2 3 数据仓库的概念 随着社会经济的不断发展,企业在运营过程中产生了大量的数据和信息,管 理人员要如何管理和利用这些数据和信息,是其所面临的首要问题。2 0 世纪7 0 年代关系数据库技术的出现,为这一问题的解决提供了强有力的工具。然而,随 着市场竞争的加剧和信息社会需求的发展,到2 0 世纪8 0 年代中期,企业中高层 管理者所面临的决策问题具有更大的随机性和不确定性,因此简单的管理信息系 统已经不能再满足企业或公司对其运营数据的处理,他们更希望从其存储的大量 历史数据中得到对其发展有利的信息使高层管理人员在进行决策时有所参考, 使其企业得以更好的发展。这种需求的出现,为数据仓库思想的发展打下了基础, 在此基础上数据仓库的概念被提出。1 9 8 2 年,w h n i n o n 在其里程碑式的建立 数据仓库( b u i l d i n gt h ed a t aw a r e h o u s e ) 一书中提出了“数据仓库( d w d a t a w a r e h o u s e ) ”的概念,从此数据仓库的研究和应用得到了社会学者的广泛关注, w h i n m o n 也被公认为数据仓库之父。 w h i n m o n 对数据仓库的定义是:“数据仓库是一个面向主题的,集成的,非 易失的且随时问变化的数据集合,用来支持管理人员的决策。” 3 1 数据仓库是支持管理决策过程的一个数据集合,这个数据集合是由企业内的 历史详细数据和当前详细数据、操作数据和外部数据按照一定的主题标准归类, 华南理: 大学硕十学位论文 进行加工和集成而建立的,是为企业决策服务的。 可以说,数据仓库是一个环境,而不是一件产品,它为用户提供用于决策支 持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。数据 仓库技术是为了有效地把操作型数据集成到统一的环境中以提供决策型数据访问 的各种技术和模块的总称。所做的一切都是为了让用户更快更方便地查询所需要 的信息,提供决策支持。 2 4 数据仓库的优点 数据仓库的使用主要是为了提高系统的性能。一般来说,数据仓库中所存储 的数据量都非常大,其对数据的操作主要是查诲,不过这些查询操作往往比较复 杂,同时还可能涉及对数据在一定汇总级上的计算,这样就需要对这些数据进行 特定的组织,还需要对数据采取一定的存取方法和基于多维视力的实现方法。传 统的数据库主要是为己知的任务、负载以及而向特定事务来设计的,如果在此基 础上进行多维处理分析,可能会大大降低操作任务的性能,而且需要的时间还会 很长,降低效率。此外,一般的数据库都支持并行操作处理,通过对数据库进行 加锁来保证数据的一致性。而多维分析处理对数据记录进行只读访问,以进行汇 总和聚集,如果将并行控制和恢复机制用于这种多维分析处理操作,就会危害并 行事务的运行从而大大降低多维分析处理系统的吞吐量。另外,数据仓库和数 据库这两种系统的数据结构、内容和用法也都不相同。决策支持需要历史数据, 而操作数据库一般不维护历史数据。在这种情况下,操作数据库中的数据尽管很 丰富,但对于决策,还是远远不够的。决策支持需要将来自异种源的数据统一, 产生高质量的、纯净的和集成的数据。相比之下,操作数据库只维护详细的原始 数据,这些数据在分析之前需要进行统一。由于两个系统提供很不同的功能,需 要不同类型的数据,因此,完全需要把数据库和数据仓库分离丌来进行处理。 传统的数据库主要是用柬对企业的f 1 常事务处理所需的数据进行存储,对其 操作主要是删除、插入、更新和查阿操作。而数据仓库中的数据是按照分析主题 来进行组织的,其存储的数据主要是用来进行分析处理的,对其操作主要是查询。 操作型数据库系统设计是面向应用的,针对用户所需要的某一应用来建立操 作性的数据环境。数据仓库是面向分析的,数据仓库中所存储的数据主要是以某 一主题来组织,在此基础上便可完成对此主题的分析处理,并在此分析处理的基 础上不断地发展新主题,同时提取此新主题相应的数据,并不断完善已有的主题, 最终通过不断的完善便可建立起一个面向主题的分析型数据环境。 第二章银行信用卡简介及数据仓库技术 2 5 数据仓库的特性 数据仓库有四个特性,分别介绍如下: ( 1 ) 面向主题性( s u b j e c t o r i e n t e d ) 数据仓库中的数据是围绕着某一主题组织展开的。主题是在一个较高层次上 对企业信息管理系统中数据的综合与归类,并在此基础 二对数据进行分析处理的 抽象,数据库中的数据一般都是按照系统所要处理的事物来进行组织的,而在数 据仓库中的数据通常都是围绕一些既定的主题来组织,如顾客和产品等主题。这 些主题的选取和建立主要是以支持企业的决策所需要分析的数据来进行组织的, 其主要关注的是决策者的数据建模与分析。面向主题的数据组织方式,其实就是 在一个较高层次上对所要分析数据的一个完整、一致的描述,能完整、统一地刻 画各个分析对象所涉及的企业各项数据,以及数据之间的联系。所谓较高层次是 相对面向应用的数据组织方式而言的,是指按照主题进行数据组织的方式具有较 高数据抽象级别。从逻辑意义上讲,面向主题对应于企业中某一宏观分析领域所 涉及的分析对象。 ( 2 ) 集成性( i n t e g r a t e d ) 数据仓库中的数据是根据决策分析的要求,将分散的数据源进行抽取、筛选、 清理、综合后得到的。数据仓库的数据是从原有的分散的数据库中抽取出来的, 但是不可能从原始数据库中直接得到,而是通过对数据的清洗和集成等处理来生 成的。在数据进入数据仓库之前,必然要经过统一与综合,统一就是统一数据源 中所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致等等, 然后进行重新综合,集中存放。数据仓库中的数据综合工作可以在从原有数据库 抽取数据时生成,然而有许多是在数据仓库内部生成的,即在进入数据仓库以后 进行综合生成。 ( 3 ) 时变性( t i m e v a r i a n t ) 数据仓库定期对数据进行更新,其中的数据是随时间的变化而不断变化的。 首先,随着时问推移,数据仓库中的数据不断的得到增加;其次,数据仓库中存 在好多旧的、不用的数据,这些数据在过了一定的时间后要被从数据仓库中删除; 最后,数据仓库中的数据大部分都是从原始数据库中综合得到的,而这些综合数 据中大部分都和时间有关,数据一般都是按照时间来进行综合的,或隔一定时间 段进行抽取的,这些数据要随时州的变化不断进行重新综合。 ( 4 ) 非易失性( n o n v o l a t i l e ) 从数据的使用上看,数据仓库的数据不可更新。即数据保存到数据仓库中后, 最终用户只能通过分析工具进行查询分析而不能进行增、删、改操作。在操作型 环境中,主要对数据的操作有增加、删除、修改、查询等操作,通过这些操作便 华南理 :大学硕十学位论文 可完成对数据库系统的管理,其中可以对同一个系统进行此操作,也可对多个不 同的系统进行。而在数据仓库中,数据从操作型数据中抽取而来,是一段相当氏 时间内历史数据内容的综合。一旦操作型数据被抽取,并进入数据仓库后,只要 数据没有超过数据仓库的数据存储期限,般不对数据进行更新操作,只进行查 渤操作。同时对数据仓库中数据的更新与对操作型数据中数据的更新相比较,对 数据仓库中数据的更新频度要少得多。通常,数据仓库中只需要两种数据访问: 数据的初始化装入和数据访问。 2 6 数据仓库的数据组织 数据仓库中数据的组织方式与数据库不同,通常采用分级的方式进行组织。 一般包括早期细节数据、当前细节数据、轻度综合数据、高度综合数据以及元数 据五部分。 ( 1 ) 早期细节数据 存储的是历史数据,详细的反映了过去真实的历史情况。这些数据增加的频 率较小但增加的幅度较大。数据量很大,使用频率较低,几乎很少被使用。这 些数据一般存储在转换介质中( 如磁带) 。 ( 2 ) 当前细节数据 存储的是最近时期的业务数据,此数据反映当前的业务状况。数据量大,可 被抽取进入数据仓库,用来完成分析处理请示。随着时间的推移( 一般是5 1 0 年) , 这些当前数据便被作为早期细节数据存储于早期细节数据中。 ( 3 ) 轻度综合数据 这些数据从当前细节数据中获得,通常是对当前细节数据在一较小的时间段 海进行统计而得来,也就是在时间上对当前细节数据的一个汇总,因此较当前细 节数据量要小。 ( 4 ) 高度综合数据 这些数据类似于轻度综合数据,只是选择的维度层次较轻度综合数据要高。 此存储数据是一种准决策数据。 ( 5 ) 元数据 元数据是关于数据的数据,包含对整个数据仓库环境( 数据仓库,数据采集 系统) 的描述。分为数据和数据处理规则两部分。此数据中不包含任何业务数据 库中的实际数据信息。 2 7 信用卡数据仓库的构成 在当今阶段,数据仓库和数据挖掘技术f 在被越来越多的银行所应用,数据 第二章银行信用卡简介及数据仓库技术 仓库尤其是数据挖掘技术即将成为支持银行信用卡营销决策分析和改善银行业务 管理的重要工具。 建立银行信用卡数据仓库系统的基础是:打破以部门为界限对客户信息分散 收集、管理和使用的落后模式,以客户为中心,系统地收集、整理、分析和管理 来自其他业务系统、信用 业务管理系统和其他外部系统的客户基本信息。 一般信用卡的数据仓库中包含一百余张表,主要分为客户信息、账户信息、 卡信息、商户信息、交易信息等几大部分和一些参数表等。这些表里包含了基本 的客户资料、每个客户的账户信息及卡信息、特约商户的一些信息和每一笔历史 交易的信息,参数表是一些基本参数对照,如婚姻状态码表、交易代码表、卡种 类码表、风险级别代码表等。 其实要对信用胃的数据做数据挖掘并不一定需要数据仓库的支持,可以抽出 一些业务数据对其进行分析,但这样每次分析前都需要对数据进行清理、纠错的 工作,既费时间而且对大量的数据进行分析时也会出现很多困难。另外考虑到当 前商业银行普遍在开展建立数据仓库的工作,可以在这个过程中同时建立信用卡 业务数据的数据集市。一方面可以系统地保存和处理分析信用卡的业务数据,一 次性的完成数据的清理、集成、加载和转换的工作,为以后的数据挖掘工作打下 良好的基础;另一方面,因为是同时构建数据仓库,就可以和其他的业务数据集 市系统保持很好的兼容性。所以,在建立好信用卡的业务数据集市即数据仓库之 后再丌展大规模的挖掘分析的工作可以省去不少麻烦,而且效果也比较好。 2 8 本章小结 本章主要介绍了信用卡和数据仓库的一些概念和知识,由于现阶段经济技术 的飞速发展,各大银行相继开展信用卡业务,又随着数据库技术的不断发展,数 据仓库的理论逐渐成熟并被应用到银行业信用卡中,使得银行信用卡数据仓库已 经成形并被投入到实际应用中。 正是在此基础之上,数据仓库中的数据迅速膨胀,人们于是不满足于现状, 提出了更高层次的要求。这些海量的数据里一定隐藏着一些潜在的、人们从表面 看不出来的知识,于是人们想到了数据挖掘,用数据挖掘来解决这个难题。 下面一章就接着介绍数据挖掘方面的一些知识。 华南理r 大学硕士学位沧文 第三章数据挖掘技术 3 1 数据挖据的定义 近十几年来,信息在企业发展中的关键地位得到了越来越多的关注。在这个 全新的“信息时代”,赢家往往是那些能成功收集、分析、理解信息并根据信息 决策的企业。随着计算机硬件和软件的飞速发展,尤其是数掘库技术与应用的日 益普及,人们面临着快速扩张的数据海洋,如何有效利用这一丰富数据海洋的宝 藏为人类服务,业已成为广大信息技术工作者所重点关注的焦点之一。人们以前 所使用的数据分析工具无法有效地为决策者提供其决策支持所需要的相关知识, 从而形成了一种独特的现象:“丰富的数据,贫乏的知识”。 为了从大量的历史数据中找出对企业决策有帮助的信息,以帮助企业中高层 决策者进行决策,使企业得到更好的发展,自二十世纪8 0 年代开始,数据挖掘技 术逐步发展起来,数据挖掘技术的迅速发展,得益于目前全世界所拥有的巨大数 据资源以及对将这些数据资源转换为信息和知谚 资源的巨大需求,对信息和知识 的需求来自各行各业,从商业管理、生产控制、市场分析到工程设汁、科学探索 等。数据挖掘可以视为是数据管理与分析技术的自然产物。由于数据挖掘可以比 较好地解决数据爆炸的难题,从海量数据中挖掘知识为决策者服务,所以这项技 术得到了社会学术界的广泛关注。 数据挖掘是决策支持过程中的一个部分,它是数据库发展与人工智能、机器 学习、统计学习技术相结合的产物,通过这些技术对企业原有数据进行高度自动 化的分析,作出归纳性的推理,它的目的是帮助决策者在数据仓库中寻找数据之 间的潜在关联,发现被忽略的要素,提取隐藏在其中的信息,辅助决策者进行趋 势预测及行为决策,帮助企业决策者作出正确的决策选择。也就是应用一系列技 术从大量的、不完全的、有噪声的、模糊的、随机的数据中提取人们感兴趣的信 息和知识,这些知识或信息是隐含的、事先未知而潜在有用的。数据挖掘提取的 知识可以表示为概念、规律、模式、约束和可视化等。数据挖掘算法的好坏将直 接影响射所发现知识的好坏,数据挖掘的任务是从数据中发现有用的模式,这些 模式在企业进行决策时可以帮助企业制定更合理和更有效的商品营销策略。简单 地说,就是从大量数据中提取或“挖掘”知识。 目前对数据挖掘( 也就是d a t am i n i n g ) 的定义有很多种版本,其中比较普遍 的一种定义为: 数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数 第三章数据挖掘技术 据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的 过程h 1 。 数据挖掘又称数据库中的知识发现,通常情况下,许多人把数据挖掘与知识 发现广泛地认为是同一个概念,一般在科研领域中称为知识发现,而在工程领域 内称为数据挖掘。知识发现是从大量数据中提取出可信的、新颖的、有用的并能 被人理解的模式的高级处理过程。“模式”可以看成是知识的雏形,经过验证、完 善后形成知识。知识发现是一个高级的处理过程,它足从数据集中识别出以模式 来表示的知识。高级的处理过程是指一个多步骤的处理过程,多步骤之间相互影 响、反复调整,形成一种螺旋式的上升过程。严格地晚,知识发现被认为是从数 据中发现有用知识的整个过程,而数据挖掘指的是知识发现整个过程中的一个特 定步骤,是知识发现中最核心的部分。 数据挖掘的方法有很多种,最主要有:聚类分析( c l u s t e r i n g ) 、分类分析 ( s o r t i n g ) 、数据概化( d a t ag e n e r a l i z a t i o n ) 、预测分析( p r e d i c t i o n ) 、关联规则 ( a s s o c i a t i o nr u l e s ) 、时问序列分析( t i m es e r i e sa n a l y s i s ) 等,这些方法在后面 会具体介绍。 3 2 数据挖掘的功能 数据挖掘不仅能完成对数据仓库中存储数据的查询,而且还能通过对所查询 数据进行分析来预测将来的趋势和行为,通过对数据的特定分析处理,用户便可 从大量数据中探测出以前从未发现的,但隐式存在的模式,以此来支持决策。从 过去的历史数据中找出有用的信息,并通过一定的数据挖掘方法对其进行处理, 这些数据在被处理后可应用于信息管理、查询处理、决策支持和控制以及许多其 他应用。 3 3 数据挖掘技术的应用领域 如今,数据挖掘技术在许多领域中都得到了比较普遍的应用。它是以市场营 销学的市场细分原理为基础,其基本假定是“消费者过去的行为是其今后消费倾 向的最好说明”。 通过收集、加工和处理涉及消费者消费行为的大量信息,确定特定消费群体 或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个 体下一步的消费行为,然后以此为基础,对所识别出来的消费群体进行特定内容 的定向营销,这与传统的不区分消费者对象特征的大规模营销手段相比,大大节 省了营销成本,提高了营销效率

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论