(计算机应用技术专业论文)基于数据挖掘技术的银行信用卡数据分析.pdf_第1页
(计算机应用技术专业论文)基于数据挖掘技术的银行信用卡数据分析.pdf_第2页
(计算机应用技术专业论文)基于数据挖掘技术的银行信用卡数据分析.pdf_第3页
(计算机应用技术专业论文)基于数据挖掘技术的银行信用卡数据分析.pdf_第4页
(计算机应用技术专业论文)基于数据挖掘技术的银行信用卡数据分析.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机应用技术专业论文)基于数据挖掘技术的银行信用卡数据分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ab s t r a c t r e c e n t l y , a l o n g w i t h t h e b r o a d a p p l i c a t i o n o f d a t a b a s es y s t e m, m u c h d a t a fr o m 七时滩闷u 七笋n llfi v a r i o u s f i inq u i ry 印 e l d s w e r e p r o d u c e d . a t t h e s a m e t i m e , p e o p l e a r e n o t s a t i s fi e d w i t h l d s e a r c h in g i n d a t a b a s e . t h e r e s u l t o f i n q u i ry c a n n o t h e l p p e o p l e u s e f u l i n f o r m a t i o n . t r a d i t i o n a l d a t a b a s e t e c h n o l o g y c a n n o t p o t e n t ia l k n o w l e d g e f r o m d a t a , a n d t h e n t h e d a t a b a s e w it h a b u n d a n t k n o w l e d g e c a n n o t b e m i n e d a n d u s e d e ff i c i e n t l y . d a t a mi n i n g a i m s a t h o w t o p r o c e s s h u g e a m o u n t d a t a i n d a t a b a s e a u t o m a t i c a l ly , a n d d i s c o v e r t h e c e r ta i n a n d u s e f u l k n o w l e d g e fr o m it . i t i s t h e o n e o f m o s t p i o n e e r d i r e c t i o n i n d a t a b a s e a n d d e c i s i o n s u p p o rt . t h e s c o p e o f d a t a p r o c e s s e d i n d a t a m i n i n g i s b r o a d ly , fr o m n a t ur a l s c i e n c e , s o c i e t y s c i e n c e , b u s i n e s s d a t a , t o d a t a p r o d u c e d b y s c i e n t i s t a n d d a t a fr o m s a t e l l it e . t h e s t u d y p o i n t o f d a t a m i n i n g i s t r a n s f e r r e d fr o m t h e o ry t o a p p l i c a t i o n , e v e n t o s a y , i f t h e r e e x i s t d a t a b a s e , t h e t o p i c o n d a t a m i n i n g i s w a i t i n g f o r . t h i s a rt i c l e i s f o c u s e d o n t h e a n a ly s i s o f b a n k i n g c r e d i t c a r d in f o r m a t i o n w i t h t h e u s e o f d a t a m i n i n g t h e o ry a n d t e c h n i q u e . f i r s t l y , t h e b a s i c t h e o ry a n d k e rn e l a l g o r i t h m o f d a t a m i n i n g a r e i n t r o d u c e d t i g h t l y c o m b i n e d w it h b a n k i n g b a c k g r o u n d . a ft e r t h e a n a l y s i s o f p o s s i b l e k n o w l e d g e i n c r e d it c a r d d a t a , w e m a i n l y d i s c u s s d e c i s i o n t re e a n d n e u ra l n e t w o r k i n c l a s s i fi c a t i o n , k - m e a n s a l g o r i t h m i n c l u s t e r , a p r i o r i i n a s s o c i a t i o n r u l e . w e p r o c e s s a j u n i o r a n a l y s i s i n c r e d i t c a r d d a t a o b t a i n e d fr o m i c b c ( i n d u s t r i a l 11!一11 本文的研究工作得到以下项目的资助 1 . 天津市自 然科学基金项目 项目 名称:知识发现系统的研究开发 项目 编号:0 0 3 6 0 0 3 1 1 执行期限:2 0 0 0 年6 月 2 0 0 2 年1 2 月 2 . 与深圳东南实业有限公司合作项目 项目 名称:基于数据挖掘技术的银行信用卡信息分析 执行期限:2 0 0 1 年3 月2 0 0 3 年3 月 第一章引言 1 . 1 数据挖掘技术产生的背景 近十儿年来,随着数据库技术发展,数据采集手段的不断扩展,信息大量的产生出来, 特别是i n t e rn e t 技术的不断发展,信息被广泛地传播, 人们利用信息技术生产和搜集数据的 能力大幅度提高, 千万个数据库被用于商业管理、政府办公、 科学研究和工程开发等等,并 且这一势头仍将持续发展下去。 数据库中的数据量非常惊人, 成百上千的表, 上百万条记录, 数据库容 量达到了 若 干g b ( 1 夕) 字节, 甚至t b ( 1 0 1 , ) 字节2 51 。 于是, 如 何才能 不 被信 息的汪洋大海所淹没, 并能从中及时发现有用的知识, 提高 信息利用率, 成为我们所面对的 非常重要的 课题。 要想使数据成为真正的资源, 只有充分利用它为决策服务才行, 否则大量 的数据可能成为包袱, 甚至成为垃圾。 面对数据丰富而知识 贫乏的局面, 迫切需要知识 提取 与知识发现的理论、方法与技术。 传统的数据库对数据的荃本处理功能包括: 数据的增删改、 数据查询和统计等, 难以 对 数据进行更深层次处理,以得到关于数据的总体特征以及对发展趋势的预测。同时, 数据量 的爆炸性增长也使得传统的处理方法变得不切实际, 如上述天体数据如果由普通数据处理技 术处理的话需要几十个人年, 因此需要采用自 动化程度更高, 效率更好的数据处理方法帮助 人 们进行数据分 析!. 1 。 而且由 于数据的繁 杂, 由 人工 对数 据进行处理也很难找出 关于数 据的 较为全面的信息, 这样许多有用的信息仍然隐含在数据中而不能被发现和利用, 造成资源的 浪费。 数据挖掘( d a t a m i n i n g , d m ) 就是从大i的数据中,提取隐含在其中的、人们事先未知 的、 但又是潜在有用的 信息和知识的 过程。 还有很多和这一术语相近似的术语, 如从数据库 中发现知识 ( k n o w l e d g e d i s c o v e r y i n d a t a b a s e , k d d ) 、 数据分析、 数据融合( d a t a f u s i o n ) 以 及决策支持 ( d e c i s i o n s u p p o r t ) 等。 原始数据可以是结构化的, 如关系数据库中的数据, 也可以 是半结构化的, 如文本、图 形、图 像数据, 甚至是分布在网 络上的异构型数据。 发现 知识的方法可以 是数学的, 也可以是非数学的; 可以 是演绎的, 也可以 是归纳的。 发现了的 知识可以 被用于信息管理、 查询优化、 决策支持、 过程控制等, 还可以 用于数据自 身的维护。 因 此,数据挖掘是一门 交叉学科,它汇聚了 不同领域的研究者, 尤其是数据库、人工智能、 数理统计、可视化、并行计算等方面的学者和工程技术人员。 特别要指出的是, 数据挖掘技术从一开始就是面向 应用的。 它对数据库中的 数据进行统 计、分析、 综合和推理, 企图发现事件间的 相互关联,以 指导实际问题的求解, 甚至对未来 的活动进行预测。 这样一来, 就把人们对数据的应用, 从低层次的末端查询操作提高到为各 级经营决策者提供决策支持。同时需要指出的是, 这里所发现的知识是相对的, 是有特定前 提 和 约 束 条 件、 面向 特定 领 域的, 如 时 态约 束、 空间 约 束 就 是 其中 有 特 定条 件的 im ln 1 , 同 时 还要能够易于被用户理解。 1 .2 数据挖掘技术研究与应用现状 1 .2 . 1 数据挖掘技术的发端 数据库技术在经过了8 0 年代的辉煌之后, 已 经在各行各业成为一种数据库文化或时尚, 目 前除了 关注万维网数据库、 分布式数据库、面向对象数据库、多 媒体数据库、 查询优化和 并行计算等技术外, 己 经开始注重数据的应用方向。 理论根基最深的关系数据库最本质的技 术进步点, 就是数据存放和数据使用之间的相互分离。由 于数据库文化的迅速普及, 用数据 库作为知识源具有了坚实的基础:另一方面, 对于一个感兴趣的特定领域, 先用数据库技术 将其形式化并组织起来, 就会大大提商知识获取起点,以 后从中发掘或发现的 所有知识都是 针对该数据库而言的。 因 此, 在需求的驱动下, 很多 数据库学者转向 对数据仓库和数据挖掘 的研究,从对演绎数据库的研究转向对归纳数据库的研究。 专家系统曾经是人工智能 研究工作者的骄傲。 专家系统实质上是一个问 题求解系统,目 前的主要理论工具是基于谓词演算的机器定理证明技术一二阶演绎系统。 领域专家长期以来 面向一个特定领域的经验世界,通过人脑的思维活动积累了大量有用信息。 在研制一个专家系统时, 知识工程师首先要从领域专家那里获取知识, 这一过程实 质上 是归纳过程, 是非常复杂的个人到个人之间的交互过程, 有很强的 个性和随机性。 因 此, 知 识获取成为专家系统研究中公认的瓶颈问题。 其次, 知识工程师在整理表达从领域专家那里 获得的知识时, 用i f - t h e n 等类的规则表达, 约束性太大, 用常规数理逻辑来表达社会现象 和人的思维活动局限性太大, 也太困 难, 勉强抽象出来的规则有很强的工艺色彩, 差异性极 大, 知识表示又成为一大难题。 此外, 即使某个领域的知识通过一定手段获取井表达了, 但 这样做成的专家系统对常识和百科知识出 奇地贫乏, 而人类专家的知识是以 拥有大量常识为 基础的。 人工智能学家f e i g e n b a u m 估计, 一般人拥有的常识存入计算机大约有 1 0 0 万条事 实和抽象经验法则,离开常识的专家系统有时会比 傻子还傻。 以 上难题大大限 制了 专家系统的应用, 使得专家系 统目 前还停留在构造诸如发动机故障 论断一类的水平上。 人工智能学者开始着手荃于案例的推理, 尤其是从事机器学习的科学家, 不再满足自己 构造的小样本学习 模式的象牙塔, 开始正视现实生活中大量的、 不完全的、 有 噪声的、模糊的、随机的大数据样本,也走上了 数据挖掘的道路。 数理统计是应用数学中最重要、 最活跃的学科之一, 它在计算机发明之前就诞生了, 迄 今己 有几百年的发展历史。 如今相当 强大有效的数理统计方法和工具, 己 成为信息咨询业的 基础。 然而, 数理统计和数据库技术结合得并不算快, 数据库查询语言s q l 中的聚合函数功 能极其简单, 就是一个证明。 咨询业用数据库查询数据还远远不够。一 旦人们有了从数据查 询到知识发现、 从数据演绎到数据归纳的要求, 概率论和数理统计就获得了新的生命力, 立 即呈现出繁荣景象。 k d d 一 词首 次 出 现 在1 9 8 9 年8 月 举 行的 第1 1 届 国 际 联合 人 工 智能 学术 会议 上 s 1迄 今 为比,由美国人工智能协会毛办的k d d 国际研讨会己经召开了7 次. 规模由原来的专题讨论 会发展到国际学术大会, 人数由二三十人到七八百人, 论文收录比 例从2 x 1 到6 x 1 , 研究重 点也逐渐从发现方法转向 系统应用, 并且注重多种发现策略和技术的集成, 以及多种学科之 间的相互浓透。 其他内 容的专题会议也把数据挖掘和知识发现列为议题之一, 成为当 前计算 机科学界的一大热点。 此外, 数据库、 人工智能、 信息处理、 知识工程等领域的国际学术刊物也纷纷开辟了k d d 专题或专刊。i e e e 的k n o w l e d g e a n d d a t a e n g i n e e r i n g 会刊领先在1 9 9 3 年出 版了k d d 技术 专 刊5 3 , 所 发 表的5 篇论 文 代 表了 当 时k d d 研究 的 最 新 成果 和动 态, 较全 面 地论 述了k d d 系 统方法论、发现结果的评价、 k d d 系统设计的逻辑方法, 集中讨论了 鉴于数据库的动态性冗 余、 高嗓声和不确定性与其它传统的 机器学习、 专家系统、 人工神经网 络、 数理统计分析系 统的联系和区别,以 及相应的基本对策。 6 篇论文摘要展示了k d d 在从建立分子模型到设计 制造业的具体应用。 1 . 2 . 2 主要应用领域与状况 数据挖掘在以 下几个领域的应用已 有一定的深度: ( 1 )科学研究: 数据挖掘 在天文 学上 有一个非常著 名的 应用系统:s k i c a t ( s k y i m a g e c a t a lo g i n g a n d a n a ly s is t o o l) 。 它是美国 加州理工学院喷 气推进实 验室j p l 与天文 科学家合作开 发的 用于帮 助天文学家发现遥远的类星体的一个工具。s k i c a t既是第一个获得相当成功的数据挖掘应 用,也是人工智能技术在天文学和空间科学上第一批成功应用之一。 利用s k i c a t , 天文学 家已 发现了1 6 个新的极其遥远的 类星体, 该项发现能帮助天文工作者更好地研究类星体的 形成以及早期宇宙的结构。 数据挖掘在生物学上的应用主要集中于分子生物学特别是基因工程的 研究上。 人类基因 组计划己完成人类染色体基因图绘制。 然而这仅仅是第一步, 更重要的是对基因图进行解释 从而发 现各种蛋白 质( 有1 0 ,0 0 0 多种不同 功能的 蛋白 质) 和r n a分 子的结 构和功能。 近几年, 通过用计算生物分子系列分析方法, 尤其是基因数据库搜索技术已 在基因 研究上做出了 很多 重大发现。 ( 2 ) 市场营销: 由 于管理信息系统和 p o s系统在商业尤其是零售业内的普遍使用, 特别是条形码技术 的使用, 大it关于用户购买情况的 数据被收集到, 这些数据f在不断擞增。 对市场行销来说, 通过数据分析、了 解客户购物行为的一些特征, 对提高竟争力及促进销售是大有帮助的。 利 用数据挖掘技术进行对用户数据分析, 可以 得到关于顾客购买取向 和兴趣的信息, 从而为商 业决策提供可靠的依据。 数据挖掘在行销业上的应用可分为两类: 数据库行销( d a ta b a s e m a r k e t in g ) 和货篮分析 ( b a s k e t a n a ly s i s ) 。 数据 库行销的 任务是通过 交互式查询、 数 据分割和模型 预测等 方法来 选择 潜在的顾客以 便向他们推销产品。 通过对己 有顾客数据的分析,可以 将用户分为不同级别, 级别越高, 其购买的可能性就越大。 数据挖掘学习已 训练的分类样本, 从而当一个新用户到 来时, 数据挖掘系统可给出 其购买可能 性的预测结果, 从而可以 根据结果有针对性地对顾客 进 行 推 销。 货 篮 分 析 是 分 析市 场 销 售 数 据 ( 如p o s 数 据 库 ) 以 识别 顾客 的 购 买 行为 模式, 例 如: 如果a商品被选购,那么b商品被购买的可能性为9 5 %, 从而帮助确定商店货架的布局排 放以 促 销某些商品, 并且 对进货的 选择 和搭 配上也更 有目 的 性。 这方面的系 统有o p p o r t u n it y e x p l o re r , 它 用于超市商品 销售异常 情况的因 果分析等; 另 外i b m公司 也开 发了 识别 顾客 购 买 行 为 模式 的 一 些 工 具 ( i n t e l li g e n t m in e r 和q u e s t 中的 一 部分 ) 。 ( 3 )金融投资: 典型的金融分析领域有投资评估和股票交易市场预测,分析方法一般采用模型预测法 ( 如神经网 络或统计回 归技术 ) 。由 于金融 投资的 风险很大, 在进 行投资 决策时, 更需 要通过 对有关数据进行分析,以 选择最佳的投资方向。目 前国内 有很多进行股票分析的软件, 并且 定期有专家进行股票交易预测, 这些人工的预测一般是根据自己的经验再通过对己有的股票 数据的分析而得到的, 由于是人工处理, 很难对更大i l k 的股市数据进行分析。 无论是投资评 估还是股票市场预测, 都是对事物发展的一种预测, 而且是建立在对数据的分析基础之上的。 数据挖掘可以 通过对已有数据的处理, 找到数据对象之间的关系, 然后利用学习得到的模式 进 行合 理 的 预 测。 这方 面的 系 统 有f id e l ity s t o c k s e l e c t o r , l b s c a p it a l m a n a g e m e n t 。 前 者的 任务是使用神经网 络模型选择投资, 后者则使用了 专家系统、 神经网 络和遗传算法技术来辅 助管理多达6 亿美元的 有价证券。 ( 4 )欺诈甄别: 银行或商业上经常发生诈编行为, 如信用卡恶性透支等, 这些给银行和商业单位带来了 巨 大的 损失。 对这类诈编行为进行预测, 哪怕正确率很低的预测, 都会降 低发生诈骗的 机会, 减少损失。 进行诈编甄别主要是通过总结正常行为和诈编行为之间的关系, 得到诈编行为的 一些特性。 这样当 某项业务符合这些特征时. 可以向 决策人员提出 替告。 这方面应用非常成 功的系统有f a l c o n系统和f a i s 系统。 f a l c o n是h n c公司开发的信用卡欺诈估测系统, 它己 被相当 数量的零售银行用于探测可疑的信用卡交易; f a l c o n的数据格式主要针对一些 流行的 信用卡公司, 如v i s a , m a s t e r等, 因 此它的应用面很大。 f a i s 则是一个用于识别 与洗钱有关的金融交易的系统, 它使用的是一般的政府数据表单. ( 5 )产品制造: 随着现代技术越来越多 地应用于产品制造业, 制造业己不是人们想象中的手工劳动, 而 是集成了多种先进科技的 流水作业。 在产品的生产制造过程中常常伴随有大量的 数据, 如产 品的各种 加工 条件或控 制参数 ( 如时间、 温度等 ) , 这些数 据反映了 每个生 产环节的 状态, 不 仅为生 产的顺利进行提供了 保证, 而且通过对这些数据进行分析, 得到产品 质量与这些参数 之间的关系。 这样采用数据挖掘对这些数据的分析, 可以 对改进产品质量提出 针对性很强的 建议,而且有可能提出新的更高效节约的控制模式, 从而为制造厂家带来极大的回报. 这方 面的系 统有c a s s i o p e e ( 由a c k n o s o 8 公司 用k a t e 发现工具开发的 ) , 己 用于诊断和 预测在 波音飞机制造过程中可能出现的问 题。 ( 6 ) 通信网络管理: 现代社会越来越依赖于通信系统来沟通信息, 通信系统的结构非常复杂, 如何保证通信 系统安全运转成为一个极其重要的问 题。 在通信网 络运行过程中, 会产生一系列替告, 这些 份告有的可以 置之不理, 而有的如果不及时采取措施则会带来不可挽回的损失。 由于普告产 生的随机性很大, 究竟哪些普告可以 不予理睬, 哪些普告必须迅速处理往往很难判断, 一般 需要由人工根据经验进行处理, 效率不高。 数据挖掘可以 通过分析已 有的替告信息的正确处 理方法以及普告之间的前后关系的 记录, 得到替告 之间的关联规则, 这些有价值的 信息可用 于网 络故障的定 位检测和严孟故障的预测等任务中。 根据当前的普告信息, 就可以得到其后 续发生各种情况的可能性, 对危险事件可以 起到预防的作用, 从而使通信网络得以安全运转。 这方面的系统有芬兰h e l s i n k i 大学与一家远程通信设备制造厂家合作的t a s a系统。 ( 7 ) i n t e r n e t 应用: i n t e rn e t 的迅猛发展, 尤其是w e b 的 全球普及, 使得w e b 上信息量丰富无比。 w e b 上的 数据信息不同于数据库, 数据库有规范的结构, 如关系数据库的二维表结构: we b 上的信息 则不然,主要是文档,文档结构性差,因此 w e b上的挖掘需要用到不同于常规数据库挖掘 的很多技术。除了 一般的信息发现外, 用户访问 模式发现是 w e b挖掘任务中的重要一种。 用户使用w e b 获取信息的过程中需要不停地从一个w e b 站点 通过超文本链接跳转到另一个 站点,这种过程存在一定的普遍性,发现此规律,即是 w e b用户访问 模式发现。 这是一种 完全不同于上述所讲的资源发现的 任务。 理解 w e b上的 用户访问 模式可以 辅助改进分布式 网 络系统的设计性能, 如在有高度相关的站点间 提供快速有效的访问 通道; 能帮助更好地组 织设计w e b 主页:帮助改善市场营销决策, 如把广告放在适当的w e b 页上或更好地理解客 户的兴趣。 1 . 3 银行信用卡信息分析 1 .3 . 1 银行信用卡信息分析的问 题 银行信用卡作为一种金融产品己 经开始广泛地应用于社会生活中, 我国的信用卡自1 9 7 8 年代理国外信用卡开始, 至今己 有2 3年, 信用卡发展可以 说是突飞猛进。以 广东省为例, 信用卡发卡城市己达3 5 个,发卡量达3 6 万张,信用卡余额超过8 亿元,年消费额累计3 . 5 亿元, 业务发生额达1 8 0 亿元。 这样的一种金融产品在银行业务发展中占 有巨 大的 份量, 对 其进行分析和研究具有很大的现实愈义。 在信用卡的日常应用过程中会产生很多数据, 这些信息包含着信用卡中许多不为人知的 特点, 由 于信用卡本身是由人的个体使用的, 通过对信用卡数据的 挖掘可以 得到人们日 常消 费的习惯等信息, 这对于信用卡选择发卡对象、 促进消费 具有重要作用。 对信用卡涉及的数 据进行挖掘主要着重于以下几点: ( 1 ) 客户信用评估模型的建立 这是决定银行是否将信用卡发给某人的 一个评测标准, 是信用卡的 第一步, 只有当条件 制定的合理, 才能既广泛的开展业务, 又最大限度地防范不适合取得信用卡的人带来的潜在 透支危险。 条件过严就限 制了一类客户的潜在消费,同时影响信用卡的 业务的发展。 如何制 定合理的标准成为信用卡业务的关键问题之一。 以往条件的制定都是依靠银行的经验, 例如: 收入高、 学历高, 评测得分就高等等。 但这样的评测是否合理, 没人能 给出答案, 制定这样 的标准单凭经验不行, 还要科学地给出 制定条件的原因, 这是信用卡分析中的一个重要问 题。 根据持卡人的消费行为及持卡人的自 然属性,可以 反过来重新评价其信用。 ( 2 )客户消费预测模型的建立 银行信用卡的经营利润有一大部分来自 信用卡的消费, 通常银行对使用信用卡结算的商 户提取2 - 3 % 的手续费。 这就使得银行在扩展业务的时候要将信用卡发给积极消费的客户, 一 个省级银行的发卡量一般在几十万张左右, 每个客户一年中都会收到几次对账单, 同时也有 几份广告, 在没有对信用卡消费进行分析时, 相同的广告会寄给每一位持卡人, 在分析客户 消费后, 我们可以 对客户进行分类处理, 以消费场所为分类方向, 得到一些客户的分类信息, 将不同的客户分在不同的消费 类中, 从而准确投递广告, 增加消费额, 这对银行业务本身来 说非常有用。 ( 3 )客户分类 通过对信用卡交易数据的分析, 我们希望得到客户消费能力的预测。 我们可以 将客户分 为 优质客户,普通客户和记录不良 客户,从而通过调整资信调查内容以 指导信用卡发放。 ( 4 )客户消费行为分析 通过己 有的资信调查资料分析客户使用信用卡的过程中的行为, 希望得到客户属性资料 与消费的各种关系。 将客户在消费场所、 消费日 期、 消费金额上进行聚类分析, 并利用结果 结合客户资料寻我客户的属性。 利用数据挖掘技术对银行信用卡的数据分析, 是非常合适的。 首先, 信用卡本身拥有大 盆的历史数据, 以 我们测试的天津工商银行信用卡数据为例, 仅天津工商银行信用卡部一年 的交易数据就有8 0 0 万条, 这使我们通过对海1t 数据的分析挖掘, 得到很好的分析结果充满 信心。 其次, 数 据挖掘本身 所包括的: 概括 ( s u m m a r i z a t i o n ) 、 分类( c l a s s i f i c a t i o n ) 、 聚 类 ( c l u s t e r i n g ) 、 关联规则 ( a s s o c i a t i o n r u l e ) , 评估 ( e s t i m a t i o n ) 、 预测( p r e d i c t i o n ) 等技术2 1 , 对于解决 上面 提到的四 个问 题, 有非常可靠的 理论支持 和实 现技术。 最后, 数据 挖掘作为计算机领域的前沿方向, 有广阔的 前景, 其应用于信用卡的研究在金融方面只是一 个开端,尚 有很多问 题需要解决,例如: 贷款风险预测就是非常重要的方面之一, 它关系到 银行整个的经营, 是银行立于不败之地的重要支撑。 本文的工 作是探索性的, 期望为 进一步 构造完整的分析系统提供方向 性的引导。 1 . 3 . 2 国内 外已 有的系统、技术 我国自1 9 7 8 年开始代理国 外信用卡业务, 1 9 8 5 年国有商业银行先后各自 发行信用卡。 现在全国发卡t上千万。 但直至今日 仍没有有关信用卡信用分析方面的研究。 国 外在金融方面 有一些 研究, 如 ra ta e n g in e 是德国 管理智能 技术 ( m i t ) 公司 从1 9 9 2 年就成功研究和开发了一个进行智能数据分析和数据挖掘的组合软件平台。 在银行方面开发 有客户分类器。 银行已 不再是只有一个客户集团 和单一的服务性产品, 而是对不同客户集团 的需求, 实施有针对性的 服务。由 此银行和客户间的信任关系,已 成为金融事务中的决策因 素, 建立和培养这种关系已成为银行的重要计划。 因此用正确的银行产品和服务来满足客户 的需求更加重要。 进而需要根据每个客户的个体特征或属性有针对性地提供服务。 此系统, 通过对一个大型银行客户数据库中的数据进行分类来识别客户群。 数据来源于含有约1 2 0 0 0 0 个客户记录的银行数据库。 从中随机抽取有代表性的3 0 0 个样本记录。 样本数据包含所有的 银行客户系统能 访问的属性字段,即: 年龄、 性别、 婚姻状况、 子女数量、 收入、 财产、 其 它储蓄活动信息和银行对该客户的利润边界信息。 选择与分类相关的特性, 得出以下的客户 特征: 年龄,月收入, 在本银行储蓄的财产, 在本银行贷出的 款额, 本行对该客户的年利润 边界。得出各种类型客户供分析使用。 1 .3 .3 存在的问题 国内 还没有相应的分析系统供信用卡客户分析使用, 特别是动态的根据实际 情况分析的 系统更少, 进行信用卡信息分析的主要有以 下困难: ( 1 ) 数据庞大, 如前所述工商银行天津市分行仅仅一年的交易数据就有8 0 0 万条记录, 文 件占i g b的大小,如此庞大的数据对挖掘算法的复杂度、计算机性能都要求很高。 ( 2 )数据不完整: 由于银行近年发展迅速, 业务及其规范不断发生变化, 使积累数据前后 不一致,得到的数据有的并不完整,进行准确的分析存在困难。 ( 3 ) 数据选择和转换: 我们需要将一些不同的数据库中的 属性结合起来, 形成新的数据集 合,以及将这些属性进行各种转换,如归一化、求和等。 ( 4 )信用卡发卡评测标准的验证, 信用评估是一件非常复杂的事情, 涉及到很多因素, 我 们要从大量数据中 得到规律,从而指导标准的再制定。 1 .4 本文的工作及意义 本文研究工作的目 的是以 银行信用卡数据为分析对象, 采用己 有数据挖掘算法进行适应 性研究开发,井为今后的研究工作打下坚实的基础,我们将在以 下几方面开展具体工作: ( 1) 对信用卡相关数据进行集成,并进行必要的 预处理,形成用于挖掘的数据库系统。 ( 2 ) 剖析信用卡相关数据可能存在的知识类型 ( 3 )重点探讨聚类、分类、 关联规则的挖掘,以 期对客户分类、消费行为 特征、资信评估 的方面给予指导 本文的工作是探索性的, 一方面探讨银行信用卡数据挖掘中的问 题, 一方面为构造完整 的信用卡数据分析系统做准备。 第二章数据挖掘主要技术简介 数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程, 这些关 系包括数据间的分 类、 数据间的 关联等。 这些 模型 和关系可以 用来做出 预 测3 1 。 利用历史 数 据建立一个预测模型, 然后再用另外一些数据对这个模型进行测试, 验证你的模型, 最后付 诸实际应用。比如在信用卡分析系统中,通过挖掘持卡人的本身特征 ( 年龄、受教育程度、 收入等) 与消费行为的关系, 建立消费模型, 用信用卡实际数据进行验证后, 用于指导实 际业务。 2 . 1 数据挖掘系统的流程 2 . 1 . 1 系统的总体框架 简单地说, 数据挖掘是指在大童数据中提炼、 “ 挖掘” 知识。 数据挖掘被人们认为是k d d 的一 个环节 1 , 但在很多 情况 下, 大 家把数据 挖掘d m与知识发 现k d d 视为 相同。 从f a y y a d 2 给出的k d d处理过程图,我们可以了解数据挖掘/ 知识发现的具体实施过程 ( 图2 - 1 ) . _ _ _ _ _ _ _ _ j 图2 - 1 f a y y a d 给出 的 知识发 现k d d( 数 据挖掘) 总 体框图 数据挖掘技术是一个整体过程, 是在大量数据准备好之后才能进行的 工作。 特别是数据 挖掘技术都是和数据库相连接的, 因 此在数据库方面要进行多方面的准备工作。 同时, 挖掘 的 结 果需 要 进一步 的 解 释与 验 证, 其 总 体结 构 包 括以 下 几 个方 面 i2 1 , i目 标确立: 研究、 理 解所要开发系 统的应用方向和相关知识, 并从 用户角度确立数据挖 掘过程的最终目 标。 2建立目 标数据集:在数据挖掘方向上选择数据集、变呈子集或数据实例。 3 . 数据清洗和预处理: 例如, 去除数据噪音, 收集模型的必要信息, 确定处理数据损失策 略。 4 . 数据约简: 在数据挖掘的目 标上寻找代表数据独立性的有用特性。 在可考虑的范围内使 用多维约简和变形方法减少变量的有效数目, 或寻找数据的无关性表示。 其作用是缩小 挖掘范围,提高挖掘效率. 5 . 算法匹配: 将数据挖掘的目 标配合到某类数据挖掘算法上, 例如分类、聚类、回归等。 6 . 选择数据挖掘算法:即 选择用于数据挖掘的具体方法。 这包括确定适当的 模型和参数, 并在k d d处理中配合到某一种数据挖掘方法。 数据挖掘:即实际实施挖掘操作, 在某一个有代表性的表中寻找感兴趣的 模式, 或同 样 的代表集 ( 分类规则或概念树,回归, 聚类等等) 。 转换挖掘模式: 这一步主要把挖掘出的 模式以 尽量直观、 人可读 愉的形式 表现出 来。 评估验证: 将挖掘出的知识和其他系统的知识合并或直接交给感兴趣的组织。 这也包括 验证已有的知识。 r9 2 . 1 .2 数据挖掘的主要功能模块 l 预处理 预处 理 的目 的为 了 克 服目 前 数 据 挖 掘 工 具的 局限 性 io 1 , 即 将 被 挖 掘的 数 据 应该 是比 较 完 格, 较少多余信息的。 然而实际中的 数据并非如此,由 于数据当初的组合方式是为了 检索和 存储, 因此数据的格式也是适应当时的要求而设计的, 要想进行数据挖掘就必须对数据进行 预先处理, 使之符合数据挖掘技术的要求。 除此之外在现实世界中存在着的你感兴趣的数据 但都有一定的缺陷,不能直接使用,包括:不完整数据 ( 缺少属性值或某种感兴趣的属性, 或只有总值) 、 噪音数据 ( 有错数据, 或偏离期望值的数据) 、 不一致数据 ( 例如在分类编码 中出 现不一 致数 据) m 。因 此数据挖 掘需要 对数据 进行预处 理, 包括数据清洗、 数据集成与 转换、数据约减等三个过程,下面分别介绍: ( 1 ) 数据清洗 现实世界的 数据基本上都是不完整、 有噪声和不一致的, 数据清洗的目 的就是补全数据、 除去噪声、改正不协调数据。 . 补全不完整数据: 通常使用以 下几种方法补全数据。 手工填入短缺值、 用全局恒t 坡入短缺值、 利用均值填入短缺值、根据决策树推理出 合理的数据补全短缺数据。 . 去除嗓音数据: 嗓音数据是一个随机错误或误差数据。 利用废除数据 ( 利用相邻数 据的特性或利用均值或利用边界值去除噪音) 、聚类、线性回归等技术去除噪音。 .改正不协调数据: 一般根据参考资料手工修改, 或使用知识工程工具将不协调数据 挑出、改正。 例如在信用卡客户信息中 有一些信息显然不准确, 为此我们请银行人员根据经验将数据 改正或补全。 ( 2 )数据集成和转换 数据挖掘所使用的数据经常需要将以不同方式存储的数据集成起来, 而且还根据需要将 数据转换成另外的形式。 a 数据集成: 在数据分析的 过 程中, 常 常需要 将不同 的数 据源集中 起来向 数据仓 库一样使 用, 数据源可能包括数据库、数据块、或文本文件。有三方面的问 题需要注意; . 模式集成: 在不同数据源中的数据有可能会有相同的字段, 这些字段意义虽然相同 但格式不同,进行集成是需要特别注意。 . 数据冗余: 有许多数据具有很强的关联性, 甚至可以说是相同的 数据, 造成了 冗余, 数据冗余一定会增加数据挖掘中计算量,另外如不区分会造成错误。 . 矛盾数据: 不同数据源对数据的定义是不同的, 相同的或近似的内 容在不同数据库 中的取值可能是相反的,这在进行集成后的分析实施会造成极大的错误。 银行信用卡分析使用的数据就来自 不同的数据源, 有文本文件, 表格, 大型计算机数据 文件, r d b , s y b a s e 数据库中的数据等,必须进行集成。 b ) 数 据转 换: 在数据分 析的 过 程中, 常 常需 要 将数据转换成数 据挖 掘需要的 形式, 它包 括 以下几种: . 求和:多用于统计分析。 . 归纳: 将低层次的数据归纳为高层次的数据, 例如: “ 街道”可归纳为更高 层次的 “ 区” 、 “ 城市,o . 数值化:将属性数据按比 例归入更小的 制定范围。 . 属性建立 : 增加新属性。 银行信用卡中的信用卡交易数据分析时需要进行上述几种数据转换工作。 ( 3 ) 数据约减 数据约减技术就是将数据源中的数据减小成具有代表性的很小的集合, 当然, 这是在保 证原数据的 集成度的前提下, 这样在缩小的集合上进行的挖掘得到的结果与在原集合上挖掘 结果一致,但计算t大大减少。数据约减的策略包括以下几点: . 数据块拱加:在创建数据块时使用男加操作。 . 维数约减:检测并清除不相关、弱相关或冗余属性 ( 维数) 。 . 数据压缩:通过程序减少数据集的大小。 银行信用卡中的 信用卡交易数据, 仅天津市工商银行一年就有7 0 0 - 8 0 0 万条记录, 这其 中包含的数据有一些不相关的信息, 我们要利用数据约减方法减低数据运算量。 2 数据挖掘 数据挖掘是k d d 最核心的 部分, 数 据挖掘算法的好 坏将直 接影响到 所发 现知识的 好坏6j 。 目 前大多数的研究都集中在数据挖掘算法和应用上。 人们往往不严格区分数据挖掘和数据库 中的知识发现, 把两者混淆使用。 一般来说数据挖掘是数据深层分析, 下面的图2 - 2 是数据 挖掘系统的示意图. 图2 - 2典型的数据挖掘系统结构图 这里有一些概念需要解释一下: . 知识库 ( k n o w l e d g e b a s e ) :这里是知识的主要组成用于指导搜索或评估结果模型 的感兴趣程度。它包括概念结构图, 用于管理各级的属性及其取值。 . 数据挖掘引擎 ( d a t a m i n i n g e n g i n e ) :是数据挖掘系统的重要组成部分, 包括一 系列任务功能模块, 例如:总结规则、特征向量、关联规则、分类、聚类、 趋势分 析 、 评 估 、 偏 差 分 析 等 (7 1 . 模式评价模块 ( p a t t e r n e v a l u a t i o n m o d u l e ) :为了 找到最为合适的模型, 这个评 价模型和数据挖掘引攀相互作用,以 感兴趣度为门限反复挖掘和评价。 . 用户图形界面 ( g r a p h i c a l u s e r i n t e r f a c e ) : 这是用户和数据挖掘系统进行交互 的界面,用户通过数据挖掘语言与系统交流,完成挖掘工作。 数据挖掘的 模式有很多种, 按功能可分有两大类: 预测型 ( p r e d i c t i v e ) 模式和描述型 ( d e s c r i p t i v e ) 模式。 ( 1 )预测型模式: 预测型模式是可以 根据数据项的 值精确确定某种结果的模式。挖掘预测 型模式所使用的数据也都是可以明确知道结果的。 例如, 根据各种动物的资料, 可以 建立这 样的模式: 凡是胎生的动物都是哺乳 类动物。 当有新的动物资料时, 就可以 根据这个模式判 别此动物是否是哺乳动物。 . 分类模式:是一个分类函数 ( 分类器) ,能 够把数据集中的数据项映射到某个给定 的 类上。 分类模式往往表现为一棵分类树, 根据数据的值从树根开始搜索, 沿着数 据满足的分支往上走,走到树叶就能确定类别。 . 回归模式: 回归模式的函数定义与分类模式相似, 它们的差别在于分类模式的 预测 值是离散的, 回归模式的预测值是连续的。 如给出某种动物的特征, 可以 用分类模 式判定这种动物是哺乳动物还是鸟类; 给出 某个人的教育情况、 工作经验, 可以 用 回归模式判定这个人的年工资在哪个范围内。 . 时间序列棋式: 根据数据随时间变化的趋势预测将来的值。 这里要考虑到时间的 特 殊性质, 像一些周期性的时间定义, 如节假日, 时间前后的相关性等。 只有充分考 虑时间因素,才能利用现有数据随时间变化的一系列的值,更好地预测将来的值。 ( 2 )描述型模式:描述型模式是对数据中存在的规则做一种描述,或者根据数据的相似性 把数据分组。 描述型模式不能直接用于预测。 例如, 在地球上, 7 0 %的 表面被水搜盖, 3 0 是土地。 . 统计和可视化: 最基本的方法是计算各种统计变量 ( 平均值、方差等) 和察看数据 的分布情况。 也可以用数据透视表察看多维数据。 数据的种类可分为连续的和离散 的。离散数据可以 进一步分为可排序的 ( 数据间可以比 较大小, 如,高、中、 低) 和标称的、 不可排序 ( 如邮政编码) 。图 形和可视化工具在数据准备阶段尤其重要, 它能让你快速直观的分析数据。 在图形模式下人们很容易找到数据中可能存在的模 式、 关系、 异常等。 可视化工具的问 题是模型可能有很多维或变量, 但我们只能 在 2 维的屏幕或纸上展示它。比如,我们可能要看的 是信用度与年龄、 性别、婚姻状 况、 参加工作时间的关系。 因此, 可视化工具必须用比 较巧妙的方法在两维空间内 展示n 维空间的数据。 .聚类模式: 把数据划分到不同的组中, 组之间的差别尽可能大, 组内的差别尽可能 小。 与分类模式不同, 进行聚类前并不知道将要划分成几个组和什么样的组, 也不 知道根据哪一 ( 几) 个数据项来定义组。一般来说, 业务知识丰富的人应该可以理 解这些组的含义, 如果产生的 模式无法理解或不可用, 则该模式可能是无意义的, 需要回到上阶段重新组织数据。 . 关联模式: 是数据项之间的关联规则。 关联规则是如下形式的一种规则:“ 在无力 偿还贷欲的人当中,6 0 %的人的月收入在3 0 0 0 元以下。 . 序列模式: 与关联模式相仿, 把数据之间的关联性与时间联系起来。 为了发 现序列 模式, 不仅需要知道事件是否发生, 而且需要确定事件发生的时间。 例如, 在购买 彩电的人们当中,6 0 %的人会在3 个月内购买影碟机。 3 知识表达 数据采掘的结果应准确地描述数据采掘的要求

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论