已阅读5页,还剩31页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 信用卡是银行重要的盈利工具,也是银行重要的价值品牌。它集 中体现了银行的管理水平、科技水平、服务水平。可以说,成功的银 行必然有一张口碑卓越的信用卡,成功的银行必然有一套规范严密的 信用卡风险管理制度。但我国信用卡发展的时间不长,在信用卡风险 管理制度上与国外水平还有相当大的差距。随着国内信用卡发卡量的 不断扩大,因信用卡发生的恶意透支、呆坏账的数量也有迅速上升的 势头,这严重影响了国内银行的经营效益和提高。随着中国 加入世界 贸易组织,我国信用卡业务要想与国际先进水平竞争,必须对现代信 用卡风险管理有一个透彻的、科学的了解。因此,根据我国银行的现 实情况, 摸索和建立适应我国 信用卡经营的信用卡风险管理方法已 经 成为我国银行改革与发展的当务之急。 本文通过对中外信用卡风险管理理论和方法的比较分析,总结出 符合中国银行信用卡业务发展现状的信用卡风险管理方法,为提高信 用卡产品的盈利能力、规避银行的经营风险做出有益的探索。论文首 先从信用卡风险管理研究所应用的基础理论上做出了比较系统的介 绍,详细地介绍了信用卡风险管理的概念、目的和战略。论文第二章 从技术理论层面介绍了信用卡风险管理的方法,重点分析了数据仓库 和数据挖掘技术在信用卡风险管理上的应用。接着在论文的第三章详 细说明了数据挖掘在信用卡风险管理应用中的实例研究,通过介绍美 国m e l l o n 银行和长城信用卡风险管理的实际应用案例, 对中外银行信 用卡风险管理进行了比较,得到了有益的实践启示。最后,文章提出 完善国内银行信用卡风险管理的方案探讨,介绍了信用评分体系,并 结合我国商业银行的具体实际,提出利用数据挖掘技术构建信用评分 模型,为我国商业银行信用卡风险管理提出了有益的建议。 关键词:信用卡风险管理数据仓库数据挖掘信用评分 a b s t r a c t a b s t r a c t a t p r e s e n t , c r e d i t c a r d i s a n i m p o r t a n t e a r n i n g f a c i l i t y , a s w e l l a s a n i m p o r t a n t v a l u e s y m b o l . i t i s t h e c o n c e n t r a t e o f t h e b a n k s m a n a g e m e n t l e v e l , i t a b i l i t y a n d s e r v i c e r a n k . a s u c c e s s f u l b a n k m u s t h a v e a s e r i e s o f b a n k i n g c a r d s , a n d t h e c r e d i t c a r d r i s k c r e d i t m a n a g e m e n t s y s t e m m u s t b e a s u c c e s s f u l o n e . b u t t h e c r e d i t c a r d i s q u i t e n e w f o r c h i n e s e b a n k s , e s p e c i a l l y i n t h e r i s k c r e d i t m a n a g e m e n t s y s t e m . t h e r e i s t h e o b v i o u s g a p b e t w e e n n a t i v e b a n k s a n d o v e r s e a s . i n t h e s e y e a r s , a s t h e i n c r e a s i n g o f d o m e s t i c b a n k i n g c a r d s , t h e r e i s a c l i m b i n g t r e n d o f h o s t i l i t y o v e r d r a f t , a n d t h e a m o u n t o f b a d d e b t i s e x t r e m e l y h i g h . a l l o f a b o v e h a v e t h e b a d i n f l u e n c e o n t h e e a r n i n g c a p a c i t y a n d t h e i m p r o v e m e n t o f t h e d o m e s t i c b a n k s . n o w c h i n a h a s s t e p p e d i n t o t h e w t o , n a t i v e b a n k s m u s t h a v e t h e c o m p r e h e n s i v e k n o w l e d g e o n t h e c r e d i t c a r d r i s k c r e d i t m a n a g e m e n t s y s t e m i n o r d e r t o c o m p e t e w i t h f o r e i g n b a n k s i n t h e w o r l d . s o , i t h a s b e e n v e r y i m p o r t a n t f o r u s t o e n h a n c e t h e r i s k c r e d i t m a n a g e m e n t s y s t e m a c c o r d i n g t o o u r d e m a n d . t h e t h e s i s c o m p a r e s t h e n a t i v e r i s k c r e d i t m a n a g e m e n t m e t h o d s w i t h t h e f o r e i g n s y s t e m s ,a n d s u m m a r i z e s t h e r i s k c r e d i t m a n a g e m e n t s y s t e m a b o u t b a n k i n g c a r d s . i t c a n i n c r e a s e e a r n i n g c a p a c i t y a n d a v o i d t h e r i s k o f b a n k s . f i r s t t h e t h e s i s g i v e s a b r i e f i n t r o d u c t i o n a b o u t r i s k m a n a g e m e n t a n d s o m e u s e f u l a n a l y s i s m e t h o d s , a n d f o c u s o n t h e a p p l i c a t i o n o f t h e d a t a w a r e h o u s i n g a n d t h e d a t a d i g g i n g o n t h e r i s k m a n a g e m e n t . t h e n t h e t h e s i s g i v e s a r i s k m a n a g e m e n t c a s e o f t h e c e r t a i n b a n k o f b e i j i n g , w h i c h i s h e l p f u l t o u n d e r s t a n d t h e p r a c t i c e o f c r e d i t c a r d s y s t e m . f i n a l l y t h e t h e s i s r e c o m m e n d s t h e w o r l d w i d e f a m o u s b a n k i n g g r a d e s y s t e m . o n t h e b a s i s o f d e e p a n a l y s i s a n d o b j e c t i v e d e m o n s t r a t i o n , t h e a c t i o n p l a n a n d t h e n a t i v e g r a d e m o d e l i n d e a l i n g w i t h r i s k m a n a g e m e n t a r e p u t f o r w a r d i n a c c o r d i n g t o o u r r e a l i t y . k e y w o r d s : c r e d i t c a r d r i s k m a n a g e m e n t d a t a w a r e h o u s e d a t a m i n i n g c r e d i t g r a d e y5 8 6 5 7 4 独创性声明 本人声明,所呈交的学位论文是我个人在导师指导 下进行的研究工作及取得的研究成果。尽本人所知,除 了文中特别加以标注和致谢的地方外,论文中不包括其 他人己经发表或撰写过的研究成果,也不包括为获得北 方交通大学或其他教学机构的学位或证书而使用过的材 料。与我一起工作的同事对本研究所做的任何贡献己在 论文中作了明确的说明并表示了谢意。 本人签名 飞停- 日 期 ; 竺 土年 止 一 月 一 竺 日 未经作 者、 与 一 给碗急 勿全文公i v 导言 导言 自1 9 8 5 年中国 银行发行第一张信用卡以 来,国内 各家银行始终 不断探索, 寻求自己的信用卡发展之路。 在中国人民银行颁布了 银 行卡业务管理办法后, 信用卡业务的发展进入了崭新的一页。 但与 西方发达国家相比, 我国信用卡业务的发展依然处于起步阶段。国外 先进银行的信用卡部门是银行重要组成部分。 花旗银行中间业务收入 占其全部收入的5 0 % - 6 0 % ,一般银行中间业务收入也至少占总收入的 3 0 % - 5 0 % 。正是由于信用卡业务的高盈利能力,国外许多银行机构也 积极参与信用卡业务, 跨入这个利润丰厚的市场。 国外银行或者发卡机构大多历史悠久, 在长期研究的市场竞争中 经历了多次考验,己 经建立了一整套严密、 成熟的业务经营管理制度 和风险制度, 形成了完整的竞争策略、竞争手段, 积累了丰富的市场 竞争经验, 拥有雄厚的资金实力和技术实力,软硬件设备先进,资产 规模庞大, 资产质量优良。 不仅金融技术手段先进, 服务品种多样化, 而且创新能力和开拓市场能力非常强, 产品的科技化程度高, 服务质 量和服务效率非常高。 相比之下, 中国的商业银行信用卡业务在整体 上处于竞争劣势。只有在近年来,中国才开放了个人消费信贷业务, 允许发行真正意义上的信用卡, 因此我国的信用卡风险管理还处于萌 芽状态。 现代信用卡的实质是一种循环消费 贷款, 它提供一个有明 确信用 额度的循环信用帐户, 持卡人可以在购买商品或者服务时, 通过信用 卡这个载体使用部分或全部信用额度。一旦已经使用余额得到偿还, 该使用额度又重新恢复使用。 众所周知, 零售业务是以数量为前提的。 没有数量上的保证, 零售业务基本上是不可能取得较好收益的。 而我 国目 前信用卡总量仍然偏低, 极大的限制了 信用卡的盈利能力。 当然, 在法律环境上, 涉及信用的法律相对缺乏, 客观上制约了信用卡行业 的健康发展。 不容忽视的是, 在信用卡风险管理、 市场营销以及客户 服务理念等方面, 我们与国外先进的信用卡发卡机构相比, 还存在着 较大的差距。 特别是在信用卡风险管理方面, 无论是理论、 还是技术 手段以及具体事物,我们与先进的信用卡发卡机构相比还比较落后, 这反过来对我们发展信用卡业务提出了 挑战。 因此, 我们必须高度重 视信用卡风险管理, 全面提高信用卡风险管理水平, 充分认识信用卡 风险管理对银行收益水平、 市场竟争能力以 及银行竞争优势具有深远 的意义。 国外在信用卡风险管理理论和实践上的研究比中国成熟很多, 特 别是美国作为信用管理行业最发达的国家, 在信用卡方面的研究已远 北京交通大学硕十学位论文 远领先其他国家。 在理论上, 现在较新的数据挖掘、 神经网络、 决策 树等理论技术大多处于领先地位: 在实践中, 美国从2 0 世纪6 0 年代 开始陆续制定了与信用卡管理相关的法律, 并逐步形成交完整的框架 体系。 但这些西方理论在研究背景、 客户消费习惯和社会信用思想等 多方面于我国不同,因此不能直接指导我国商业银行的实际工作。 国内对商业银行信用卡风险管理的研究是近几年的事了, 利用数 据仓库、数据挖掘的成果并不多, 在理论应用上也基本照搬国外的模 型。 金融学院的周宏亮、 廖晓峰教授等银行业专家在研究中涉及过此 方面的问题, 但主要是研究美国信用卡风险管理的法律性问题, 对我 国信用卡的研究不深, 因此国内商业银行信用卡风险管理还需要大量 的理论和实践研究。 论文将在信用卡风险管理理论技术和知识的引导下, 从我国信用 卡发展现状出发, 采取社会调查和案例分析相结合的方式, 进行实证 研究方法。 信用卡风险管理是用来定义负责维持金融机构资产质量的词汇, 风险由敞口和控制两个基本元素组成。 敞口可定义为受限制于一些影 响导致资金损失的情形, 控制是采用各种技巧、 工具和技术减少敞口 对金融损失的影响程度, 风险则只面临特定原因和状况下出现损失的 概率。 通过量化在信用卡发卡机构的各个阶段敞口的水平, 就可以利 用控制来提供一个符合金融机构利润和资产质量目 标的风险水平。 信 用卡风险管理的着眼点不是达到期望的风险水平中必要的控制, 而是 将控制交织在敞口的各项基本元素中。 信用卡风险管理的目 标就是结合发卡机构的发展战略和市场定 位,在有效控制风险敞口的同时,竭力使发卡利润最大化。一方面, 发卡机构通过识别和有效的管理现有资产组合中的各个部分的风险, 来达到这一目的;另一方面,信用卡风险管理不仅仅是对风险, 而且 是对受益有着较大影响的资产组合的管理。 银行针对不同客户群体制 定不同的信用卡风险管理政策,最大限 度的提高收益。 随着中国加入世界贸易组织, 我国 信用卡业务要想与国际先进水 平竞争, 必须对现代信用卡风险管理有一个透彻的、 科学的了解。 本 文将对商业银行信用卡风险管理进行描述和分析, 内 容涉及到了信用 卡风险管理全过程、 相关的 法律法规、 银行信用政策等, 在分析技术 方面做出了重点研究, 提出了数据仓库、 数据挖掘、神经网络、决策 树、 个人信用等级评估模型等较新信息技术成果。 在上面的理论研究 基础上, 文章还以 北京某家银行信用卡风险管理系统的具体内 容为案 例,介绍了新理论和技术在实践中的应用情况。 信用卡是银行重要的盈利工具, 是银行重要的营销利器, 也是银 导言 行重要的价值品牌。 他集中体现了银行的管理水平、 科技水平、服务 水平, 可以说成功的银行必然有一张口 碑卓越的信用卡, 成功的银行 必然有一套规范严密的信用卡风险管理制度。 本文希望通过对国内商 业银行信用卡风险管理方面的分析和探讨, 为进一步理清信用卡风险 管理的思路、提高信用卡整体竞争能力做出积极的探讨。 文章希望通过对中外信用卡风险管理理论和方法的比较分析, 总结出 符合中国银行信用卡业务发展现状的信用卡风险管理方法, 为提高信 用卡产品的盈利能力、规避银行的经营风险做出有益的探索。 信用 卜 风险管理研究概述 1 . 信用卡风险管理概述 1 . 1 信用卡风险管理的概念 信用卡风险管理是用来定义负责维持信用卡机构一定程度资产 质量的有关方面的词汇。 信用卡风险管理是将控制作用到给定敞口的 结果。当我们将信用卡风险管理作为一门学科时, 必须充分考虑到整 个环境。这里我们可以参考欧洲商业银行使用的 1 4个信用卡风险管 理理念。 ( 1 )银行不能 “ 回避”风险,只能 “ 管理”风险。 ( 2 ) 风险和回报必须对称。 ( 3 ) 信用卡风险管理意识必须贯穿到业务拓展的全过程。 ( 4 ) 风险控制要同 市场营销、市场拓展有机结合起来。 ( 5 )按 “ 四眼原则”办事,即至少有四只眼睛同时盯住一笔业务。 ( 6 )严格的信用评定制度。 ( 7 ) 按不同的 情况区分不同的风险种类。 ( 8 ) 建立相应的风险控制标准。 ( 9 ) 商业银行必须建立完善的、 垂直的风险 控制体制。 ( 1 0 ) 信用卡风险管理体制必须保持独立性。 ( 1 1 ) 董事会和总行领导 对全行的 风险控制负最终责任。 ( 1 2 ) 商业银行要建立自 己 独特的风险文化。 ( 1 3 )建立合适的风险控制奖惩制度。 ( 1 4 )商业银行要共同吸取过去失误的教训。 风险有敞口 和控制两个基本元素组成。 敞口 可以定义为受制于一 些影响导致资金损失的 情形。 控制是指采用各种技巧、 工具和技术减 少敞口 对金融损失的影响程度。 因此, 风险则是指面临特定原因和状 况下出现损失的概率。 通过量化在信用卡发行过程的各个阶段敞口的水平, 就可以利用 控制来提供一个符合公司利润目 标的风险水平。 我们的最终目 标不是 达到期望的风险水平所必要的控制, 而是将控制交织在敞口的各基本 元素中。实际上,我们需要: ( 1 )为信用卡公司获得可接受的资产质量水平和利润水平建立贷款 审批指南。 ( 2 )随着评估和量化敞口的必要工具以 及控制工具的开发和实施, 扩大先进技术的使用,例如: a b 新申请人信用评分卡;定价模型 新申请人信用评分系统。 北京交通大学硕十学位论文 c 现有客户行为评分卡;帐户激活和使用;欺诈预测和催收策略。 d 现有客户行为评分系统。 ( 3 )通过建立有效的测试设计 ( 结构)和短期 ( 6 个月以内) 、长期 结果的评价,确保获得结论性的和可操作性的分析。 下面概括的介绍一下信用卡风险管理的7 个主要组成元素。 ( 1 ) 法律和规定 决定那些必须满足法律 ( 契约的)流程和国家法律要求的方向。 在债权人方面, 审计和控制必须保证流程彼此之间的互相制衡符合法 律法规的要求,并颁布有效的政策、流程等。 ( 2 ) 信用政策 为具体执行部门制定符合商业战略需要的、稳定的、一致的、全 面的指南。 ( 3 ) 分析技术 负责利用客户信息、 历史交易数据等识别模式、 趋势和行为。 采 用预测性工具来进行辅助战略的和战术的决策制定。 ( 4 ) 产品管理 发卡行为了获得尽可能大的利润, 对信贷产品向不同客户群体进 行市场营销行为。 ( 5 )信用操作 新旧 消费者申 请信贷审批 ( 6 )催收操作 对到期债务的识别和征收。 ( 7 ) 欺诈操作 对欺诈使用的信用卡及账户的鉴别、恢复、偿还和起诉。 这七个流程是信贷流程的主要组成部分,如图所示 图1 - 1信用卡风险管理的7 个主要组成元素 信用 p 风险管理研究概述 1 . 2 信用卡风险管理的目的 信用卡风险管理的目 标就是结合银行卡机构的战略分析和市场 定位, 在有效控制负债风险敞口的同时, 竭力使机构利润最大化。了 解每个成分的特性, 并对这些成分进行调整, 有助于加强信用卡风险 管理能力。 商场如战场, 一切策略的最终目的均是使情况如何对我方 有利, 选择合适的时机进退, 正确的评估各种折中方案的 优点和缺陷, 提供协作的解决方案。 由于人才、资金、时间均是稀缺资源, 将有限的资源应用到关键 环节, 对于商业成功是至关重要的。 如果仅仅如同对手一样分配资源, 是很难取的竟争优势的。 因此,首先需要做的是,确定那些掌握信用卡成功钥匙的领域。 然后, 将有效的资源搭配投入到这些领域中去。 只有这样, 才会取得 竞争优势地位。 开发和实施有效战略需要注意以 下几个方面: ( 1 ) 必须清晰的定义商业战略或目 的。 ( 2 ) 必须在因果基础上, 推断出 将来的情况, 形成最富逻辑性的 假 设,从而预测收入、损失和利润。 ( 3 )在许多可选战略中, 只有较少部分能被采纳。 一旦选中, 要大 胆和积极的进行资源 ( 人力、技术和资金)配置。 通过集中更 多的资源支持较少的项目, 在局部竞争中获得优势, 进而提高 成功率。 ( 4 )要根据自 身资源进行战略部署, 量体裁衣, 不能期望时间 越短、 获取越多,必须防止过分的期望。 ( 5 )只要假设成立, 管理层必须坚持最初的 战略选择。 然而, 也不 能一成不变, 一旦条件变化, 甚至就要准备改变最初的战略基 本方向。 ( 6 ) 为了 赢利, 要接受一定水平的风险。 一般规律是, 客户的 风险 越低,利润越少。 信用卡风险管理的目 的是将赢利指标最大化。 通过识别和有效的 管理现有资产组合中各个部分的风险级别, 并有效获得目 标市场, 达 到最终目的。 ( 1 ) 账户获得策略, 从别的机构、 预批准的恳请营销、 交叉营销现 存客户中获得良 好的客户组合。 ( 2 ) 控制损失,包括控制信用损失和欺诈交易损失。 ( 3 ) 有效评估现有客户账户关系,建立与客户一定程度的亲密关 系, 在可接受资产质量水平范围内 从业务上满足客户的需要。 信用卡风险研究的技术分析 2 信用卡风险分析的技术理论 2 . 1 数据和数据仓库 目前, 有关数据仓库的定义很不统一。 公认的数据仓库之父将其 定义为 “ 支持管理决策过程的、 面向主题的、集成的、随时间而变化 的、持久的数据集合” 。同时,数据仓库还有其他几种定义,如:它 是一种体系结构; 它是一种语义一致的数据仓储 ( 独立的且不影响己 在运作的应用系统) ,以满足不同的数据存取、文档报告的需求;它 是一个不断发展的过程, 把多个异质的原始数据融合在一起以用以支 持结构式即席查询、分析报告和决策支持。 以上是数据仓库各种各样的定义, 但有一点是一致的, 即数据仓库技 术是一个企业决策支持系统必不可少的部分。 建立数据仓库的基础问 题包括如下: ( 1 ) 从不同数据来源中如何集成数据和源数据; ( 2 ) 数据质量:精确和简练: ( 3 ) 数据的概括和聚集; ( 4 ) 每当数据源中创新数据时, 如何保持数据仓库和数据源的同步 更新; ( 5 ) 在同一台计算机和关系数据库的平台上, 当数据仓库的数据库 和工具共享时,如何保证性能; ( 6 ) 源数据管理: 数据仓库有别于一般意义的数据库, 后者以多种方式支持联机事 务处理,而前者则是支持联机分析处理。 数据仓库具有以 下特征: ( 1 ) 面向 主题 它可以 根据最终用户的观点 组织和提供数据。 而大多数运作系统 只能按应用的观点组织数据, 因为这样可使应用程序访问数据的效率 更高一些。一般来说, 按业务应用程序易于检索和更新来组织数据, 分析员就可以利用图形查询工具询问 业务方面的问题, 但并非必须如 此。 这样做的目的是由于数据库在其最初设计时的重点是应用程序检 索和更新的效率。 ( 2 ) 管理大量的信息 大多数数据仓库包含历史数据。 这些数据在运作系统中通常被删 除, 因为应用程序已 不再需要了。 由于数据仓库必须管理大量的 信息, 因而它就要提供概括和聚集机制来对巨大的数据量进行分类。 简而言 之,数据仓库可以使用户在 “ 森林中找到树木” 。因而数据仓库要在 粒度的不同层次上管理信息。由于需要管理所有历史数据和当前数 北京交通大学硕士学位论文 据, 所以数据仓库的容量远远大于一般数据库。 ( 3 ) 信息存储在多个存储介质上 因为必须管理大量的信息, 所以数据仓库的数据往往存储在多个 介质上。 ( 4 ) 跨越数据库模式的多个版本 以为数据仓库必须存储和管理历史数据, 这些历史信息都在不同 时间的数据库模式的不同版本中, 所以数据仓库有时还必须处理来自 不同数据库的信息。 ( 5 )信息的 概括和聚集 通常, 运作数据库中存储的信息对于做出决策似乎过于详细。 数 据仓库可将信息概括和聚集并以人们易于理解的方式提供出来。 概括 和聚集对于理解大量信息是很本质的。 ( 6 ) 从许多数据来源中 将信息集成并使之关联 由于要管理历史信息, 而在操作这些信息是要涉及到多个应用程 序和多个数据库, 所以需要数据仓库收集和组织这些应用程序多年来 在该场合获得的 数据。 由 于存储技术、 数据库管理技术和数据语义的 差异,这个任务极具挑战性。 2 . 2 数据挖掘 由于银行在金融领域的地位、 工作性质、 业务特点以及激烈的市 场竞争决定了 他对信息化、电子化比 其他领域有更迫切的要求。 利用 数据挖掘技术可以帮助银行产品开发部门描述客户的需求趋势。 如美国 银行通过使用数据挖掘工具, 根据客户的消费 模式预测何 时为客户提供何种产品。 银行市场调查和数据库营销部发现: 公共数 据库中 存储着关于每位消费者的大量信息, 关键是要透彻分析消费 者 投入到新产品的原因, 在数据库中找到一种模式, 从而能够为每种新 产品找到最适合的消费者。数据挖掘能读取8 0 0 到1 0 0 0 个变量并且 给他们赋值,根据消费者家庭贷款、 信用卡、存款或其他储蓄、投资 产品情况, 将他们分成若干组, 然后使用数据挖掘工具预测何时向消 费者提供何种产品。预测准客户的需要是商业银行的竟争优势。 美国运通公司有一个用于记录信用卡业务的数据库, 数据量达到 1 5 4 亿字符,并仍在随着业务进展不断更新。运通公司通过对这些数 据进行挖掘, 制定了“ 关联结算优惠” 的促销策略, 即如果一个顾客 在一个商店用运通卡购买一套时 装, 那么在同一商店再买一双鞋, 就 可以得到比较大的折扣, 这样既可以增加商店的销售量, 也可以增加 运通卡在该商店的使用率。 再如, 居住在伦敦的持卡消费者如果最近 刚刚乘英国航空公司的航班去过巴黎, 那么他可能会得到一个周末前 信用 卜 风险研究的技术分析 往纽约的机票打折优惠。 正如美国运通公司一样, 很多的信用卡公司和发卡银行都在利用 数据挖掘技术帮助管理客户生命周期的各个阶段,包括争取新的客 户、 在己有的客户身上赚更多的钱和维护好的客户。 如果能够了解优 良 客户的需求,那么就能为客户提供有针对性的服务。比如,发现购 买某一信贷产品的客户特征, 那么就可以向那些具有这些特征但还没 有购买此产品的客户推销;寻找损耗、流失的客户特征, 银行就可以 在那些具有相似特征的客户还未流失之前进行针对性的弥补, 因为从 成本核算上,保留一个客户要比争取一个客户便宜。 保证数据挖掘成功有两个关键要素。 一是准确的定义所要解决的 问题, 定位准确的问题通常会带来最好的回报; 二是使用正确的数据, 选定所得到的数据, 也许还要从外部购买数据, 需要对这些数据做有 效的数据整合和转换。那么,究竟什么是数据挖掘呢? 2 . 2 . 1 数据挖掘的基本概念 数据挖掘的目的是生成可据其所示的含义采取行动的知识, 也就 是建立一个现实世界的模型。 建立这个模型可能需要各种各样的源数 据, 包括交易数据、客户历史数据、 人口 统计信息、 进程控制数据和 市场相关的外部数据等,比如:发卡单位提供的数据、天气数据等。 模型是模式和数据间相关性的形式化描述。 数据挖掘是一个利用各种分析工具在数据中发现模型和数据间关系 的过程, 这些模型和关系可以用来做出预测。 数据挖掘是通过仔细分 析大量数据来解释有意义的新的关系、 模式和趋势的过程, 它使用模 式识别技术、统计技术和其他数学技术. 数据挖掘的第一步是描述数据。 计算统计变量 ( 比 如平均值、 均 方差等) ,再用图 表或图片直观的 表现出来, 进而可以 看出一些变量 之间的相关性。 选择正确的数据源对整个数据挖掘项目的成败至关重 要,在后面数据挖掘的步骤中我们会着重强调这一点。 数据描述并不能为人们制定行动计划提供足够的依据, 必须用历史数 据建立一个预测模型,然后再用另外一些数据对这个模型进行测试。 一个好的模型没必要与数据库中的数据 1 0 0 % 相符,好的数据库在决 策时将成为一个很好的指南和依据。 最后一步是验证模型。 比 如使用所有对产品推广计划做出回应的 人的 数据库做了一个模型, 来预测什么样的人会对产品感兴趣。 数据挖掘不是全能的, 他只是一个工具。 他不会坐在数据库上一 直监视着数据库, 然后当发现有意义的模型时 发出一封电 子邮件。 他 需要了解具体的业务, 理解数据, 弄清分析方法。 数据挖掘只是帮助 北京交通大学硕士学 位论文 商业人士更深入、 更容易的分析数据。 他无法理解某个模型对企业的 实际价值,而且数据挖掘中得到的模型必须要在现实生活中进行验 证 。 为了保证数据挖掘结构的价值, 必须了 解数据, 这一点至关重要。 输入数据库中的异常数据、 不相关的字段或相互冲突的字段 ( 比如年 龄和生日不一致) 、数据的编码方式等都会对数据挖掘输出结果的质 量产生影响。 虽然一些算法自 身已考虑到这些问题, 但仅仅让算法解 决这些问题是不够的。 数据挖掘不会在缺乏指导的情况下自 动的发现模型, 不能要求数 据挖掘工具 “ 帮我提高信用卡直接邮件推销的响应率” ,而是应该让 数据挖掘工具寻找对你的推销回应的人, 或既回应又做了大量订单的 人的 特征。在数据挖掘中寻找这两种模型是很不相同的。 数据挖掘技术涉及大量高深先进的数学理论和技术, 虽然数据挖 掘工具的使用并不要求掌握很深的分析技术, 但仍然需要知道数据挖 掘工具是如何工作的, 所采用的算法的原理是什么。 所选用的技术和 优化方法会对模型的准确度和生成速度产生很大的影响。 数据挖掘永远不会替代有经验的商业分析师或管理人员所起的 作用, 数据挖掘只是提供一个强大的工具。 每个成熟的、了 解市场的 公司都己经具有一些重要的、 能产生高回报的模型, 这些模型可能是 管理人员花了很长时间, 做了很多调查, 甚至是经过很多失误之后得 来的。 数据挖掘工具做的就是使这些模型得到的 更容易、 更方便, 而 且更合理。 2 . 2 . 2 数据挖掘和数据仓库 大部分情况下, 数据挖掘都要先把数据从数据仓库中拿到数据挖 掘库或数据集市 ( d a t a m a rt ) 中 ( 见图2 一 1 ) 。 从数据仓库中直接得到 进行数据挖掘的数据有许多好处。 就如后面会讲到的, 数据仓库的 数 据清理和数据挖掘的数据清理差不多, 如果数据在导入数据仓库时己 经清理过, 那很可能在做数据挖掘时就没必要再清理一次了, 而且所 有的数据不一致的问题都己经解决了。 信用 卜 风险研究的技术分析 数据仓库 ix f fiir n x m。 fl *v 9 t $t 9 l2 wo n s t 图2 - 1 数据仓库与数据挖掘的关系 数据挖掘可能是数据仓库中的一个逻辑子集, 而不一定非得是物 理上单独的数据库。 但如果数据仓库的计算资源己 经很紧张, 那最好 还是建立一个单独的数据挖掘库。 当然为了数据挖掘, 不必要非得建立一个数据仓库, 数据仓库不 是必须的。 建立一个巨大的数据仓库, 把各个不同源的数据统一在一 起, 解决所有的数据冲突问题, 然后把所有的数据导入到一个数据仓 库中, 是一项巨大的工程, 可能要用几年的时间花上百万的钱才能完 成。 如果只是为了数据挖掘, 则可以把一个或几个事务数据库导入一 个只读的数据库中, 就把他当作数据集市, 然后在上面进行数据挖掘。 2 . 2 . 3 数据挖掘和联机分析处理 一个经常问的问题是,数据挖掘和联机分析处理到底有何不同, 实际上,他们是完全不同的工具,基于的技术也大相径庭。 联机分析处理是决策支持领域的一部分。 传统的查询和报表工具提供 数据库中都有什么 ( w h a t h a p p e n e d ) , 联机分析处理则更进一步 提 供下一步会怎么样 ( w h a t n e x t ) 、如果采取某项措施后又会怎么样 ( w h a t i f ) 。用户首先建立一个假设,然后用联机分析处理检索数据 库来验证这个假设是否正确。比 如, 一个信用分析师想寻找是什么原 因导致信贷拖欠, 他可能先做一个初始的假设, 认为低收入的人信用 度也低, 然后用联机分析处理来验证这个假设。 如果这个假设没有被 证实, 他可能去考察那些高负债的账户, 如果还不行, 也许要把收入 和负债一起考虑,一直进行下去, 直到找出想要的结果或放弃。 也就是说, 联机分析处理分析师是建立一系列的 假设, 然后通过 联机分析处理来证实或推翻这些假设来最终得到自己的结论。 联机分 析处理分析过程在实质上是一个演绎推理的过程。 但是如果分析的变 量达到几十个或上百个, 而问题也变成了复杂的组合优化问题, 那么 北京交通大学硕士学位论文 在用联机分析处理手动分析验证这些假设将是一件非常困难、痛苦、 甚至不可能的事情。 数据挖掘与联机分析处理不同之处是, 数据挖掘不是用于验证某 个假设的模型的正确性, 而是在数据库中自己寻找模型。 在本质上他 是一个归纳的过程。比如, 一个使用数据挖掘工具的信用分析师想找 到引起信贷拖欠的风险因素, 数据挖掘工具可能帮他找到高负债和低 收入是引起这个问题的因素, 甚至还可能发现一些分析师从来没有想 过或试过的其他因素,比如年龄。 数据挖掘和联机分析处理具有一定的互补性。 在利用数据挖掘出 来的结论采取行动之前, 也需要验证一下如果采取这样的行动会给公 司带来什么样的影响, 那么联机分析处理工具能回答这类问题。 而且在知识发现的早期阶段, 联机分析处理工具还有其他一些用 途,可以帮助探索数据,找到哪些是对某个问题比较重要的变量, 发 现异常数据和互相影响的 变量。 这都能帮助更好的理解数据, 加快知 识发现的过程。 数据挖掘、 机器学习 和统计分析 数据挖掘利用了人工智能和统计分析的进步所带来的好处。 这两 门学科都致力于模型发现和预测。 数据挖掘不是为了替代传统的分析 技术。 相反, 他是分析方法学的延伸和扩展。 大多数的分析技术都基 于完善的数学理论和高超的技巧, 预测的准确度还是令人满意的, 但 对使用者的要求很高。 而随着计算机计算能力的不断增强, 我没有可 能利用计算机强大的计算能力只通过相对简单和固定的方法完成相 同的功能。 一些新兴的技术同样在知识领域取得了很好的效果, 如神经元网 络和决策树, 在足够多的数据和计算能力下, 几乎不使用人的关照自 动就能完成许多有价值的功能。 数据挖掘就是利用了 统计和人工智能技术的应用程序, 把这些高 深复杂的技术封装起来, 使人们不用自己 掌握这些技术也能完成同 样 的 功能,并且更专注于自 己 所要解决的问 题。 2 . 2 . 4 数据挖掘过程 在实施数据挖掘之前, 先制定采取什么样的步骤, 每一步都做什 么, 达到什么样的目 标是必要的, 有了好的计划才能保证数据挖掘有 条不紊的实施并取得成功。比 如s p s s的5 a : 评估 ( a s s e s s ) , 访问 ( a c c e s s ) , 分析 ( a n a l y z e ) , 行动 ( a c t ) ,自 动化 ( a u t o m a t e ) ; s a s 的s e m m a : 采样 ( s a m p l e ) , 探索 ( e x p l o re ) , 修 正 ( m o d if y ) , 建 模( m o d e l ) , 评 估( a s s e s s ) . 信用 仁 风险研究的技术分析 开发数据挖掘系统的基本步骤包括: ( 1 ) 定义商业问题 在开始知识发现之前, 最先的同时也是最重要的要求就是了解你 的数据和业务问题。 如果事先不了解, 任何复杂玄妙算法都不能提供 有价值的结果,即使有也难使人信赖。 缺少了这些背景知识,就没办 法明确定义要解决的问题, 不能为数据挖掘准备数据, 也很难正确的 解释得到的结果。 要想充分发挥数据挖掘的价值, 必须要对目 标又一 个清晰明确的定义, 即决定到底想办什么。比如想提高信用卡直接邮 件推销的用户回应时,想做的可能是 “ 提高用户响应率” ,也可能是 “ 提高一个用户回应的价值” ,要解决这两个问题而建立的模型几乎 是完全不同的,因而必须做出决定。 有效的问题定义还应该包括一个 对知识发现项目得到结果进行衡量的标准, 当然还应该有整个项目 预 算合理性的解释。 ( 2 )建立数据挖掘库 连同下面的两个步骤, 构成了数据预处理的核心。 数据准备工作 大概要花去整个数据挖掘项目5 0 % -9 0 %的时间和精力。 建立数据挖掘库分成以下几个部分:数据收集;数据描述; 选择; 数据质量评估和数据清理; 合并与整合; 构建元数据; 加载数据挖掘库; 维护数据挖掘库。 ( 3 ) 分析数据 分析的目的是找到对预测输出影响最大的数据字段和决定是否 需要定义导出字段。 如果数据即包含成百上千的字段, 那么分析这些数据将是一件非 常耗时和累人的事情, 这是需要选择一个具有好的界面和功能强大的 工具软件来协助完成这些工作。 ( 4 ) 准备数据 这是建立模型之前的最后一步数据准备工作。 可以把此步骤划分 为4 个部分: 选择变量; 选择记录; 创建新变量; 转换变量。 ( 5 ) 建立模型 建立模型是一个反复的过程。 需要仔细考察不同的模型以 判断哪 个模型对要解决的问题最有用。 在寻找好的模型的过程中学到的东西 会启发、修改数据,甚至改变最初对问 题的定义。 一旦决定了预测的类型, 就需要为这个预测选择模型的类型。 可 能是一棵决策树、 神经网络甚至传统的数据统计。 如神经网络需要做 数据转换,有些数据挖掘工具可能对输入数据的格式有特定的限制 等。一旦准备好所有的数据,就可以开始训练模型了。 为了 保证得到的模型具有较好的 精确度和鲁莽性, 需要一个定义完善 北京交通大学硕士学位论文 的训练验证协议。 有时也称此协议为带指导的学习。 主要思想就 是先用一部分数据建立模型, 然后再用剩下的数据来测试和验证这个 得到的模型。 有时还有第三个数据集, 称为验证集,因为测试集可能 受模型特性的影响,这是需要一个独立的数据集来验证模型的准确 性。 训练和测试数据挖掘需要把数据分成至少两个部分: 一个用于模 型训练,另一个用于模型测试。 用训练集把模型建立出来之后, 就可 以在测试集数据上进行测试。 模型在测试集上的准确度就是一个很好 的指导数字, 它说明如果将来与训练集和测试集类似的数据用此模型 时,正确的百分比会有多大。 简单验证 最简单的测试方法被称为简单验证的方法。 做法是从原始数据中 拿出一定百分比的数据作为测试数据, 这个百分比 大概在5 % 到3 3 % 之 间。 注意在把数据库分成几部分时, 一定要保证选择的随机性, 这样 才能使分开的各部分数据的性质是一致的。 先用数据的主体把模型建立起来, 然后用此模型来预测测试集中 的数据。出现错误的预测与预测总数之间的比, 称为错误率。 正确的 预测与总数的比,是准确率 ( 准确率= 1 一 错误率) 。 交叉验证 如果数据不是很多 比如只有几千条) ,那么可能承受不了再把 一部分数据拿到一边不用, 但用来做简单验证。 交叉验证提供了一种 使用全部数据的方法。 首先把原始数据随机平分为两份, 然后用一部 分做训练集另一部分做测试集计算错误率, 做完之后把两部分数据交 换再计算一次, 得到另一个错误率, 最后再用所有的数据建立一个模 型, 把上面得到的两个错误率进行平均作为最后用所有数据建立的 模 型的错误率。 依据所得到的模型和对模型的预期结果, 可能修改参数用同 样的 算法再建立新的模型, 甚至采用其他算法建立模型。当然, 没有一种 算法或工具适应所有的数据, 通常也很难在开始决定哪种算法对所面 1尚 的问题来说是最好的,因此很多情况下, 需要用不同的方法 ( 参数 或算法)建立几个模型,从中选择最好的. ( 6 ) 评价和解释 模型验证 模型建立好之后, 必须评价结果, 解释其价值。 记住从测试集中 得到的 准确率只对用于建立模型的 数据有意义。 在实际应用中, 随着 应用数据的不同, 模型的准确率肯定会变化。 更重要的是, 准确度自 身并不一定是选择最好模型的正确评价方法。 需要进一步了解错误的 信用卡风险研究的技术分析 类型和由此带来的相关费用的多少。 外部验证 无论用模拟的方法计算出来的模型的准确率有多高, 都不能保证 此模型在面对现实世界中真实的数据时能够取得好的效果。 经验证有 效的模型并不一定是正确的模型。 造成这一点的直接原因就是模型建 立中隐含的各种假设。 例如, 在建立用户购买模式的模型时, 可能没 有考虑通货膨胀的影响,但实施模型时通货膨胀率突然由 3 % 增加为 1 7 % , 这显然会对人们的购买意向产生重大影响,因此再用原来的模 型来预测客户购买情况必然会出现重大失误。 因此直接在现实世界中 测试模型很重要。 现在小范围内应用, 取得测试数据,觉得满意之后 再向大范围推广。 ( 7 ) 实施 模型建立并验证之后, 主要有两种方法。 第一种是提供给分析人 员做参考,由它通过察看和分析这个模型之后提出行动方案建议。另 一种是把模型应用到不同的数据集上。 模型可以用来标示一个事例的 类别, 给一项申 请打分等。 还可以 用模型在数据库中 选择符合特定要 求的记录,已用联机分析处理工具做进一步的分析。 通常情况下, 模型是某个商业过程的组成部分, 如风险分析、 信 用授权或欺诈检验。 在这些情况下, 模型一般都合并到应用程序的内 部。 例如, 在抵押贷款应用程序内 部可能集成了 一个预测模型,向 信 用分析师提供贷款申 请风险的建议。 数据挖掘模型通常一次只能处理一个事物。 每个事务的处理时间 和事务到达的速度, 决定了模型运行所需的计算能力和是否要用并行 技术来加快速度。 比 如, 信贷申 请程序可能在p c 机上就运行
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 威海港乳山口港区5#6#泊位工程水土保持方案报告书
- 2025年流动人口心理健康关怀 共情对话技术的AI方案
- 厦门六中2026届高三化学试题下学期4月考试题含解析
- 2025年中国纯棉压缩袜子市场调查研究报告
- 2025年中国空调变压器配件市场调查研究报告
- 山西省大同四中联盟体2026届第二学期高三摸底考试化学试题试卷含解析
- 2025年中国电视塔市场调查研究报告
- 2025年中国流量监视器市场调查研究报告
- 2026一年级下册语文看图写句子专项课件
- 2026一年级下册语文棉花姑娘预习课件
- 2026年辽宁锦州海通实业有限公司计划招录28人笔试模拟试题及答案详解
- 2026年高职老年人能力评估师(评估实操)试题及答案
- 2026届浙江省普通高等学校招生全国统一考试仿真历史试题(含答案)
- 安徽省A10联盟2026届高三5月最后一卷历史试卷(含答案及解析)
- 智慧护理:护理创新的实践探索
- DB11-T 383-2023 建筑工程施工现场安全资料管理规程
- 2025-2030年老年交友相亲行业深度调研及发展战略咨询报告
- 2026年上海市春考语文试卷及答案
- GB/T 35319-2025物联网系统接口要求
- 杀鼠剂中毒专题知识讲座
- 第三篇藏象学说肺
评论
0/150
提交评论