




已阅读5页,还剩93页未读, 继续免费阅读
(管理科学与工程专业论文)数据挖掘技术在商业银行个人理财业务中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江大学硕士学位论文 数据挖掘技术在商业银行个人理财业务中的应用研究 摘要 y s 8 i7 们 随着金融体制改革的深化,中国加入w f o ,中国银行业的竞争日益激烈。 同时,随着居民手中财富的增加、居民对专业理财的需求增强,个人理财业务 己成为中外银行竞争的焦点。而对于商业银行个人理财业务而言,为客户提供 优质的服务是获取市场份额的保证。谁能根据客户的风险偏好、购买行为特征 等为其提供个性化的、一对一的理财服务,谁就更能在竞争中取胜。商业银行 相对其他行业属于信息化程度较高的行业,银行数据库里积累了海量的客户信 息。因此,如何充分利用这些客户数据,从中挖掘中隐藏的有用的知识,为商 业银行个人理财业务的开展提供强有力的支持,具有重要的意义。 数据仓库、数据挖掘技术正是在这种行业数据海量积累,客户数据分析需 求增长的情况下应运而生的。在商业银行中,建设以客户为中心的数据仓库, 应用数据挖掘技术对分散在各个事务型信息系统中的客户交易数据、基本数据 等进行分析,已成为银行增强竞争力的有力武器。 本文重点研究了我国商业银行如何利用数据挖掘技术来开展个人理财业 务。没有就数据仓库、数据挖掘理论及建模方法等作过多的阐述,而是将重点 放在数据挖掘的模型选择及设计上。本文在国内外研究的基础上,同时通过对 国内一些商业银行调研,结合银行开展个人理财业务关注的主题,建立了商业 银行个人理财数据集市、提出了客户价值、客户满意度模型、客户细分模型, 为商业银行进行个人理财产品个性化营销提供了技术支持。 本文的研究希望能为商业银行开展个人理财业务提供思路,为国内银行提 升服务质量、更有效地参与竞争提供帮助。 关键词:个人理财数据挖掘数据仓库客户价值 :五始一番、导师同意 勿垒文公布 第l 页 浙江大学硕士学位论文数据挖掘技术在商业银行个人理财业务中的碰用研究 a b s t r a c t w i t ht h ed e v e l o p m e n to ff i n a n c i a ls y s t e ma n dt h ee n t r yi n t ow t o ,t h e c o m p e t i t i o no fc h i n e s eb a n k i n gh a sb e c o m e m o r ea n dm o r ef i e r c e ra n dw i t h t h ei n c r e a s eo fm o n e y ,p e o p l eh a v ei n c r e a s e dn e e d so ns p e c i a lf i n a n c i n g p r o d u c t s s op e r s o n a lf i n a n c i n gs e r v i c eh a sb e c o m e t h ef o c u so fd o m e s t i c a n df o r e i g nb a n k i n g a sf o rb u s i n e s sb a n k p r o v i d i n gp e r f e c ts e r v i c ei st h e a s s u r a n c eo f o b t a i n i n g m a r k e ts h a r e w h oc a n p r o v i d e c u s t o m e r sw i t h d e r s o n a z a t i o na n do n e - t o o n e f i n a n c i n g s e r v i c e a c c o r d i n g t ot h e i rr i s k p r e f e r e n c e a n dc o n s u m eb e h a v i o rc h a r a c t e r sw i l lb em o r e c o m p e t i t i v e b u s i n e s sb a n k i n gh a sg a i n e dm o r ei n f o r m a t i o na n dh a sl a r g es c a l eo fd a t a i t s s i g n i f i c a n tf o rb u s i n e s sb a n kt ou s et h i s c u s t o m e r sd a t aa n dm i n i n gt h e u s e f u lk n o w l e d g ef r o mt h ed a t a w h i c hc a na l s os u p p o dt h ed e v e l o p m e n to f p e r s o n a lf i n a n c i n gs e r v i c eo fb u s i n e s sb a n k d a t aw a r e h o u s e ,d a t am i n i n gt e c h n o l o g yh a v eg r o w e du pw i t ht h ed a t a c o n t a i n e di nt h ei n f o r m a t i o ns y s t e mb e c o m i n gb i g g e ra n db i g g e r i th a s b e c o m et h eb u s i n e s s b a n k s c o m p e t i t i v ew e a p o n t o a n a l y z e t h ed a t a c o n t a i n e di ns e v e r a li n f o r m a t i o ns y s t e m ,a n da n a l y z ec u s t o m e r s b e h a v i o r d a t a 、c h a r a c t e r i s t i cd a t a ,e t o t h i sp a p e rm a i n l yr e s e a r c ho nh o wt ou s ed a t am i n i n gt e c h n o l o g yt o d e v e l o pp e r s o n a lf i n a n c i n gb u s i n e s sf o rb u s i n e s sb a n k s a n de m p h a s i z ei n t h es e l e c t i n ga n dd e s i g n i n go ft h ed a t am i n i n gm o d e l s w h i l et e l l sl i t t l ea b o u t t h et h e o r i e sa n dt h em e t h o d o l o g i e so fd a t aw a r e h o u s ea n dd a t am i n i n g b a s e do nt h er e s e a r c ho fd o m e s t i ca n df o r e i g nb u s i n e s sa n dt h ei n v e s t i g a t i o n o fs o m eo fb u s i n e s sb a n k s ,t h i sp a p e rb u i l d sp e r s o n a lf i n a n c i a ld a t am a r k e t , a n dg i v e sc u s t o m e rv a l u e ,c u s t o m e rs a t i s f a c t i o n ,c u s t o m e rs e g m e n t a t i o n m o d e l s ,w h i c hs u p p o r lb u s i n e s sb a n k w i t ht e c h n o l o g ys u p p o r t h o p e t h i sp a p e rw i l lh a v ea ni m p e t u st ot h eu s i n go fd a t am i n i n gi no u r p e r s o n a lf i n a n c i n gs e r v i c eo fb u s i n e s sb a n k s a n ds u p p o db u s i n e s sb a n k i n g w i t hn e w t h i n k i n g k e yw o r d s :p e r s o n a lf i n a n c i n g s e r v i c e 、d a t am i n i n g 、c u s t o m e rv a l u e c u s t o m e r s e g m e n t a t i o n 、d a t aw a r e h o u s e 第2 页 塑垩盔兰堡主兰些丝兰塾塑垫塑垫查垄塑些堡堑尘里竖些垄尘堕堂型堕壅 图表目录 图1 1 论文技术走势图1 0 图2 1 数据仓库体系结构图1 4 图2 2 数据立方体模型1 4 图2 3k d d 处理过程1 6 图2 4 数据挖掘分类图1 7 图2 5 信用卡信用评分神经网络模型2 1 图2 6 数据挖掘流程2 2 图3 1 我国商业银行面临的竞争格局2 6 图3 2 个人理财市场结构图2 8 图3 3 个人理财业务梯度图3 3 图3 4 基于数据仓库的个人理财业务智能化3 7 图4 1 基于d w 的个人理财d s s 体系架构3 8 图4 3 客户信息分析类型3 9 图4 4 数据仓库设计的基本过程4 1 图4 5 以客户为中心信息分析4 2 图4 6 客户贡献因子组成图4 3 图4 7 三层数据体系结构4 6 图4 8 个人客户星型数据结构图4 8 图4 9 技术实现框架4 9 图5 1 四分图模型6 1 图5 2k n a 0 模型6 3 图5 3 美国顾客满意度指数模型6 4 图5 4 客户满意度评价指标体系6 8 图5 5 基于前馈神经网络及g a b p 算法的客户满意数据挖掘模型7 0 图5 6 基于数据挖掘的市场细分方法体系7 5 图5 7 基于c h a i d 算法的客户细分挖掘模型流程图7 6 图6 1 省建行个人理财业务汇总8 0 图6 2 个人理财网上问卷调查系统8 3 图6 3 客户满意模型在s a se m 中的挖掘流程8 4 图6 4 客户满意度模型挖掘结果的决策树形式输出8 5 图6 5 客户细分模型数据预处理8 6 图6 6 客户细分数据挖掘流程8 7 图6 7 客户细分模型的聚类结果8 7 图6 8 客户细分模型挖掘结果的决策树形式输出8 8 图6 9 客户细分模型在测试集上的预测性8 9 表3 1 不同高收入群体最需求的理财服务2 9 表3 2 中国国内个人理财市场的发展3 1 表4 1 五种理财产品分类法4 4 表4 2 专项呆帐准备金计提比例参考值( 风险系数) ( ) 4 5 表5 1l t v 的两个维度一5 2 表5 2 客户价值矩阵图5 4 第5 页 浙江大学硕士学位论文数据挖掘技术在商业银行个人理财业务中的应用研究 表5 3 层次分析法对测评指标重要程度的划分情况6 6 表5 4 测评指标的比较矩阵6 7 表5 5 层次分析法的运算表6 7 表5 6 市场细分依据指标7 3 表6 1 上海浦发银行个人理财业务汇总表8 1 表6 2 客户满意度影响因素挖掘模型的误差统计汇总8 5 表6 3 客户细分模型的误差统计数据8 9 第6 页 浙江大学硕士学位论文数据挖掘技术在商业银行个人理财业务中的应用研究 1 导论 1 1 论文背景及意义 由于传统存贷利率差的不断缩小,国内银行在不断寻求非利息收入的新的 利润增长点。个人理财业务为高端客户提供客户不同生命周期阶段个人财产规 划、财产增值建议的业务,其高利润已成为商业银行关注的热点。国外银行的 经验表明,个人理财业务能巩固和扩大客户,增加利润。外资银行4 0 的利润 就来自于以个人理财业务为代表的中间业务服务收费,个人理财业务是银行最 重要的利润来源。在过去的几年里,美国的私人银行理财业务每年的平均利润 都高达3 5 ,年平均赢利增长1 2 1 5 ,远远优于一般的银行零售业务,更 使得其全力瞄准国内银行的高端客户市场。 中国加入v 叮o 后,国内银行业正面i 临着日益激烈的竞争压力。根据加入 v 盯o 协议要求,国内银行市场最迟在2 0 0 6 年底全面对外开放。此前,外资银 行不能经营人民币业务,将重点锁定在高端客户个人理财业务上,外资银行以 个人理财业务为进入中国金融市场的突破口,以国内各商业银行高端客户群体 为目标客户群,为其提供优秀的服务,先稳定这高利润客户群体,从而待金 融市场全面开放时,再大举争夺国内市场,这不能不让国内商业银行面临严峻 的市场考验。而国外银行个人理财业务的成功开展及高利润,也使国内各大商 业银行开始重视这一中间业务。 作为个人理财市场的需求方,广大居民同样有着很大的热情。随着经济的 发展,我国居民手中的财富越来越多,据中国人民银行的统计显示,截至去年 7 月末,中国金融机构居民储蓄存款余额高达8 3 万亿元。与此同时,还有数 目不小的资金闲置在股市外围及居民手中。与此对应的是,居民已不满足传统 的资产保值,对商业银行个人理财专业服务很感兴趣。据中国社会调查事务所 在京津沪穗四城市的调查结果表明:7 4 的人对个人理财服务感兴趣,4 1 表 示需要个人理财服务。国家经济景气监测中心公布的一项调查也显示,七成居 民希望自己的资产有个良好的理财顾问。工行上海分行的一次调查显示,有 8 8 的客户表示愿意接受银行推荐的个人理财建议和方案。由此可见,随着市 民财富的迅速增加和个人投资意识的增强,我国商业银行个人理财业务呈现出 巨大的发展潜力,优质客户的理财服务已经成为国内外各大银行的竞争焦点。 在个人理财业务市场中商业银行应采取积极的竞争战略,才能在如此激烈 的竞争中占住一定市场份额,夺取竞争优势,吸引并保留住客户。首先进行市 场细分,识别出高价值客户,针对不同的客户实行差异化营销战略,为其提供 第7 页 浙江大学硕士学位论文数据挖掘技术在商业银行个人理财业务中的应用毋f 究 个性化服务( 差异化营销策略) ,建立客户导向型银行。营销观念认为,企业 所有的任务都是为了让客户满意;一个真正以客户为导向的企业通过寻找目标 市场,认识市场的需要和需求,做出回应并提供相应的产品和服务,得以最佳 实现其财务目标。国外商业银行在竞争加剧、客户需求变换的情况下早已确立 了“以客户为导向、以市场为中心”的营销观念。而在个人理财服务方面,以 客户为导向的重要性是显而易见的。个人理财服务强调的是为合适的人提供相 应的金融产品,这里强调差异化营销策略。然而,在当前我国银行面临竞争加 剧、增长缓慢的形式下,消费者的购买方式( 如股票、国债、基金、保险) 日 趋复杂,消费者的风险偏好区别很大( 风险偏好型客户、风险厌恶型客户、理 性型客户、不稳定型客户) ,如何能让商业银行采取正确的差异化营销策略, 成为本论文研究的重点。笔者认为,建立以客户为中心的银行个人理财数据仓 库,在数据仓库为数据源的基础上进行数据挖掘,从而实现对银行个人理财业 务的客户关系管理,是我国商业银行开展个人理财业务强有力的实施策略。 1 2 国内外研究现状 国外研究现状 国外数据挖掘学术界对于银行数据挖掘研究主要集中在信用卡研究中,具 体在信用卡欺诈识别模型方面。 世界银行巨头早在2 0 世纪七八十年代就开始着手进行此项工程,并已按各 大区域划分建立统一标准的信息中心,形成大型的信息网络,以便处理全球性 业务,并为每个客户建立数据库,即客户档案。银行系统内对每位客户的情况 了如指掌,并综合客户的各方面情况为其提供咨询方案,开发个性化产品,成 为客户的理财顾问。因为这种关系,客户常跟随银行同发展。而中资银行目 前还不能做到这一点有的银行连个人的多个账户都无法区分。 国内研究现状 国内有些商业银行目前已开始数据仓库建设,整合各业务层数据,进行数 据集中,用于客户关系管理,但是深入研究的数据挖掘模型目前研究还不是很 多。招商银行开展个人理财业务已有定时间,虽然各层管理人员对数据仓库 项目比较重视,但是数据楚合难仍然是项目开展以及进一步研究的瓶颈问题。 国内企业界也早已将个人理财系统作为一个新的利润增长点,纷纷进行商 业个人理财系统的开发研究,复旦德门、杭州新利在业界属于比较领先水平。 复旦德门公司研制开发的个人理财系统在客户基本信息以及动态信息的基 础上,分析客户对银行的贡献度,及时并且动态的定位和管理优质客户。根据 第8 页 浙江大学硕士学位论文数据挖掘技术在商业银行个人理财业务中的应用研究 客户静态信息、理财愿望、以及战略伙伴提供的投资项目和金融信息,为客户 度身定制理财规划书,并且不断跟踪、修改、完善理财规划,对客户真正做到 个性化的一对一营销。 1 3 论文框架 本论文的总体研究框架可以表示为下图: 本论文共分为七章。 第一章为绪论部分,主要介绍了论文的背景及意义,国内外的研究现状, 论文的框架、创新点及研究方法。首先讨论了个人理财业务在国内外商业银行 中的发展现状及其重要地位。然后重点研究我国商业银行个人理财业务普遍存 在的问题,从而引出导致本问题的原因及解决本问题的方法,即如何通过建立 以客户为中心的数据仓库,及在此基础上进行数据挖掘模型建立。由此给出了 本文研究数据挖掘技术在商业银行个人理财业务中应用的现实意义。围绕本论 文研究的宗旨和前提,绪论给出了本论文拟解决的几个问题,并围绕这些问题 组织了本论文的总体研究框架。最后,绪论部分还指出了本论文的主要创新点 以及采用的研究方法,同时为了本论文研究的科学、顺利开展,对论文的进度 安排做了个规划,以保证论文研究的整体进展。 第二章是本论文研究的理论基础,主要通过文献研究,首先给出了数据挖 掘技术的综述,进而介绍了数据挖掘的数据源一数据仓库,并阐明基于数据仓 库的数据挖掘的优越性。本章一方面为后面的研究做了理论铺垫,另一方面也 有助于我们发现当前研究的不足之处,表明了本论文研究的理论意义。 第三章重点研究我国商业银行个人理财业务开展的现状及竞争分析,引出 数据挖掘技术的必要性和重要性。 第四章重点介绍了基于数据挖掘的商业银行个人理财d s s 设计。 在银行系统中,数据仓库中的数据都是围绕着银行客户、金融产品或区域 来组合。本文设计的数据仓库中,确定了客户、金融产品两个主题。客户是银 行交易的主宰,银行的盈利、风险、负债主要围绕客户进行。金融产品是银行 与客户交易的中间桥梁,也就是客户通过哪些方式与银行进行何种交易。从银 行角度看来,它更关心的是客户和金融产品。 一方面利用数据仓库对银行客户进行细分,为特定的用户开拓新产品,扩 大业务范围;另一方面,通过数据仓库对金融产品进行分析,更好地创造市场 效果,减少风险。同时,围绕这两个主题,进行相关的分析、决策。针对这两 个主题和银行当前规划,实现了客户关系管理、风险管理、盈利管理和负债管 理4 个应用。 第9 页 浙江大学硕士学位论文数据挖掘技术在商业银行个人理财业务中的应用研究 图1 1 论文技术走势图 第五章是本文研究的重点,主要对商业银行个人理财数据挖掘模型进行设 计,商业银行个人理财数据挖掘模型基于数据仓库进行,主要包括如下模型, 客户价值分析模型:银行业同样遵循额“二八”法则,通过客户价值分 析,锁定高端客户,确定个人理财服务营销对象。 客户满意度挖掘模型:建立一套好的个人理财客户满意度指标体系,对客 户满意度进行测量,是商业银行提高在理财市场中竞争力的有力武器。本节文 章提出了客户满意度二级指标体系,在此基础上描述了基于归纳算法的客户满 意度决策树模型、基于前馈神经网络及g a b p 算法的客户满意数据挖掘模型。 客户细分挖掘模型:本部分提出了基于数据挖掘的市场细分方法体系,并 描述了基于c h a i d 算法的客户细分挖掘模型流程图、神经网络模型。 第六章是本文的实证研究分析,旨在检验本文前面各章形成的理论框架是 否具有实践意义。本论文选取问卷调查的方式进行实证研究,利用s a s e n t e r p r i s em i n e r 软件包进行数据挖掘模型建立,采取s a s 提供的 s e m m a ( s a m p i e e x p l o r e m o d i f y - m o d e l - a s s e s s ) 数据挖掘过程模型进行实证研 究。 第1 0 页 浙江大学硕士学位论文数据挖掘技术在商业银行个人理财业务中的应用研究 作为论文的最后一部分,第七章给出了本论文的总结,指出了本论文研究 的不足之处,以及未来研究的新视角探讨。 1 4 论文创新点和研究方法 本论文研究的创新点主要包括以下几个方面: 把数据挖掘技术引入到商业银行个人理财业务中,促进商业银行开展一对 一个性化理财活动; 进行了商业银行个人理财数据仓库建设研究; 对于商业银行个人客户进行基本特征分析、客户风险偏好分析、客户一金 融产品关联分析,将信用卡、交易数据、外部数据等数据源里的数据整合应用 于商业银行个人理财业务。 本论文研究方法: 本文作者在论文研究过程中特别注重关注多种研究方法的综合应用,以获 得较好的研究效果,这主要体现在一下几个方面: 夺理论研究与实证研究相结合 本论文属于数据挖掘技术在商业银行具体业务中的应用研究,理论研究主 要涉及客户关系管理理论研究,客户价值研究等,数据挖掘技术在商业银行中 的模型研究。本论文理论研究部分主要采取文献研究形式,通过广泛阅读相关 领域文献,构建论文的理论框架。理论研究必须在实证研究的验证下才能体现 其价值性,因此本论文同样关注实证研究部分。和大多数数据挖掘技术行业应 用文章一样,本文实证部分也以某具体商业银行为研究单位,同时为了解企业 界研究现状,会选择一两家代表性软件公司进行调研,以了解目前企业界个人 理财业务系统开发现状。实证研究采取的主要形式是访谈形式、实证研究工具 选择s a se n t e r p r i s em i n e r 软件包进行数据挖掘,采取s a s 提供的 s e m m a ( s a m p i e - e x p l o r e m o d i f y - m o d e l - a s s e s s ) 数据挖掘过程模型进行实证研 究。 夺定性研究与定量研究相结合 本论文采取在定性研究的基础上进行定量研究的研究方法。 第l l 页 浙江大学硕士学位论文数据挖掘技术在商业银行个人理财业务中的应用研究 2 数据仓库、数据挖掘理论综述 2 1 数据仓库( d a t aw a r e h o u s e ) 综述 数据仓库( d a t aw a r e h o u s e ) 是数据挖掘的一个重要的预处理步骤,数据仓 库的建设,是为了更有效地数据挖掘。当信息技术发展到今天,企业分散的信 息系统中积累了海量商业数据,如不加以充分利用便成为一堆垃圾。操作数据 库系统中涵盖了一个组织各个部门的日常操作,销售、采购、财务、人力资 源、库存、制造等等。在当今知识经济时代,把数据变成信息,把信息转变成 知识的能力很大程度上决定了一个组织的竞争力。而历年积累在业务数据库中 的海量数据,如能按照一定商务主题迸行集成,并能定期反应企业的变化,则 能为企业业务决策提供技术支持,数据仓库技术正是应这种需求而产生的。当 前,银行业、证券业、保险业、零售业、移动通信业等大数据量行业均视数据 仓库为必要的最新营销武器,一种通过更多了解客户需求而保住客户的途径。 2 1 1 数据仓库概念 数据仓库之父w h i n m o n 认为,数据仓库是一个面向主题的、集成的、时 变的、非易失的数据集合,支持管理部门的决策过程。( i n t 0 9 6 ) 这个定义简洁明 了地指出了数据仓库的主要特征,以及与其他数据存储系统( 如关系数据库系 统、事务处理系统和文件系统) 的区别。 面向主题的s u b j e c t - o r i e n t e d ) : 数据仓库是面向特定主题的集成,如顾客、供应商、产品和销售组织。从 操作数据库系统抽取出有用的数据项,排除对决策无用的信息,为特定主题提 供简单视图。面向主题特性是数据仓库与操作数据库的主要区别之一。 商业银行数据仓库可以客户和金融产品为两大主题,客户可从自然人、机构客 户进行分析,又可从客户信用主题、客户风险偏好主题、客户利润贡献主题等 方面选择相应的数据。产品分析可从存款产品、贷款产品、中间业务产品等主 题进行分析。 集成的( i n t e g r a t e d ) : 通常,构造数据仓库由多个异种数据源集成在一起,如关系数据库、一般 文件、联机事务处理记录等。是数据仓库建设中很重要也很繁琐的步骤就是集 成,集成技术有确保命名约定、编码结构、属性度量等的一致性。 时变的( t i m e v a r i a n t ) : 数据仓库是对一定历史时期数据的分析,以此评估过去业绩及预测未来情 第1 2 页 塑垩查兰堡主堂垡丝壅墼塑垄塑垫查垄塑些堡堑尘堡:! 塑j :! ! ! ! 生塑笪塞 况的技术。为了使数据仓库反应的信息能更真实地反应销售业绩,应该定期对 数据仓库中的数据进行更新,使其能更好的支持决策。 非易失的( n o n v o l a t i l e ) : 数据仓库是物理的分离存放数据,通常只需两种数据访问:数据的初始化 装入和数据访问。因此,不需要事务处理、恢复和并发控制机制。 2 1 2 数据仓库与操作数据库系统的区别 操作数据库系统主要任务是执行联机事务和查询处理,涵盖了一个组织的 大部分日常操作,如销售、库存、制造等。这种系统成为联机事务处理 ( o l t p ) ,而数据仓库系统为“知识工人”进行数据分析和决策提供服务。这种 系统用不同的格式组织和提供数据,成为联机分析处理( o l a p ) 系统。数据 仓库与操作数据库系统的区别可从以下几个维度进行分析: ( 1 ) 数据构成不同:数据仓库是各业务系统数据的汇总,以一个统一的视 图来综合组织各个职能部门系统数据,为知识工人数据分析和决策提供服务, 其数据构成相对于针对某一业务的操作数据库要复杂,综合性更强。 ( 2 ) 数据使用对象不同:数据仓库的使用对象主要是知识工人( 如主管、 经理、分析员) ,而操作数据库系统的使用对象是前台操作人员、数据库管理 人员( d b a ) 、数据库专业人员。 ( 3 ) 查询支持的复杂程度:传统操作数据库系统的数据模式是针对事务处 理系统而设计的,其数据格式支持简单的查询,如“在六月份,哪家银行储户 最多? ”。而数据仓库支持更加复杂和强大的查询,如“哪位储户对本行贡献 最大? ”等。 简而言之,数据仓库是基于商务过程更高决策支持而产生的,数据仓库的 数据源于操作数据库但又高于操作数据库数据,是操作数据库的综合,从更 高、更综合的角度为知识工人提供支持。 2 1 3 数据仓库的体系结构 数据仓库系统理论上包括三个基本部分,数据获取层、数据存储和管理 层、数据访问层。 ( 1 ) 数据采集层:从业务处理系统和外部数据源获取数据,经过e t l 对 数据进行抽取、转换、装载。该层提取数据使用网间连接程序,允许客户程序 产生s q l 代码,在服务器上执行。网间连接程序如o d b c ( 开放数据库连接) 和 微软的o l e d b ( 数据库开放链接和嵌入) ,j d b c ( j a v a 数据库连接) 。 ( 2 ) 数据存储和管理层:该层负责数据仓库的内部维护和管理,包括数据 存储的组织、数据的维护、数据的分发及数据仓库的例行维护等。 第1 3 页 浙江大学硕士学位论文 数据挖掘技术在商业银行个人理财业务中的如肝究 ( 3 ) 数据访问层:该层为数据仓库的前端,面向不同用户。由数据报表、 o l a p 工具、d m 工具等工具集组成,以实现决策支持系统的各种要求。 数据采集层 数据存储和管理 屡 图2 1 数据仓库体系结构图 2 1 4 多维数据模型 数据立方体 数据仓库的数据概念模型是多维数据模型,这种模型将数据看作数据立方 体( d a t ac u b e ) 形式。数据立方体是从多维角度对事实进行建模和观察的数据模 型,其中维是指一个组织想要记录的透视或实体。而每一维都与一个表相关 联,该表称之为维表,对维进一步描述。事实是用数值来度量的。 图2 2 数据立方体模型 第1 4 页 浙江大学硕士学位论文数据挖掘技术在商业银行个人理财业务中的应用研究 图2 2 是某s a l e s 数据仓库概念模型,该模型围绕s a l e s 这一中心主题组 织。从三个维度记录销售事实( 也可从多个维度记录事实,这里从视觉效果考 虑选择三维,时间维( t i m e ) 、地区维( 1 0 c a t i o n ) 、产品维( i t e m ) 。时间维 按照年季月专日粒度进行,地区维可按国家省市粒度进行,产品维可 按工业专类别专商品粒度进行。 多维数据库模式 关系数据库是实体一联系数据模型,而最流行的数据仓库是多维数据模 型。这种模型以星型模式、雪花模式、事实星座模式形式存在,最常见的是星 型模式。星型模式数据仓库包括一个包含大量数据项但非冗余的事实表,和多 个详细描述事实表中数据项的维表。雪花模式是对维表的规范化,将维表中数 据进一步分解,模型图类似雪花形状。事实星座模式是指包含多个事实表的复 杂模型,多个事实表共享维表。 o l a p 操作 上卷( r o l l u p ) :上卷是指沿着一个维的粒度级别提升所观察事实的层次。 如上例中按时间粒度对销售事实进行上卷操作,可沿t i m e 的分层如日专月季 年观察销售额。或沿l o c a t i o n 维的分层如市( 县) - - ) 省国家,观察一定产 品某一时期的销售额。 下钻( d r i l l - d o w n ) :下钻是上卷操作的逆操作,是沿着一个维的粒度级别降 低所观察事实的层次。如由t i m e 维的分层向下,由年季专月日观察更详细 的销售额。 切片( s l i c e ) 和切块( d i c e ) :切片( s l i c e ) 操作是在给定的数据立方体一 个维上进行操作,导致一个子方,如使用条件l o c a t i o n = “n e wy o r k “进行切片 操作。切块( d i c e ) 操作是通过对两个或多个维执行选择,定义子方。如使用 条件l o c a t i o n = “n e w y o r k ”a n dt i m e = “2 0 0 2 ”进行切块操作。 转轴( p r i v o t ) :转轴操作只是一种视觉上的操作,通过转动数据视角,改 变数据的表示。 钻过( d r i l l a c r o s s ) :钻过即执行多个事实表的查询。 钻透( d r i l l - t h r o u g h ) :钻透操作使用s q l 机制,钻到数据立方体的底 层,到后端关系表。 其他0 l a p 操作:其他o l a p 操作可能包括列出表中最高或最低的n 项, 计算移动平均值、增长率、利润和统计功能等。 第1 5 页 浙江大学硕士学位论文数据挖掘技术在商业银行个人理财业务书吲越斤j 册究 2 2 数据挖掘( d a t am i n i n g ) 综述 2 2 1 数据挖掘的定义 随着信息技术的发展,各行各业信息化已发展到一定程度,数据库内数据 急剧膨胀,数以t b 级数据库中的海量数据怎样得到有效地使用,成为关注的 热点。如何充分利用这些原始数据,使其转换成有用的信息,提炼出有用的 “金子”,缓解数据丰富,但信息贫乏的矛盾,成为信息技术人员、统计工作 者、人工智能工作者等研究的重点,数据挖掘技术这一跨学科的技术,正是在 这种应用需求与技术研究下应运而生的。 1 9 9 5 年,在加拿大蒙特利尔召开了第一界知识发现和数据挖掘学术会议, 数据挖掘一词流行开来,数据挖掘就是从大量的、不完全的、有噪声的、模糊 的、随机的数据中,提取隐含在其中的,人们实现不知道的、但又潜在有用的 信息和知识。这一定义点明待挖掘的数据需经过预处理阶段,且这些数据的具 有潜在作用。简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。 理解数据挖掘定义需要从技术和应用两个层面进行。从技术层面上来看, 数据挖掘是利用多种分析工具从海量数据中发现模型和数据间关系的过程,基 于机器学习、统计学习、神经网络、数据库系统、信息科学等技术。从应用层 面看,数据挖掘是一决策支持过程,基于各种技术,分析企业商务数据,为企 业做出正确市场预测等提供支持。 数据挖掘是知识发现( k d d ) 的一个特定步骤。知识发现是指从数据库中 发现有用知识的整个过程,包括数据选择、预处理、数据转换、数据挖掘、模 式解释和知识评价等多个步骤。是应用特定数据挖掘算法和评价解释模式的一个 循环反复过程。并要对发现的知识不断求精深化,使其易于理解:数据挖掘是知 识发现过程中的一个关键步骤,它利用特定的数据挖掘算法从数据中抽取模式, 不包括数据的预处理、领域知识结合及发现结果的评价等步骤。”1 数据解释 图2 3k d d 处理过程 2 。2 2 数据挖掘的分类 随着数据挖掘技术的发展,出现了不同的数据挖掘技术和方法。介绍数据 挖掘技术方面的资料很多是从其实现的功能方面进行阐述。j i a w e ih a n 第1 6 页 浙江大学硕十学位论文数据挖掘技术在商业银行个人理财业务中的应用研究 m i c h e l i n ek a m b e r ( 2 0 0 1 ) ,在d a t am i n i n gc o n c e p t sa n dt e c h n i q u e s ) ) 一 书中就是按照数据挖掘所能实现的功能进行介绍的,分别介绍了概念类描述, 关联分析、分类和预测,聚类分析、孤立点分析、演变分析,将数据挖掘分为 描述与预测型。在这里,为了将整个数据挖掘体系包括的更加完善,参考武汉 理工大学魏彦武的观点,将数据挖掘按知识发现的两种驱动因素:验证驱动 ( v e r i f i c a t i o n - - d r i v e n ) 与发现驱动( d i s c o v e r y - d r i v e n ) 进行分类,将数据挖掘分 类为“验证驱动型”数据挖掘与“发现驱动型”数据挖掘。 验证驱动型数据挖掘是指用户自己提出假设,然后利用各种工具进行假设 验证。通常用到结构化查询语言( s q l ) 结构化查询生成器( s q l g e n e r a t o r ) 。其中结构化查询生成器又包括查询工具( q u e r y ) 和在线分析处 理工具( 0 l a p ) 。 发现驱动型数据挖掘使用机器学习、统计、可视化技术来发现新的假设, 发现新的知识。其中,根据其挖掘实现的功能,又分为描述型和预测型两大 类。预测型包括的技术主要有决策树、规则归纳、神经元网络等,描述型挖掘 包括的主要技术有可视化、聚集、关联、统计等技术。【2 】我们通常所讲的数据 挖掘指发现驱动型数据挖掘,在接下来一节中将详细介绍发现驱动型数据挖掘 的经典方法。 验证驱动型 数据挖掘 s q l 生成器il s q l 数据挖掘 耋li 善i l 囊i l 羹i l 蓁ii 簪:ji 蓁jli羹。l霉il 薹 图2 4 数据挖掘分类图 2 2 3 数据挖掘的典型方法 发现驱动型数据挖掘中的o l a p 技术在本章3 1 节中数据仓库的概念模型中 已做了介绍,这里不再赘述,s q l 查询语言在这里也不再介绍。本小节重点介 绍发现驱动型数据挖掘中的经典技术:关联分析、聚类、决策树、神经网络。 第1 7 页 黎 浙江大学硕士学位论文 数据挖掘技术在商业银行个人理财业务中的应用研究 1 关联分析 数据挖掘中关联规则挖掘是发现大量数据中项集之间有趣的关联或相关联 系。关联分析广泛用于发现大量商务事实库中有趣的关联模式。经典的一个例 子是用于零售业购物蓝分析,通过了解顾客购物蓝中所购物品的相关性来辅助 零售商制定相应的营销策略,调整货架物品的摆放次序、制定正确的促销方 案。关联分析分为简单关联和时序关联两种,简单关联如:购物蓝分析中购买 啤酒的顾客中有多少会购买尿布? 时序关联如:若a t t 股票连续上涨两天且 d e c 股票不下跌,则第三天i b m 股票上涨的可能性为多少? 这类关联的特征是 加入了时间因素。 关联规则挖掘的流程为:( 1 ) 找出所有频繁项集;( 2 ) 由频繁项集产生 强关联规则。 挖掘关联规则通常包括以下几种情况:( 1 ) 由事务数据库挖掘单维布尔关 联规则,经典算法为a p t i o r i 算法( 使用候选项集找频繁项集) 、f p 增长算法 ( 不使用候选项集挖掘频繁项集) ; ( 2 ) 由事务数据库挖掘多层关联规则: ( 3 ) 由关系数据库和数据仓库挖掘多维关联规则,多维关联规则蕴涵多个谓 词。 使用上述关联规则挖掘过程中可能会出现以下两种情况:( 1 ) 挖掘出的关 联规则并不一定都是有趣的,即强关联规则不一定是有趣的,置信度具有一定 的欺骗性,还需进行相关性分析;( 2 ) 对于给定任务相关的数据集,数据挖掘 过程可能会发现数以千计的规则,其中有许多用户并不感兴趣,需要在用户提 出的各种约束下进行有效挖掘。 2 聚类分析 聚类分析与分类不同,聚类分析所要划分的类是未知的,而分类是已知数 据对象的组数。聚类分析常被用于对群体的分类,在商务上用来进行客户细 分,划分不同的客户群,如在商业银行中进行储户的细分;在生物学上,可用 于对基因进行分类;聚类分析是数据挖掘一个非常有用的功能,应用相当广 泛,是一个非常活跃的研究课题。 数据挖掘对聚类算法的典型要求如下:【3 可伸缩性:聚类算法必须能处理大数据集样本的数据。而目前很多聚类算 法只能有效地处理几百个数据集的样本数据。数据挖掘的大数据量特点要 求聚类算法具有高度可伸缩性。 处理不同类型属性的能力:聚类分析的数据类型有数值变量、区间标度变 量、二元变量、标称型、序数型、比例标度型变量以及混合类型的变量。 许多算法用来聚类数值类型的数据。但对于其他类型的数据处理能力不 第1 8 页 强,数据挖掘多数据类型数据处理要求聚类算法能处理不同类型属性数 据。 发现任意形状的聚类:数据挖掘应可用于发现任意形状簇的聚类。而基于 欧几里得距离或曼哈坦距离来聚类的算法限于发现具有相近尺度和密度的 球状簇。 用于决定输入参数的领域知识最小化:许多聚类算法要求用户在聚类分析 时输入一定参数,如d bm i n e r 要求用户输入待挖掘的簇的数目。 处理噪声数据的能力:待处理数据库中包含了孤立点、空缺、未知数据或 错误的数据,对这样的数据过于敏感会导致低质量的聚类结果。 对于输入记录的顺序不敏感:数据不同的输入数据会导致不同的聚类结 果,这是聚类算法应解决的问题。 高维性:开发多维数据的聚类算法是很有挑战性的工作,也是很有意义的 一项工作。 基于约束的聚类:现实世界的应用可能需要在多种约束条件下进行聚类。 如超市选址工作需要同时考虑交通、客流量、每个区域客户的要求等。开 发基于约束的聚类算法是数据挖掘的要求。 可解释性:聚类的结果应具有可解释性。 聚类分析的主要方法有:划分方法( p a r t i t i o n i n gm e t h o d ) ,层次方法 ( h i e r a r c h l c a lm e t h o d ) ,基于密度的方法( d e n s i t ) r - b a s e dm e t h o d ) ,基于网格 的方法( g r i d - b a s e dm e t h o d ) ,基于模型的方法( m o d e l - b a s e dm e t h o d ) 。 划分方法首先得到初始的k 个划分的集合( 参数k 是要构建的划分的数 目) ;然后采用迭代重定位技术,试图将对象从一个簇移到另一个来
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 部队培训安全保密协议课件
- 社区服务边缘智能应用-洞察及研究
- 湖北省黄石市大冶市2024-2025学年七年级下学期期末考试数学试卷(含答案)
- 安徽省黄山市2024-2025学年高二上学期期末质量检测物理试卷(含答案)
- 部门安全培训需求课件
- 遨游汉字王国课件
- 基于循环经济理念的分条带钢边角料高值化再利用工艺创新图谱
- 基于代谢组学的前列康片多靶点作用机制网络图谱构建
- 培养基配方迭代与专利壁垒下的中小企业研发困境
- 国际标准体系下高强浇注料出口认证壁垒突破与质量追溯体系重构
- 辅警综合知识和能力素质考试试题(含答案)
- 网络文明培训课件
- 2025年三类人员安全员C证继续教育题库及参考答案
- 急性肾小球肾炎
- 工程管理面试题目及答案
- DB65 T8038-2025 好住房建设技术标准
- 2025秋人教版(2024)八年级上册英语一学期教学计划
- 工贸企业企业安全检查表
- 2025年理赔专业技术职务任职资格考试(理赔员·车险理赔)历年参考题库含答案详解(5套)
- 2025年科创板开通考试试题及答案
- 脊柱骨折护理查房
评论
0/150
提交评论