(管理科学与工程专业论文)征信数据的关联规则挖掘方法研究.pdf_第1页
(管理科学与工程专业论文)征信数据的关联规则挖掘方法研究.pdf_第2页
(管理科学与工程专业论文)征信数据的关联规则挖掘方法研究.pdf_第3页
(管理科学与工程专业论文)征信数据的关联规则挖掘方法研究.pdf_第4页
(管理科学与工程专业论文)征信数据的关联规则挖掘方法研究.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

(管理科学与工程专业论文)征信数据的关联规则挖掘方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 以计算机与网络技术的发展为代表的信息技术的飞速发展,为行业信息化 的建设奠定了坚实的基础,同时促进了各行业的信息化进程。银行业是中国最 早开始信息化建设,也是最早完成信息化建设的行业之一,具备了完备的数据 基础。然而,在对已经掌握的海量数据的分析研究与应用方面,还有许多可以 开展的工作,这也成为了目前银行业最为关注的热点。2 0 0 6 年1 月央行征信系 统的开通运行为银行的贷款决策提供了一定的支持,但其系统功能仅限于业务 查询,对征信系统及其数据的利用率较低。银行产品的同质性较为严重,在产 品的竞争上优势不大。如何管理客户关系,以及挖掘出隐藏在客户信息背后的 业务规律,成为银行业战略决策的一个重要方面。 数据挖掘是一种较新的决策支持技术,具有从海量数据中提取人们未知信 息的能力,近年来受到了银行业的持续关注。关联规则是数据挖掘最活跃的研 究分支,也是最成熟的数据挖掘技术,在行为分析方面具有独特的优势。基于 以上几方面的认识,本文以个人征信数据为平台,对征信数据的关联规则挖掘 方法作了较为深入的分析和研究,给出了一类基于属性约束和规则后件约束的 挖掘算法a r r f 和规则生成算法r g b a r ,据此设计了一个实用的挖掘系统,实现 了对征信数据的有效应用挖掘,以期为银行的信用营销管理决策提供理论和实 践方面的依据。具体研究内容如下: 1 深入研究关联规则挖掘理论,对关联规则挖掘的算法进行了深入的分 析,并就关联规则的优化问题展开深入的讨论。 2 对征信数据进行深入的分析,深入研究了征信数据的基本构成,并就 每一构成部分进行详细的功能分析;并对数据的预处理方法进行了分析,为下 步的挖掘做初步探索。 3 研究征信数据的整个挖掘过程,针对特定的挖掘任务和挖掘目标,给 出了基于属性约束和规则后件约束的挖掘算法a r r f ,并把规则的相关性分析和 规则后件约束集成到规则生成算法中,给出了基于规则后件约束的规则生成算 法r g b a r ,并通过实际的挖掘系统进行了验证。 4 根据挖掘的关联规则进行后处理,并运用信息增益方法,建立了基于 摘要 信息增益的关联规则决策矩阵模型,并就模型的应用和决策支持展开了较为深 入的研究与探讨。 关键词:数据挖掘;关联规则;征信数据;关联矩阵;信息增益 l l a b s t r a c t a b s t r a c t r a p i dd e v e l o p m e n t o fi n f o r m a t i o nt e c h n o l o g ys u c ha sc o m p u t e rs c i e n c e , c o m p u t e rn e t w o r kp r o v i d es u b s t a n t i a lb a s ef o r t h eb u i l d i n go fi n f o r m a t i o no nt r a d e ,a t t h es a m et i m e ,i tp r o m o t et h ec o u r s eo fi n f o r m a t i o nm o d e r n i z a t i o n b a n kb e g a nt o b u i l dt h ei n f o r m a t i o ns p a c ei nt h ef i r s ta n dp o s s e s sm a t u r i t yd a t ab a s e b u ti nt h e a s p e c to fa n a l y s i s ,r e s e a r c ha n da p p l i c a t i o no ng r e a tc a p a c i t yo fd a t aa l r e a d yi n p o s s e s s i o n ,t h e r ea r em a n yt h i n g st h a tc a nc a l t yt h r o u g h ,a n dt h i sb e c o m e sa f o c u sf o r b a n k i n gr e c e n t l y c r e d i ts y s t e mo fc h i n ac e n t e rb a n kr u n i nj a n u a r y , 2 0 0 6t h a tg i v e s t h es u p p o r to fd e c i s i o n m a k i n ga b o u tl o a dac e r t a i ne x t e n t ,b u ti tl i m i t st oo p e r a t i o n q u e r y p r o d u c th o m o g e n e i t yo fb a n ki sg r a v e ,a n dt h e yh a v en oa d v a n t a g ea b o u t p r o d u c t h o wt om a n a g ec u s t o m e rr e l a t i o na n dm i n i n go p e r a t i o nr u l e h i d d e ni n c u s t o m e rm e s s a g eb e c o m e sa ni m p o r t a n ts i d eo fs t r a t e g i cd e c i s i o no fb a n k d a t am i n i n gi san e wd e c i s i o n - s u p p o r tt e c h n o l o g y , a n di tc a l ld i s t i l lt h eu n k n o w n m e s s a g ef r o mg r e a tc a p a c i t yf o rd a t a r e c e n t l yt h et e c h n o l o g ya r o u s e st h es u s t a i n i n g a t t e n t i o nf r o mb a n k i n g a s s o c i a t i o nr u l em i m i n gi st h em o s ta c t i v er e s e a r c hb r a n c ho f d a t am i n i n ga n di sa l s om a t u r em i n i n gt e c h n o l o g y i th a st h ei d i o g r a p h i ca d v a n t a g ei n t h ea s p e c to fb e h a v i o ra n a l y s i s b a s eo nt h eu p w a r d sc o g n i t i o n s ,t h ep a p e rb a s e so n i n d i v i d u a lc r e d i td a t a ,r e l i e so na s s o c i a t i o nr u l em i n i n gt e c h n o l o g y , m a k eat h o r o u g h s t u d yo nt h ea s s o c i a t i o nr u l em i n i n gm e t h o do fc r e d i td a t a ,a n dd e v e l o pas o r to fd a t a m i n i n ga l g o r i t h m a r r f b a s eo nr e s t r i c t i o no na t t r i b u t e sa n d b a c kc o n d i t i o no f r u l e s , a n dd e v e l o p sb u i l d i n gr u l e sa l g o r i t h m r g b a r b a s e0 1 1t h er e s t r i c t i o no nb a c k c o n d i t i o no fr u l e s b a s eo nt h e s e i t d e s i g n s a l la p p l i e dd a t am i n i n gs y s t e m , i m p l e m e n t i n ge f f e c t i v em i n i n gf o rc r e d i td a t a a l lt h i sh o p e s t op r o v i d eab a s i sf o r t h e o r ya n dp r a c t i c eo fb a n kc r e d i tm a r k e tm a n a g e m e n t t h ep a p e ri n c l u d e st h e f o l l o w i n g : 1 ) m a k eat h o r o u g hs t u d yo nt h e o r yo fa s s o c i a t i o nr u l em i n i n g ;m a k et h o r o u g h a n a l y s i so fa l g o r i t h mf o rm i n i n ga s s o c i a t i o nr u l e ,a n d d i s c u s so p t i m i z i n gr u l e t h o r o u g h l y i i i a b s t r a c t 2 ) m a k eat h o r o u g ha n a l y s i so nc r e d i td a t a ;a n a l y z e st h ec o m p o n e n to fc r e d i td a t a a n dt h ee a c hf u n c t i o n ;s t u d yt h ep r e d i s p o s a lm e t h o do fc r e d i td a t a 3 ) s t u d yam i n i n gp r o c e s so nc r e d i td a t a ;a i m i n ga tm i n i n gt a s ka n dm i n i n gt a r g e t , t h ep a p e rd e v e l o pm i n i n ga l g o r i t h m a r r f b a s eo nr e s t r i c t i o no na t t r i b u t e sa n d b a c kc o n d i t i o no fr u l e s ;m a k et h ei n t e g r a t i o no fc o r r e l a t i o na n a l y s i s ,r e s t r i c t i o no n b a c kc o n d i t i o no fr u l e sa n db u i l d i n gr u l e sa l g o r i t h m ,a n dd e v e l o p sb u i l d i n gr u l e s a l g o r i t h m r g b a r b a s eo nt h er e s t r i c t i o n o nb a c kc o n d i t i o no fr u l e s t h e y v a l i d a t eb ya c t u a lm i n i n gs y s t e m 4 1d i s p o s a lt h ea s s o c i a t i o nr u l e ,a n di n t r o d u c em e s s a g eg a i n so fm e s s a g ea r e at o m o d e l s ,a n dd e v e l o pa s s o c i a t i o nr u l ed e c i s i o nm a t r i xm o d e lb a s eo nm e s s a g eg a i n s c r e a t i v e l y ;d i s c u s st h ea p p l i c a t i o na n dd e c i s i o ns u p p o r t o nt h em o d e l s k e yw o r d s :d a t am i n i n g ;a s s o c i a t i o nr u l e ;c r e d i td a t a ;a s s o c i a t i o nm a t r i x ;m e s s a g e g a i n s i v 学位论文版权使用授权书 本人完全了解北京机械工业学院关于收集、保存、使用学位论文 的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和 电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、 缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以 及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向 国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目 的的前提下,学校可以适当复制论文的部分或全部内容用于学术活 动。 学位论文作者签名:谚 舻 7 日 硕士学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 日 第l 章绪论 1 1 研究意义 第一章绪论 数据挖掘是一种新的决策支持技术,近十年来得到了迅速的发展和应用。 信息化技术的广泛使用、网络的普及已经使商务、科学、行政事务的信息化进 程加快,产生和收集数据的能力大大加强。专家预计,现在我们每1 8 个月的信 息量就要翻一番,可对这些信息的利用率只有5 1 0 ,有些行业还远远低于这 个比例。怎样从大量的数据中挖掘出有用的、有效的信息,已成为目前迫切的 现实需求。我国银行是最早完成信息化建设的行业之一,汇集了丰富的数据, 但缺乏从大量数据中发掘有用信息的工具。外资银行的进入,使银行面临着更 加激烈的竞争。现有的客户资源是中资银行对抗外资银行的最大资本。如何通 过挖掘技术从海量的数据中发掘业务和客户信息背后的业务规律,从而做出合 理的决策,已成为银行赢得竞争优势的关键。 近几年,消费信贷的蓬勃发展积累了大量的信用数据。目前,央行征信系 统收录的个人信用数据已达3 4 亿人,其中有信贷记录的约为3 5 0 0 万人。丰富 的数据隐藏着丰富的信息,如何从海量的征信数据中提取信息为决策服务,成 为目前研究的一个重要的课题。传统的基于定性分析和数理统计分析的方法在 实际的决策应用中并不总是令人满意。定性分析虽然能为决策提供方向性的指 导,但无法提供精确的决策信息,在面对复杂的环境和多重因素的交叉作用时, 定性分析显得无能为力。传统的基于数理统计的分析方法建立的模型假设条件 太多,实际应用往往难于奏效。面对海量的数据,如何从其中挖掘出高附加值 的信息为金融机构及监管部门提供科学化的管理决策支持技术已成为我国信用 管理研究领域迫切需要解决的问题。关联规则挖掘是用得最广泛,最成熟的数 据挖掘技术,在行为分析等方面具有独特的优势。利用关联规则挖掘技术开展征 信数据的挖掘研究,具有现实意义和价值。 论文以征信数据和关联规则挖掘的相关技术为研究背景,探讨了如何在征 信数据中实施关联规则挖掘,同时对关联规则的相关问题进行了研究和有益的 探讨。本文基于这样的一种认识,以个人征信数据为平台,依托关联规则挖掘 第1 章绪论 的技术优势,对征信数据展开全面分析,研究客户的行为规律,并量化为具体 的模型,以期为银行的信用营销管理提供理论和实践上的依据。 1 2 相关知识 1 2 1 数据挖掘技术 1 数据挖掘的含义 数据挖掘比较公认的定义是由u m f a y y a d 等人提出的:数据挖掘就是从 大型数据集中提取出入们感兴趣的知识,这些知识是隐含的、先前未知的、对 决策有潜在价值的,提取的知识表示为概念、规则、规律和模式等形式。 2 数据挖掘的产生和发展 随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储 的数据量急剧增大。在大量的数据背后隐藏着许多重要信息,而这些重要信息 可以很好地支持人们的决策。目前数据库系统所能做到的只是对数据库中已有 的数据进行存取,人们通过这些数据所获得的信息量仅仅是整个数据库所包含 的信息量的一部分,隐藏在这些数据之后的更重要的信息是关于这些数据的整 体特征的描述及对其发展趋势的预测,这些信息在决策生成的过程中具有重要 的参考价值。因此,人们对数据处理技术的要求也不断提高,需要能够对数据 进行更深层次的处理,以得到关于数据的总体特征以及对发展趋势的预测。 例如:超市的经营者希望将经常被同时购买的商品放在一起,以增加销售 量;保险公司想知道购买保险的客户一般具有哪些特征;医学研究人员希望从 已有的成千上万份病例中找出患某种疾病的病人的共同特征,从而为治愈这种 疾病提供一些帮助。对于上述问题,传统的数据库管理系统来说是无法做到的, 并且目前用于对这些数据进行分析处理的工具也很少。事实上,数据仅仅是人 们观察客观世界所得到的原始材料,本身没有太多意义,它只是描述发生了什 么事情,并不能构成决策的可靠基础。通过对数据进行分析找出其中的关系, 赋予数据某种意义和关联,即形成所谓信息。信息虽然给出了数据中一些有一 定意义的东西,但是它往往和人们需要完成的任务没有直接联系,也还不能作 为决策的依据。对信息进行再加工,进行更深入的分析,方能获得更有用的信 2 第1 章绪论 息,即知识。因此,从数据到信息,再到知识,是需要经过分析加工处理精炼 的过程。然而数据量的爆炸性增长使得现在的用户很难再像从前那样依靠经验、 大量的计算和人脑的指挥来人工找出关于数据较为全面的知识,许多知识仍然 隐含在数据中而不能被发现和利用,造成数据资源的浪费。正如j o h n n a i s b e t t 所 说,“我们已被信息所淹没,但是却j 下在忍受缺乏知识的煎熬”。二十世纪八十 年代,数据仓库和数据挖掘( d a t am i n i n g ,d m ) 等信息处理技术正是为解决这 一问题产生并迅速发展起来。 历经了十几年的发展,基于统计学、人工智能等在内的理论与技术性成果 已经被成功的应用到商业处理和分析中。这些应用从某种程度上为数据挖掘技 术的提出和发展起到了极大地推动作用。数据挖掘系统的核心模块技术和算法 都离不开这些理论和技术的支持。从某种意义上讲,这些理论本身的发展和应 用为数据挖掘提供了有价值的理论和应用积累。数理统计是一个有几百年发展 历史的应用数学学科,然而,它和数据库技术的结合性研究应该说最近十几年 才被重视。以前的数理统计方法的应用大多都是通过专用程序来实现的。而且, 大多数的统计分析技术是基于严格的数学理论和高超的应用技巧的,这使得一 般的用户很难从容的驾驭它。实际上,数据挖掘技术是数理统计分析应用的延 伸和发展,而概率论和数理统计为数据挖掘技术提供理论基础。 人工智能是计算机科学研究中争议最多,但是仍始终保持强大生命的研究 领域。机器学习应该说是得到了充分的研究和发展,并且数据挖掘技术继承了 机器学习解决问题的思想。专家系统( e x p e r ts y s t e m ) 曾经被认为是人工智能向 着实用性方向发展的最有希望的技术,但是,这种技术也逐渐表现出投资大、 主观性强、应用面窄等致命弱点。例如,知识获取被普遍认为是专家系统研究 中的瓶颈问题。另外,由于专家系统是主观整理知识,因此这种机制不可避免 地带有偏见和错误。数据挖掘继承了专家系统的高度实用性特点,并且以数据 为基本出发点,客观地挖掘知识。因此,可以说,数据挖掘研究在继承已有的 人工智能相关领域的研究成果的基础上,摆脱了以前象牙塔式的研究模式,真 正开始客观地从数据集中发现蕴藏的知识。特别的,数据挖掘可看作数据库理 论和机器学习的交叉学科,数据库技术侧重于对数据存储处理的高效率方法的 研究,而机器学习则侧重于设计新的方法从数据中提取知识。数据挖掘利用数 据库技术对数据进行前端处理,而利用机器学习方法从处理后的数据中提取有 用的知识。 3 第1 章绪论 因此,数据挖掘作为一门新兴的研究领域,涉及到诸如机器学习、模式识 别、统计学、数据库、人工智能、数学和可视化技术等等众多学科,是一个多 学科相互交叉融合所形成的一个新兴的具有广泛应用前景的研究领域。九十年 代数据挖掘成为数据库界的热门话题。1 9 9 1 、1 9 9 3 和1 9 9 4 年又接着继续举行 数据挖掘专题讨论会。随着参加会议人数的增多,从1 9 9 5 年开始,每年都要 举办一次有关数据挖掘技术的国际会议。另外从9 7 年开始,数据挖掘也拥有 了自己的专门杂志k n o w l e d g ed i s c o v e r ya n dd a t am i n i n g ) ) 。a c m 也成立了 s i g k d d 专业组。数据挖掘虽然只有几年的历史,然而由于其极大的潜在使用 价值,使得数据挖掘技术已经深入到许多领域,并已经开发出了许多成功的产 品,得到了业界的广泛关注。较有代表性的数据挖掘工具主要有:美国k a n s a s 大 学开发的l e r s 系统;美国s p s s 公司著名的数据挖掘工具箱c l e m e n t i n e ;加 拿大s i m o nf r a s e r 大学的d b m i n e r ;i b m 公司的q u e s t 系统;s a s 公司的 s a se m ( e n t e r p r i s em i n e r ) 系统等。数据挖掘广泛用于下列领域:科学研究、 市场营销、金融投资、风险评估、欺诈识别、产品制造、通信网络管理、医学 应用、网络应用、语音合成。 1 2 2 征信信息简介 征信分为个人征信和企业征信,反映企业和个人在商业银行等金融机构开 立结算账户、贷款、担保、信用卡等信用信息。个人征信,是指第三方中介机构 ( 即征信机构) 把分散在不同授信机构、司法机构、行政机构等社会各个方面的个 人信用信息通过合法手段进行采集、加工、存储到一个或若干个数据库中,进而 形成个人信用档案,让授信机构在授信决策时能方便、快捷地查询到完整、真实 的信用信息和信用评分。个人征信体系是一个庞杂的系统,它由一整套个人征信 制度和方法,以及个人征信主体、手段和产品构成,是与个人征信有关的业务和 活动的总称,主要包括个人信用信息基础数据库、征信相关的法律法规、征信服 务机构、信用产品市场、政府监督管理和诚信教育六个方面内容。其中,建立 标准化的个人信用信息基础数据库系统是个人征信体系建设的核心,开发有效 可靠的信用等级评估产品、建立个人信用评估机制是个人征信体系建设的目标, 这将有助于对个人进行客观、科学的信用状况分析,是降低银行信贷风险、稳定 金融秩序、促进经济增长的关键所在。 4 第1 章绪论 2 0 0 6 年,企业和个人征信系统建设取得重大进展。建立了集中统一的数据 库和覆盖全国所有金融机构的网络,为1 1 1 6 万多户企业和5 3 3 亿自然人建立 了信用档案,采集了企业和个人在商业银行等金融机构开立结算账户、贷款、 担保、信用卡等信用信息。企业和个人信用信息基础数据库在全国金融机构的 为保障企业和个人征信体系的各级营业网点开通查询终端近1 8 万个,各金融机 构在办理企业和个人信贷业务中,均把查询企业和个人的信用记录作为贷前审 批的重要条件。目前,该数据库将对企业和个人开放查询,按企业和个人要求 查询其信用报告,提供其“信用证明”。为全面反映企业和个人的信用状况,培 养企业和个人的信用意识和社会责任感,除与环保总局合作外,人民银行与劳 动保障部、建设部、质检总局、税务总局、海关和最高人民法院积极配合,共 同研究将企业质量信息、欠税、欠缴社会养老保险费用和劳动工资、法院判决 未执行等信息,以及个人参加社保和住房公积金、和促进作用。信贷市场和银 行间债券市场信用缴纳电信费用信息纳入企业和个人征信系统的相关事宜。相 关各部门已就此项工作的意义和必要性达成一致,有的在制定具体方案,有的 已进入实施阶段。在公安部、质检总局、劳动和社会保障部和建设部等部门的 支持和配合下,近期内,征信系统将在部分城市与公安部、质检总局试点开通 个人身份和企业基本信息在线查询核实功能,征信系统采集企业和个人参加社 保和住房公积金信息的工作也正在部分城市试点。企业和个人征信系统采集企 业和个人身份信息,将为防范信用风险,打击诈骗、洗钱等金融犯罪活动,推 进社会信用体系建设起到强有力的推动作用。 1 2 3 征信数据分析中的数据挖掘技术 对于银行来说,如何从海量的征信数据中挖掘出有价值的、隐藏的知识和 规律,成为摆在各银行面前的一个迫切需要解决的热点问题。基于征信数据的 分析,主要集中在征信数据的信用评分的研究。主要是解决以下几方面的问题: 1 营销分析 市场营销分析旨在通过对征信数据的挖掘、分析、和开发评分模型,对消 费者的行为特征、风险水平、收益潜力、用卡偏好、反应概率等进行系统的评 估,从而瞄准那些符合银行信贷政策和经营理念、风险收益对比合理、市场营 销成效比较好的消费者作为营销对象和目标客户,以批量性地拓展市场分额、 5 第1 章绪论 提升发卡规模。 2 客户行为分析 行为分析是消费信贷管理中最重要的分析之一。对于银行的信用卡业务, 由于其具有循环信贷的特征,积累了丰富的客户行为信息的数据。从这些数据 中可以挖掘出具备强大预测力的行为评分模型,从而为信用卡的账户管理服务。 客户行为分析是根据信用卡账户历史上所表现出来的各种行为来预测该账户未 来的信贷表现。行为分析的数据来源主要是信用卡开户后的各种使用、欠款、 还款等信息。 3 申请风险分析 申请风险分析是通过对消费信贷申请人的资信状况进行评估来预测其未来 严重拖欠或坏账的概率。申请风险在信贷风险管理中有着重要的作用,该分析 是信贷审批的主要依据。 4 欺诈识别分析 信用欺诈一直是信贷管理中最严峻的问题之一。欺诈损失严重影响信用卡 业务的利润。图1 1 是美国1 9 9 1 2 0 0 1 年信用卡行业的欺诈损失额。信用欺诈包 括申请欺诈、信用卡丢失、信用卡被盗、信用卡伪造、信用卡机密信息被盗、 信用卡邮寄被盗、账户被窃取等。不管是哪种欺诈类型,归根结底,都是通过 欺诈性的申请或欺诈性的使用信用卡交易来实现的。欺诈识别分析包括申请欺 诈分析和交易欺诈分析。申请欺诈分析是预测信用卡申请为欺诈的概率,为银 行发现和拒绝欺诈性申请提供科学依据;交易欺诈分析是运用先进的数据挖掘 技术来预测信用卡交易为欺诈的概率,为银行发现和拒绝欺诈性交易提供科学 依据。图1 1 为美国1 9 9 1 2 0 0 1 信用卡行业欺诈损失图( 数据来源:c a r di n d u s t r y d i r e c t o r ye d i t i o n ) 。 6 第1 童绪论 9 9 1 9 9 21 9 9 31 9 9 1 q 9 5 1 9 9 61 9 9 11 9 9 b 乍度 。i :a m er c or ! j 签1 1 美国1 9 9 l 2 0 0 言剧譬行业款诈损火:矧 目前,常用的基于数据挖掘技术的信用评分方法有下面几种: 1 决策树 决簧树足能够被看作一棵树形的预测模型,树的每个分支都是一个分类问 题,树叶是带有分类的数据分割。! i j 于决策树在数据挖掘的几个比较关键的特 性j 二都获得j ,较高的评价,所以它可以应用于多种商业问题,目前市场细分、 信用卡欺乍和客户流失预测中都大量使用决策树模型。例如,如图1 2 为决策树 方法得到的客户流失模型。 型1 2 客户漉火模删结果示意型 一一 湖 喜| 枷 。 第1 章绪论 2 神经网络 神经元网络是从人工智能领域发展起来,在计算机上运行的实现模式识别 和机器学习算法的计算程序,通过对大量历史数据库的计算来建立预测模型。 与其它技术不同,神经元网络是自动进行训练和建模的,它看上去更像一个黑 箱,用户无需也无法知道它是如何工作的,也没有一组公式能描述建立的模型。 例如,如图1 3 为应用神经网络技术发展的信用额度调整模型示意图。 神经元 用户行为收入其他评佶蔓囊 1 3本文的研究内容 触时目 图1 3 神经网络模型示意图 投重 本文是针对征信数据挖掘方法的研究,研究如何将数据挖掘中的关联规则 挖掘方法应用于个人信用数据挖掘中,挖掘出隐含的规律,并量化为具体的模 型,本文研究内容如下: 1 深入研究关联规则挖掘理论,对关联规则挖掘的算法进行了深入的分 析,并就关联规则的优化问题展开深入的讨论。 2 对征信数据进行深入的分析,深入研究了征信数据的基本构成,并就 每一构成部分进行详细的功能分析;并对数据的预处理方法进行了分析,为下 步的挖掘做初步探索。 3 研究征信数据的整个挖掘过程,针对特定的挖掘任务和挖掘目标,给 出了基于属性约束和规则后件约束的挖掘算法a r _ r f ,并把规则的相关性分析和 规则后件约束集成到规则生成算法中,给出基于规则后件约束的规则生成算法 8 第1 章绪论 r g b a r ,并通过实际的挖掘系统进行了验证。 4 根据挖掘的关联规则进行后处理,并运用信息增益方法,建立了基于信 息增益的关联规则决策矩阵模型,并就模型的应用和决策支持展开了较为深入 的研究与探讨。 论文共分六章,具体框架如下: 第一章:绪论首先给出论文研究的背景和意义,接着介绍本论文研究的 背景,简要介绍了数据挖掘技术,并就论文的研究业务对象一信用数据的挖掘 技术应用作简短分析。 第二章:数据挖掘理论系统的分析了数据挖掘的相关理论,包括数据挖掘 研究的理论基础、数据挖掘的任务分类、数据挖掘的主要方法、数据挖掘的主 要过程和主要步骤。 第三章:关联规则挖掘具体、系统的分析了关联规则挖掘技术的理论, 并就其核心算法一a p r i o r i 算法和f p g r o w t h 算法展开分析研究。最后探讨了关联 规则优化问题。 第四章:征信数据基础及其预处理本章对论文研究研究的数据对象一征 信数据作分析。首先介绍了人行征信系统,接着就征信数据的构成和概念功能 作简短性分析。最后根据征信数据的实际问题探讨了数据的预处理方法。 第五章:征信数据的关联规则挖掘本章是论文的核心部分。首先就征信 数据作商业理解和分析,界定挖掘的业务目标和解决的核心商业问题,然后根 据特定的业务设计新的算法,然后对征信数据根据实际需要进行预处理;最后 实施关联规则挖掘,建立业务分析模型,并对模型进行调整、评估、检验、模 型应用与决策支持分析。 第六章:总结与展望 9 第2 章数据挖掘理论 第二章数据挖掘相关理论 2 1 数据挖掘研究的理论基础 自从数据挖掘技术出现以来,这一领域的研究发展迅速,已经取得了一定 的研究成果。众多学者业已为数据挖掘研究与应用开辟了相关的领域,在取得 开创性研究成果的同时也为以后的研究指明了方向。目前,关于数据挖掘技术 的一些重要理论框架正在初步形成。从研究数据挖掘技术过程的角度来看,数 据挖掘的思想方法既来源于经典的数学理论,又通过信息技术及其它工程领域 的实践吸取了丰富的营养,数据挖掘的过程既可以是演绎的,也可以是归纳的。 数据挖掘技术的理论框架是基于数据库、人工智能、数理统计、计算机科学及 其它领域学者和工程技术人员在从事该领域探讨性研究过程中创立的理论体 系。近年来,h a nj i a w e i 和m a n n i l a 等人对数据挖掘的理论框架进行了较为全面 的概括与总结,归纳起来,这些理论框架涉及了一系列重要的科学与技术领域。 ( 1 ) 数据归约( d a t ar e d u c t i o n ) :按照这一理论,数据挖掘的基础是减少数据 的描述。对于大型数据库而言,数据归约能换来对查询的快速近似应答。数据 归约技术主要包括奇异值分解,小波分析和回归模型方法,对数线性模型( l o g l i n e a rm o d e l ) ,直方图( h i s t o g r a m ) ,取样和索引树构造等。 ( 2 ) 规则发现( r u l ed i s c o v e r y ) 架构: a g r a w a l 等学者综合机器学习与数据 库技术,将三类数据挖掘目标即分类、关联及时序作为一个统一的规则发现问 题来处理。他们给出了统一的挖掘模型和规则发现过程中几个基本运算,解决 了数据挖掘问题如何映射到模型和通过基本运算发现规则的问题。这种基于规 则发现的数据架构也是目前数据挖掘研究的常用方法。 ( 3 ) 模式发现( p a t t e md i s c o v e r y ) :在这种理论框架下,数据挖掘技术被认 为是从源数据集中发现知识模式的过程。它是对机器学习方法的继承和发展, 是目前较为流行的数据挖掘研究与系统开发架构。除机器学习理论外,它还涉 及神经网络、关联规则挖掘、序列模式挖掘、聚类和其它的子领域。目前,在 关联规则、分类、聚类模型、序列模式( s e q u e n c ep a t t e r n s ) 以及决策树( d e c i s i o n t r e e ) 归纳等模式发现的技术与方法上取得了令人满意的成果。 1 0 第2 章数据挖掘理论 ( 4 ) 基于概率和统计理论:在这种理论框架下,数据挖掘技术被看作是从 大量数据中发现随机变量联合概率分布的过程,如贝叶斯置信网络( b a y e s i a n b e l i e f n e t w o r k ) 和层次贝叶斯模型( h i e r a r c h i c a lb a y e s i a nm o d e l ) 等。统计学作为 一门经典的理论与工具,在分类和聚类技术研究中获得了重要的应用,成为支 撑数据仓库、数据挖掘技术的重要理论基础。实际上,大多数的理论构架都离 不开统计学理论的支撑,统计方法在概念形成、模式匹配以及成分分析等众多 方法中都是基础中的基础。 ( 5 ) 微观经济学观点( m i c r o e c o n o m i cv i e w ) :在这种理论框架下,数据挖掘 技术被看作是对一个问题进行优化求解的过程。1 9 9 8 年,k l e i n b e r g 等人建立了 在微观经济学框架罩判断模式价值的理论体系。它们认为,如果一个知识模式 对一个企业是有效的话,那么它就是有趣的。有趣的模式发现是一个新的优化 问题,可以根据基本的目标函数,对“被挖掘的数据”的价值提供一个特殊的 算法视角,导出优化的企业决策。 ( 6 ) 基于数据压缩( d a t ac o m p r e s s i o n ) 理论:在这种理论框架下,数据挖掘 技术被看作是对数据的压缩的过程。根据这种观点,关联规则、决策树和聚类 分析方法实际上都是对大型数据集的不断概念化或抽象的压缩过程。按 c h a k r a b a r t i 等人的描述,最小描述长度( m d lm i n i m u md e s c r i p t i o nl e n g t h ) 原 理可以评价一个压缩方法的优劣,即最好的压缩方法应该是概念本身的描述和 把它作为预测器的编码长度都最小。 ( 7 ) 基于归纳数据库( i n d u c t i v ed a t a b a s e ) 理论:在这种理论框架下,数据 挖掘技术被看作是对数据库的归纳的问题。一个数据挖掘系统必须具有原始数 据库和模式库,数据挖掘的过程就是归纳的数据查询过程。这种构架也是目前 研究者和系统研制者倾向的理论框架之一。 ( 8 ) 可视化数据挖掘( v i s u a ld a t am i n i n g ) :1 9 9 7 年,k e i m 等对可视化数据 挖掘技术给出了综述。虽然可视化数据挖掘必须结合其它技术和方法才有意义, 但是,以可视化数据处理为中心来实现数据挖掘的交互式过程以及更好地展示 挖掘结果等,已经成为数据挖掘中的一个重要方面。 一个理想的理论框架应该能够对典型的数据挖掘任务( 如关联、分类和聚类) 进行建模,遵循经典概率理论,能够处理不同类型的数据,并且考虑到数据挖 掘过程的反复性和交互性。为了使研究工作在科学的轨道上走向系统和深入, 必须对上述理论框架具有全面的理解和把握,在正确的理论指导下开展工作。 第2 章数据挖掘理论 2 2 数据挖掘分类 数据挖掘通过对数据的分析建立现实世界的模型,建模的结果是一种对数 据中的模式和关系的描述。一般来说,有两种基本方式利用这些模型,一是描 述数据库中的模式和关系;二是用模式来进行预测。数据挖掘可以用下列几种 模型解决业务规则问题:分类、回归、分类归并、相关分析和顺序发现模型, 分类和回归模型主要用于预测,相关分析和顺序发现模型主要用于描述或说明 从数据库中捕获的行为,分类归并模型主要用于预测亦可用于说明。一般而言, 分类模型通过计算范畴变量值将实例进行分组或分类;回归模型利用已有的值 以及它们的属性来预报后续值;分类归并模型则将数据集划分成多个组,目的 是找出相互区别的组或相似的组,对应于数据挖掘中的聚类分析;与分类模型 不同的是,分类归并开始时,用户并不知道分类归并的结果、或依据什么属性 对数据进行分类归并,即存在对分类归并结果的解释问题。相关分析模型( 对 应关联规则、时间序列等挖掘) 对在一个事件或记录中大量发生的事项进行分 析,发现其中潜在的规则。 根据数据分析目标的不同,数据挖掘的任务可分为如下几类【1 】: ( 1 ) 探索性数据分析( e x p l o r a t o r yd a t aa n a l y s i s ,e d a ) :这种方法对数据进 行探索,并且这种探索是无明确想法的。通常e d a 技术是交互式和可视化的, 其可视化程度随维度的增加越来越难。 ( 2 ) 描述建模( d e s c r i p t i v em o d e l i n g ) :目标是描述数据的所有特征,包括为 数据的总体概率分布建模( 密度估计) ;把p 维空间划分成组( 聚类分析和区隔 ( c l u s t e r i n ga n a l y s i sa n ds e g m e n t a t i o n ) ) ;以及描述变量间的关系( 依赖建模 ( d e p e n d e n c ym o d e l i n g ) ) 。其中,区隔分析的目标是把相似的记录分成一组,以 便相似的记录被分到同一组,这里分成的组数由研究者决定,没有对错之分。 这与聚类分析不同,在聚类分析中目标是发现数据中的“自然”群体。 ( 3 ) 预测建模( p r e d i c t i v em o d e l i n g ) :目的是建立一个模型,这个模型允许 使用者根据已知的变量值来预测其他某个变量值。主要包括分类和回归,在分 类中,被预测的变量是范畴性的,而在回归中被预测的变量是数量型( q u a n t i t a t i v e ) 的。 ( 4 ) 寻找模式和规则:除致力于建立模型的任务外,还有一些数据挖掘应 用致力于模式探测,例如欺诈探测中,寻找明显不同于其他点的数据点等,实 1 2 第2 章数据挖掘理论 际上,这种模式探测对应于离群知识发现等。 ( 5 ) 根据内容检索:用户有一种感兴趣的模式并且希望在数据集中找到相 似的模式,这种任务对于文本和图像数据集合应用最为普遍。 综上所述,这五个任务彼此间有明显的差异,但它们也存在诸如“任意两 个数据向量间的相似性或者距离”的概念、评分函数思想等很多共同的特征。 2 3 数据挖掘主要方法 面对的是大量的隐藏在数据内部的有用信息,如何获取信息是我们所要解 决的问题,数据挖掘从一个新的角度把数据库技术、机器学习、统计学等领域 结合起来,从更深层次发掘存在于数据内部新颖、有效、具有潜在效用的乃至 最终可理解的模式。具体讲,数据挖掘技术有以下几种方法。 ( 1 ) 数学统计方法:使用这种方法一般是首先建立一个数学模型或统计模 型,然后根据这种模型提取出有关的知识。如:可由训i 练数据建立一个b a y e s i a n 网,然后根据该网的一些参数及联系权重提出相关的知识。 ( 2 ) 机器学习方法:大多数机器学习方法是用人类的认识模型模仿人类的 学习方法从数据中提取出有关的知识。因为机器学习经过多年的研究,已取得 了一些较为满意的成果,因此,在k d d 中,可以利用目前比较成熟的机器学 习方法。 ( 3 ) 面向数据库的方法:随着数据库技术的发展,其中的一些数据处理方 法不断完善并趋于成熟,在k d d 中,利用现有的数据库技术和某些专门针对 数据库的一些启发方法,可以提取出数据库中的一些特征知识。 ( 4 ) 混合方法:上述各种方法各有其优缺点,为提高k d d 的效率,可将 各种方法有效地结合起来,取长补短,以发现更有价值的知识。如机器学习中 的推导方法可以和演绎数据结合起来,前者用于知识的推导,后者可以验证发现 知识的j 下确性。 还有其它方法,如数据可视化技术、知识表示等等。具体有以下几种主要 的数据挖掘方法: ( 1 ) 关联规则 关联规则挖掘( a s s o c i a t i o nr u l em i n i n g ) 是数据挖掘的一个重要分支,关 联规则是数据挖掘的众多知识类型中最为典型的一种。该问题于1 9 9 3 年由 1 3 第2 章数据挖掘理论 a g r a w a l 等人在对市场购物篮问题( m a r k e tb a s k e t a n a l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论