(计算机应用技术专业论文)基于商业智能的数据挖掘的研究.pdf_第1页
(计算机应用技术专业论文)基于商业智能的数据挖掘的研究.pdf_第2页
(计算机应用技术专业论文)基于商业智能的数据挖掘的研究.pdf_第3页
(计算机应用技术专业论文)基于商业智能的数据挖掘的研究.pdf_第4页
(计算机应用技术专业论文)基于商业智能的数据挖掘的研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要随着市场竞争的不断加剧,企业需要商业智能指导业务行为并进行辅助决策,以便在激烈的市场竞争中赢得主动和更多的商机。数据挖掘就是一种运用决策树、关系规则、分类、聚类等技术来做决策的非常有用的方法。其中聚类是在无先验知识无指导下进行数据分析的一种数据挖掘技术,传统的聚类分析是一种硬划分,这种划分的界限很分明。可是现实生活中大多数对象并没有严格的属性,它们在形态和类属性方面存在着中介性,具有“亦此亦彼”的性质,因此比较适合进行软化分,即模糊聚类分析。针对商业银行中迫切要解决的信用风险问题,本文使用基于模糊等价关系的模糊聚类分析对银行的信用风险进行信用评分,该系统预先找出某些决定付款违约可能性的关键因素,将其综合或赋予权重从而得出一个量化的分数,经过适当处理得到模糊聚类评分模型。本文的重点:第一,采用模糊聚类评分模型改进了一般的信用评分方法对各影响因素动态连续变化过程,以及各个因素之间相互促进或制约关系,无法予以反映的不足。该模型是一种行为评分模型,是一种前瞻式的控制信用和收账风险评估工具,能实现对现有客户未来欠账风险的评估。从而对银行信用决策的科学性、专业性起到促进作用。第二,数据挖掘结果的可视化。通过图形和文本两种方式显示地描述知识,所产生的知识能帮助用户理解。关键词:数据挖掘,商业智能,聚类,模糊聚类,信用评分,可视化r e s e a r c ho nd a t am i n i n gb a s e so nb u s i n e s si n t e l l i g e n c ea b s t r a c tf o rw i n i n gi n i t i a t i v ea n dm o r ec o m m e r c i a lo p p o r t u n i t yi nf u r i o u sm a r k e t ,b u s i n e s si n t e l l i g e n c ei sn e e d e dt og u i d a n c eb u s i n e s sb e h a v i o ra n dt oa s s i s td e c i s i o n m a k i n g d a t am i n i n gi sav e r yu s e f u lm e t h o d ,w h i c hu s e so fd e c i s i o nt r e e ,a s s o c i a t i o nr u l e ,c l a s s i f i c a t i o na n dc l u s t e r i n gt e c h n o l o g yt om a k ed e c i s i o n c l u s t e r i n gi sd a t am i n i n gt e c h n o l o g yw h i c hp r o c e s s e sd a t aa n a l y s i su n d e rt h ea b s e n c eo fp r i o rk n o w l e d g ea n dg u i d a n c e t r a d i t i o n a lc l u s t e r i n g a n a l y s i si sah a r dd i v i s i o n t h eb o u n d a r yo fd i v i s i o ni sv e r yc l e a r h o w e v e r , p r a c t i c a l l y , t h em a j o r i t yo ft h eo b j e c t sd on o th a v es t r i c tp r o p e r t i e s t h e r ea r el o t so fi n t e r a c t i o nb e t w e e nf o r ma n da t t r i b u t eo fs p e c i e s t h e r e f o r e ,t h es o f td i v i s i o ni sm o r es u i t a b l et h a nh a r do n e ,w ec a l li tf u z z yc l u s t e r i n ga n a l y s i s i no r d e rt os o l v et h ep r o b l e mo fc r e d i tr i s ki nc o m m e r c i a lb a n k ,iu s ef u z z yc l u s t e r i n g ,w h i c hb a s e so nt h eu s i n go ff u z z ye q u i v a l e n c er e l a t i o n s ,t oa n a l y z et h ec r e d i tr i s ki nb a n k s t h es y s t e mib u i l tc a nf i n do u tt h ek e yf a c t o r sw h i c hd e c i d e dt h ep o s s i b i l i t yo fp a y m e n td e f a u l ti na d v a n c e ,s y s t e mp r o c e s s e st h e s ef a c t o r sw h i c hi sc o l l e c t e da n d 舀v e nw e i g h tt ob eaq u a n t i t a t i v es c o r e ,an e wf u z z yc l u s t e r i n gs c o r em o d e lw i l lb eb u i l ta c c o r d i n gt op r o c e s so ft h eq u a n t i t a t i v es c o r e t h ek e y s t o n ei nt h i sp a p e r :f i r s t ,f u z z yc l u s t e r i n gs c o r em o d e li m p r o v e st h et r a d i t i o n a lc r e d i ts c o r i n gm e t h o d si nm a n yf i e l d s s u c ha st h et r a d i t i o n a lo n ec a nn o tr e f l e c tt h ed y n a m i cp r o c e s so fc h a n g e si nf a c t o r si n s u f f i c i e n t l y m o r e o v e r , t h et r a d i t i o n a lm e t h o di sn o tg o o da tr e f l e c t i n gt h er e s t r i c t i o na n dr e l a t i o n s h i pb e t w e e ne a c hf a c t o r f u z z yc l u s t e r i n gs c o r em o d e li sab e h a v i o rs c o r eg r a d i n gm o d e l ,t h a tm e a n si th a sf u c t i o n so fc o n t r o l l i n gc r e d i tr e c o l l e c t i n gf u n da n de s t i m a t i n gb u s i n e s sr i s ki na d v a n c e t h i sp a p e rp l a y sap r o m o t i v er o l eo nt h eb a n k sc r e d i tp o l i c y - m a k i n gs c i e n t i f i c a l l ya n dp r o f e s s i o n a l l y s e c o n d ,r e s u l t so fd a t am i n i n gi sv i s u a l i z a t i o n ir e a l i z et h ef u c t i o nt h r o u g hg r a p h i c sa n dt e x tt od i s p l a yk n o w l e d g eo b v i o u s l y , w h i c hw i l lh e l pu s e r st ou n d e r s t a n d k e yw o r d s :d a t am i n i n g ,c o m m e r c i a li n t e l l i g e n c e ,c l u s t e r i n g ,f u z z yc l u s t e r i n g ,c r e d i ts c o r e ,v i s u a l i z a t i o n贵州大学硕士学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究在做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律责任由本人承担。论文作者签名:璐髯e l期:2 q q 基生生月关于学位论文使用授权的声明本人完全了解贵州大学有关保留、使用学位论文的规定,同意学校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅;本人授权贵州大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存论文和汇编本学位论文。( 保密论文在解密后应遵守此规定)论文作者签名:孕缸簪导师签名:第一章绪论第一章绪论1 。1 论文研究背景及选题意义人类正被数据淹没,却饥渴于知识。随着数据库技术的应用越来越普及,企业信息化进程的不断推进,很多企业已经积累了大量的业务数据,人们逐渐陷入了“数据丰富,知识贫乏”的尴尬境地。知识信息的“爆炸给人类带来莫大的益处,但是也带来了不少弊端,造成知识信息的“污染。面临浩瀚无际而又被污染的数据,人们呼唤从数据汪洋中来一个去粗取精、去伪存真的技术。同时随着市场经济建设的不断深入,市场竞争加剧,企业需要商业智能指导业务行为并进行辅助决策,从而为企业在激烈的市场竞争中赢得主动和更多的商机。为了实现这些目标,使企业在激烈的市场竞争中处于有利地位,必须充分利用先进的数据仓库和数据挖掘技术。数据挖掘( d a t am i n i n g ,d m ) 是指从大量的、不完整的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们事先不知道的,但又是潜在有用的,目标明确、针对性强、精炼准确的信息的过程1 1 引。数据挖掘的概念从二十世纪八十年代被提出后,其经济价值已经显现出来,而且被众多商业厂家所推崇,形成初步的市场。经过十几年的研究和实践,数据挖掘技术已经吸收了许多学科的最新研究成果而形成独具特色的研究分支。但目前的数据挖掘系统研制也决不是像一些商家为了宣传自己商品所说的那样神奇,仍有许多问题需要研究和探索。数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智能、机器学习等。今天,这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数据集成,让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段,并在金融、保险、商业、证券及其它领域得到了广泛应用,取得了明显的效果。尽管如此,数据挖掘的研究与应用仍然处于初级阶段,面对企业复杂的数据分析问题,现有数据挖掘技术显然不能很好适应并较好地解决所有这些问题。1 2 国内外研究现状1 国外研究现状数据挖掘,也叫数据库中发现知识( k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ,k d d )p 4 1 。k d d 一词首次出现在1 9 8 9 年8 月举行的第1 1 届国际联合人工智能学术会议上。随着k d d 在学术界和工业界的影响越来越大,国际k d d 组委会1 9 9 5 年把专题讨论会更名为国际会议,在加拿大蒙特利尔市召开了第1 届k d d 国际学术会议,以后每年召开一次。迄今为止,由美国人工智能协会主办的k d d 国际贵州大学硕士学位论文研讨会已经召开了1 3 次,规模由原来的专题讨论会发展成为国际学术大会,研究重点也逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透【8 j 。1 9 9 9 年,亚太地区在北京召开的第三届p a k d d 会议收到1 5 8 篇论文,空前热烈。i e e e 的k n o w l e d g ea n dd a t ae n g i n e e r i n g 会刊率先在1 9 9 3 年出版了k d d 技术专刊。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论,甚至到了脍炙人口的程度。目前数据挖掘尤其是预测分析方面已经有很多成熟的解决方案,今后将会在越来越多的领域应用【4 2 1 。这里我们介绍几个有影响的商用挖掘技术的系统【3 , x 8 , 2 5 1 :( 1 ) i n t e l l i g e n tm i n e r ( h t t p a w w w 4 i b m c o m s o f t w a r e d a t a i m i n e r ) 是i b m公司的数据挖掘产品,它提供了很多数据挖掘算法,包括关联,分类,回归,预测模型,偏离检测,序列模式分析和聚类。它也提供一个应用工具集,包括:神经网络算法,统计方法,数据准备模型和数据可视化工具。i n t e l l i g e n tm i n e r 的特色有两点:一是它的数据挖掘算法可伸缩,二是它与i b md b 2 关系数据库系统紧密地结合在一起。( 2 ) d b m i n e r ( h t t p a w w w d b m i n e r c o m ) 是由加拿大s i m o nf r a s e r 大学的韩家炜等人研究开发的,它提供多种数据挖掘万法包括:发现驱动的o l a p 分析,关联,分类,聚类。d b m i n e r 的特色是它的基于数据立方体的联机分析挖掘,它包含多种有效的频繁模式挖掘功能和集成的可视化分类方法。d b m i n e r 实现了与关系数据库和数据仓库的平滑集成,提供了一个对用户友好的、交互的、高性能的数据挖掘环境。( 3 ) e n t e r p r i s em i n e r 是s a s 公司开发的产品,提供多种数据挖掘算法,包括:回归,分类和统计分析包。它的特色是具有多种统计分析工具,这得益于s a s 公司在统计分析市场多年的经验和历史。( 4 ) k n o w l e d g ed i s c o v e r yw o r k b e n c h 是由美国的k d d 专g p i a t e t s k y s h a p i o o领导开发的大型数据库交互发现工具。它可以进行特征描述、分类、聚类、偏差检测、强规则依赖关系发现等。其特点是具有良好的领域适应性。2 国内研究现状与国外相比,国内对数据挖掘系统的研究稍晚,没有形成整体力量。1 9 9 3年国家自然科学基金首次支持该领域的研究项目。目前,我国关于数据挖掘研究工作的机构也相继出现,如中国人民大学统计系数据挖掘中心、台湾辅仁大学管,理学院创新育成中心近几年均从事数据挖掘的研究工作。除此而外,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究。其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究;北京大学也2第一章绪论在丌展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及w e b 数据挖掘。从国内市场来看,国内的厂商并没有完整的数据挖掘系统产品,大多是利用国外的产品在各个行业进行解决方案的实施,或者在开发诸如报表和联机分析等功能的低端分析软件。部分国内的研究人员和商业机构对此进行了一些尝试【1 9 ,驯:( 1 ) 上海复旦德门软件有限公司推出d m i n e r 智能分析平台,以数据挖掘技术为核心,集成多维分析技术、可视化高级查询技术、统计分析技术,并与企业级报表服务相结合。( 2 ) 朱建秋等人开发的客户智能分析数据挖掘平台主要是应用于c r m 领域。( 3 ) 陈栋等人开发的k n i g h t 系统可以适应多个应用领域的不同要求,在知识发现流程中,引入了进化程序设计、信息论等新的思想方法。最近,g a r t n e rg r o u p 的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。根据最近g a r t n e r 的h p c 研究表明,随着数据捕获、传输和存储技术的快速发展,大型系统用户将更多地需要采用新技术来挖掘市场以外的价值,采用更为广阔的并行处理系统来创建新的商业增长点。数据挖掘研究中一个很重要的问题就是如何提高数据挖掘的效率。提高数据挖掘效率的主要途径有以下几个方面【”, 5 4 , 6 4 】:提高系统应用的硬件性能和采用并行处理技术;研究出效率更高的数据挖掘算法;对数据挖掘得出的结果进行存储利用。1 3 本文的主要研究成果及内容安排本文从银行的信用风险进行评价的角度出发,通过对商业智能中的数据挖掘的分析,探讨一种基于模糊等价关系的模糊聚类技术来对银行的信用风险进行信用平分的方法,通过预先找出某些决定付款违约可能性的关键因素,将其综合或赋予权重从而得出一个量化的分数。信用平分是信用决策中的一个重要的过程。从而对银行信用决策的科学性、专业性起到促进作用。论文研究的主要内容及创新包括以下几个方面:第一章,介绍数据挖掘的研究意义:数据挖掘的研究与应用仍然处于初级阶段,面对企业复杂的数据分析问题,现有数据挖掘技术显然不能很好适应并较好地解决所有这些问题。本章分析几个有影响的商用挖掘技术的系统及数据挖掘的国内外研究现状。重点介绍基于商业智能的数据挖掘方法以及存在的问题,提出解决问题的思路。第二章,数据挖掘的基本知识:从技术和商业两个不同角度对商业智能的理3贵州大学硕士学位论文解,主要介绍数据挖掘技术的基本挖掘过程和挖掘任务,其相关技术对数据挖掘的影响,最后介绍了数据挖掘的应用,从中可以更清楚地了解数据挖掘技术应用的特点和趋势。第三章,商业智能与数据挖掘:首先介绍了商业智能的基本知识,其中主要讲商业智能的核心技术、商业智能的三个层次及其体系结构、商业数据挖掘过程,其次介绍了商业智能中采用的主要的数据挖掘技术,如决策树、神经网络、关联规则、分类和聚类,其中主要讲聚类技术。第四章,模糊聚类分析在商业智能中的研究:先介绍了聚类的基本概念,随后详细介绍了模糊理论与模糊聚类,最后是本文针对模糊聚类分析在信用评分中的应用实现。该模糊聚类评分模型实际上是一种行为评分模型,是一种前瞻式的控制信用和收账风险评估工具,能实现对现有客户未来欠账风险的评估。最后实现了数据挖掘结果的可视化。通过图形和文本两种方式显示地描述知识,所产生的知识能帮助用户理解。第五章,结论与展望:对论文工作进行总结与展望,指出今后的研究发展方向。4第二章数据挖掘的基本知识第二章数据挖掘的基本知识数据挖掘是近年来信息产业界讨论和研究的一个热点。由于信息的爆炸性增长,目前在全世界集中或分布式地储存了大量的数据,因此有迫切的需要将这些数据转换成为有用的信息和知识,并可将这些信息和知识运用与各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。2 1 数据挖掘的定义目前所谓的数据挖掘,并没有一个非常严格的定义。对于一些作者而言,有时对于“数据挖掘( d a t am i n i n g ) 与“数据库中的知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ,k d d ) ”是不加区分的对待的,但也有作者指出,不应将两者混淆吼2 1 。1 技术上的定义数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。何为知识? 从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是- - i q 交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果【4 , 4 4 j 。5贵州大学硕士学位论文2 1 2 商业角度的定义数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。简而言之,数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究,另外,由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限制。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是由于纯机会的( o p p o r t u n i s t i c ) 商业运作而产生。分析这些数据也不再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的信息,进而获得利润。但所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法【1 3 , 1 4 】。2 2 数据挖掘的基本过程数据挖掘是从大量数据中抽取未知的,有价值的模式或规律等知识的复杂过程。简单的说,一个典型的数据挖掘过程可以分成四个阶段,即数据预处理、数据挖掘、模式评估及知识表示。数据预处理阶段主要包括数据的整理、数据中的噪声及空缺值处理、属性选择和连续属性离散化等f 3 3 , 3 5 , 6 2 】。数据挖掘包括挖掘算法的选择和算法参数的确定等。模式评估对得到的模式进行评价、训练和测试。这两个阶段是循环反复的过程,直到得到用户满意的模式为止。数据挖掘过程是交互的,需要用户( 特别是领域专家) 的参与。2 2 1 数据挖掘的主要步骤具体地说,一个典型的数据挖掘过程包含以下几个步骤t 5 0 , 6 1 1 :( 1 ) 数据集成:多种数据源组合在一起。大量全面丰富的数据是数据挖掘的前提,没有数据,数据挖掘也就无从作起。因此,数据收集是数据挖掘的首要步骤。数据可以来自于现有事务处理系统,也可以从数据仓库中得到。( 2 ) 数据清洗:消除噪声或不一致数据。数据清洗是数据挖掘的必要环节。由数据收集阶段得到的数据可能有一定的“污染”,表现在数据可能存在自身的不一致性,或者有缺失数据的存在等,因此必须进行数据清洗。同时,通过数据清洗,可以对数据做简单的泛化处理,从而在原始数据的基础之上得到更为丰富6第二章数据挖掘的基本知识的数据信息,进而便于下一步数据挖掘的顺利进行。( 3 ) 数据选择:从数据库中检索与分析任务相关的数据。( 4 ) 数据变换:数据变换或统一成适合挖掘的形式。( 5 ) 数据挖掘:使用智能方法提取数据模式。( 6 ) 模式评估:根据某种兴趣度度量、识别表示知识的真正有趣的模式。数据挖掘的结果有些是有实际意义的,而有些是没有实际意义的,或是与实际情况相违背的,这就需要进行评估。评估可以根据用户多年的经验,也可以直接用实际数据来验证模型的正确性,进而调整挖掘模型,不断重复进行数据挖掘。( 7 ) 知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识。数据挖掘的结果必须能被用户理解。数据挖掘的结果一般表现为模式。模式可以看作是我们所说的知识,它给出了数据的特性或数据之间的关系,是对数据包含的信息更抽象的描述。因此模式可以是一组规则、聚类、决策树或者其他方式表示的知识,如“成绩优秀的学生学习都非常刻苦”。2 3 数据挖掘任务根据数据分析工作者的不同目标来划分数据挖掘任务的类型是很方便的【2 9 ,3 4 ,5 2 , 5 3 , 5 4 , 6 4 】。下面给出的分类不是唯一的,而且还可以进一步划分出更细致的任务。但它总结了数据挖掘活动的各个类型。1 探索性数据分析( e x p l o r a t o r yd a t a a n a l y s i s ,e d a ) 正像名字所暗示的,这种方法的宗旨就是对数据进行探索,在探索时我们对要寻找什么并没有明确的想法。通常,e d a 技术是交互式的( i n t e r a c t i v e ) 和可视化的( v i s u a l ) ,对于维数比较低的数据集来说,有很多种有效的图形化显示方法。但随着维数( 变量的个数p ) 的增多,可视化变得越来越困难。当p 大于3 或4 时,可以产生数据低维投影的投影技术( 例如主要分量分析) 是非常有价值的。数量很大的数据集可能不容易被有效的可视化。然而,可以使用缩放和明细数据的思想来显示或总结“较低分辨率”的数据样本以可能丢失重要细节为代价。2 描述建模( d e s c r i p t i v em o d e l i n g ) 描述模型的目标是描述数据( 或产生数据的过程) 的所有特征。这样的例子包括为数据的总休概率分布建模密度估计( d e n s i t ye s t i m a t i o n ) ;把p 维空间划分成组聚类分析和区隔( c l u s t e r a n a l y s i sa n ds e g m e n t a t i o n ) ;以及描述变量间的关系一一依赖建模( d e p e n d e n c ym o d e l i n g ) 。例如在区隔分析中,目标是把相似的记录分成一组,比如商业数据库的市场区隔。这样做的日的是把记录分成均匀同质的( h o m o g e n e o u s ) 小组,以便使相似的人( 如果记录是指人的) 被分到同一组。这可以使广告商或销售者可以把他们的促销策略指向最可能响应的人群,以提高效率。这里分成的组数是7贵州大学硕士学位论文由研究者决定的,没有对错之分。这与聚类分析不同,在聚类分析中目标是发现数据( 例如科研数据库) 中的“自然”群体。描述建模已经被应用到很多领域。3 预测建模( p r e d i c t i v em o d e l i n g ) :分类和回归。预测建模标是建立一个模型,这个模型允许我们根据己知的变量值来预测其他某个变量值。在分类中,被预测的变量是范畴型的,而在回归中被预测的变量是数量型( q u a n t i t a t i v e ) 的。这里“预测”这个词是取它的一般含义,根本不带有任何时间延续性的暗示。所以,我们可以预测将来某一天股票的市值,或预测哪一匹马会赢得比赛;我们也可以预测患者的病情,或焊接的牢固程度。在统计和机器学习中人们已经开发出了大量的方法来解决预测建模问题,而且这一领域的工作已经取得了重大理论进展,并加深了对深层推理问题的理解。预测和描述间的关键区别是预测的目标是唯一的变量( 例如市值、疾病分类、牢固程度) ,而描述问题的模型中并不以任何单一的变量为中心。4 寻找模式和规则,上面列出的三类任务都致力于建立模型。还有一些数据挖掘应用是致力于模式探测的。一个例子是欺诈探测,做法是寻找明显不同于其他点的数据点,并查出这些数据点所属的不同交易类型,然后通过探测这些包含特殊交易的空间区域来查出欺诈行为。另一个应用是在天文方面探测异常的星体或星系,目的是发现以前未知的对象。还有一个应用就是在交易数据库中发现频繁出现的商品组合( 比如曰常用品经常被一起购买) 。这个问题己经吸引了很多数据挖者的注意力,而且已经采用基于关联规则( a s s o c i a t i o nr u l e ) 的算法技术来解决这样的问题。5 根据内容检索:在这种情况下,用户有一种感兴趣的模式并且希望在数据集中找到相似的模式。这种任务对于文本和图像数据集合应用最普遍。对于文本,模式可能是一系列关键字,用户希望在庞大的可能相关的文档集合中( 例如网页) 寻找相关的文档。对于图像,用户可能有一幅样本图像、一幅图像的草图、或一幅图像的描述,然后希望从庞大的图像集合中发现类似的图像。无论对于两种情况中的哪一种,相似性的定义都非常关键,但搜索策略的细节也很重要。2 4 数据挖掘及其相关技术数据挖掘就是利用了统计和人工智能技术的应用程序,他把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题【2 4 , 2 6 , 3 5 , 5 0 , 5 7 , 6 0 】。2 4 1 数据挖掘与传统分析方法的区别数据挖掘与传统的数据分析( 如查询、报表、联机应用分析) 的本质区别是8第二章数据挖掘的基本知识数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知、有效和可实用三个特征。先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。2 4 2 数据挖掘和数据仓库大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中如图2 1 所示。从数据仓库中直接得到进行数据挖掘的数据有许多好处。数据仓库的数据清理和数据挖掘的数据清理差不多,如果数据在导入数据仓库时已经清理过,那很可能在做数据挖掘时就没必要在清理一次了,而且所有的数据不一致的问题都已经被解决1 3 ,7 1 。图2 1 数据挖掘库从数据仓库中得出数据挖掘库可能是你的数据仓库的一个逻辑上的子集,而不一定非得是物理上单独的数据库。但如果你的数据仓库的计算资源已经很紧张,那你最好还是建立一个单独的数据挖掘库。当然为了数据挖掘你也不必非得建立一个数据仓库,数据仓库不是必需的。建立一个巨大的数据仓库,把各个不同源的数据统一在一起,解决所有的数据冲突问题,然后把所有的数据导到一个数据仓库内,是一项巨大的工程,可能要用几年的时间花上百万的钱才能完成。只是为了数据挖掘,你可以把一个或几个事务数据库导到一个只读的数据库中,就把它当作数据集市,然后在他上面进行数据挖掘如图2 2 所示。9贵州大学硕上学位论文图2 2 数据挖掘从事务数据库中得出2 4 3 数据挖掘和在线分析处理( o l 心)一个经常问的问题是,数据挖掘和o l a p 到底有何不同。o l a p 是决策支持领域的一部分。传统的查询和报表工具是告诉你数据库中都有什么( w h a th a p p e n e d ) ,o l a p 则更进一步告诉你下一步会怎么样( w h a tn e x t ) 、和如果我采取这样的措施又会怎么样( w h a ti f ) 。用户首先建立个假设,然后用o l a p 检索数据库来验证这个假设是否正确。比如,一个分析师想找到什么原因导致了贷款拖欠,他可能先做一个初始的假定,认为低收入的人信用度也低,然后用o l a p来验证他这个假设。如果这个假设没有被证实,他可能去察看那些高负债的账户,如果还不行,他也许要把收入和负债一起考虑,一直进行下去,直到找到他想要的结果或放弃。也就是说,o l a p 分析师是建立一系列的假设,然后通过o l a p来证实或推翻这些假设来最终得到自己的结论。o l a p 分析过程在本质上是一个演绎推理的过程。但是如果分析的变量达到几十或上百个,那么再用o l a p 手动分析验证这些假设将是一件非常困难和痛苦的事情。数据挖掘与o l a p 不同的地方是,数据挖掘不是用于验证某个假定的模式( 模型) 的正确性,而是在数据库中自己寻找模型。他在本质上是一个归纳的过程。比如,一个用数据挖掘工具的分析师想找到引起贷款拖欠的风险因素。数据挖掘工具可能帮他找到高负债和低收入是引起这个问题的因素,甚至还可能发现一些分析师从来没有想过或试过的其他因素,比如年龄。数据挖掘和o i a p 具有一定的互补性。在利用数据挖掘出来的结论采取行动之前,你也许要验证一下如果采取这样的行动会给公司带来什么样的影响,那么o l a p 工具能回答你的这些问题。而且在知识发现的早期阶段,o l a p 工具还有其他一些用途。可以帮你探索数据,找到哪些是对一个问题比较重要的变量,发现异常数据和互相影响的变量。这都能帮你更好的理解你的数据,加快知识发现的过程。2 4 4 数据挖掘,机器学习和统计数据挖掘利用了人工智能( 趟) 和统计分析的进步所带来的好处。这两门学科都致力于模式发现和预测。数据挖掘不是为了替代传统的统计分析技术。相反,他是统计分析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数学理1 0第二章数据挖掘的基本知识论和高超的技巧,预测的准确度还是令人满意的,但对使用者的要求很高。而随着计算机计算能力的不断增强,我们有可能利用计算机强大的计算能力只通过相对简单和固定的方法完成同样的功能。一些新兴的技术同样在知识发现领域取得了很好的效果,如神经元网络和决策树,在足够多的数据和计算能力下,他们几乎不用人的关照自动就能完成许多有价值的功能。2 4 5 软硬件发展对数据挖掘的影响。使数据挖掘这件事情成为可能的关键一点是计算机性能价格比的巨大进步。在过去的几年里磁盘存储器的价格几乎降低了9 9 ,这在很大程度上改变了企业界对数据收集和存储的态度。如果每兆的价格是y 1 0 ,那存放1 t b 的价格是¥1 0 ,0 0 0 ,0 0 0 ,但当每兆的价格降为1 毛钱时,存储同样的数据只有¥1 0 0 ,0 0 0 。计算机计算能力价格的降低同样非常显著。每一代芯片的诞生都会把c p u 的计算能力提高一大步。内存r a m 也同样降价迅速,几年之内每兆内存的价格由几百块钱降到现在只要几块钱。通常p c 都有6 4 m 内存,工作站达到了2 5 6 m ,拥有上g 内存的服务器已经不是什么新鲜事了。在单个c p u 计算能力大幅提升的同时,基于多个c p u 的并行系统也取得了很大的进步。目前几乎所有的服务器都支持多个c p u ,这些s m p 服务器簇甚至能让成百上千个c p u 同时工作。基于并行系统的数据库管理系统也给数据挖掘技术的应用带来了便利。如果你有一个庞大而复杂的数据挖掘问题要求通过访问数据库取得数据,那么效率最高的办法就是利用一个本地的并行数据库。所有这些都为数据挖掘的实施扫清了道路,随着时间的延续,我们相信这条道路会越来越平坦。2 5 数据挖掘的应用分析我们知道,数据挖掘技术从一开始就是而向应用的。由于现在各行业的业务操作都向着流程自动化的方向发展,企业内产生了大量的业务数据。一般地,企业内的业务数据是由于商业运作而产生的,很少是为了分析的目的而收集的。因此,数据挖掘的应用成为高层次数据分析和决策支持的骨干技术。目前,在很多领域,数据挖( d a t am i n i n g ) 都是一个很时髦的词,尤其是在如银行、电信、保险、交通、零售( 如超级市场) 等商业领域。数据挖掘所能解决的典型商业问题包括:数据库营销( d a t a b a s em a r k e t i n g ) 、客户群体划分( c u s t o m e rs e g m e n t a t i o n& c l a s s i f i c a t i o n ) 、背景分析( p r o f i l ea n a l y s i s ) 、交叉销售( c r o s s - s e l l i n g ) 等市场分析行为,以及客户流失性分析( c h u ma n a l y s i s ) 、客户信用记分( c r e d i t贵州大学硕士学位论文s c o r i n g ) 、欺诈发现( f r a u dd e t e c t i o n ) 等等f 2 3 , 4 9 , 5 8 】。近年来,数据挖掘已经被应用c r m 的实践中,成为解决商业分析问题的典范。下而我们具体分析数据挖掘技术在c r m 应用中的相关问题,从中可以更清楚地了解数据挖掘技术应用的特点和趋势。1 数据挖掘与c r m、客户关系管理是指对企业和客户之间的交互活动或行为进行管理的过程。c r m 的核心是通过客户和他们行为的有效数据收集,发现潜在的市场和客户,从而获得更高的商业利润。数据挖掘能够帮助企业确定客户的特点,使企业能够为客户提供有针对性的服务。因此,把数据挖掘和c r m 结合起来进行研究和实践,是一个有很大应用前景的土作。目前,数据挖掘在c r m 应用的方而突出表现在:( 1 ) 获得新客户:传统的获得客户的途径一般包括媒体广告、电话行销等。这些初级的促销方法是盲目的、昂贵的。数据挖掘可以帮助我们改变这种被动局面。通过数据挖掘我们可以针对不同消费群体的兴趣、消费习惯、消费倾向和消费需求等进行促销,提高营销效果,为企业带来更多的利润。留住老客户:调查表明,挽留一个老客户要比获得一个新客户的成本低得多,6 - - - 8 倍以上的差距是业界公认的。因此,保持原有客户对所有企业来说就显得越来越重要。数据挖掘可以把所掌握的大量客户分成不同的类,完全可以做到给不同类的客户提供完全不同的服务来提高客户的满意度。( 2 ) 交叉销售:交叉销售是指企业向原有客户销售新的产品或服务的过程。对于原有客户,企业可以比较容易地得到关于这个客户或同类客户的职业、家庭收入、年龄、爱好以及以前购买行为等的信息。数据挖掘可以帮助寻找影响客户购买行为的因素,预测客户的下一个购买行为等。2 数据挖掘应用的成功案例分析如前面所述,数据挖掘已经在许多领域得到了应用。尽管这些应用可能是初步的,但是,它们反映了数据挖掘技术的应用趋判2 3 ,5 8 1 。( 1 ) 数据挖掘应用到n b a 竞技中i b m 公司开发的数据挖掘应用软件a d v a n c e ds c o u t 被美国n b a 教练广泛使用( 有大约2 0 个队使用) 3 8 】。据说,s c o u t 帮助魔术队成功分析了小同的队员布阵的相对优势,并找到了获胜迈阿密热队的方法。系统分析显示魔术队先发阵容中的两个后卫安佛尼哈德卫( a n f e r n e eh a r d a w a y ) 和伯兰。绍( b r i a ns h a w )在前两场中被评为1 7 分,这意味着他俩在场上,本队输掉的分数比得到的分数多1 7 分。然而,当哈德卫与替补后卫达利尔阿姆斯创( d a r r e l la r m s t r o n g ) 组合时,魔术队得分为正1 4 分。1 2第二章数据挖掘的基本知识在下一场中,魔术队增加了阿姆斯创的上场时间。此招果然见效:阿姆斯创得了2 1 分,哈德卫得了4 2 分,魔术队以8 8 比7 9 获胜。魔术队在第四场让阿姆斯创进入先发阵容,再一次打败了热队。在第五场比赛中,这个靠数据挖掘支持的阵容没能拖住热队,但a d v a n c e ds c o u t 毕竟帮助了魔术队赢得了打满5 场,直到最后才决出胜负的机会。a d v a n c e ds c o u t 是一个数据分析工具,教练可以用便携式电脑在家里或在路上挖掘存储在n b a 中心的服务器上的数据。每一场比赛的事件都被统计分类,按得分、助攻、失误等等。时间标记让教练非常容易地通过搜索n b a 比赛的录像来理解统计发现的含义。例如:教练通过a d v a n c e ds c o u t 发现本队的球员在与对方一个球星对抗时一有犯规纪录,他可以在对方球星与这个队员“头碰头 的瞬间分解双方接触的动作,进而设计合理的防守策略。当然,所有系统都有其局限性。所以不要期望这样的数据挖掘可以帮助一支球队找到赢得足球世界杯的策略。( 2 ) 数据挖掘应用到商业银行中数据挖掘技术在美国银行和金融领域应用广泛。金融事务需要搜集和处理大量数据,对这些数据进行分析,可以发现潜在的客户群、评估客户的信用等。例如,美国f i r s t a r 银行等使用的m a r k s m a n 数据挖掘工具,可以根据消费者的家庭贷款、赊帐卡、储蓄、投资产品等,将客户分类,进而预测何时向哪类客户提供哪种产品【3 6 1 。另外,近年来在信用记分的研究和应用方而也取得了可喜的进步。c r e d i ts c o r i n g 技术就是利用所掌握的客户基本资料、资产以及以往信用情况等,对贷款客户进行评估,做出最有利于银行的决定。( 3 ) 数据挖掘应用到电信中数据挖掘技术在电信行业也得到广泛应用。这些应用可以帮助电信企业指定合理的电话收费和服务标准、针对客户群的优惠政策、防止费用欺诈

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论