《数据仓库与数据挖掘第一章概述SUN》_第1页
《数据仓库与数据挖掘第一章概述SUN》_第2页
《数据仓库与数据挖掘第一章概述SUN》_第3页
《数据仓库与数据挖掘第一章概述SUN》_第4页
《数据仓库与数据挖掘第一章概述SUN》_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与数据挖掘孙家泽关于本课程数据挖掘融合了数据库、人工智能、机器学习、统计分析、模式发现、可视化技术、信息检索等多个学科领域的知识。本课程系统地介绍了数据挖掘的概念、理论及其发展、重点介绍了数据挖掘技术及其在实践中的应用。课程目标通过本课程的学习,掌握数据挖掘的基本概念、数据挖掘过程、数据仓库的概念、OLAP与数据挖掘的关系。掌握数据挖掘的常用技术:决策树、神经网络、关联规则、聚类分析、统计学习等。熟悉数据挖掘技术在典型行业的应用方法,具有运用数据挖掘技术解决问题的能力。课程体系数据挖掘概述数据仓库与OLAP技术数据挖掘技术数据挖掘应用数据挖掘工具数据挖掘实例学习方法课堂讲授及自学理解数据挖掘的基本概念和原理。充分利用因特网,查阅相关资料进一步拓展知识面熟悉常用的数据挖掘软件,提高数据挖掘的基本处理能力和动手能力。成绩考核考试成绩由平时考勤+课堂讨论+大作业参考资料韩家炜,《数据挖掘:概念与技术(第二版)》,中文版,机械工业出版社王欣等,《SQLServer2005数据挖掘实例分析》,中国水利水电出版社数据挖掘.实用机器学习工具和技术WEKA手册

参考网站

需要使用的部分软件SPSSWEKASQLServer2005标准版Excel第1章

数据挖掘概述啤酒酒与与尿尿布布引例例:啤啤酒酒与与尿尿布布沃尔尔玛玛超超市市建建立立数数据据仓仓库库,,按按周周期期统统计计产产品品的的销销售售信信息息,,经经过过科科学学建建模模后后提提炼炼决决策策层层数数据据。。发现现每每逢逢周周末末,,位位于于某某地地区区的的沃沃尔尔玛玛超超市市连连锁锁店店的的啤啤酒酒和和尿尿布布的的销销售售量量很很大大,,而而且且单单张张发发票票中中同同时时购购买买尿尿布布和和啤啤酒酒的的记记录录非非常常普普遍遍。。分析析人人员员认认为为这这并并非非偶偶然然,,经经过过深深入入分分析析得得知知,,通通常常周周末末购购买买尿尿布布的的是是男男士士,,他他们们在在完完成成了了太太太太交交给给的的任任务务后后,,经经常常会会顺顺便便买买一一些些啤啤酒酒。。得出出这这样样的的结结果果后后,,沃沃尔尔玛玛超超市市的的工工作作人人员员尝尝试试着着将将啤啤酒酒和和尿尿布布摆摆放放在在一一起起销销售售,,结结果果尿尿布布与与啤啤酒酒的的销销售售额额双双双双增增长长。。从上面的例子子不难看出,,数据管理的的主要目的是是获取信息和和分析信息以以指导我们的的行动或帮助助我们作决策策。引言从大量数据中中提取出隐藏藏在其中的有有用信息数据挖掘,也可以称为为数据库中的的知识发现(KnowledgeDiscoverDatabase,KDD),是从从大量数据中中提取出可信信、新颖、有有效并能被人人理解的模式式的高级处理理过程。本章内容一、数据挖掘掘技术的由来来二、数据挖掘掘的定义三、数据挖掘掘发现的知识识类型四、数据挖掘掘对象五、数据挖掘掘任务六、数据挖掘掘分类七、数据挖掘掘模型八、数据挖掘掘过程一、数据挖掘掘技术的由来来信息爆炸但知知识贫乏《纽约时报》》一周报道的的信息总量,,比十八世纪纪一个人一生生接触的信息息总量还多“我们正在被被信息所淹没没,但我们却却由于缺乏知知识而感到饥饥饿。”一、数据挖掘掘技术的由来来数据挖掘是八八十年代投资资AI研究项项目失败后,,AI转入实实际应用时提提出的。它是是一个新兴的的,面向商业业应用的AI研究。(AI(ArtificialIntelligence,人工智能能))1989年8月,在美国国底特律召开开的第11届届国际人工智智能联合会议议的专题讨论论会上首次出出现数据库中中的知识发现(KnowledgeDiscoveryinDatabase,KDD))这一术语。随后,在1991年、1993年和和1994年年都举行KDD专题讨论论会,汇集来来自各个领域域的研究人员员和应用开发发者,集中讨讨论数据统计计、海量数据据分析算法、、知识表示、、知识运用等等问题。最初初,数据挖掘掘是作为KDD中利用算算法处理数据据的一个步骤骤,其后逐渐渐演变成KDD的同义词词。一、数据挖掘掘技术的由来来现在,人们往往往不加区别别地使用两者者。KDD常常常被称为数数据挖掘(DataMining),实际两两者是有区别别的。一般将将KDD中进进行知识学习习的阶段称为为数据挖掘((DataMining),数据据挖掘是KDD中一个非非常重要的处处理步骤。数据挖掘是近近年来出现的的客户关系管理理(CustomerRelationshipManagement,CRM)、商业智能(BusinessIntelligence,BI)等热点领领域的核心技技术之一。一、数据挖掘掘技术的由来来支持数据挖掘掘技术的基础础海量数据搜索索强大的多处理理器计算机数据挖掘算法法二、数据挖掘掘的定义技术角度的定定义数据挖掘(DataMining)就是从大大量的、不完完全的、有噪噪声的、模糊糊的、随机的的实际应用数据据中,提取隐含在其其中的、人们事先不知知道的、但又又是潜在有用用的信息和知知识的过程。。该定义包括好好几层含义::数据源必须是是真实的、大大量的、含噪噪声的;发现的是用户户感兴趣的知知识;发现的知识要要可接受、可可理解、可运运用;并不要求发现现放之四海皆皆准的知识,,仅支持特定定的发现问题题。二、数据挖掘掘的定义关于知识的解解释从广义上理解解,数据、信信息也是知识识的表现形式式,但是人们们更把概念、规则则、模式、规规律和约束等等看作知识。。这里所说的知知识发现,不不是要求发现现放之四海而而皆准的真理理,也不是要要去发现崭新新的自然科学学定理和纯数数学公式,更更不是什么机机器定理证明明。实际上,所有有发现的知识识都是相对的的,是有特定前提提和约束条件件,面向特定定领域的,同同时还要能够够易于被用户户理解。最好好能用自然语语言表达所发发现的结果。。二、数据挖掘掘的定义模式:它给出了数数据特性或数数据之间的关关系,是对数数据所包含的的信息更抽象象的描述。模模式按功能可可以分为预测型模式和描述型模式。在实际应用用中,可以细分为关联模模式、分类模模式、聚类模模式和序列模模式等。二、数据挖掘掘的定义“从数据中发发现有用模式式”历来有很很多称法,如如:数据挖掘(datamining)知识提取(knowledgeextraction)信息发现(informationdiscovery)信息收获(informationharvesting)数据考古(dataarchaeology)数据模式处理理(datapatternprocessing)“数据挖掘””的称法大部部分是由统计计学家,数据据分析学家和和MIS团体体使用的,在在数据库领域域也得到了广广泛接受。二、数据挖掘掘的定义商业角度的含含义数据挖掘是一种新的商商业信息处理理技术,其主主要特点是对对商业数据库库中的大量业业务数据进行抽取取、转换、分分析和其他模模型化处理,,从中提取辅辅助商业决策策的关键性数数据。数据挖掘对于于企业的价值值简言之,数据据挖掘其实是是一类深层次次的数据分析析方法。因此此,数据挖掘掘可以描述为为:按企业既定定业务目标,,对大量的企企业数据进行行探索和分析析,揭示隐藏藏的、未知的的或验证己知知的规律性,,并进一步将将其模型化的的有效方法。。二、数据挖掘掘的定义从商业数据到到商业信息的的进化进化阶段商业问题支持技术产品厂家产品特点数据搜集(20世纪60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBM,CDC提供历史性的、静态的数据信息数据访问(20世纪80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库,结构化查询语言,ODBC、Oracle、Sybase、IBM、MicrosoftOracle、Sybase、Informix、IBM、Microsoft在记录级提供历史性的、动态数据信息数据仓库、决策支持(20世纪90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)、多维数据库、数据仓库Pilot、Comshare、Arbor、Cognos、Microstrategy在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法、多处理器计算机、海量数据库Pilot、Lockheed、IBM、SGI、其他初创公司提供预测性的信息数据挖掘与其其他科学的关关系数据挖掘作为为一门新兴的的交叉学科,,涉及数据库系统、、数据仓库、、统计学、机机器学习、可可视化、信息息检索和高性性能计算等诸多领域。。此外,还与神神经网络、模模式识别、空空间数据分析析、图像处理理、信号处理理、概率论、、图论和归纳纳逻辑等等领领域关系密切切。数据挖掘与其其他科学的关关系数据挖掘受多多学科的影响响数据挖掘与传传统数据分析析数据挖掘与传传统的数据分分析(如查询询、报表、联联机应用分析析)的本质区区别是数据挖挖掘是:在没有明确假假设的前提下下去挖掘信息息、发现知识识。数据挖掘所得得到的信息应应具有先前未知,有有效和可用三个特征。(传统是假设驱动、数据挖掘是发现驱动))数据挖掘和数数据仓库数据仓库和数数据集市是数数据挖掘的一一种数据源数据挖掘是数数据仓库的一一个应用对于数据挖掘掘,数据仓库库不是必需的的。数据挖掘和在在线分析处理理(OLAP)OLAP分析析是建立一系系列的假设,,然后通过OLAP来证证实或推翻这这些假设来最最终得到自己己的结论。OLAP分析析过程在本质质上是一个演演绎推理的过过程。数据挖掘与OLAP不同同的地方是,,数据挖掘不不是用于验证证某个假定的的模式(模型型)的正确性性,而是在数数据库中自己己寻找模型。。他在本质上上是一个归纳纳的过程。数据挖掘和OLAP具有有一定的互补补性。数据挖掘、机机器学习和统统计数据挖掘利用用了人工智能能(AI)和和统计分析的的进步所带来来的好处。数据挖掘不是是为了替代传传统的统计分分析技术。相相反,他是统统计分析方法法学的延伸和和扩展。数据挖掘就是是利用了统计计和人工智能能技术的应用用程序,他把把这些高深复复杂的技术封封装起来,使使人们不用自自己掌握这些些技术也能完完成同样的功功能,并且更更专注于自己己所要解决的的问题数据挖挖掘的的本质质一种深层次次的数数据分分析方法。。数据分分析本本身已已有多多年的的历史史,只只不过过在过过去数数据收收集和和分析析的一一般目目的是是用于于科学学研究究;另另外,,由于于当时时计算算能力力的限限制,,很难难实现现大量量数据据的复复杂分分析。。现在,,由于于各行行业业业务自自动化化的实实现,,商业业领域域产生生了大大量的的业务务数据据,这这些数数据并并不是是为了了分析析的目目的而而收集集的,,而是是在商商业运运作过过程中中由于于业务务需要要而自自然产产生的的。实施数数据挖挖掘的的目的的不再是是单纯纯为了了研究究,更更主要要的是是为商商业决决策提提供真真正有有价值值的信信息,,进而而获得得利润润。所有企企业面面临的的一个个共同同问题题是::企业业数据据量非非常大大,而而其中中真正正有价价值的的信息息却很很少,,因此此需要要从大大量的的数据据中经经过深深层分分析,,获得得有利利于商商业运运作、、提高高竞争争力的的信息息,就就像从矿石石中淘淘金一一样,,数据据挖掘掘也由由此而而得名名。三、数数据挖挖掘发发现的的知识识类型型广义知知识关联知知识分类知知识预测知知识偏差知知识。。广义知知识广义知知识指指类别别特征征的概概括性性描述述知识识。根据数数据的的微观观特性性发现现其表表征的的、带带有普普遍性性的、、较高高层次次概念念的、、中观观和宏宏观的的知识识,反反映同同类事事物共共同性性质。。广义知知识就就是对对大量量数据据的归归纳、、概括括,提提炼出出带有有普遍遍性的的、概概括性性的描描述统统计知知识。。描述统统计是数据据挖掘掘最基基本的的应用用之一一,经经常和和统计计图(如直直方图图,柱柱形图图,折折线图图,散散点图图等)配合合使用用。如如当月月公司司利润润总额额、比比较不不同区区域的的销售售量等等。广义知知识的的发现现方法法和实实现技技术有有很多多,如如概念念描述述、多多维数数据分分析、、面向向属性性的归归约、、概念念分层层等。。关联知识识数据关联联是数据库库中存在在的一类类重要的的可被发发现的知知识。若若两个或或多个变变量的取取值之间间存在某某种规律律性,就就称为关联。关联知识识可分为为简单关关联规则则、多层层关联规规则、多多维关联联规则、、量化关关联规则则和基于于约束的的关联规规则。典型例子子是购物物篮分析析发现关联联规则的的算法主主要有Apriori算法和和频繁模模式树(FP-树)案例:某某超市的的数据挖挖掘应用用美国的超超市有这这样的系系统:当当你采购购了一车车商品结结账时,,售货员员小姐扫扫描完了了你的产产品后,,计算机机上会显显示出一一些信息息,然后后售货员员会友好好地问你你:我们们有一种种一次性性纸杯正正在促销销,位于于F6货货架上,,您要购购买吗??这句话决决不是一一般的促促销。因因为计算算机系统统早就算算好了,,如果你你的购物物车中有有餐巾纸纸、大瓶瓶可乐和和沙拉,,则86%的可可能性你你要买一一次性纸纸杯。结结果是,,你说,,啊,谢谢谢你,,我刚才才一直没没找到纸纸杯。这不是什什么神奇奇的科学学算命,,而是利利用数据据挖掘中中的关联联规则算算法实现现的系统统。分类知识识分类知识识是反映同同类事物物共同性性的特征征型知识识和不同同事物之之间的差差异型特特征知识识。典型应用用:客户细分分。例如,,银行根根据客户户的存款款额、信信用额和和消费金金额把客客户分成成不同的的类别,,分别办办理不同同类型的的银行卡卡。算法有决决策树分分类、贝贝叶斯分分类、人人工神经经网络法法、粗糙糙集法和和遗传算算法等。。预测知识识预测型知知识指的是预预测连续续值,是是根据时时间序列列型数据据,由历历史的和和当前的的数据去去推测未未来的数数据,也也可以认认为是以以时间为为关键属属性的关关联知识识。一个典型型的例子子是市场预测测问题,数据挖挖掘从过过去有关关促销的的数据中中寻找在在未来投投资中回回报最大大的用户户,其它它可预测测的问题题包括预预报破产产以及认认定对指指定事件件最可能能做出反反应的群群体。基于统计计学习的的回归分分析法,,还有基基于现代代智能计计算的神神经网络络、遗传传算法等等各类时时间序列列分析法法。偏差知识识偏差型知知识是对差异异和极端端特例的的描述,,揭示事事物偏离离常规的的异常现现象。偏差即异异常,在在数据挖挖掘中有有时也称称之为““孤立点点”,可可以用来来发现““小的模模式”偏差知识识挖掘的的一个典典型应用用是检测测信用卡卡欺诈。。基于统计计的方法法、基于于距离的的方法和和基于偏偏离的方方法案例:国国内某电电信公司司利用数数据挖掘掘预测客客户知识识2004年,某某电信公公司邀请请国际某某著名咨咨询公司司进行市市场营销销再造项项目,将将数据挖挖掘用于于它的三三个业务务领域::客户管理理、网络络/产品品/服务务管理、、市场/财务管管理;公司将将数据挖挖掘的重重点放在在了客户户管理。。在电信信市场竞竞争越来来越激烈烈的今天天,即使使在扩大大其客户户群的时时候,电电信运营营商和其其它代理理商也必必须密切切监视他他们的现现有客户户,并采采用各种种营销方方法来留留住这些些客户。。电信公公司期望望通过数数据仓库库的实施施和数据据挖掘的的应用,,能够利利用经营营分析系系统进行行客户分群群、客户户获取、、客户行行为分析析、客户户流失分分析等。如今今,电信信公司已已经能够够利用现现有的客客户数据据来总结客户户行为的的特点,,并预测测客户的的下一步步行为。例如,,为了对对付日益益严重的的客户流流失或业业务流失失状况,,电信信公司采采用基于于决策树树的方法法来分析析客户的的流失特特性,以以便采取取针对性性的营销销措施,,挽留有有价值的的客户、、减少客客户流失失。四、数据据挖掘对对象1.关关系数据据库数据库中中数据的的特点如如下:1)数数据动态态性、2)数数据的不不完全性性、3)噪声声数据、、4)数数据类类型不一一致、5)异异构性、、6)数数据冗冗余性、、7)数数据稀稀疏性由于数据据库中的的数据具具有以上上特点,,使其在在挖掘过过程中难难以直接接使用,,因此在在进行数数据挖掘掘以前必必须对数数据进行行预处理理。四、数据据挖掘对对象2.数数据仓库库数据仓库库的特点点如下::1)面面向主题题、2)集成成的数据据、3)不可可更新、、4)随随时间间不断变变化高质量的的挖掘结结果依赖赖于高质质量的数数据,数数据仓库库为数据据挖掘准准备了良良好的数数据源,,因此,,数据仓仓库是数数据挖掘掘的最佳环境境。四、数据据挖掘对对象3.文本本文本是非非结构化化或半结结构化的的数据。。文本分析析包括::1)关关键词或或特征提提取2)相相似检索索3)文文本聚类类4)文文本分类类四、数据据挖掘对对象4.多媒媒体数据据图像、音音频、视视频数据据是典型型的多媒媒体数据据。多媒体数数据广泛泛存在于于生活、、医学、、军事、、娱乐等等领域,,目前,对对于多媒媒体数据据的挖掘掘主要有有特征提提取、基基于内容容的相似似检索等等。四、数据据挖掘对对象5.Web数据据Web使使用模式式挖掘:在Web环境境中,文文档和对对象一般般都是通通过链接接来便于于用户访访问。捕捕捉用户户的存取取模式或或发现一一个Web网站站最频繁繁的访问问路径称称为Web使用用模式挖挖掘或Web路路径挖掘掘。Web结结构挖掘掘:是挖掘掘Web的链接接结构,,并找出出关于某某一主题题的权威威网站。。Web内内容挖掘掘:是指在在大量训训练样本本的基础础上,得得到数据据对象之之间的内内在特征征,并以以此为依依据进行行有目的的的信息息筛选,,从而获获得指定定内容的的信息。。四、数据据挖掘对对象6.复杂杂类型的的数据1)空空间数据据库如地理信信息数据据、卫星星图像数数据、地地下管道道、下水水道、及及各类地地下建筑筑分布数数据等。。对空间数数据的挖挖掘可以以为城市市规划、、生态规规划、道道路修建建提供决决策支持持。2)时时间序列列数据主要用于于存放与与时间相相关的数数据,它它可用来来反映随随时间变变化的即即时数据据或不同同时间发发生的不不同事件件。例如,连连续存放放即时的的股票交交易信息息、卫星星轨道信信息等。。对时间序序列数据据的挖掘掘可以发发现事件件的发展展趋势、、演变过过程和隐隐藏特征征,这些些信息对对制定计计划、决决策和预预警是非非常有用用的。五、数据据挖掘任任务概念描述述关联分析析分类与估估值聚类孤立点分分析时间序列列分析预测概念描述述概念描述述就是通过过对某类类数据对对象进行行汇总、、分析和和比较,,获得对对此类对对象内涵涵的描述述,并概概括这类类对象的的有关特特征。概念描述述可以通通过下述述方法得得到:数数据特征征化和数数据区分分数据特征征化的输输出可以采用用饼图、、柱状图图、曲线线、多维维数据立立方体、、含交叉叉表的多多维表等等形式,,描述结结果也可可以用概概化关系系或规则则形式表表示数据区分分的输出出类似于数数据特征征化,但但它应该该包括比比较度量量,以帮帮助区分分目标类类和比较较类。概念描述述例1:我我们收集集移动电电话费月月消费额额超出1000元的客客户资料料,然后后利用数数据挖掘掘进行分分析,获获得这类类客户的的总体性描述述:35-50岁,有有工作,月月收入5000元以以上,拥有有良好的信信用度…;;例2:对比比移动电话话费月消费费额超出1000元元的客户群群与移动电电话费月消消费额低于于100元元的客户群群。利用数数据挖掘可可作出如下描述:移动电话话月消费额额超出1000元的的客户80%以上年年龄在35-50岁岁之间,且且月收入5000元元以上;而而移动电话话月消费额额低于100元的客客户60%%以上要么么年龄过大大要么年龄龄过小,且且月收入2000元元以下。关联分析关联分析就是从大量量的数据中中发现项集之间有趣的联系系、相关关关系或因果果结构,以以及项集的的频繁模式式。例如,购买买计算机也也趋向于同同时购买财财务管理软软件可以用用以下关联联规则表示示:[support=2%,confidence=60%]分类与估值值分类指通过分析析一个类别别已知的数数据集的特特征来建立立一组模型型,该模型型可用以预预测类别未未知的数据据项的类别别。类的内涵描描述分为::特征描述述和辨别性性描述。特征描述是对类中对对象的共同同特征的描描述。辨别性描述述是对两个或或多个类之之间区别的的描述。分类过程分分两步:第一步,建建立一个模模型,描述述预定的数数据类或概概念集。第二步,使使用模型对对未分类的的对象进行行分类。分类挖掘主主要技术有有决策树、、贝叶斯学学习方法和和神经网络络方法等。。分类与估值值估值与分类类似似,只不过过它要预测测的不是类类别,而是是一个连续的数值值。聚类聚类是根据类内内事物的相相似性最大大、类间事事物的相似似性最小的的原则把数数据对象进进行聚类或或分组。聚类与分类类不同,它它们的区别别如下:第一,分类类需要训练练数据集,,属于有监监督的学习习;而聚类类不需要训训练数据集集,属于无无监督的学学习。第二,在进进行分类以以前,已知知道数据的的分类情况况;而进行行聚类以前前,对目标标数据的分分类情况一一无所知。。常用的聚类类方法包括括统计分析析方法、机机器学习方方法、神经经网络方法法等。孤立点分析析数据库中可可能包含一一些数据对对象,它们们与集合中中其它数据据的一般行行为或模型型不一致,,这些数据据对象称为为孤立点。孤立点可以以使用统计计试验检测测。它假定定一个数据据的分布或或概率模型型,并使用用距离度量量,到其它它数据对象象的距离很很远的对象象被视为孤孤立点。基于偏差的的方法通过过考察一群群对象主要要特征上的的差别识别别孤立点,,而不是使使用统计或或距离度量量。孤立点分析析通常可以以作为聚类分析的的副产品,根据聚类类分析结果果,含有对对象个数少少于设定阈阈值的聚类类中的事物物看作是孤孤立点。时间序列分分析时间序列分分析是描述行为为随时间变变化的对象象的规律或或趋势,并并对其建模模。包括与时间间相关数据据的特征、、区分、关关联、分类类或聚类,,根据分析的的不同特点点分为时间序列数数据分析、、序列或周周期模式匹匹配和基于类似性性的数据分分析。如股票市场场的每日波波动、动态态产品加工工过程、科科学实验、、医学治疗疗等。预测预测是从历史数数据找出变变化规律,,建立模型型,并用此此模型预测测未来数据据种类、特特征等。用分类预测测离散数据用回归分析析预测连续数据。典型的回归归分析是利利用大量的的历史数据据,建立线线性或非线线性回归方方程。根据回归模模型,只要要输入自变变量的值,,就可以求求出因变量量的值,达达到对因变变量的预测测。六、数据挖挖掘分类六、数据挖挖掘分类2.按数数据挖掘对对象分类对数据库进进行挖掘文本数据挖挖掘多媒体数据据挖掘Web数据据挖掘。六、数据挖挖掘分类3.根据据挖掘的知知识类型分分类概念描述关联分析分类预测聚类分析孤立点分分析六、数据挖挖掘分类4.按挖掘掘方法和技技术分类归纳学习类类仿生计算类类公式发现类类统计分析类类模糊数学类类可视化技术术类数据挖掘技技术分类数据挖掘验证驱动挖掘发现驱动挖掘SQLSQL生成器查询工具OLAP描述预测可视化聚类关联规则顺序关联汇总描述分类统计回归时间序列决策树神经网路七、数据挖挖掘模型为了使数据据挖掘技术术在产业界界得到更好好的应用,,欧洲委员员会联合一一些数据挖挖掘软件厂厂商开发了了CRISP-DM((CrossIndustryStandardProcessforDataMining))模型,目的是把把数据挖掘掘的过程标标准化,使使数据挖挖掘项目的的实施速度度更快、成成本更低、、更可靠并并且更容易易管理。CRISP-DM模模型最先在在1996年被提出出,当前的的白皮书版版本是1.0。CRISP-DM(CrossIndustryStandardProcessforDataMining)模型七、数据挖挖掘模型CRISP-DM模模型中,数数据挖掘包包括六个步步骤:1.业务理解解(BusinessUnderstanding))阶段具体地,包包括:确定业务目目标项目可行性性分析确定数据挖挖掘目标提出初步的的项目计划划七、数据挖挖掘模型确定业务目目标:分析项目目的背景,,从业务视视点分析项项目的目标标和需求,,确定业务务角度的成成功标准;;项目可行性性分析:分析拥有有的资源,,条件和限限制,风险险估计,成成本和效益益估计;确定数据挖挖掘目标:明确确定定数据挖掘掘的目标和和成功标准准,数据挖挖掘的目标标和业务目目标是不一一样的,前前者指技术术上的,例例如生成一一棵决策树树等;提出项目计计划:对整个项项目做一个个计划,初初步估计用用到的工具具和技术。。七、数据挖挖掘模型2.数据理理解(DataUnderstanding)阶段具体地,包包括:收集原始数数据:收集本项项目所涉及及到的数据据,如有必必要,把数数据装入数数据处理工工具,并作作一些初步步的数据集集成的工作作,生成相相应报告;描述数据:对数据做做一些大致致的描述,,例如记录录数、属性性数等,给给出相应报报告;探索数据:对数据做做简单的统统计分析,,例如关键键属性的分分布等;检查数据质质量:包括数据据是否完整整、数据是是否有错、、是否有缺缺失值等问问题。七、数据挖挖掘模型3.数据准准备(DataPreparation)阶阶段具体地,包包括:数据选择:根据数据据挖掘目标标和数据质质量选择合合适的数据据,包括表表的选择、、记录选择择和属性选选择;数据清洁:提高选择择好的数据据的质量,,例如去除除噪音,估估计缺失值值等;数据创建:在原有数数据的基础础上是生成成新的属性性或记录;;七、数据挖挖掘模型数据合并:利用表连连接等方式式将几个数数据集合并并在一起;;数据格式化化:把数据转转换成适合合数据挖掘掘处理的格格式。七、数据挖挖掘模型4.建立模模型(Modeling)阶阶段具体地,包包括:选择建模技技术:确定数据据挖掘算法法和参数,,可能会利利用多个算算法;测试方案设设计:设计某种种测试模型型的质量和和有效性的的机制;模型训练:在准备好好的数据集集上运行数数据挖掘算算法,得出出一个或者者多个模型型;模型测试评评估:根据测试试方案进行行测试,从从数据挖掘掘技术的角角度确定数数据挖掘目目标是否成成功。七、数据挖挖掘模型5.模型评评估(Evaluation)阶段具体地,包包括:结果评估:从商业角角度评估得得到的模型型,甚至实实际试用该该模型测试试其效果;;过程回顾:回顾项目目的所有流流程,确定定每一个阶阶段都没有有失误;确定下一步步工作:根据结果果评估和过过程回顾得得出的结论论,确定是是部署该挖挖掘模型还还是从某个个阶段开始始重新开始始。七、数据挖挖掘模型6.部署((Deployment)阶阶段具体地,包括括:部署计划:对在业务运运作中部署模模型作出计划划;监控和维护计计划:如何监控模模型在实际业业务中的使用用情况,如何何维护该模型型;作出最终报告告:项目总结,,项目经验和和项目结果;;项目回顾:回顾项目的的实施过程,,总结经验教教训;对数据据挖掘的运行行效果做一个个预测。七、数据挖掘掘模型为保证项目的的可靠性和可可管理性,CRISP-DM规定一个数据据挖掘项目应应该产生11个报告:业务理解报告告原原始数据收集集报告数据描述报告告数数据探索报告告数据质量报告告数数据集描述报报告模型训练报告告模模型评估报告告部署计划监监控和维维护计划总结报告通过这些报告告,可以有效效地控制数据据挖掘项目进进程,减少开开发风险。八、数据挖掘掘过程数据挖掘是一个反复迭迭代的人机交交互处理过程程。该过程需需要经历多个个步骤,并且且很多决策需需要由用户提提供。从宏观上看,,数据挖掘过程主要由三三个部分组成成,即数据整理、数数据挖掘和结结果的解释评评估。八、数据挖掘掘过程八、数数据挖挖掘过过程1.确确定主主题在理解解数据据和实实际业业务问问题的的基础础上,,提出出数据据挖掘掘要解解决的的问题题,定定义挖挖掘的的目标标,确确定挖挖掘要要发现现的知知识类类型。。2.数数据筛筛选搜索与与业务务数据据有关关的内内部和和外部部数据据信息息,从从中选选择出出适用用于挖挖掘主主题的的目标标数据据集。。3.数数据清清洗来源于于业务务数据据库的的目标标数据据集中中可能能存在在噪声声数据据、空空缺数数据、、过时时数据据、冗冗余数数据等等,为为提高高挖掘掘质量量,需需要合合理处处理噪噪声数数据、、删除除过时时数据据和冗冗余数数据、、填补补空缺缺数据据等清清洗操操作。。八、数数据挖挖掘过过程4.数数据变变换选择的的目标标数据据可能能来源源于不不同的的业务务数据据库,,可能能会存存在数数据格格式、、数据据类型型不一一致等等问题题。因因此有有必要要对目目标数数据进进行相相应的的数据据变换换。5.选选择算算法根据以以下两两个因因素选选择合合适的的算法法:一是要要根据据数据据的特特点,,二是要要根据据用户户的目目标。。选择合合适的的知识识发现现算法法还要要包括括选择择适当当的模模型和和参数数。八、数数据挖挖掘过过程6.数数据挖挖掘运用选选择的的算法法从清清洗过过的目目标数数据集集中提提取出出用户户感兴兴趣的的知识识(模模式),并并以一一定的的方式式表示示出来来。7.模模式解解释剔除冗冗余或或无关关的模模式。。如果模模式不不能满满足用用户的的要求求,就就要分分析问问题的的原因因并返返回到到前面面的某某些处处理步步骤中中反复复提取取。如果是是目标标数据据选择择不充充分,,则重重新选选取数数据如果是是数据据变换换方法法不当当,则则返回回采用用新的的数据据变换换方法法重新新进行行数据据变换换如果是是挖掘掘算法法法中中的参参数值值选择择不合合适,,则修修改参参数值值,甚甚至换换另外外一种种挖掘掘算法法,从从而提提取出出更有有效的的模式式。八、数数据挖挖掘过过程8.知知识评评价将发现现的知知识以以用户户便于于理解解的方方式呈呈现给给用户户。这这期间间也包包含对对知识识一致致性的的检查查,以以确信信本次次发现现的知知识不不会与

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论