




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库与数据挖掘孙家泽sunjiaze@数据挖掘数据仓库与数据挖掘数据挖掘1关于本课程数据挖掘融合了数据库、人工智能、机器学习、统计分析、模式发现、可视化技术、信息检索等多个学科领域的知识。本课程系统地介绍了数据挖掘的概念、理论及其发展、重点介绍了数据挖掘技术及其在实践中的应用。数据挖掘关于本课程数据挖掘融合了数据库、人工智能、机器学习、统计分析2课程目标通过本课程的学习,掌握数据挖掘的基本概念、数据挖掘过程、数据仓库的概念、OLAP与数据挖掘的关系。掌握数据挖掘的常用技术:决策树、神经网络、关联规则、聚类分析、统计学习等。熟悉数据挖掘技术在典型行业的应用方法,具有运用数据挖掘技术解决问题的能力。数据挖掘课程目标通过本课程的学习,掌握数据挖掘的基本概念、数据挖掘过3课程体系数据挖掘概述数据仓库与OLAP技术数据挖掘技术数据挖掘应用数据挖掘工具数据挖掘实例数据挖掘课程体系数据挖掘概述数据挖掘4学习方法课堂讲授及自学理解数据挖掘的基本概念和原理。充分利用因特网,查阅相关资料进一步拓展知识面熟悉常用的数据挖掘软件,提高数据挖掘的基本处理能力和动手能力。数据挖掘学习方法课堂讲授及自学数据挖掘5成绩考核考试成绩由平时考勤+课堂讨论+大作业数据挖掘成绩考核考试成绩由平时考勤+课堂讨论+大作业数据挖掘6参考资料韩家炜,《数据挖掘:概念与技术(第二版)》,中文版,机械工业出版社王欣等,《SQLServer2005数据挖掘实例分析》,中国水利水电出版社数据挖掘.实用机器学习工具和技术WEKA手册
/dataminingcourse/teaching.asp数据挖掘参考资料韩家炜,《数据挖掘:概念与技术(第二版)》,中文版,7参考网站
数据挖掘参考网站www.8需要使用的部分软件SPSSWEKASQLServer2005标准版Excel数据挖掘需要使用的部分软件SPSS数据挖掘9第1章
数据挖掘概述数据挖掘第1章
数据挖掘概述数据挖掘10数据挖掘数据挖掘11啤酒与尿布数据挖掘啤酒与尿布数据挖掘12引例:啤酒与尿布沃尔玛超市建立数据仓库,按周期统计产品的销售信息,经过科学建模后提炼决策层数据。发现每逢周末,位于某地区的沃尔玛超市连锁店的啤酒和尿布的销售量很大,而且单张发票中同时购买尿布和啤酒的记录非常普遍。分析人员认为这并非偶然,经过深入分析得知,通常周末购买尿布的是男士,他们在完成了太太交给的任务后,经常会顺便买一些啤酒。得出这样的结果后,沃尔玛超市的工作人员尝试着将啤酒和尿布摆放在一起销售,结果尿布与啤酒的销售额双双增长。
从上面的例子不难看出,数据管理的主要目的是获取信息和分析信息以指导我们的行动或帮助我们作决策。数据挖掘引例:啤酒与尿布沃尔玛超市建立数据仓库,按周期统计产品的销13引言从大量数据中提取出隐藏在其中的有用信息数据挖掘,也可以称为数据库中的知识发现(KnowledgeDiscoverDatabase,KDD),是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程。数据挖掘引言从大量数据中提取出隐藏在其中的有用信息数据挖掘14本章内容一、数据挖掘技术的由来二、数据挖掘的定义三、数据挖掘发现的知识类型四、数据挖掘对象五、数据挖掘任务六、数据挖掘分类七、数据挖掘模型八、数据挖掘过程数据挖掘本章内容一、数据挖掘技术的由来数据挖掘15数据挖掘数据挖掘16一、数据挖掘技术的由来信息爆炸但知识贫乏《纽约时报》一周报道的信息总量,比十八世纪一个人一生接触的信息总量还多“我们正在被信息所淹没,但我们却由于缺乏知识而感到饥饿。”数据挖掘一、数据挖掘技术的由来信息爆炸但知识贫乏数据挖掘17一、数据挖掘技术的由来数据挖掘是八十年代投资AI研究项目失败后,AI转入实际应用时提出的。它是一个新兴的,面向商业应用的AI研究。(AI(ArtificialIntelligence,人工智能))1989年8月,在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上首次出现数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD)这一术语。随后,在1991年、1993年和1994年都举行KDD专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。最初,数据挖掘是作为KDD中利用算法处理数据的一个步骤,其后逐渐演变成KDD的同义词。数据挖掘一、数据挖掘技术的由来数据挖掘是八十年代投资AI研究项目失败18一、数据挖掘技术的由来现在,人们往往不加区别地使用两者。KDD常常被称为数据挖掘(DataMining),实际两者是有区别的。一般将KDD中进行知识学习的阶段称为数据挖掘(DataMining),数据挖掘是KDD中一个非常重要的处理步骤。数据挖掘是近年来出现的客户关系管理(CustomerRelationshipManagement,CRM)、商业智能(BusinessIntelligence,BI)等热点领域的核心技术之一。数据挖掘一、数据挖掘技术的由来现在,人们往往不加区别地使用两者。KD19一、数据挖掘技术的由来支持数据挖掘技术的基础海量数据搜索强大的多处理器计算机数据挖掘算法数据挖掘一、数据挖掘技术的由来支持数据挖掘技术的基础数据挖掘20二、数据挖掘的定义技术角度的定义数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。该定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。数据挖掘二、数据挖掘的定义技术角度的定义数据挖掘21二、数据挖掘的定义关于知识的解释从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。数据挖掘二、数据挖掘的定义关于知识的解释数据挖掘22二、数据挖掘的定义模式:它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。模式按功能可以分为预测型模式和描述型模式。在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。数据挖掘二、数据挖掘的定义模式:它给出了数据特性或数据之间的关系,是23二、数据挖掘的定义“从数据中发现有用模式”历来有很多称法,如:数据挖掘(datamining)知识提取(knowledgeextraction)信息发现(informationdiscovery)信息收获(informationharvesting)数据考古(dataarchaeology)数据模式处理(datapatternprocessing)“数据挖掘”的称法大部分是由统计学家,数据分析学家和MIS团体使用的,在数据库领域也得到了广泛接受。数据挖掘二、数据挖掘的定义“从数据中发现有用模式”历来有很多称法,如24二、数据挖掘的定义商业角度的含义数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。数据挖掘对于企业的价值简言之,数据挖掘其实是一类深层次的数据分析方法。因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。数据挖掘二、数据挖掘的定义商业角度的含义数据挖掘25二、数据挖掘的定义从商业数据到商业信息的进化进化阶段商业问题支持技术产品厂家产品特点数据搜集(20世纪60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBM,CDC提供历史性的、静态的数据信息数据访问(20世纪80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库,结构化查询语言,ODBC、Oracle、Sybase、IBM、MicrosoftOracle、Sybase、Informix、IBM、Microsoft在记录级提供历史性的、动态数据信息数据仓库、决策支持(20世纪90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)、多维数据库、数据仓库Pilot、Comshare、Arbor、Cognos、Microstrategy在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法、多处理器计算机、海量数据库Pilot、Lockheed、IBM、SGI、其他初创公司提供预测性的信息数据挖掘二、数据挖掘的定义从商业数据到商业信息的进化进化阶段商业问26数据挖掘与其他科学的关系数据挖掘作为一门新兴的交叉学科,涉及数据库系统、数据仓库、统计学、机器学习、可视化、信息检索和高性能计算等诸多领域。此外,还与神经网络、模式识别、空间数据分析、图像处理、信号处理、概率论、图论和归纳逻辑等等领域关系密切。数据挖掘数据挖掘与其他科学的关系数据挖掘作为一门新兴的交叉学科,涉及27数据挖掘与其他科学的关系数据挖掘受多学科的影响
数据挖掘数据挖掘与其他科学的关系数据挖掘受多学科的影响数据挖掘28数据挖掘与传统数据分析数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是:在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知,有效和可用三个特征。(传统是假设驱动、数据挖掘是发现驱动)数据挖掘数据挖掘与传统数据分析数据挖掘与传统的数据分析(如查询、报表29数据挖掘和数据仓库数据仓库和数据集市是数据挖掘的一种数据源数据挖掘是数据仓库的一个应用对于数据挖掘,数据仓库不是必需的。数据挖掘数据挖掘和数据仓库数据仓库和数据集市是数据挖掘的一种数据30数据挖掘和在线分析处理(OLAP)OLAP分析是建立一系列的假设,然后通过OLAP来证实或推翻这些假设来最终得到自己的结论。OLAP分析过程在本质上是一个演绎推理的过程。数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。他在本质上是一个归纳的过程。数据挖掘和OLAP具有一定的互补性。数据挖掘数据挖掘和在线分析处理(OLAP)OLAP分析是建立一系列31数据挖掘、机器学习和统计数据挖掘利用了人工智能(AI)和统计分析的进步所带来的好处。数据挖掘不是为了替代传统的统计分析技术。相反,他是统计分析方法学的延伸和扩展。数据挖掘就是利用了统计和人工智能技术的应用程序,他把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题数据挖掘数据挖掘、机器学习和统计数据挖掘利用了人工智能(AI)和统32数据挖掘的本质一种深层次的数据分析方法。数据分析本身已有多年的历史,只不过在过去数据收集和分析的一般目的是用于科学研究;另外,由于当时计算能力的限制,很难实现大量数据的复杂分析。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据并不是为了分析的目的而收集的,而是在商业运作过程中由于业务需要而自然产生的。数据挖掘数据挖掘的本质一种深层次的数据分析方法。数据挖掘33实施数据挖掘的目的不再是单纯为了研究,更主要的是为商业决策提供真正有价值的信息,进而获得利润。所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此需要从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也由此而得名。数据挖掘实施数据挖掘的目的不再是单纯为了研究,更主要的是为商业决策提34三、数据挖掘发现的知识类型广义知识关联知识分类知识预测知识偏差知识。数据挖掘三、数据挖掘发现的知识类型广义知识数据挖掘35广义知识广义知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质。广义知识就是对大量数据的归纳、概括,提炼出带有普遍性的、概括性的描述统计知识。描述统计是数据挖掘最基本的应用之一,经常和统计图(如直方图,柱形图,折线图,散点图等)配合使用。如当月公司利润总额、比较不同区域的销售量等。广义知识的发现方法和实现技术有很多,如概念描述、多维数据分析、面向属性的归约、概念分层等。数据挖掘广义知识广义知识指类别特征的概括性描述知识。数据挖掘36关联知识数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联知识可分为简单关联规则、多层关联规则、多维关联规则、量化关联规则和基于约束的关联规则。典型例子是购物篮分析发现关联规则的算法主要有Apriori算法和频繁模式树(FP-树)数据挖掘关联知识数据关联是数据库中存在的一类重要的可被发现的知识。37案例:某超市的数据挖掘应用美国的超市有这样的系统:当你采购了一车商品结账时,售货员小姐扫描完了你的产品后,计算机上会显示出一些信息,然后售货员会友好地问你:我们有一种一次性纸杯正在促销,位于F6货架上,您要购买吗?这句话决不是一般的促销。因为计算机系统早就算好了,如果你的购物车中有餐巾纸、大瓶可乐和沙拉,则86%的可能性你要买一次性纸杯。结果是,你说,啊,谢谢你,我刚才一直没找到纸杯。这不是什么神奇的科学算命,而是利用数据挖掘中的关联规则算法实现的系统。数据挖掘案例:某超市的数据挖掘应用美国的超市有这样的系统:当你采38分类知识分类知识是反映同类事物共同性的特征型知识和不同事物之间的差异型特征知识。典型应用:客户细分。例如,银行根据客户的存款额、信用额和消费金额把客户分成不同的类别,分别办理不同类型的银行卡。算法有决策树分类、贝叶斯分类、人工神经网络法、粗糙集法和遗传算法等。数据挖掘分类知识分类知识是反映同类事物共同性的特征型知识和不同事物39预测知识预测型知识指的是预测连续值,是根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。一个典型的例子是市场预测问题,数据挖掘从过去有关促销的数据中寻找在未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能做出反应的群体。基于统计学习的回归分析法,还有基于现代智能计算的神经网络、遗传算法等各类时间序列分析法。数据挖掘预测知识预测型知识指的是预测连续值,是根据时间序列型数据,40偏差知识偏差型知识是对差异和极端特例的描述,揭示事物偏离常规的异常现象。偏差即异常,在数据挖掘中有时也称之为“孤立点”,可以用来发现“小的模式”偏差知识挖掘的一个典型应用是检测信用卡欺诈。基于统计的方法、基于距离的方法和基于偏离的方法数据挖掘偏差知识偏差型知识是对差异和极端特例的描述,揭示事物偏离常41案例:国内某电信公司利用数据挖掘预测客户知识2004年,某电信公司邀请国际某著名咨询公司进行市场营销再造项目,将数据挖掘用于它的三个业务领域:客户管理、网络/产品/服务管理、市场/财务管理;公司将数据挖掘的重点放在了客户管理。在电信市场竞争越来越激烈的今天,即使在扩大其客户群的时候,电信运营商和其它代理商也必须密切监视他们的现有客户,并采用各种营销方法来留住这些客户。电信公司期望通过数据仓库的实施和数据挖掘的应用,能够利用经营分析系统进行客户分群、客户获取、客户行为分析、客户流失分析等。如今,电信公司已经能够利用现有的客户数据来总结客户行为的特点,并预测客户的下一步行为。例如,为了对付日益严重的客户流失或业务流失状况,电信公司采用基于决策树的方法来分析客户的流失特性,以便采取针对性的营销措施,挽留有价值的客户、减少客户流失。数据挖掘案例:国内某电信公司利用数据挖掘预测客户知识2004年,某42四、数据挖掘对象1.关系数据库数据库中数据的特点如下:1)数据动态性、2)数据的不完全性、3)噪声数据、4)数据类型不一致、5)异构性、6)数据冗余性、7)数据稀疏性由于数据库中的数据具有以上特点,使其在挖掘过程中难以直接使用,因此在进行数据挖掘以前必须对数据进行预处理。数据挖掘四、数据挖掘对象1.关系数据库数据挖掘43四、数据挖掘对象2.数据仓库数据仓库的特点如下:
1)面向主题、2)集成的数据、3)不可更新、4)随时间不断变化高质量的挖掘结果依赖于高质量的数据,数据仓库为数据挖掘准备了良好的数据源,因此,数据仓库是数据挖掘的最佳环境。数据挖掘四、数据挖掘对象2.数据仓库数据挖掘44四、数据挖掘对象3.文本文本是非结构化或半结构化的数据。文本分析包括:1)关键词或特征提取2)相似检索3)文本聚类4)文本分类数据挖掘四、数据挖掘对象3.文本数据挖掘45四、数据挖掘对象4.多媒体数据图像、音频、视频数据是典型的多媒体数据。多媒体数据广泛存在于生活、医学、军事、娱乐等领域,目前,对于多媒体数据的挖掘主要有特征提取、基于内容的相似检索等。数据挖掘四、数据挖掘对象4.多媒体数据数据挖掘46四、数据挖掘对象5.Web数据Web使用模式挖掘:在Web环境中,文档和对象一般都是通过链接来便于用户访问。捕捉用户的存取模式或发现一个Web网站最频繁的访问路径称为Web使用模式挖掘或Web路径挖掘。Web结构挖掘:是挖掘Web的链接结构,并找出关于某一主题的权威网站。Web内容挖掘:是指在大量训练样本的基础上,得到数据对象之间的内在特征,并以此为依据进行有目的的信息筛选,从而获得指定内容的信息。数据挖掘四、数据挖掘对象5.Web数据数据挖掘47四、数据挖掘对象6.复杂类型的数据1)空间数据库如地理信息数据、卫星图像数据、地下管道、下水道、及各类地下建筑分布数据等。对空间数据的挖掘可以为城市规划、生态规划、道路修建提供决策支持。2)时间序列数据主要用于存放与时间相关的数据,它可用来反映随时间变化的即时数据或不同时间发生的不同事件。例如,连续存放即时的股票交易信息、卫星轨道信息等。对时间序列数据的挖掘可以发现事件的发展趋势、演变过程和隐藏特征,这些信息对制定计划、决策和预警是非常有用的。数据挖掘四、数据挖掘对象6.复杂类型的数据数据挖掘48五、数据挖掘任务概念描述关联分析
分类与估值聚类孤立点分析时间序列分析预测数据挖掘五、数据挖掘任务概念描述数据挖掘49概念描述概念描述就是通过对某类数据对象进行汇总、分析和比较,获得对此类对象内涵的描述,并概括这类对象的有关特征。概念描述可以通过下述方法得到:数据特征化和数据区分数据特征化的输出可以采用饼图、柱状图、曲线、多维数据立方体、含交叉表的多维表等形式,描述结果也可以用概化关系或规则形式表示
数据区分的输出类似于数据特征化,但它应该包括比较度量,以帮助区分目标类和比较类。数据挖掘概念描述概念描述就是通过对某类数据对象进行汇总、分析和比较,50概念描述例1:我们收集移动电话费月消费额超出1000元的客户资料,然后利用数据挖掘进行分析,获得这类客户的总体性描述:35-50岁,有工作,月收入5000元以上,拥有良好的信用度…;例2:对比移动电话费月消费额超出1000元的客户群与移动电话费月消费额低于100元的客户群。利用数据挖掘可作出如下描述:移动电话月消费额超出1000元的客户80%以上年龄在35-50岁之间,且月收入5000元以上;而移动电话月消费额低于100元的客户60%以上要么年龄过大要么年龄过小,且月收入2000元以下。数据挖掘概念描述例1:我们收集移动电话费月消费额超出1000元的客户51关联分析关联分析就是从大量的数据中发现项集之间有趣的联系、相关关系或因果结构,以及项集的频繁模式。例如,购买计算机也趋向于同时购买财务管理软件可以用以下关联规则表示:[support=2%,confidence=60%]数据挖掘关联分析关联分析就是从大量的数据中发现项集之间有趣的联系、52分类与估值分类指通过分析一个类别已知的数据集的特征来建立一组模型,该模型可用以预测类别未知的数据项的类别。类的内涵描述分为:特征描述和辨别性描述。特征描述是对类中对象的共同特征的描述。辨别性描述是对两个或多个类之间区别的描述。分类过程分两步:第一步,建立一个模型,描述预定的数据类或概念集。第二步,使用模型对未分类的对象进行分类。分类挖掘主要技术有决策树、贝叶斯学习方法和神经网络方法等。数据挖掘分类与估值分类指通过分析一个类别已知的数据集的特征来建立一组53分类与估值估值与分类类似,只不过它要预测的不是类别,而是一个连续的数值。数据挖掘分类与估值估值与分类类似,只不过它要预测的不是类别,而是一个54聚类聚类是根据类内事物的相似性最大、类间事物的相似性最小的原则把数据对象进行聚类或分组。聚类与分类不同,它们的区别如下:第一,分类需要训练数据集,属于有监督的学习;而聚类不需要训练数据集,属于无监督的学习。第二,在进行分类以前,已知道数据的分类情况;而进行聚类以前,对目标数据的分类情况一无所知。常用的聚类方法包括统计分析方法、机器学习方法、神经网络方法等。数据挖掘聚类聚类是根据类内事物的相似性最大、类间事物的相似性最小的原55孤立点分析数据库中可能包含一些数据对象,它们与集合中其它数据的一般行为或模型不一致,这些数据对象称为孤立点。孤立点可以使用统计试验检测。它假定一个数据的分布或概率模型,并使用距离度量,到其它数据对象的距离很远的对象被视为孤立点。基于偏差的方法通过考察一群对象主要特征上的差别识别孤立点,而不是使用统计或距离度量。孤立点分析通常可以作为聚类分析的副产品,根据聚类分析结果,含有对象个数少于设定阈值的聚类中的事物看作是孤立点。数据挖掘孤立点分析数据库中可能包含一些数据对象,它们与集合中其它数据56时间序列分析时间序列分析是描述行为随时间变化的对象的规律或趋势,并对其建模。包括与时间相关数据的特征、区分、关联、分类或聚类,根据分析的不同特点分为时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析。如股票市场的每日波动、动态产品加工过程、科学实验、医学治疗等。数据挖掘时间序列分析时间序列分析是描述行为随时间变化的对象的规律或趋57预测预测是从历史数据找出变化规律,建立模型,并用此模型预测未来数据种类、特征等。用分类预测离散数据用回归分析预测连续数据。典型的回归分析是利用大量的历史数据,建立线性或非线性回归方程。根据回归模型,只要输入自变量的值,就可以求出因变量的值,达到对因变量的预测。数据挖掘预测预测是从历史数据找出变化规律,建立模型,并用此模型预测未58六、数据挖掘分类数据挖掘六、数据挖掘分类数据挖掘59六、数据挖掘分类2.按数据挖掘对象分类对数据库进行挖掘文本数据挖掘多媒体数据挖掘Web数据挖掘。数据挖掘六、数据挖掘分类2.按数据挖掘对象分类数据挖掘60六、数据挖掘分类3.根据挖掘的知识类型分类概念描述关联分析分类预测聚类分析孤立点分析数据挖掘六、数据挖掘分类3.根据挖掘的知识类型分类数据挖掘61六、数据挖掘分类4.按挖掘方法和技术分类归纳学习类仿生计算类公式发现类统计分析类模糊数学类可视化技术类数据挖掘六、数据挖掘分类4.按挖掘方法和技术分类数据挖掘62数据挖掘技术分类数据挖掘验证驱动挖掘发现驱动挖掘SQLSQL生成器查询工具OLAP描述预测可视化聚类关联规则顺序关联汇总描述分类统计回归时间序列决策树神经网路数据挖掘数据挖掘技术分类数据挖掘验证驱动挖掘发现驱动挖掘SQLSQL63七、数据挖掘模型为了使数据挖掘技术在产业界得到更好的应用,欧洲委员会联合一些数据挖掘软件厂商开发了CRISP-DM(CrossIndustryStandardProcessforDataMining)模型,目的是把数据挖掘的过程标准化,使数据挖掘项目的实施速度更快、成本更低、更可靠并且更容易管理。CRISP-DM模型最先在1996年被提出,当前的白皮书版本是1.0。数据挖掘七、数据挖掘模型为了使数据挖掘技术在产业界得到更好的应用,欧64CRISP-DM(CrossIndustryStandardProcessforDataMining)模型数据挖掘CRISP-DM(CrossIndustryStanda65七、数据挖掘模型CRISP-DM模型中,数据挖掘包括六个步骤:1.业务理解(BusinessUnderstanding)阶段具体地,包括:确定业务目标项目可行性分析确定数据挖掘目标提出初步的项目计划数据挖掘七、数据挖掘模型CRISP-DM模型中,数据挖掘包括六个步骤66七、数据挖掘模型确定业务目标:分析项目的背景,从业务视点分析项目的目标和需求,确定业务角度的成功标准;项目可行性分析:分析拥有的资源,条件和限制,风险估计,成本和效益估计;确定数据挖掘目标:明确确定数据挖掘的目标和成功标准,数据挖掘的目标和业务目标是不一样的,前者指技术上的,例如生成一棵决策树等;提出项目计划:对整个项目做一个计划,初步估计用到的工具和技术。
数据挖掘七、数据挖掘模型确定业务目标:分析项目的背景,从业务视点分析67七、数据挖掘模型2.数据理解(DataUnderstanding)阶段具体地,包括:收集原始数据:收集本项目所涉及到的数据,如有必要,把数据装入数据处理工具,并作一些初步的数据集成的工作,生成相应报告;描述数据:对数据做一些大致的描述,例如记录数、属性数等,给出相应报告;探索数据:对数据做简单的统计分析,例如关键属性的分布等;检查数据质量:包括数据是否完整、数据是否有错、是否有缺失值等问题。数据挖掘七、数据挖掘模型2.数据理解(DataUnderstan68七、数据挖掘模型3.数据准备(DataPreparation)阶段具体地,包括:数据选择:根据数据挖掘目标和数据质量选择合适的数据,包括表的选择、记录选择和属性选择;数据清洁:提高选择好的数据的质量,例如去除噪音,估计缺失值等;数据创建:在原有数据的基础上是生成新的属性或记录;数据挖掘七、数据挖掘模型3.数据准备(DataPreparatio69七、数据挖掘模型数据合并:利用表连接等方式将几个数据集合并在一起;数据格式化:把数据转换成适合数据挖掘处理的格式。数据挖掘七、数据挖掘模型数据合并:利用表连接等方式将几个数据集合并在70七、数据挖掘模型4.建立模型(Modeling)阶段
具体地,包括:选择建模技术:确定数据挖掘算法和参数,可能会利用多个算法;测试方案设计:设计某种测试模型的质量和有效性的机制;模型训练:在准备好的数据集上运行数据挖掘算法,得出一个或者多个模型;模型测试评估:根据测试方案进行测试,从数据挖掘技术的角度确定数据挖掘目标是否成功。数据挖掘七、数据挖掘模型4.建立模型(Modeling)阶段数据挖71七、数据挖掘模型5.模型评估(Evaluation)阶段具体地,包括:
结果评估:从商业角度评估得到的模型,甚至实际试用该模型测试其效果;过程回顾:回顾项目的所有流程,确定每一个阶段都没有失误;确定下一步工作:根据结果评估和过程回顾得出的结论,确定是部署该挖掘模型还是从某个阶段开始重新开始。数据挖掘七、数据挖掘模型5.模型评估(Evaluation)阶段数72七、数据挖掘模型6.部署(Deployment)阶段具体地,包括:
部署计划:对在业务运作中部署模型作出计划;监控和维护计划:如何监控模型在实际业务中的使用情况,如何维护该模型;作出最终报告:项目总结,项目经验和项目结果;项目回顾:回顾项目的实施过程,总结经验教训;对数据挖掘的运行效果做一个预测。数据挖掘七、数据挖掘模型6.部署(Deployment)阶段数据挖73七、数据挖掘模型为保证项目的可靠性和可管理性,CRISP-DM规定一个数据挖掘项目应该产生11个报告:
业务理解报告原始数据收集报告数据描述报告数据探索报告数据质量报告数据集描述报告模型训练报告模型评估报告部署计划监控和维护计划总结报告通过这些报告,可以有效地控制数据挖掘项目进程,减少开发风险。数据挖掘七、数据挖掘模型为保证项目的可靠性和可管理性,CRISP-D74八、数据挖掘过程数据挖掘是一个反复迭代的人机交互处理过程。该过程需要经历多个步骤,并且很多决策需要由用户提供。
从宏观上看,数据挖掘过程主要由三个部分组成,即数据整理、数据挖掘和结果的解释评估。数据挖掘八、数据挖掘过程数据挖掘是一个反复迭代的人机交互处理过程。该75八、数据挖掘过程数据挖掘八、数据挖掘过程数据挖掘76八、数据挖掘过程1.确定主题在理解数据和实际业务问题的基础上,提出数据挖掘要解决的问题,定义挖掘的目标,确定挖掘要发现的知识类型。2.数据筛选搜索与业务数据有关的内部和外部数据信息,从中选择出适用于挖掘主题的目标数据集。3.数据清洗来源于业务数据库的目标数据集中可能存在噪声数据、空缺数据、过时数据、冗余数据等,为提高挖掘质量,需要合理处理噪声数据、删除过时数据和冗余数据、填补空缺数据等清洗操作。数据挖掘八、数据挖掘过程1.确定主题数据挖掘77八、数据挖掘过程4.数据变换选择的目标数据可能来源于不同的业务数据库,可能会存在数据格式、数据类型不一致等问题。因此有必要对目标数据进行相应的数据变换。5.选择算法根据以下两个因素选择合适的算法:一是要根据数据的特点,二是要根据用户的目标。选择合适的知识发现算法还要包括选择适当的模型和参数。数据挖掘八、数据挖掘过程4.数据变换数据挖掘78八、数据挖掘过程6.数据挖掘运用选择的算法从清洗过的目标数据集中提取出用户感兴趣的知识(模式),并以一定的方式表示出来。7.模式解释剔除冗余或无关的模式。如果模式不能满足用户的要求,就要分析问题的原因并返回到前面的某些处理步骤中反复提取。如果是目标数据选择不充分,则重新选取数据如果是数据变换方法不当,则返回采用新的数据变换方法重新进行数据变换如果是挖掘算法法中的参数值选择不合适,则修改参数值,甚至换另外一种挖掘算法,从而提取出更有效的模式。数据挖掘八、数据挖掘过程6.数据挖掘数据挖掘79八、数据挖掘过程8.知识评价将发现的知识以用户便于理解的方式呈现给用户。这期间也包含对知识一致性的检查,以确信本次发现的知识不会与以前发现的知识相抵触。9.知识展示在知识发现过程中还包括对挖掘出的模式进行可视化处理等。数据挖掘八、数据挖掘过程8.知识评价数据挖掘80数据仓库数据清洗和集成过滤数据库数据库或数据仓库服务器数据挖掘引擎模式评价图形用户接口知识库数据挖掘系统结构数据挖掘数据仓库数据清洗和集成过滤数据库数据库或数据仓库服务器数据挖81数据库、数据仓库或其他信息库:这是一个或一组数据库、数据仓库、电子表格或其他类型的信息库。可以在数据上进行数据清理和集成。数据库或数据仓库服务器:根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关数据。知识库:这是领域知识,用于指导搜索,或评估结果模式的兴趣度。数据挖掘系统结构数据挖掘数据库、数据仓库或其他信息库:这是一个或一组数据库、数据仓库82数据挖掘引擎:这是数据挖掘系统基本的部分,由一组功能模块组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析。模式评估模块:使用兴趣度度量,并与数据挖掘模块交互,以便将搜索聚焦在有趣的模式上。图形用户界面:在用户和数据挖掘系统之间通信,允许用户与系统交互,指定数据挖掘具体任务。数据挖掘系统结构数据挖掘数据挖掘引擎:这是数据挖掘系统基本的部分,由一组功能模块组成83本章小结数据挖掘是一种解决“数据爆炸但知识贫乏”困境的技术,旨在从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。数据挖掘是一类深层次的数据分析方法。它与传统的数据分析以及联机分析处理有本质的不同。数据挖掘采用信息论、集合论、神经网络、遗传算法、模糊数学等方法发现隐藏在数据中概念、关联、分类预测和偏差等类型的知识。数据挖掘所发现知识的质量与数据的质量密切相关,数据挖掘过程中。原始数据的预处理是工作量最大的一项任务。数据挖掘本章小结数据挖掘是一种解决“数据爆炸但知识贫乏”困境的技术,84数据仓库与数据挖掘孙家泽sunjiaze@数据挖掘数据仓库与数据挖掘数据挖掘85关于本课程数据挖掘融合了数据库、人工智能、机器学习、统计分析、模式发现、可视化技术、信息检索等多个学科领域的知识。本课程系统地介绍了数据挖掘的概念、理论及其发展、重点介绍了数据挖掘技术及其在实践中的应用。数据挖掘关于本课程数据挖掘融合了数据库、人工智能、机器学习、统计分析86课程目标通过本课程的学习,掌握数据挖掘的基本概念、数据挖掘过程、数据仓库的概念、OLAP与数据挖掘的关系。掌握数据挖掘的常用技术:决策树、神经网络、关联规则、聚类分析、统计学习等。熟悉数据挖掘技术在典型行业的应用方法,具有运用数据挖掘技术解决问题的能力。数据挖掘课程目标通过本课程的学习,掌握数据挖掘的基本概念、数据挖掘过87课程体系数据挖掘概述数据仓库与OLAP技术数据挖掘技术数据挖掘应用数据挖掘工具数据挖掘实例数据挖掘课程体系数据挖掘概述数据挖掘88学习方法课堂讲授及自学理解数据挖掘的基本概念和原理。充分利用因特网,查阅相关资料进一步拓展知识面熟悉常用的数据挖掘软件,提高数据挖掘的基本处理能力和动手能力。数据挖掘学习方法课堂讲授及自学数据挖掘89成绩考核考试成绩由平时考勤+课堂讨论+大作业数据挖掘成绩考核考试成绩由平时考勤+课堂讨论+大作业数据挖掘90参考资料韩家炜,《数据挖掘:概念与技术(第二版)》,中文版,机械工业出版社王欣等,《SQLServer2005数据挖掘实例分析》,中国水利水电出版社数据挖掘.实用机器学习工具和技术WEKA手册
/dataminingcourse/teaching.asp数据挖掘参考资料韩家炜,《数据挖掘:概念与技术(第二版)》,中文版,91参考网站
数据挖掘参考网站www.92需要使用的部分软件SPSSWEKASQLServer2005标准版Excel数据挖掘需要使用的部分软件SPSS数据挖掘93第1章
数据挖掘概述数据挖掘第1章
数据挖掘概述数据挖掘94数据挖掘数据挖掘95啤酒与尿布数据挖掘啤酒与尿布数据挖掘96引例:啤酒与尿布沃尔玛超市建立数据仓库,按周期统计产品的销售信息,经过科学建模后提炼决策层数据。发现每逢周末,位于某地区的沃尔玛超市连锁店的啤酒和尿布的销售量很大,而且单张发票中同时购买尿布和啤酒的记录非常普遍。分析人员认为这并非偶然,经过深入分析得知,通常周末购买尿布的是男士,他们在完成了太太交给的任务后,经常会顺便买一些啤酒。得出这样的结果后,沃尔玛超市的工作人员尝试着将啤酒和尿布摆放在一起销售,结果尿布与啤酒的销售额双双增长。
从上面的例子不难看出,数据管理的主要目的是获取信息和分析信息以指导我们的行动或帮助我们作决策。数据挖掘引例:啤酒与尿布沃尔玛超市建立数据仓库,按周期统计产品的销97引言从大量数据中提取出隐藏在其中的有用信息数据挖掘,也可以称为数据库中的知识发现(KnowledgeDiscoverDatabase,KDD),是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程。数据挖掘引言从大量数据中提取出隐藏在其中的有用信息数据挖掘98本章内容一、数据挖掘技术的由来二、数据挖掘的定义三、数据挖掘发现的知识类型四、数据挖掘对象五、数据挖掘任务六、数据挖掘分类七、数据挖掘模型八、数据挖掘过程数据挖掘本章内容一、数据挖掘技术的由来数据挖掘99数据挖掘数据挖掘100一、数据挖掘技术的由来信息爆炸但知识贫乏《纽约时报》一周报道的信息总量,比十八世纪一个人一生接触的信息总量还多“我们正在被信息所淹没,但我们却由于缺乏知识而感到饥饿。”数据挖掘一、数据挖掘技术的由来信息爆炸但知识贫乏数据挖掘101一、数据挖掘技术的由来数据挖掘是八十年代投资AI研究项目失败后,AI转入实际应用时提出的。它是一个新兴的,面向商业应用的AI研究。(AI(ArtificialIntelligence,人工智能))1989年8月,在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上首次出现数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD)这一术语。随后,在1991年、1993年和1994年都举行KDD专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。最初,数据挖掘是作为KDD中利用算法处理数据的一个步骤,其后逐渐演变成KDD的同义词。数据挖掘一、数据挖掘技术的由来数据挖掘是八十年代投资AI研究项目失败102一、数据挖掘技术的由来现在,人们往往不加区别地使用两者。KDD常常被称为数据挖掘(DataMining),实际两者是有区别的。一般将KDD中进行知识学习的阶段称为数据挖掘(DataMining),数据挖掘是KDD中一个非常重要的处理步骤。数据挖掘是近年来出现的客户关系管理(CustomerRelationshipManagement,CRM)、商业智能(BusinessIntelligence,BI)等热点领域的核心技术之一。数据挖掘一、数据挖掘技术的由来现在,人们往往不加区别地使用两者。KD103一、数据挖掘技术的由来支持数据挖掘技术的基础海量数据搜索强大的多处理器计算机数据挖掘算法数据挖掘一、数据挖掘技术的由来支持数据挖掘技术的基础数据挖掘104二、数据挖掘的定义技术角度的定义数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。该定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。数据挖掘二、数据挖掘的定义技术角度的定义数据挖掘105二、数据挖掘的定义关于知识的解释从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。数据挖掘二、数据挖掘的定义关于知识的解释数据挖掘106二、数据挖掘的定义模式:它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。模式按功能可以分为预测型模式和描述型模式。在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。数据挖掘二、数据挖掘的定义模式:它给出了数据特性或数据之间的关系,是107二、数据挖掘的定义“从数据中发现有用模式”历来有很多称法,如:数据挖掘(datamining)知识提取(knowledgeextraction)信息发现(informationdiscovery)信息收获(informationharvesting)数据考古(dataarchaeology)数据模式处理(datapatternprocessing)“数据挖掘”的称法大部分是由统计学家,数据分析学家和MIS团体使用的,在数据库领域也得到了广泛接受。数据挖掘二、数据挖掘的定义“从数据中发现有用模式”历来有很多称法,如108二、数据挖掘的定义商业角度的含义数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。数据挖掘对于企业的价值简言之,数据挖掘其实是一类深层次的数据分析方法。因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。数据挖掘二、数据挖掘的定义商业角度的含义数据挖掘109二、数据挖掘的定义从商业数据到商业信息的进化进化阶段商业问题支持技术产品厂家产品特点数据搜集(20世纪60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBM,CDC提供历史性的、静态的数据信息数据访问(20世纪80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库,结构化查询语言,ODBC、Oracle、Sybase、IBM、MicrosoftOracle、Sybase、Informix、IBM、Microsoft在记录级提供历史性的、动态数据信息数据仓库、决策支持(20世纪90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)、多维数据库、数据仓库Pilot、Comshare、Arbor、Cognos、Microstrategy在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法、多处理器计算机、海量数据库Pilot、Lockheed、IBM、SGI、其他初创公司提供预测性的信息数据挖掘二、数据挖掘的定义从商业数据到商业信息的进化进化阶段商业问110数据挖掘与其他科学的关系数据挖掘作为一门新兴的交叉学科,涉及数据库系统、数据仓库、统计学、机器学习、可视化、信息检索和高性能计算等诸多领域。此外,还与神经网络、模式识别、空间数据分析、图像处理、信号处理、概率论、图论和归纳逻辑等等领域关系密切。数据挖掘数据挖掘与其他科学的关系数据挖掘作为一门新兴的交叉学科,涉及111数据挖掘与其他科学的关系数据挖掘受多学科的影响
数据挖掘数据挖掘与其他科学的关系数据挖掘受多学科的影响数据挖掘112数据挖掘与传统数据分析数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是:在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知,有效和可用三个特征。(传统是假设驱动、数据挖掘是发现驱动)数据挖掘数据挖掘与传统数据分析数据挖掘与传统的数据分析(如查询、报表113数据挖掘和数据仓库数据仓库和数据集市是数据挖掘的一种数据源数据挖掘是数据仓库的一个应用对于数据挖掘,数据仓库不是必需的。数据挖掘数据挖掘和数据仓库数据仓库和数据集市是数据挖掘的一种数据114数据挖掘和在线分析处理(OLAP)OLAP分析是建立一系列的假设,然后通过OLAP来证实或推翻这些假设来最终得到自己的结论。OLAP分析过程在本质上是一个演绎推理的过程。数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。他在本质上是一个归纳的过程。数据挖掘和OLAP具有一定的互补性。数据挖掘数据挖掘和在线分析处理(OLAP)OLAP分析是建立一系列115数据挖掘、机器学习和统计数据挖掘利用了人工智能(AI)和统计分析的进步所带来的好处。数据挖掘不是为了替代传统的统计分析技术。相反,他是统计分析方法学的延伸和扩展。数据挖掘就是利用了统计和人工智能技术的应用程序,他把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题数据挖掘数据挖掘、机器学习和统计数据挖掘利用了人工智能(AI)和统116数据挖掘的本质一种深层次的数据分析方法。数据分析本身已有多年的历史,只不过在过去数据收集和分析的一般目的是用于科学研究;另外,由于当时计算能力的限制,很难实现大量数据的复杂分析。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据并不是为了分析的目的而收集的,而是在商业运作过程中由于业务需要而自然产生的。数据挖掘数据挖掘的本质一种深层次的数据分析方法。数据挖掘117实施数据挖掘的目的不再是单纯为了研究,更主要的是为商业决策提供真正有价值的信息,进而获得利润。所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此需要从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也由此而得名。数据挖掘实施数据挖掘的目的不再是单纯为了研究,更主要的是为商业决策提118三、数据挖掘发现的知识类型广义知识关联知识分类知识预测知识偏差知识。数据挖掘三、数据挖掘发现的知识类型广义知识数据挖掘119广义知识广义知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质。广义知识就是对大量数据的归纳、概括,提炼出带有普遍性的、概括性的描述统计知识。描述统计是数据挖掘最基本的应用之一,经常和统计图(如直方图,柱形图,折线图,散点图等)配合使用。如当月公司利润总额、比较不同区域的销售量等。广义知识的发现方法和实现技术有很多,如概念描述、多维数据分析、面向属性的归约、概念分层等。数据挖掘广义知识广义知识指类别特征的概括性描述知识。数据挖掘120关联知识数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联知识可分为简单关联规则、多层关联规则、多维关联规则、量化关联规则和基于约束的关联规则。典型例子是购物篮分析发现关联规则的算法主要有Apriori算法和频繁模式树(FP-树)数据挖掘关联知识数据关联是数据库中存在的一类重要的可被发现的知识。121案例:某超市的数据挖掘应用美国的超市有这样的系统:当你采购了一车商品结账时,售货员小姐扫描完了你的产品后,计算机上会显示出一些信息,然后售货员会友好地问你:我们有一种一次性纸杯正在促销,位于F6货架上,您要购买吗?这句话决不是一般的促销。因为计算机系统早就算好了,如果你的购物车中有餐巾纸、大瓶可乐和沙拉,则86%的可能性你要买一次性纸杯。结果是,你说,啊,谢谢你,我刚才一直没找到纸杯。这不是什么神奇的科学算命,而是利用数据挖掘中的关联规则算法实现的系统。数据挖掘案例:某超市的数据挖掘应用美国的超市有这样的系统:当你采122分类知识分类知识是反映同类事物共同性的特征型知识和不同事物之间的差异型特征知识。典型应用:客户细分。例如,银行根据客户的存款额、信用额和消费金额把客户分成不同的类别,分别办理不同类型的银行卡。算法有决策树分类、贝叶斯分类、人工神经网络法、粗糙集法和遗传算法等。数据挖掘分类知识分类知识是反映同类事物共同性的特征型知识和不同事物123预测知识预测型知识指的是预测连续值,是根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。一个典型的例子是市场预测问题,数据挖掘从过去有关促销的数据中寻找在未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能做出反应的群体。基于统计学习的回归分析法,还有基于现代智能计算的神经网络、遗传算法等各类时间序列分析法。数据挖掘预测知识预测型知识指的是预测连续值,是根据时间序列型数据,124偏差知识偏差型知识是对差异和极端特例的描述,揭示事物偏离常规的异常现象。偏差即异常,在数据挖掘中有时也称之为“孤立点”,可以用来发现“小的模式”偏差知识挖掘的一个典型应用是检测信用卡欺诈。基于统计的方法、基于距离的方法和基于偏离的方法数据挖掘偏差知识偏差型知识是对差异和极端特例的描述,揭示事物偏离常125案例:国内某电信公司利用数据挖掘预测客户知识2004年,某电信公司邀请国际某著名咨询公司进行市场营销再造项目,将数据挖掘用于它的三个业务领域:客户管理、网络/产品/服务管理、市场/财务管理;公司将数据挖掘的重点放在了客户管理。在电信市场竞争越来越激烈的今天,即使在扩大其客户群的时候,电信运营商和其它代理商也必须密切监视他们的现有客户,并采用各种营销方法来留住这些客户。电信公司期望通过数据仓库的实施和数据挖掘的应用,能够利用经营分析系统进行客户分群、客户获取、客户行为分析、客户流失分析等。如今,电信公司已经能够利用现有的客户数据来总结客户行为的特点,并预测客户的下一步行为。例如,为了对付日益严重的客户流失或业务流失状况,电信公司采用基于决策树的方法来分析客户的流失特性,以便采取针对性的营销措施,挽留有价值的客户、减少客户流失。数据挖掘案例:国内某电信公司利用数据挖掘预测客户知识2004年,某126四、数据挖掘对象1.关系数据库数据库中数据的特点如下:1)数据动态性、2)数据的不完全性、3)噪声数据、4)数据类型不一致、5)异构性、6)数据冗余性、7)数据稀疏性由于数据库中的数据具有以上特点,使其在挖掘过程中难以直接使用,因此在进行数据挖掘以前必须对数据进行预处理。数据挖掘四、数据挖掘对象1.关系数据库数据挖掘127四、数据挖掘对象2.数据仓库数据仓库的特点如下:
1)面向主题、2)集成的数据、3)不可更新、4)随时间不断变化高质量的挖掘结果依赖于高质量的数据,数据仓库为数据挖掘准备了良好的数据源,因此,数据仓库是数据挖掘的最佳环境。数据挖掘四、数据挖掘对象2.数据仓库数据挖掘128四、数据挖掘对象3.文本文本是非结构化或半结构化的数据。文本分析包括:1)关键词或特征提取2)相似检索3)文本聚类4)文本分类数据挖掘四、数据挖掘对象3.文本数据挖掘129四、数据挖掘对象4.多媒体数据图像、音频、视频数据是典型的多媒体数据。多媒体数据广泛存在于生活、医学、军事、娱乐等领域,目前,对于多媒体数据的挖掘主要有特征提取、基于内容的相似检索等。数据挖掘四、数据挖掘对象4.多媒体数据数据挖掘130四、数据挖掘对象5.Web数据Web使用模式挖掘:在Web环境中,文档和对象一般都是通过链接来便于用户访问。捕捉用户的存取模式或发现一个Web网站最频繁的访问路径称为Web使用模式挖掘或Web路径挖掘。Web结构挖掘:是挖掘Web的链接结构,并找出关于某一主题的权威网站。Web内容挖掘:是指在大量训练样本的基础上,得到数据对象之间的内在特征,并以此为依据进行有目的的信息筛选,从而获得指定内容的信息。数据挖掘四、数据挖掘对象5.Web数据数据挖掘131四、数据挖掘对象6.复杂类型的数据1)空间数据库如地理信息数据、卫星图像数据、地下管道、下水道、及各类地下建筑分布数据等。对空间数据的挖掘可以为城市规划、生态规划、道路修建提供决策支持。2)时间序列数据主要用于存放与时间相关的数据,它可用来反映随时间变化的即时数据或不同时间发生的不同事件。例如,连续存放即时的股票交易信息、卫星轨道信息等。对时间序列数据的挖掘可以发现事件的发展趋势、演变过程和隐藏特征,这些信息对制定计划、决策和预警是非常有用的。数据挖掘四、数据挖掘对象6.复杂类型的数据数据挖掘132五、数据挖掘任务概念描述关联分析
分类与估值聚类孤立点分析时间序列分析预测数据挖掘五、数据挖掘任务概念描述数据挖掘133概念描述概念描述就是通过对某类数据对象进行汇总、分析和比较,获得对此类对象内涵的描述,并概括这类对象的有关特征。概念描述可以通过下述方法得到:数据特征化和数据区分数据特征化的输出可以采用饼图、柱状图、曲线、多维数据立方体、含交叉表的多维表等形式,描述结果也可以用概化关系或规则形式表示
数据区分的输出类似于数据特征化,但它应该包括比较度量,以帮助区分目标类和比较类。数据挖掘概念描述概念描述就是通过对某类数据对象进行汇总、分析和比较,134概念描述例1:我们收集移动电话费月消费额超出1000元的客户资料,然后利用数据挖掘进行分析,获得这类客户的总体性描述:35-50岁,有工作,月收入5000元以上,拥有良好的信用度…;例2:对比移动电话费月消费额超出1000元的客户群与移动电话费月消费额低于100元的客户群。利用数据挖掘可作出如下描述:移动电话月消费额超出1000元的客户80%以上年龄在35-50岁之间,且月收入5000元以上;而移动电话月消费额低于100元的客户60%以上要么年龄过大要么年龄过小,且月收入2000元以下。数据挖掘概念描述例1:我们收集移动电话费月消费额超出1000元的客户135关联分析关联分析就是从大量的数据中发现项集之间有趣的联系、相关关系或因果结构,以及项集的频繁模式。例如,购买计算机也趋向于同时购买财务管理软件可以用以下关联规则表示:[support=2%,confidence=60%]数据挖掘关联分析关联分析就是从大量的数据中发现项集之间有趣的联系、136分类与估值分类指通过分析一个类别已知的数据集的特征来建立一组模型,该模型可用以预测类别未知的数据项的类别。类的内涵描述分为:特征描述和辨别性描述。特征描述是对类中对象的共同特征的描述。辨别性描述是对两个或多个类之间区别的描述。分类过程分两步:第一步,建立一个模型,描述预定的数据类或概念集。第二步,使用模型对未分类的对象进行分类。分类挖掘主要技术有决策树、贝叶斯学习方法和神经网络方法等。数据挖掘分类与估值分类指通过分析一个类别已知的数据集的特征来建立一组137分类与估值估值与分类类似,只不过它要预测的不是类别,而是一个连续的数值。数据挖掘分类与估值估值与分类类似,只不过它要预测的不是类别,而是一个138聚类聚类是根据类内事物的相似性最大、类间事物的相似性最小的原则把数据对象进行聚类或分组。聚类与分类不同,它们的区别如下:第一,分类需要训练数据集,属于有监督的学习;而聚类不需要训练数据集,属于无监督的学习。第二,在进行分类以前,已知道数据的分类情况;而进行聚类以前,对目标数据的分类情况一无所知。常用的聚类方法包括统计分析方法、机器学习方法、神经网络方法等。数据挖掘聚类聚类是根据类内事物的相似性最大、类间事物的相似性最小的原139孤立点分析数据库中可能包含一些数据对象,它们与集合中其它数据的一般行为或模型不一致,这些数据对象称为孤立点。孤立点可以使用统计试验检测。它假定一个数据的分布或概率模型,并使用距离度量,到其它数据对象的距离很远的对象被视为孤立点。基于偏差的方法通过考察一群对象主要特征上的差别识别孤立点,而不是使用统计或距离度量。孤立点分析通常可以作为聚类分析的副产品,根据聚类分析结果,含有对象个数少于设定阈值的聚类中的事物看作是孤立点。数据挖掘孤立点分析数据库中可能包含一些数据对象,它们与集合中其它数据140时间序列分析时间序列分析是描述行为随时间变化的对象的规律或趋势,并对其建模。包括与时间相关数据的特征、区分、关联、分类或聚类,根据分析的不同特点分为时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析。如股票市场的每日波动、动态产品加工过程、科学实验、医学治疗等。数据挖掘时间序列分析时间序列分析是描述行为随时间变化的对象的规律或趋141预测预测是从历史数据找出变化规律,建立模型,并用此模型预测未来数据种类、特征等。用分类预测离散数据用回归分析预测连续数据。典型的回归分析是利用大量的历史数据,建立线性或非线性回归方程。根据回归模型,只要输入自变量的值,就可以求出因变量的值,达到对因变量的预测。数据挖掘预测预测是从历史数据找出变化规律,建立模型,并用此模型预测未142六、数据挖掘分类数据挖掘六、数据挖掘分类数据挖掘143六、数据挖掘分类2.按数据挖掘对象分类对数据库进行挖掘文本数据挖掘多媒体数据挖掘Web数据挖掘。数据挖掘六、数据挖掘分类2.按数据挖掘对象分类数据挖掘144六、数据挖掘分类3.根据挖掘的知识类型分类概念描述关联分析分类预测聚类分析孤立点分析数据挖掘六、数据挖掘分类3.根据挖掘的知识类型分类数据挖掘145六、数据挖掘分类4.按挖掘方法和技术分类归纳学习类仿生计算类公式发现类统计分析类模糊数学类可视化技术类数据挖掘六、数据挖掘分类4.按挖掘方法和技术分类数据挖掘146数据挖掘技术分类数据挖掘验证驱动挖掘发现驱动挖掘SQLSQL生成器查询工具OLAP描述预测可视化聚类关联规则顺序关联汇总描述分类统计回归时间序列决策树神经网路数据挖掘数据挖掘技术分类数据挖掘验证驱动挖掘发现驱动挖掘SQLSQL147七、数据挖掘模型为了使数据挖掘技术在产业界得到更好的应用,欧洲委员会联合一些数据挖掘软件厂商开发了CRISP-DM(CrossIndustryStandardProcessforDataMining)模型,目的是把数据挖掘的过程标准化,使数据挖掘项目的实施速度更快、成本更低、更可靠并且更容易管理。CRISP-DM模型最先在1996年被提出,当前的白皮书版本是1.0。数据挖掘七、数据挖掘模型为了使数据挖掘技术在产业界得到更好的应用,欧148CRISP-DM(CrossIndustryStandardProcessforDataMining)模型数据挖掘CRISP-DM(CrossIndustryStanda149七、数据挖掘模型CRISP-DM模型中,数据挖掘包括六个步骤:1.业务理解(BusinessUnderstanding)阶段具体地,包括:确定业务目标项目可行性分析确定数据挖掘目标提出初步的项目计划数据挖掘七、数据挖掘模型CRISP-DM模型中,数据挖掘包括六个步骤150七、数据挖掘模型确定业务目标:分析项目的背景,从业务视点分析项目的目标和需求,确定业务角度的成功标准;项目可行性分析:分析拥有的资源,条件和限制,风险估计,成本和效益估计;确定数据挖掘目标:明确确定数据挖掘的目标和成功标准,数据挖掘的目标和业务目标是不一样的,前者指技术上的,例如生成一棵决策树等;提出项目计划:对整个项目做一个计划,初步估计用到的工具和技术。
数据挖掘七、数据挖掘模型确定业务目标:分析项目的背景,从业务视点分析151七、数据挖掘模型2.数据理解(DataUnderstanding)阶段具体地,包括:收集原始数据:收集本项目所涉及到的数据,如有必要,把数据装入数据处理工具,并作一些初步的数据集成的工作,生成相应报告;描述数据:对数据做一些大致的描述,例如记录数、属性数等,给出相应报告;探索数据:对数据做简单的统计分析,例如关键属性的分布等;检查数据质量:包括数据是否完整、数据是否有错、是否有缺失值等问题。数据挖掘七、数据挖掘模型2.数据理解(DataUnderstan152七、数据挖掘模型3.数据准备(DataPreparation)阶段具体地,包括:数据选择:根据数据挖掘目标和数据质量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025四川房屋租赁合同范本
- 2025空调维修保养合同
- 游戏社区活动全解析
- 研究生教育学探索
- 2025年度上级批准的合同文件作为审查合同的原始依据
- 银行业的科技革新
- 2025电影编剧委托创作合同
- 2025标准版设备租赁合同
- 《2025年终止物业管理合同的协议》
- 2025长期雇佣合同的变革
- 美国加征关税从多个角度全方位解读关税课件
- “皖南八校”2024-2025学年高一第二学期期中考试-英语(译林版)及答案
- 定额〔2025〕1号文-关于发布2018版电力建设工程概预算定额2024年度价格水平调整的通知
- 【MOOC】机械原理-西北工业大学 中国大学慕课MOOC答案
- 一种基于STM32的智能门锁系统的设计-毕业论文
- 《运营管理》案例库
- 煤矿安全监控系统设备管理报废制度
- 机关事业单位退休人员养老金领取资格确认表
- 第五届“国药工程杯”全国大学生制药工程设计竞赛
- 柔性主动防护网分项工程质量检验评定表
- 中机2015~2016年消防系统维保养护年度总结报告
评论
0/150
提交评论