第5章 数据挖掘概述.ppt_第1页
第5章 数据挖掘概述.ppt_第2页
第5章 数据挖掘概述.ppt_第3页
第5章 数据挖掘概述.ppt_第4页
第5章 数据挖掘概述.ppt_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章数据挖掘概述,kaiji,教学目标,掌握数据挖掘的概念和过程掌握数据挖掘所使用的方法和技术了解从数据中可挖掘的知识类型及知识表示。,教学要求,引例:啤酒与尿布,超市中啤酒和尿布能陈列在一起吗?沃尔玛(WalMart)是怎样做的?,引言,从大量数据中提取出隐藏在其中的有用信息数据挖掘,也可以称为数据库中的知识发现(KnowledgeDiscoverDatabase,KDD),是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程。,本章内容,数据挖掘技术的由来数据挖掘的定义数据挖掘发现的知识类型数据挖掘流程数据挖掘方法和技术,数据挖掘技术的由来,信息爆炸但知识贫乏纽约时报一周报道的信息总量,比十八世纪一个人一生接触的信息总量还多“我们正在被信息所淹没,但我们却由于缺乏知识而感到饥饿。”,数据挖掘技术的由来,支持数据挖掘技术的基础海量数据搜索强大的多处理器计算机数据挖掘算法,数据挖掘技术的由来,从商业数据到商业信息的进化,数据挖掘技术的由来,数据挖掘逐渐演变的过程电子数据处理的初期,机器学习成为人们关心的焦点神经网络技术的形成和发展,人们的注意力转向知识工程20世纪80年代末一个新的术语,它就是数据库中的知识发现,简称KDD(Knowledgediscoveryindatabase)数据仓库的发展是促进数据挖掘越来越受欢迎的原因之一,数据挖掘的定义,技术角度的定义数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。该定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。,数据挖掘的定义,关于知识的解释从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。,数据挖掘的定义,商业角度的含义数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。数据挖掘对于企业的价值所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。,数据挖掘的定义,数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是:在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知,有效和可用三个特征。,数据挖掘和数据仓库,数据仓库和数据集市是数据挖掘的一种数据源数据挖掘是数据仓库的一个应用对于数据挖掘,数据仓库不是必需的。,数据挖掘和在线分析处理(OLAP),OLAP分析师是建立一系列的假设,然后通过OLAP来证实或推翻这些假设来最终得到自己的结论。OLAP分析过程在本质上是一个演绎推理的过程。数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。他在本质上是一个归纳的过程。数据挖掘和OLAP具有一定的互补性。,数据挖掘、机器学习和统计,数据挖掘利用了人工智能(AI)和统计分析的进步所带来的好处。数据挖掘不是为了替代传统的统计分析技术。相反,他是统计分析方法学的延伸和扩展。数据挖掘就是利用了统计和人工智能技术的应用程序,他把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题,数据挖掘发现的知识类型,广义知识关联知识分类知识预测知识偏差知识。,广义知识,广义知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质。广义知识就是对大量数据的归纳、概括,提炼出带有普遍性的、概括性的描述统计知识。描述统计是数据挖掘最基本的应用之一,经常和统计图(如直方图,柱形图,折线图,散点图等)配合使用。如当月公司利润总额、比较不同区域的销售量等。广义知识的发现方法和实现技术有很多,如概念描述、多维数据分析、面向属性的归约、概念分层等。,关联知识,数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联知识可分为简单关联规则、多层关联规则、多维关联规则、量化关联规则和基于约束的关联规则。典型例子是购物篮分析发现关联规则的算法主要有Apriori算法和频繁模式树(FP-树),案例:某超市的数据挖掘应用,美国的超市有这样的系统:当你采购了一车商品结账时,售货员小姐扫描完了你的产品后,计算机上会显示出一些信息,然后售货员会友好地问你:我们有一种一次性纸杯正在促销,位于F6货架上,您要购买吗?这句话决不是一般的促销。因为计算机系统早就算好了,如果你的购物车中有餐巾纸、大瓶可乐和沙拉,则86%的可能性你要买一次性纸杯。结果是,你说,啊,谢谢你,我刚才一直没找到纸杯。这不是什么神奇的科学算命,而是利用数据挖掘中的关联规则算法实现的系统。,分类知识,分类知识是反映同类事物共同性的特征型知识和不同事物之间的差异型特征知识。典型应用:可户细分。例如,银行根据客户的存款额、信用额和消费金额把客户分成不同的类别,分别办理不同类型的银行卡。算法有决策树分类、贝叶斯分类、人工神经网络法、粗糙集法和遗传算法等。,预测知识,预测型知识指的是预测连续值,是根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。一个典型的例子是市场预测问题,数据挖掘从过去有关促销的数据中寻找在未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能做出反应的群体。基于统计学习的回归分析法,还有基于现代智能计算的神经网络、遗传算法等各类时间序列分析法。,偏差知识,偏差型知识是对差异和极端特例的描述,揭示事物偏离常规的异常现象。偏差即异常,在数据挖掘中有时也称之为“孤立点”,可以用来发现“小的模式”偏差知识挖掘的一个典型应用是检测信用卡欺诈。基于统计的方法、基于距离的方法和基于偏离的方法,案例:国内某电信公司利用数据挖掘预测客户知识,2004年,某电信公司邀请国际某著名咨询公司进行市场营销再造项目,将数据挖掘用于它的三个业务领域:客户管理、网络/产品/服务管理、市场/财务管理;公司将数据挖掘的重点放在了客户管理。在电信市场竞争越来越激烈的今天,即使在扩大其客户群的时候,电信运营商和其它代理商也必须密切监视他们的现有客户,并采用各种营销方法来留住这些客户。电信公司期望通过数据仓库的实施和数据挖掘的应用,能够利用经营分析系统进行客户分群、客户获取、客户行为分析、客户流失分析等。如今,电信公司已经能够利用现有的客户数据来总结客户行为的特点,并预测客户的下一步行为。例如,为了对付日益严重的客户流失或业务流失状况,电信公司采用基于决策树的方法来分析客户的流失特性,以便采取针对性的营销措施,挽留有价值的客户、减少客户流失。,知识发现过程,知识发现过程,1确定主题在理解数据和实际业务问题的基础上,提出数据挖掘要解决的问题,定义挖掘的目标,确定挖掘要发现的知识类型。2数据筛选搜索与业务数据有关的内部和外部数据信息,从中选择出适用于挖掘主题的目标数据集。3数据清洗来源于业务数据库的目标数据集中可能存在噪声数据、空缺数据、过时数据、冗余数据等,为提高挖掘质量,需要合理处理噪声数据、删除过时数据和冗余数据、填补空缺数据等清洗操作。,知识发现过程,4数据变换选择的目标数据可能来源于不同的业务数据库,可能会存在数据格式、数据类型不一致等问题。因此有必要对目标数据进行相应的数据变换。5选择算法根据以下两个因素选择合适的算法:一是要根据数据的特点,二是要根据用户的目标。选择合适的知识发现算法还要包括选择适当的模型和参数。,知识发现过程,6数据挖掘运用选择的算法从清洗过的目标数据集中提取出用户感兴趣的知识(模式),并以一定的方式表示出来。7模式解释剔除冗余或无关的模式。如果模式不能满足用户的要求,就要分析问题的原因并返回到前面的某些处理步骤中反复提取。如果是目标数据选择不充分,则重新选取数据;如果是数据变换方法不当,则返回采用新的数据变换方法重新进行数据变换;如果是挖掘算法法中的参数值选择不合适,则修改参数值,甚至换另外一种挖掘算法,从而提取出更有效的模式。,知识发现过程,8知识评价将发现的知识以用户便于理解的方式呈现给用户。这期间也包含对知识一致性的检查,以确信本次发现的知识不会与以前发现的知识相抵触。9知识展示在知识发现过程中还包括对挖掘出的模式进行可视化处理等。,数据挖掘对象,1.关系数据库数据库中数据的特点如下:1)数据动态性、2)数据的不完全性、3)噪声数据、4)数据类型不一致、5)异构性、6)数据冗余性、7)数据稀疏性由于数据库中的数据具有以上特点,使其在挖掘过程中难以直接使用,因此在进行数据挖掘以前必须对数据进行预处理。,数据挖掘对象,2.数据仓库数据仓库的特点如下:1)面向主题、2)集成的数据、3)不可更新、4)随时间不断变化高质量的挖掘结果依赖于高质量的数据,数据仓库为数据挖掘准备了良好的数据源,因此,数据仓库是数据挖掘的最佳环境。,数据挖掘对象,3文本文本是非结构化或半结构化的数据。文本分析包括:1)关键词或特征提取2)相似检索3)文本聚类4)文本分类,数据挖掘对象,4多媒体数据图像、音频、视频数据是典型的多媒体数据。多媒体数据广泛存在于生活、医学、军事、娱乐等领域,目前,对于多媒体数据的挖掘主要有特征提取、基于内容的相似检索等。,数据挖掘对象,5Web数据1)异构数据集成和挖掘Web上每一个网站是一个数据源,各数据源都是异构的,形成了一个巨大的异构数据库环境。将这些站点的异构数据进行集成,给用户提供一个统一的视图,才能在Web上进行数据挖掘。2)半结构化数据模型抽取XML是一种半结构化的数据模型,容易实现Web中信息共享与交换。,数据挖掘对象,6复杂类型的数据1)空间数据库如地理信息数据、卫星图像数据、地下管道、下水道、及各类地下建筑分布数据等。对空间数据的挖掘可以为城市规划、生态规划、道路修建提供决策支持。2)时间序列数据主要用于存放与时间相关的数据,它可用来反映随时间变化的即时数据或不同时间发生的不同事件。例如,连续存放即时的股票交易信息、卫星轨道信息等。对时间序列数据的挖掘可以发现事件的发展趋势、演变过程和隐藏特征,这些信息对制定计划、决策和预警是非常有用的。,数据挖掘任务,概念描述关联分析分类聚类孤立点分析时间序列分析预测,概念描述,概念描述就是通过对某类数据对象进行汇总、分析和比较,获得对此类对象内涵的描述,并概括这类对象的有关特征。概念描述可以通过下述方法得到:数据特征化和数据区分数据特征化的输出可以采用饼图、柱状图、曲线、多维数据立方体、含交叉表的多维表等形式,描述结果也可以用概化关系或规则形式表示数据区分的输出类似于数据特征化,但它应该包括比较度量,以帮助区分目标类和比较类。,关联分析,关联分析就是从大量的数据中发现项集之间有趣的联系、相关关系或因果结构,以及项集的频繁模式。例如,购买计算机也趋向于同时购买财务管理软件可以用以下关联规则表示:support=2%,confidence=60%,分类,分类的目的是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述。类的内涵描述分为:特征描述和辨别性描述。特征描述是对类中对象的共同特征的描述。辨别性描述是对两个或多个类之间区别的描述。分类过程分两步:第一步,建立一个模型,描述预定的数据类或概念集。第二步,使用模型对未分类的对象进行分类。分类挖掘主要技术有决策树、贝叶斯学习方法和神经网络方法等。,聚类,聚类是根据类内事物的相似性最大、类间事物的相似性最小的原则把数据对象进行聚类或分组。聚类与分类不同,它们的区别如下:第一,分类需要训练数据集,属于有监督的学习;而聚类不需要训练数据集,属于无监督的学习。第二,在进行分类以前,已知道数据的分类情况;而进行聚类以前,对目标数据的分类情况一无所知。常用的聚类方法包括统计分析方法、机器学习方法、神经网络方法等。,孤立点分析,数据库中可能包含一些数据对象,它们与集合中其它数据的一般行为或模型不一致,这些数据对象称为孤立点。孤立点可以使用统计试验检测。它假定一个数据的分布或概率模型,并使用距离度量,到其它数据对象的距离很远的对象被视为孤立点。基于偏差的方法通过考察一群对象主要特征上的差别识别孤立点,而不是使用统计或距离度量。孤立点分析通常可以作为聚类分析的副产品,根据聚类分析结果,含有对象个数少于设定阈值的聚类中的事物看作是孤立点。,时间序列分析,时间序列分析是描述行为随时间变化的对象的规律或趋势,并对其建模。包括与时间相关数据的特征、区分、关联、分类或聚类,根据分析的不同特点分为时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析。如股票市场的每日波动、动态产品加工过程、科学实验、医学治疗等。,预测,预测是从历史数据找出变化规律,建立模型,并用此模型预测未来数据种类、特征等。用分类预测离散数据用回归分析预测连续数据。典型的回归分析是利用大量的历史数据,建立线性或非线性回归方程。根据回归模型,只要输入自变量的值,就可以求出因变量的值,达到对因变量的预测。,数据挖掘分类,数据挖掘受多学科的影响,数据挖掘分类,1.按数据库类型分类根据数据模型分类,有关系的、事务的、面向对象的、对象-关系的、或数据仓库的数据挖掘系统。根据所

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论