商务智能 第三章 数据挖掘概述_第1页
商务智能 第三章 数据挖掘概述_第2页
商务智能 第三章 数据挖掘概述_第3页
商务智能 第三章 数据挖掘概述_第4页
商务智能 第三章 数据挖掘概述_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2022/7/29 The Institute of Business Intelligence, HFUT1/37第三章 数据挖掘概述1. DM背景和定义2. DM功能和过程3. DM现状和发展趋势2022/7/29 The Institute of Business Intelligence, HFUT2/37背景 数据挖掘是八十年代投资AI研究项目失败后,AI转入实际应用时提出的。它是一个新兴的,面向商业应用的AI研究。(AI(Artificial Intelligence,人工智能) ) 1989年8月,在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上首次出现数据库中的知识

2、发现(Knowledge Discovery in Database,KDD)这一术语。 随后,在1991年、1993年和1994年都举行KDD专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。最初,数据挖掘是作为KDD中利用算法处理数据的一个步骤,其后逐渐演变成KDD的同义词。 2022/7/29 The Institute of Business Intelligence, HFUT3/37背景 现在,人们往往不加区别地使用两者。KDD常常被称为数据挖掘(Data Mining),实际两者是有区别的。一般将KDD中进行知识学习

3、的阶段称为数据挖掘(Data Mining),数据挖掘是KDD中一个非常重要的处理步骤。 数据挖掘是近年来出现的客户关系管理(Customer Relationship Management, CRM)、商业智能(Business Intelligence, BI)等热点领域的核心技术之一。 2022/7/29 The Institute of Business Intelligence, HFUT4/37技术角度定义 数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘

4、相近的同义词包括:数据融合、数据分析和决策支持等。 这一定义包括好几层含义:数据源必须是真实的、海量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。2022/7/29 The Institute of Business Intelligence, HFUT5/37商业角度定义 数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性信息。 简言之,数据挖掘其实是一类深层次的数据分析方法。因此,数据挖掘可以描述为:按企业既定业务目

5、标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。 2022/7/29 The Institute of Business Intelligence, HFUT6/37Data mining contextBusiness intelligence modelLevels of data analysis methodhiddenshallowsurfacesimple database queriesstatistical analysis data mining 2022/7/29 The Institute of Business I

6、ntelligence, HFUT7/37数据挖掘的演化进化阶段商业问题支持技术产品厂家产品特点数据搜集(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBM,CDC提供历史性的、静态的数据信息数据访问(80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS),结构化查询语言(SQL),ODBC Oracle、Sybase、Informix、IBM、MicrosoftOracle、Sybase、Informix、IBM、Microsoft在记录级提供历史性的、动态数据信息数据仓库;决策支持(90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出

7、什么结论?”联机分析处理(OLAP)、多维数据库、数据仓库Pilot、Comshare、Arbor、Cognos、Microstrategy在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法、多处理器计算机、海量数据库Pilot、Lockheed、IBM、SGI、其他初创公司提供预测性的信息2022/7/29 The Institute of Business Intelligence, HFUT8/37数据挖掘与其他科学的关系Data MiningDatabase TechnologyStatisticsOtherDisciplines

8、InformationScienceMachineLearningVisualization2022/7/29 The Institute of Business Intelligence, HFUT9/37数据挖掘与统计学的关系 近几年,人们逐渐发现数据挖掘中有许多工作都是由统计方法来完成的。甚至有些人(尤其是统计学家)认为数据挖掘是统计学的一个分支,当然大多数人(包括绝大多数数据挖掘研究人员)并不这么认为。 但是,统计学和数据挖掘的目标非常相似,而且数据挖掘中的许多算法也源于数理统计,统计学对数据挖掘发展的贡献功不可没。2022/7/29 The Institute of Business

9、 Intelligence, HFUT10/37数据挖掘与传统统计学的关系(1)数据挖掘的数据源与以前相比有了显著的改变; 数据是海量的; 数据有噪声; 数据可能是非结构化的; (2)传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来 。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。 2022/7/29 The Institute of Business Intelligence, HFUT11/3

10、7数据挖掘与传统统计学的关系 在缺乏强有力的数据分析工具而不能分析这些资源的情况下,历史数据库也就变成了“数据坟墓”里面的数据几乎不再被访问。 也就是说,极有价值的信息被“淹没”在海量数据堆中,领导者决策时还只能凭自己的经验和直觉。因此改进原有的数据分析方法,使之能够智能地处理海量数据,即演化为数据挖掘。2022/7/29 The Institute of Business Intelligence, HFUT12/37国外数据挖掘的现状 IEEE的Knowledge and Data Engineering会刊率先在1993年出版了KDD技术专刊。并行计算、计算机网络和信息工程等其他领域的国

11、际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论。数据挖掘已经成了国际学术研究的重要热点之一。 此外,在Internet上还有不少KDD电子出版物,其中以半月刊Knowledge Discovery Nuggets最为权威(/ subscribe.html)。在网上还有许多自由论坛,如DM Email Club等。 2022/7/29 The Institute of Business Intelligence, HFUT13/37国外数据挖掘的现状2022/7/29 The Institute of Business Intelligence, HFUT14/37国外数据挖掘的现状 自1

12、989年KDD术语出现以来,由美国人工智能协会主办的KDD国际研讨会已经召开了10次以上,规模由原来的专题讨论会发展到国际学术大会。而亚太地区也从1997开始举行PAKDD年会。 2022/7/29 The Institute of Business Intelligence, HFUT15/37国内数据挖掘的现状 与国外相比,国内对数据挖掘的研究起步稍晚,但发展势头强劲。 1993年,国家自然科学基金首次资助复旦大学对该领域的研究项目。 目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究。2022/7/29 The Institute of Business Intel

13、ligence, HFUT16/37主要功能 1. 概念/类别描述(Concept/Class Description) 概念/类别描述是指对数据集做一个简洁的总体性描述并/或描述它与某一对照数据集的差别。 例1:我们收集移动电话费月消费额超出1000元的客户资料,然后利用数据挖掘进行分析,获得这类客户的总体性描述:3550岁,有工作,月收入5000元以上,拥有良好的信用度;2022/7/29 The Institute of Business Intelligence, HFUT17/37主要功能 1. 概念/类别描述(Concept/Class Description) 概念/类别描述是指

14、对数据集做一个简洁的总体性描述并/或描述它与某一对照数据集的差别。 例2:对比移动电话费月消费额超出1000元的客户群与移动电话费月消费额低于100元的客户群。 利用数据挖掘可作出如下描述:移动电话月消费额超出1000元的客户80以上年龄在3550岁之间,且月收入5000元以上;而移动电话月消费额低于100元的客户60以上要么年龄过大要么年龄过小,且月收入2000元以下。2022/7/29 The Institute of Business Intelligence, HFUT18/37主要功能 2. 关联分析(Association Analysis) 从一个项目集中发现关联规则,该规则显示

15、了给定数据集中经常一起出现的属性值条件元组。 例如:关联规则X=Y所表达的含义是满足X的数据库元组很可能满足Y。关联分析在交易数据分析、支持定向市场、商品目录设计和其他业务决策等方面有着广泛的应用。2022/7/29 The Institute of Business Intelligence, HFUT19/37主要功能3. 分类与估值(Classification and Estimation) 分类指通过分析一个类别已知的数据集的特征来建立一组模型,该模型可用以预测类别未知的数据项的类别。该分类模型可以表现为多种形式:分类规则(IF-THEN),决策树或者数学公式,乃至神经网络。 估值与

16、分类类似,只不过它要预测的不是类别,而是一个连续的数值。 2022/7/29 The Institute of Business Intelligence, HFUT20/37主要功能4. 聚类分析(Clustering Analysis) 聚类分析又称为“同质分组”或者“无监督的分类”,指把一组数据分成不同的“簇”,每簇中的数据相似而不同簇间的数据则距离较远。相似性可以由用户或者专家定义的距离函数加以度量。 好的聚类方法应保证不同类间数据的相似性尽可能地小,而类内数据的相似性尽可能地大。 2022/7/29 The Institute of Business Intelligence, HF

17、UT21/37主要功能5. 时间序列分析(Time-Series Analysis) 时间序列分析即预测(Prediction),是指通过对大量时间序列数据的分析找到特定的规则和感兴趣的特性,包括搜索相似序列或者子序列,挖掘序列模式、周期性、趋势和偏差。预测的目的是对未来的情况作出估计。 2022/7/29 The Institute of Business Intelligence, HFUT22/37主要功能6. 其它功能 包括:偏差分析(Deviation Analysis)、孤立点分析(Outlier Analysis)等。 随着数据挖掘技术的发展,可能还会继续出现新的数据挖掘功能。

18、2022/7/29 The Institute of Business Intelligence, HFUT23/37数据挖掘模型 为了使数据挖掘技术在产业界得到更好的应用,欧洲委员会联合一些数据挖掘软件厂商开发了CRISP-DM(Cross Industry Standard Process for Data Mining)模型,目的是把数据挖掘的过程标准化, 使数据挖掘项目的实施速度更快、成本更低、更可靠并且更容易管理。 CRISP-DM模型最先在1996年被提出,当前的白皮书版本是1.0。2022/7/29 The Institute of Business Intelligence,

19、HFUT24/37CRISP-DM(Cross Industry Standard Process for Data Mining)模型2022/7/29 The Institute of Business Intelligence, HFUT25/37数据挖掘模型 CRISP-DM模型中,数据挖掘包括六个步骤: 1.业务理解(Business Understanding)阶段 具体地,包括: 确定业务目标 项目可行性分析 确定数据挖掘目标 提出初步的项目计划2022/7/29 The Institute of Business Intelligence, HFUT26/37数据挖掘模型 确定

20、业务目标:分析项目的背景,从业务视点分析项目的目标和需求,确定业务角度的成功标准; 项目可行性分析:分析拥有的资源,条件和限制,风险估计,成本和效益估计; 确定数据挖掘目标:明确确定数据挖掘的目标和成功标准,数据挖掘的目标和业务目标是不一样的,前者指技术上的,例如生成一棵决策树等; 提出项目计划:对整个项目做一个计划,初步估计用到的工具和技术2022/7/29 The Institute of Business Intelligence, HFUT27/37数据挖掘模型2数据理解(Data Understanding)阶段。具体地,包括:收集原始数据:收集本项目所涉及到的数据,如有必要,把数据

21、装入数据处理工具,并作一些初步的数据集成的工作,生成相应报告;描述数据:对数据做一些大致的描述,例如记录数、属性数等,给出相应报告;探索数据:对数据做简单的统计分析,例如关键属性的分布等;检查数据质量:包括数据是否完整、数据是否有错、是否有缺失值等问题。2022/7/29 The Institute of Business Intelligence, HFUT28/37数据挖掘模型3数据准备(Data Preparation)阶段。具体地,包括: 数据选择:根据数据挖掘目标和数据质量选择合适的数据,包括表的选择、记录选择和属性选择; 数据清洁:提高选择好的数据的质量,例如去除噪音,估计缺失值等

22、; 数据创建:在原有数据的基础上是生成新的属性或记录; 数据合并:利用表连接等方式将几个数据集合并在一起; 数据格式化:把数据转换成适合数据挖掘处理的格式。2022/7/29 The Institute of Business Intelligence, HFUT29/37数据挖掘模型4建立模型(Modeling)阶段 。具体地,包括: 选择建模技术:确定数据挖掘算法和参数,可能会利用多个算法; 测试方案设计:设计某种测试模型的质量和有效性的机制; 模型训练:在准备好的数据集上运行数据挖掘算法,得出一个或者多个模型; 模型测试评估:根据测试方案进行测试,从数据挖掘技术的角度确定数据挖掘目标是否

23、成功。 2022/7/29 The Institute of Business Intelligence, HFUT30/37数据挖掘模型5模型评估(Evaluation)阶段 。具体地,包括: 结果评估:从商业角度评估得到的模型,甚至实际试用该模型测试其效果; 过程回顾:回顾项目的所有流程,确定每一个阶段都没有失误; 确定下一步工作:根据结果评估和过程回顾得出的结论,确定是部署该挖掘模型还是从某个阶段开始重新开始。 2022/7/29 The Institute of Business Intelligence, HFUT31/37数据挖掘模型6部署(Deployment)阶段 。具体地,包

24、括: 部署计划:对在业务运作中部署模型作出计划; 监控和维护计划:如何监控模型在实际业务中的使用情况,如何维护该模型; 作出最终报告:项目总结,项目经验和项目结果; 项目回顾:回顾项目的实施过程,总结经验教训;对数据挖掘的运行效果做一个预测。 2022/7/29 The Institute of Business Intelligence, HFUT32/37数据挖掘模型 为保证项目的可靠性和可管理性,CRISP-DM规定一个数据挖掘项目应该产生11个报告: 业务理解报告 原始数据收集报告 数据描述报告 数据探索报告 数据质量报告 数据集描述报告 模型训练报告 模型评估报告 部署计划 监控和维护计划 总结报告 通过这些报告,可以有效地控制数据挖掘项目进程,减少开发风险。 2022/7/29 The Institute of Business Intelligence, HFUT33/37数据挖掘过程Data CleaningData IntegrationDatabasesData WarehouseK

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论