第一章-数据挖掘概述_第1页
第一章-数据挖掘概述_第2页
第一章-数据挖掘概述_第3页
第一章-数据挖掘概述_第4页
第一章-数据挖掘概述_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据仓库与数据挖掘 主讲教师: 胡晓晖 联系方式:,从数据中挖掘“金子”,应用驱动,1.1-数据挖掘的产生背景,发挥您的想象力,选择您认为可是的答案,案例1:农夫山泉用大数据卖矿泉水,胡健想知道的问题包括: 怎样摆放水堆更能促进销售? 什么年龄的消费者在水堆前停留更久,他们一次购买的量多大? 气温的变化让购买行为发生了哪些改变? 竞争对手的新包装对销售产生了怎样的影响? 不少问题目前也可以回答,但它们更多是基于经验,而不是基于数据。,案例2:阿迪达斯的“黄金罗盘”,案例3:数据权之争,案例4:纸牌屋你学不会,案例5:定制爱情,一、数据丰富与知识贫乏 数据、信息和知识 数据 是“客观事物的属性、

2、数量、位置及相互关系等的抽象表示” 信息 是“数据所表示的语义” 知识 是“以各种不同方式把多个信息关联在一起的信息结构”或者说知识是“多个信息之间的关联”。-,客观世界,收集,数据,信息,知识,分析,深入分析,决策和行动,图1.1,当数据量极度增长时,如果没有有效的方法,由计算机及信息技术来提取有用信息和知识,人们也会感到面对信息海洋像大海捞针一样束手无策。 据估计,一个大型企业数据库中数据,只有百分之七得到很好应用。这样,相对于“数据过剩”和“信息爆炸”,人们又感到:,“信息贫乏”(Information poor) “数据关在牢笼中”(data in jail), 奈斯伯特(John N

3、aisbett)惊呼 “Wear drowning in information,but starving for knowledge”(人类正被数据淹没,却饥渴于知识)。,面临浩渺无际的数据,人们呼唤从数据汪洋中来一个去粗存精、去伪存真的技术,使之能从已有信息中发现模式或规律,使之能够智能地、自动地将这些原始数据转化处理为有用的信息和知识。 而计算机另一个领域-人工智能的发展,使得这种“发现”成为可能。于是,从数据库中发现知识(KDD)及其核心技术数据采掘(DM)便应运而生了。,有价值的知识,可怕的数据,数据爆炸但知识贫乏,数据挖掘是应用驱动的结果 近年来,数据挖掘之所以引起了信息产业界的极

4、大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。,二、数据挖掘的出现,数据爆炸,知识贫乏,苦恼: 淹没在数据中 ; 不能制定合适的决策!,数据,知识,决策,银行信用卡的发放 保费的确定 商品进货量的确定 油井的加压注水措施 广告与销售之间的关联 商品的关联销售 客户群的分析 客户流失分析等等,诸如此类的问题,现有传统数据库技术是无能为力,尽管问题的答案可能就深深隐藏在已有的数据库中,结果,收集在大型数据库中的数据变成了 “数据坟墓”难得再访问的数据档案。 这样,重要的决定常常不是基于数据库中信息丰富的数据,而是基于决策者的直觉,因为决策者缺乏从海量

5、数据中提取有价值知识的工具,数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识“金块”。,数据仓库技术是随着人们对大型数据库系统研究的不断深入,在传统数据库技术基础之上发展而来的,其主要目的就是为决策提供支持,为OLAP、数据挖掘深层次的分析提供平台。 数据仓库是一个和实际应用密不可分的研究领域,与传统数据库相比,数据仓库不仅引入了许多新的概念,而且在体系结构、数据组织等方面,均有其自身的特点。,数据仓库的产生,一、数据挖掘的定义 简单地说,数据挖掘是从大量数据中提取或“挖掘”知识。,1.2 数据挖掘基本知识,从89年开始出现KDD(Knowledge Discovery i

6、n Databases )以来,人们对KDD在不同应用领域下过很多定义。随着对KDD研究不断深入,人们对KDD的理解越来越全面,对KDD的定义不断修改。,定义1:KDD就是要从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。,二、数据挖掘的步骤 KDD定义中的“非平凡性”主要强调其搜索有一定的自动性、智能性,而并非对数据集中的每一点都要遍历到。它是一个多步骤的处理过程,多步骤之间相互影响、反复调整,形成一种螺旋上升过程。如下图:,在何种数据源上进行数据挖掘 数据挖掘所依赖的数据来源多种多样,可以是常用的关系数据库、事物数

7、据库、文本数据库、多媒体数据库等,主要取决于用户的目的及所处的领域。,由以下步骤组成: 1、数据清理 消除重复的、不完全的、违反语义约束的数据 2、数据集成 多种数据源可以组合在一起,3、数据选择 从数据库中检索与分析任务相关的数据 4、数据变换 数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作,5、数据挖掘 使用智能方法提取数据模式 6、模式评估 根据某种兴趣度度量,识别表示知识的真正有趣的模式 7、知识表示 使用可视化和知识表示技术,向用户提供挖掘的知识,这些知识可以直接提供给决策者,用以辅助决策过程;或者提供给领域专家,修正已有的专家体系;也可以作为新的知识转存到应用系统的知识存储机

8、构中,比如专家系统、规则库等。,三、数据挖掘的体系结构 基于这种观点,典型的数据挖掘系统具有以下主要成分(见图1-5):,四、数据挖掘的学科体系 数据挖掘涉及多学科技术的集成,包括: 数据库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图象与信号处理和空间数据分析。,图1-6,根据采用的技术分类,最常用的数据挖掘技术有: 统计方法 机器学习方法 神经计算 可视化,1.统计方法 统计方法是从事物的外在数量上的表现去推断该事物可能的规律性. 最初总是从数量表现上通过统计分析看出一些线索,然后提出一定的假说或学说,做进一步深入的理论研究. (1)传统统计方法 传统的统

9、计学所研究的主要是渐进理论,即当样本趋向无穷多时的统计性质统计方法主要考虑测试预想的假设是否与数据模型拟合,统计方法的处理过程分: 搜集数据:采样、实验设计 分析数据:建模、知识发现 进行推理:预测,分类 常见的统计方法 回归分析(多元回归) 判别分析(贝叶斯判别、费歇尔判别、非参 数判别等) 聚类分析(系统聚类、动态聚类等) 探索性分析(主元分析法,相关分析法等),(2)模糊集 引入模糊逻辑利用隶属函数(0-1)之间来表示 某个特定值属于某个类别的程度;此时,可引入模糊逻辑来描述“高收入”这个概念。,2. 机器学习 Simon对学习的定义是:”如果一个系统能够通过执行某种过程而改进它的性能.

10、 这就是学习” 目前常用的机器学习方法 (1)决策树 决策树是一种分类方法,起源于概念学习系统。有名的决策树方法有ID3,C4.5 ,还有CART和Assistant. 决策树构造的输入是一组带有类别标记的数据,构造的结果是一棵二叉或多叉树。树中节点可分为两类:决策节点和叶子节点。,年龄?,信用等级?,学生?,YES,NO,YES,NO,YES,否,是,30-40,40,30,一般,良好,购买电脑的分类模型,(2) 遗传算法 遗传算法是一种新的优化技术,基于生物进化的概念设计了一系列的过程来达到优化的目的。这些过程有基因组合、交叉、变异和自然选择。 遗传算法可用于分类等问题的求解,最大的优点是

11、效率高(适合用并行算法),但有过早收敛的缺点.,(3) 关联分析 关联规则和时序分新 关联规则是由R.Agrawal等1993年提出的,表示数据库中一组对象之间某种关联关系的规则(例如,“同时发生”或者“从一个对象可以推出另一个对象),关联规则挖掘的一般对象是事务(Tansactional)数据库. 这种数据库的一个主要应用是零售业,比如超级市场的管理。,例如,5%的顾客购买“挪亚牌”面包(用项目A表示),买“挪亚牌”面包的顾客8%也买“挪亚牌”黄油(用项目B表示),则这条关联规则可表示为 AB(5%,8%),关联规则提供的信息用作商品的销售目录设计、商场货物布置、生产安排、商品广告邮寄分析等

12、。,(4) 神经网络 从结构上模仿生物神经网络,是一种通过训练来学习的非线形预测模型。可以完成分类、回归等多种数据挖掘任务;,神经网络是指一类新的计算模型,它是模仿人脑神经网络的结构和某些工作机智而建立的一种计算模型.其特点是利用大量简单的计算单元连成网络,来实现大规模并行计算.神经网络的工作机理是通过学习,改变神经元之间的连接程度. 多层感知机,反传网络,自适应映射网络,徐雷的阴阳机,史忠植提出的神经场模型,1.5 数据挖掘的功能 数据挖掘功能 -用于指定数据挖掘任务中要找的模式类型。 数据挖掘任务 -描述和预测。,一、概念/类描述:定性和对比(特征化和区分) 对含有大量数据的数据集合进行概

13、述性的总结,并获得简明、准确的描述-概念描述 通过综合、汇总、归纳和对比,分析事物的特征,Ex1: 一个数据挖掘系统要从我校职工数据库中,挖掘出讲师情况的概要总结,并给出讲师的概念描述 数据挖掘系统首先利用SQL查询语句收集有关讲师的信息数据,之后利用数据概要总结挖掘算法(如概念爬升)获得有关讲师情况的概要描述,总结并用概念描述规则描述: “62%(age24),概念化输出可以用多种形式。包括饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。 结果描述也可以用概化关系(generalized relation)或规则形式(称作特征规则)提供,对比是将目标类对象的一般特性与一个或多个对比

14、类对象的一般特性比较。 Ex2: 一个数据挖掘系统需要从我校职工数据库中,针对我校副教授的情况(对比数据集),对讲师情况(目标数据集)进行对比概要总结,并给出讲师对比概念描述 “讲师:78%(paper=3) and (teaching course3),二、关联分析 (1)发现数据库中数据间的相互关联 (2)多维关联 vs. 单维关联 例如: Ex3:age(X, “20.29”) income(X, “20.29K”) buys(X, “PC”) support = 2%, confidence = 60% Ex4:buys(T, “computer”) buys(T, “software

15、”) support = 1%, confidence = 75%,对于关联规则可以用: (1) 规则的支持度(support)。规则的支持度表示满足规则的样本百分比。支持度是概率,表示同时包含X和Y事务,即项集X和Y的并。 (2)规则的置信度(confidence)。置信度是条件概率,即包含X的事务也包含Y的概率。,三、聚类分析 每个类的标识事先不确定,把一组对象按照相似性归成若干类别,即“物以类聚”。 基本的原则:属于同一类别的个体之间的距离尽可能的小而不同类别上的个体间的距离尽可能的大。,Ex5: 对在一个商场购买力较大的顾客居住地进行聚类分析,以帮助商场主管针对顾客群采取有针对性的营销

16、策略。,四、孤立点(异常点)分析(Outlier analysis) 发现与数据的一般行为不一致的数据对象,即异常点。 通常可以将它视为噪音数据或非常事件,如:欺诈行为等,孤立点可以使用统计试验检测。它假定一个数据分布或概率模型, 并使用距离度量,到其他聚类的距离很大的对象被视为孤立点。,五、分类和预测 分类和预测模型主要是通过数据库中某些已知数据来得到另外一些数据 分类 在数据库的一个对象集中发现公共的属性,并根据分类模型把这些对象分成不同的类的过程。 例如:根据不同的气候环境,对不同地区进行分类; 根据不同的成绩,对学生进行分类 方法表述: 决策树、分类规则、神经网络等,若预测的变量是离散

17、的(如动物识别,批准或否决贷款)-分类 若预测的变量是连续的(如预测盈亏情况,工资情况)-回归,EX7:一个商场销售主管想预测某新商品销售情况,以便采取相应的促销措施: 可以:利用已销售的商品根据顾客对其( price,brand,place_made,type)的反应,建立一个分类模型(比如用决策树表示),叶子节点有三类(积极,一般,消极) 根据分类模型,就可以预测新商品的销售情况以及顾客最感兴趣的商品特征,从而采取相应的、合理的促销活动。,EX8:基于债务水平、收入水平和工作情况,可以对给定用户进行信用风险分析。 分类算法可以通过判断以上属性与已知训练数据中风险程度的关系给出预言结果,ALL 信用风险(good:3,bad:4),债务=“low” 信用风险(good:3,bad:1),债务=“high” 信用风险(good:0,bad:3),工作类型=selfemployed 信用风险(good:1,bad:1),工作类型=salaried 信用风险(good:2,bad:0),收入=high 信用风险(good:1,bad:0),收入=bad 信用风险(good:0,bad:1),六、趋势分析(Trend and evol

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论