数据分析和挖掘_第1页
数据分析和挖掘_第2页
数据分析和挖掘_第3页
数据分析和挖掘_第4页
数据分析和挖掘_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2020年7月5日,1,第18章 数据分析与挖掘,1、决策支持系统 2、数据分析和联机分析处理(OLAP) 3、数据仓库工程 4、数据挖掘,2020年7月5日,2,数据分析与挖掘的社会需求,有价值的知识,可怕的数据,2020年7月5日,3,数据分析与挖掘的社会需求,2020年7月5日,4,1、决策支持系统,数据库应用系统可广义地划分为 事务处理系统和决策支持系统 事务处理系统 用来记录有关事务的信息的系统 决策支持系统 是从事务处理系统存储的细节信息中提取出高层次的信息,2020年7月5日,5,2.数据分析和联机分析处理,随着数据库技术的发展和应用,数据库存储的数据量从20世纪80年代的兆(M

2、)字节及千兆(G)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节,同时,用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一条或几条记录,而且要对多张表中千万条记录的数据进行数据分析和信息综合,关系数据库系统已不能全部满足这一要求。,2020年7月5日,6,什么是OLAP,联机分析处理(Online Analytical Processing) 是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。 OLAP=多维数据库?,2020年7月5日,7,OLTP联机事务

3、处理,传统的关系型数据库的主要应用 侧重于日常的商务操作 专门为了实时的数据操作而设计 支持数据的快速插入和修改 提供单个纪录的查询 支持数千个并发用户,2020年7月5日,8,OLAP,是数据仓库的核心部心, 数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。 提供数据挖掘,发现数据间潜在的联系 从各个不同的视觉察看数据,2020年7月5日,9,OLTP vs OLAP,2020年7月5日,10,OLAP是多维的(多维数据库有层次概念),“嘿4月份我在北京卖掉了价值十万美元的可乐”,维度的层次概念:,产品 类别 产品名称,地域 国家 省 市,时间 年 季度

4、 月 日,2020年7月5日,11,维度和量度,2020年7月5日,12,3、数据仓库,数据仓库简介 数据仓库与数据库的区别 如何建设数据仓库,2020年7月5日,13,数据仓库简介,数据仓库(data warehouse)是从多个源中收集一个信息仓储(或归档),在同一个位置用唯一的模式存储。 长时间存储 单独的统一的数据接口,2020年7月5日,14,数据仓库与数据库的区别,数据仓库是对于大量已经由OLTP形成的数据的一种分析型的数据库,用于处理商业智能、决策支持等重要的决策信息; 数据仓库是在数据库应用到一定程度之后而对历史数据的加工与分析;是处理两种不同用途的工具而已。,2020年7月5

5、日,15,数据仓库的建设(1),2020年7月5日,16,设计数据仓库,一个数据仓库包括了 一个中央事实表Fact table 多个维表,2020年7月5日,17,数据仓库的星型结构,2020年7月5日,18,数据仓库的建设(2),2020年7月5日,19,ETL:数据的提取与转换,2020年7月5日,20,数据仓库的建设(3),2020年7月5日,21,数据仓库的建设(4),2020年7月5日,22,四、数据挖掘,1、数据挖掘简介 2、数据挖掘系统的特征 3、数据挖掘技术,2020年7月5日,23,1、数据挖掘简介,基本知识 数据挖掘与OLAP比较 数据挖掘与KDD比较 数据挖掘的流程,20

6、20年7月5日,24,数据挖掘简介,1、数据挖掘是怎样的一个过程呢? 从海量数据中,提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程。 2、数据挖掘特性? 数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构; 数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。,2020年7月5日,25,数据挖掘系统,2020年7月5日,26,数据挖掘与OLAP比较,(1)功能不同 数据挖掘DM的功能在于知识发现。如:数据挖掘DM中的“分类”包括:贝叶斯分类、粗糙集分类、决策树分类等,是从数据中发现知识规则 而联机分析OLAP是一种自上而下、不断深入的分析工具:用户提出问题或假

7、设,OLAP负责从上至下深入地提取出关于该问题的详细信息,并以可视化的方式呈现给用户。 用户先入为主的局限性可能会限制问题和假设的范围,从而影响最终的结论。,2020年7月5日,27,(2)数据组成不同 数据挖是从混沌的、具有巨大噪声的数据中提炼知识规则; 而联机分析OLAP只是从已经规范化的、纯净的关系数据库中组织数据。 (3)知识与数据的关系不同 数据挖掘DM是从数据中发现知识KDD; 而联机分析OLAP是利用人已知的知识来有意识地组织和使用数据。,2020年7月5日,28,数据挖掘与KDD,知识发现(KD) 输出的是规则 数据挖掘(DM) 输出的是模型 共同点 两种方法输入的都是学习集(

8、learning sets) 目的都是尽可能多的自动化数据挖掘过程 数据挖掘过程并不能完全自动化,只能半自动化,2020年7月5日,29,SQL Server 2005数据挖掘处理流程,2020年7月5日,30,2、数据挖掘系统的特征,矿山(数据),挖掘工具(算法),金子(知识),数据的特征 知识的特征 算法的特征,2020年7月5日,31,数据的特征,大容量 POS数据(某个超市每天要处理高达2000万笔交易) 卫星图象(NASA的地球观测卫星以每小时50GB的速度发回数据) 互联网数据 含噪音(不完全、不正确) 异质数据(多种数据类型混合的数据源,来自互联网的数据是典型的例子),2020年

9、7月5日,32,系统的特征,知识发现系统需要一个前处理过程 数据抽取 数据清洗 数据选择 数据转换 知识发现系统是一个自动/半自动过程 知识发现系统要有很好的性能,2020年7月5日,33,知识的特征,知识发现系统能够发现什么知识? 计算学习理论COLT(Computational Learning Theory) 以FOL为基础的以发现关系为目的的归纳逻辑程序设计 现行的知识发现系统只能发现特定模式的知识 规则 分类 关联,2020年7月5日,34,算法的特征,构成数据挖掘算法的三要素 模式记述语言:反映了算法可以发现什么样的知识 模式评价:反映了什么样的模式可以称为知识 模式探索:包括针对

10、某一特定模式对参数空间的探索和对模式空间的探索,2020年7月5日,35,3、数据挖掘技术,技术分类 预言(Predication):用历史预测未来 描述(Description):了解数据中潜在的规律 数据挖掘技术 分类 关联规则 聚集 时间序列,2020年7月5日,36,决策树算法,基本介绍 根据数据源,找到决定预测目标的因素的重要关系登记以及程度。 把已知条件自动分解为多个离散的类别 初始状态是一个大的空间,挖掘的过程是递归分 区不断分割。,2020年7月5日,37,案例,我们有大量的客户 年龄在20-60岁 月薪在08000元 55%的被我们认可为好客户 里边潜在的规律是什么?,202

11、0年7月5日,38,谁是我们的有价值客户呢?,2020年7月5日,39,谁是我们的有价值客户呢?,2020年7月5日,40,谁是我们的有价值客户呢?,2020年7月5日,41,决策树算法,典型应用 一个或多个变量预测目标,变量对目标的重要程序。 预测客户是否会购买某种产品,预测潜在客户。 评估客户风险 找到决策规则,2020年7月5日,42,关联规则算法,基本介绍 分析发现数据库中不同变量或个体间之间的关系程度,用这些规则找出顾客购买行为模式。 关联规则算法可以处理异常大的目录,经过了包含超过五千万种商品的目录的测试。,2020年7月5日,43,关联规则算法典型应用,购物篮物品关联度 货品摆放

12、 捆绑销售 网站内容关联 个性化促销 网上书店关联销售 ,2020年7月5日,44,聚类算法,基本介绍 将相似的事物归类 最大期望方法 K-Means,2020年7月5日,45,聚类算法,典型应用 分类和预测、客户价值度分析 典型问题 寻找有价值客户群体 寻找欺诈群体,2020年7月5日,46,数据挖掘算法 分类,2020年7月5日,47,分类 VS 预测,分类: 预测项目所属类 根据已有训练数据集和所属类,构建模型来分类现有数据,并用来分类新数据 预测: 是构造和使用模型评估无样本类,或评估给定样本可能具有的属性或值空间。 建立连续函数值模型,比如预测空缺值,2020年7月5日,48,预测和

13、分类的异同,相同点 两者都需要构建模型 都用模型来估计未知值 预测当中主要的估计方法是回归分析 线性回归和多元回归 非线性回归 不同点 分类法主要是用来预测类标号(分类属性值) 预测法主要是用来估计连续值(量化属性值),2020年7月5日,49,第一步:建立模型,训练数 据集,分类算法,IF rank = professor OR years 6 THEN tenured = yes,分类规则,2020年7月5日,50,第二步:用模型进行分类,分类规则,测试集,未知数据,(Jeff, Professor, 4),Tenured?,注:测试集要独立于训练样本集,否则会出现“过分适应数据”的情况,

14、2020年7月5日,51,分类前期工作:准备数据,通过对数据进行预处理,可以提高分类和预测过程的准确性、有效性和可伸缩性 数据清理 消除或减少噪声,处理空缺值。 相关性分析 数据中的有些属性可能与当前任务不相关;也有些属性可能是冗余的; 数据变换 可以将数据概化到较高层概念,或将数据进行规范化,2020年7月5日,52,比较分类方法,使用下列标准比较分类和预测方法 预测的准确率:模型正确预测新数据的类编号的能力 速度:产生和使用模型的计算花销 鲁棒性:给定噪声数据或有空缺值的数据,模型正确预测的能力 可伸缩性:对大量数据,有效的构建模型的能力 可解释性:学习模型提供的理解和洞察的层次,2020

15、年7月5日,53,用判定树归纳分类,什么是判定树? 类似于流程图的树结构 每个内部节点表示在一个属性上的测试 每个分枝代表一个测试输出 每个树叶节点代表类或类分布 判定树的生成由两个阶段组成 判定树构建 开始时,所有的训练样本都在根节点 递归的通过选定的属性,来划分样本 (必须是离散值) 树剪枝 许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检测和剪去这种分枝 判定树的使用:对未知样本进行分类 通过将样本的属性值与判定树相比较,2020年7月5日,54,判定归纳树算法,判定归纳树算法(一个贪心算法) 自顶向下的分治方式构造判定树 树以代表训练样本的单个根节点开始 使用分类属性(如果是量化

16、属性,则需先进行离散化) 递归的通过选择相应的测试属性,来划分样本,一旦一个属性出现在一个节点上,就不在该节点的任何后代上出现 测试属性是根据某种启发信息或者是统计信息来进行选择(如:信息增益)注:属性的选择 递归划分步骤停止的条件 给定节点的所有样本属于同一类 没有剩余属性可以用来进一步划分样本使用多数表决 没有剩余的样本,2020年7月5日,55,贝叶斯分类,贝叶斯分类利用统计学中的贝叶斯定理,来预测类成员的概率,即给定一个样本,计算该样本属于一个特定的类的概率。 朴素贝叶斯分类:假设每个属性之间都是相互独立的,并且每个属性对非类问题产生的影响都是一样的。,2020年7月5日,56,提高分

17、类法的准确性,Bagging技术和boosting技术都通过将T个学习得到的分类法C1,C2CT组合起来,从而创造一个改进的分类法C* Bagging技术 对训练集S进行T次迭代,每次通过放回取样选取样本集St,通过学习St得到分类法Ct 对于未知样本X,每个分类法返回其类预测,作为一票 C*统计得票,并将得票最高的预测赋予X Boosting技术 每个训练样本赋予一个权值 Ct的权值取决于其错误率,2020年7月5日,57,数据挖掘算法 关联,2020年7月5日,58,什么是关联挖掘?,关联规则挖掘: 在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相

18、关性、或因果结构。 应用: 购物篮分析、交叉销售、产品目录设计等。 举例: 规则形式: “Body Head support, confidence”. buys(x, “diapers”) buys(x, “beers”) 0.5%, 60%,2020年7月5日,59,规则度量:支持度与可信度,查找所有的规则 X 而我们提前半年时间从询盘上推断出世界贸易发生变化了。”,马云对未来的预测,是建立在对用户行文分析的基础上。通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下降。 腾讯在天津投资建立亚洲最大的数据中心;百度也在投资建立大数据处理中心;,2020年7月5日,77,什么是大数据?,2020年7月5日,78,大数据就是云计算吗?,20

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论