期末复习.PPT_第1页
期末复习.PPT_第2页
期末复习.PPT_第3页
期末复习.PPT_第4页
期末复习.PPT_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

期末复习,第一章、数据挖掘概论,体系结构:典型数据挖掘系统,数据仓库,数据清洗,过滤,数据库,数据库或数据仓库服务器,数据挖掘引擎,模式评估,图形用户界面,知识库,数据集成,数据挖掘的主要方法 (1),概念/类描述: 特性化和区分 归纳,总结和对比数据的特性。比如:对每个月来网站购物超过5000元的顾客的描述:4050岁,有正常职业,信用程度良好。 关联分析 发现数据之间的关联规则,这些规则展示属性值频繁的在给定的数据中所一起出现的条件。 广泛的用于购物篮或事务数据分析。,数据挖掘的主要方法 (2),分类和预测 通过构造模型 (或函数)用来描述和区别类或概念,用来预测类型标志未知的对象类。 比如:按气候将国家分类,按汽油消耗定额将汽车分类 导出模型的表示: 判定树、分类规则、神经网络 可以用来预报某些未知的或丢失的数字值 聚类分析 将类似的数据归类到一起,形成一个新的类别进行分析。 最大化类内的相似性和最小化类间的相似性,数据挖掘的主要方法(3),孤立点分析 孤立点:一些与数据的一般行为或模型不一致的孤立数据 通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。 趋势和演变分析 描述行为随时间变化的对象的发展规律或趋势 趋势和偏差: 回归分析 序列模式匹配:周期性分析 基于类似性的分析 其他定向模式或统计分析,数据挖掘:多个学科的融合,数据挖掘,数据库系统,统计学,其他学科,算法,机器学习,可视化,数据挖掘的主要问题,挖掘方法 在不同的数据类型中挖掘不同类型的知识, e.g., 生物数据, 流式数据, Web数据 性能: 算法的有效性、可伸缩性和并行处理 模式评估: 兴趣度问题 背景知识的合并 处理噪声何不完全数据 并行, 分布式和增量挖掘算法 新发现知识与已有知识的集成: 知识融合 用户交互 数据挖掘查询语言和特定的数据挖掘 数据挖掘结果的表示和显示 多个抽象层的交互知识挖掘 应用和社会因素 特定域的数据挖掘 & 不可视的数据挖掘 数据安全,完整和保密的保护,第二章、数据仓库和OLAP技术,什么是数据仓库?,数据仓库的定义很多,但却很难有一种严格的定义 它是一个提供决策支持功能的数据库,它与公司的操作数据库分开维护。 为统一的历史数据分析提供坚实的平台,对信息处理提供支持 “数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.”W. H. Inmon(数据仓库构造方面的领头设计师) 建立数据仓库(data warehousing): 构造和使用数据仓库的过程。,数据仓库与异种数据库集成,传统的异种数据库集成: 在多个异种数据库上建立包装程序(wrappers)和中介程序(mediators ) 查询驱动方法当从客户端传过来一个查询时,首先使用元数据字典将查询转换成相应异种数据库上的查询;然后,将这些查询映射和发送到局部查询处理器 缺点:复杂的信息过虑和集成处理,竞争资源 数据仓库: 更新驱动 将来自多个异种源的信息预先集成,并存储在数据仓库中,供直接查询和分析 高性能,OLTP系统和OLAP系统的比较,数据仓库的概念模型,最流行的数据仓库概念模型是多维数据模型。这种模型可以以星型模式、雪花模式、或事实星座模式的形式存在。 星型模式(Star schema): 事实表在中心,周围围绕地连接着维表(每维一个),事实表含有大量数据,没有冗余。 雪花模式(Snowflake schema): 是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加表中。结果,模式图形成类似于雪花的形状。 事实星座(Fact constellations): 多个事实表共享维表, 这种模式可以看作星型模式集,因此称为星系模式(galaxy schema),或者事实星座(fact constellation),度量的分类,一个数据立方体的度量是一个数值函数,该函数可以对数据立方体的每一个点求值。度量可以根据其所用的聚集函数分为三类: 分布的(distributive):将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样。 比如:count(),sum(),min(),max()等 代数的(algebraic):函数可以由一个带M个参数的代数函数计算(M为有界整数),而每个参数值都可以有一个分布的聚集函数求得。 比如:avg(),min_N(),standard_deviation() 整体的(holistic):描述函数的子聚集所需的存储没有一个常数界。 比如:median(),mode(),rank(),概念分层:location维的一个概念分层,all,Europe,North_America,Mexico,Canada,Spain,Germany,Vancouver,M. Wind,L. Chan,.,.,.,.,.,.,all,region,office,country,Toronto,Frankfurt,city,多维数据模型上的OLAP操作,上卷(roll-up):汇总数据 通过一个维的概念分层向上攀升或者通过维规约 下钻(drill-down):上卷的逆操作 由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现 切片和切块(slice and dice) 投影和选择操作 转轴(pivot) 立方体的重定位,可视化,或将一个3维立方体转化维一个2维平面序列 其他OLAP操作 钻过(drill_across):执行涉及多个事实表的查询 钻透(drill_through):使用关系SQL机制,钻到数据立方体的底层,到后端关系表,三种数据仓库模型,企业仓库 搜集关于跨越整个组织的主题的所有信息 数据集市 企业范围数据的一个子集,对于特定的客户是有用的。其范围限于选定的主题,比如一个商场的数据集市 独立的数据集市 VS. 非独立的数据集市(数据来自于企业数据仓库) 虚拟仓库 操作数据库上的一系列视图 只有一些可能的汇总视图被物化,数据立方体的有效计算,数据立方体可以被看成是一个方体的格 最底层的方体是基本方体 最顶端的方体(顶点)只包含一个单元的值 一个n维的数据立方体,每维L层,可能产生的方体总数是多少? 数据立方体的物化 预先计算所有方体(全物化),不预先计算任何“非基本”方体(不物化),有选择的计算一个所有方体的适当子集(部分物化) 确定物化哪些方体 考虑工作负荷下的查询、它们的频率和它们的开销等等,方体计算的多路数组聚集方法(1),将数组分成块(chunk,一个可以装入内存的小子方) 压缩的稀疏数组寻址:(chunk_id, offset) 通过访问立方体单元,计算聚集。可以优化访问单元组的次序,使得每个单元被访问的次数最小化,从而减少内存访问和磁盘I/O的开销。,哪个是多路数组聚集的最佳遍历次序?,第三章、数据预处理,为什么要预处理数据?,现实世界的数据是“肮脏的” 不完整的:有些感兴趣的属性缺少属性值,或仅包含聚集数据 含噪声的:包含错误或者“孤立点” 不一致的:在编码或者命名上存在差异 没有高质量的数据,就没有高质量的挖掘结果 高质量的决策必须依赖高质量的数据 数据仓库需要对高质量的数据进行一致地集成,数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论