




已阅读5页,还剩75页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
上课时间上课时间第一周上课节次上课节次3 节课课 型型理论 课课 题题绪论 教学目的教学目的使学生初步认识数据挖掘与数据仓库 教学方法教学方法讲授 重点 难重点 难 点点 数据挖掘与数据仓库的定义及其应用价值 时间分配时间分配教学内容教学内容 板书或课件板书或课件 版面设计版面设计 1 1 初识数据挖掘 1 1 1 数据挖掘的产生 数据挖掘产生的前提是需要从多年积累的 大量数据中找出隐藏在其中的 有用的信 息和规律 计算机技术和信息技术的发展使其有能力 处理这样大量的数据 1 1 2 数据挖掘的应用价值 应用数据挖掘从大量数据中发现规律是面 向某一应用的规律 具有具体的指导意义 早期数据挖掘主要应用于商业领域 随着 人们对数据挖掘了解的逐步深入 其应用 领域逐步扩大到科学研究 市场营销 金 融分析和体育比赛等领域 1 1 3 数据挖掘的发展过程 数据挖掘是 20 世纪 80 年代人工智能研究 项目失败后 人工智能转入实际应用时提 出的 是一个新兴的 面向商业应用的人 工智能研究 1 1 4 数据挖掘的定义 数据挖掘就是从大量的 不完全的 有噪 声的 模糊的 随机的数据中 提取隐含 在其中的 人们事先不知道的 但又是潜 在有用的信息和知识的过程 1 2 初识数据仓库 1 2 1 数据仓库的产生 20 世纪 80 年代出现了数据仓库的思想 数据仓库是面向主题的 集成的 包含历 史的 不可更新的 面向决策支持的 面 向全企业的 最明细的数据存储 数据快 照式的数据获取 1 2 2 数据仓库的应用价值 传统数据库的处理方式和决策分析中的数 据需求在决策处理的系统吸纳供应问题 决策数据需求的问题以及决策数据操作的 问题方面不相称 导致企业无法使用现有 的业务处理来满足决策分析的需要 因此 决策分析需要一个能够不受传统事务处理 的约束 高效率处理决策分析数据的支持 环境 这就是数据仓库存在的价值 1 2 3 数据仓库的发展过程 数据仓库是一种新的数据处理体系结构 是企业内部各部门业务数据和各种外部数 据进行统一和综合的中央数据仓库 为企 业决策支持系统提供所需的信息 是一种 信息管理技术 目前世界上最大数据仓库是 NRC 公司建 立的基于其 Tera data 数据库拥有 24TB 数 据量的 Wal Mart 数据仓库系统 1 2 4 数据仓库的定义 数据仓库是面向主题的 集成的 不可更 新的 随时间不断变化的数据集合 用以 支持经营管理中的决策制定过程 1 2 5 数据仓库与数据挖掘的关系 1 数据仓库系统的数据可以作为数据挖 掘的数据源 2 数据挖掘的数据源不一定必须是数据 仓库系统 1 3 进一步理解的数据挖掘 1 3 1 数据挖掘的功能 数据挖掘的目标是从数据中发现隐含的 有意义的知识 包括概念描述 关联分析 分类与预测 聚类分析 趋势分析 孤立 点分析以及偏差分析 7 个方面的功能 1 概念描述 对某类对象的内涵进行描述 并概括这类 对象的有关特征 其中 特征性描述用于 描述某类对象的共同特征 区别性描述用 于描述不同类对象之间的区别 2 关联分析 关联分析的目的在于找出数据中隐藏的关 联网 3 分类与预测 所谓分类就是依照分析对象的属性分门别 类 加以定义 建立类组 其关键是确定 对数据按照什么标准或什么规则进行分类 所谓预测就是利用历史数据就爱能力模型 再运用最新数据作为输入值 获得未来变 化的趋势或者评估给定样本可能具有的属 性值或值的范围 4 聚类分析 又称为无指导的学习 其目的在于客观地 按照被处理对象的特征分类 将有相同特 征的对象归为一类 5 趋势分析 又称为时间序列分析 是从相当长的时间 的发展中发现规律和趋势 是时序数据挖 掘最基本的内容 6 孤立点分析 又称为孤立点挖掘 是指数据库中包含的 一些与数据的一般行为或模型不一致的数 据 7 偏差分析 又称为比较分析 是对差异和极端特例的 描述 用于揭示事物偏离常规的异常现象 1 3 2 数据挖掘常用技术 数据挖掘算法是数据挖掘技术的一部分 数据挖掘技术用于执行数据挖掘功能 一 个特定的数据挖掘功能只适用于给定的领 域 1 聚类检测方法 是最早的数据挖掘技术之一 在聚类检测 技术中 不是搜寻预先分类的数据 也没 有自变量和因变量之分 因此也称为无指 导的知识发现或无监督学习 聚类生成的组叫簇 是数据对象的集合 聚类检测的过程就是使同一个簇内的任意 两个对象之间具有较高的相似性 不同簇 的两个对象之间具有较高的向异性 用于数据挖掘的聚类检测方法有 划分的 方法 层次的方法 基于密度的方法 基 于网络的方法和基于模型的方法等 2 决策树方法 主要应用于分类和预测 提供了一种展示 类似在什么条件下会得到什么值这类规则 的方法 一个决策树表示一系列的问题 每个问题决定了继续下去的问题会是什么 决策树方法适合于处理费数值型数据 3 人工神经网络方法 人工神经网络方法主要用于分类 聚类 特征挖掘 预测等方面 它通过向一个训 练数据集学习和应用所学知识 生成分类 和预测的模式 对于数据是不定性的和没 有任何明显模式的情况 应用人工神经网 络比较有效 人工神经网络方法主要有 前馈式网络 反馈式网络和自组织网络 4 遗传算法 该算法模仿人工选择培育良种的思路 从 一个初始规则集合开始 迭代地通过交换 对象成员产生群体 评估并择优复制 优 胜劣汰逐代积累计算 最终得到最有价值 的知识集 繁殖 从一个旧种群选择出生命力强的个 体产生新种群的过程 交叉 选择两个不同个体的部分进行交换 形成新个体的过程 变异 对某些个体的某些基因进行变异 5 关联分析方法 包含关联发现 能够系统地 有效地得到 关联规则 找出关联组合 在关联组合中 如果出现某一项 另一项也会出现 序列 模式发现 找到时间上连续的事件 和类 似的时序发现模式 先找到一个事件顺序 再推测出其它类似的事件顺序 6 基于记忆的推理算法 即使用一个模型的已知实例来预测未知的 实例 1 3 3 数据挖掘的过程 1 4 数据挖掘应用实例 某些具有特定的应用问题和应用背景的领 域是最能体现数据挖掘作用的应用领域 1 5 数据挖掘的发展趋势 1 5 1 数据挖掘研究方向 1 专门用于知识发现的形式化和标准化 的数据挖掘语言 2 数据挖掘过程中的便于用户理解的及 人机交互的可视化方法 3 网络环境下的数据挖掘技术 4 加强对各种非结构化数据的挖掘 1 5 2 数据挖掘应用的热点 1 网站的数据挖掘 2 生物信息或基因的数据挖掘 3 文本的数据挖掘 教学后记教学后记 本章节的重点是数据挖掘与数据仓库的定 义 难点是它们的应用价值 学生对它们 的应用领域及案例相对较为感兴趣 上课时间上课时间第二周上课节次上课节次3 节课课 型型理论 课课 题题数据仓库的定义 结构 说明及其清理 教学目的教学目的使学生初步了解数据仓库 教学方法教学方法讲授 重点 难重点 难 点点 数据仓库的定义及其结构 时间分配时间分配教学内容教学内容 板书或课件板书或课件 版面设计版面设计 2 1 数据仓库的定义 数据仓库是一个环境 而不是一件产品 提供用户用于决策支持的当前和历史的数 据 这些数据时在传统的操作型数据库中 很难或不能得到的 数据仓库的 4 个基本特征 1 数据仓库的数据是面向主题的 2 数据仓库的数据是集成的 3 数据仓库的数据是不可更新的 4 数据仓库的数据时随时间不断变化的 2 1 1 数据仓库的数据是面向主题的 面向主题性表示数据仓库中数据组织的基 本原则 数据仓库中的所有数据都是围绕 着某一主题组织和展开的 1 主题的概念 主题是一个抽象的概念 是在较高层次上 将企业信息系统中的数据综合 归类并进 行分析利用的抽象 在逻辑意义上 它是 对应企业中某一宏观分析领域所涉及的分 析对象 面向主题的数据组织方式 就是在较高 上 分析对象的数据的一个完整 一致的描述 能完整 统一地刻画各个分析对象所涉及 的企业的各项数据 以及数据之间的联系 2 主题的划分原则 在划分主题是 必须保证每个主题的独立 性和完备性 主题确定后需要确定主题应该包含的数据 在主题的数据组织中应该注意 不同的主 题之间可能出现相互重叠的信息 这种主 题间的重叠是逻辑的 而不是同一数据内 容的物理存储重复 2 1 2 数据仓库的数据是集成的 在数据进入数据仓库之前 必然要经过转 换 统一与综合 这是数据仓库建设中最 关键也是最复杂的一步 2 1 3 数据仓库的数据是不可更新的 数据仓库的数据主要供企业决策分析之用 不是用来进行日常操作的 一般只保存过 去的数据 而不随源数据的变化而实时更 新 数据仓库中的数据一般不再修改 由于数据仓库的数据是不可更新的 因此 也称其具有非易失性 这种不可更新性可 以支持不同的用户在不同的时间查询相同 的问题时获得相同的结果 2 1 4 数据仓库的数据是随时间不断变化的 数据仓库的数据随时间的不断变化主要体 现在数据仓库随时间变化不断增加新的数 据内容 数据仓库的数据初装完成后 再向数据仓 库输入数据的过程称为数据追加 数据追加的内容仅限于上次向数据仓库输 入后元数据库中变化了的数据 2 2 数据仓库的结构 数据仓库中的数据可分为多个级别 不同 综合级别称之为 粒度 2 2 1 元数据 元数据是 关于数据的数据 可对数据仓 库中的各种数据进行详细的描述与说明 说明每个数据的上下文关系 使每个数据 具有符合现实的真实含义 使最终用户了 解这些数据之间的关系 1 元数据在数据仓库中的作用 为决策支持系统分析员和高层决策人员 服务提供便利 解决面向应用的操作型环境和数据仓库 的复杂关系 2 元数据的使用 元数据在数据仓库开发期间的使用 元数据在数据源抽取中的作用 元数据在数据清理与综合中的使用 3 元数据的分类 按元数据的类型可分为关于基本数据的元 数据 用于数据处理的元数据和关于企业 组织结构的元数据 按抽象级别可分为概念级 逻辑级和物理 级的元数据 按元数据承担的任务可分为静态元数据和 动态元数据 从用户的角度对元数据分类没有一个统一 的标准 往往与元数据的使用目的有关 一般可分为技术元数据和业务元数据两类 4 元数据的内容 数据源的元数据 数据模型的元数据 数据准备区元数据 数据库管理系统元数据 前台元数据 2 2 2 粒度的概念 粒度是指数据仓库的数据单位中保存数据 细化或综合程度的级别 它影响存放在数 据仓库中的数据量得大小 同时影响数据 仓库所能回答查询问题的细节程度 粒度可分为按时间段综合数据的粒度和按 采样率高低划分的样本数据库两种形式 1 按时间段综合数据的粒度 按时间段综合数据的粒度是对数据仓库中 的数据的综合程度高低的一个度量 一般 是按照不同的时间段来综合数据 它及影 响数据仓库中的数据量的多少 也影响数 据仓库所能回答询问的种类 为了适应不同查询的需要 数据仓库中经 常建立多重粒度 2 样本数据库 样本数据库的粒度级别不是根据综合程度 的不同来划分的 而是根据采样率的高低 来划分的 采样粒度不同的样本数据库可 以具有相同的综合级别 样本数据库的抽取可以按照数据的重要程 度不同来进行 样本数据库是建立在不同 时点上的粒度 2 2 3 分割问题 分割也是数据仓库中的一个重要概念 它 是指将数据分散到各自的物理单元中去 以便能分别独立处理 以提高数据处理效 率 数据分割后俄数据单元称为分片 1 分割的优越性 容易重构 容易重组 自由索引 顺序扫描 容易恢复 容易监控 2 数据分割的标准 数据分割的标准石油开发人员选择的 有 时间 商业领域 地理位置 组织单位等 在数据仓库中 按时间总是必需的 3 分割的层次 一般分为系统层 由数据库管理系统和操 作系统完成分割 和应用层 由应用程序 完成分割 两层 2 2 4 数据仓库中的数据组织形式 1 简单堆积结构 这是数据仓库中最常用 最简单的数据组 织形式 它从面向应用的数据库中每天的 数据中提取出来 然后按照相应的主题集 成为数据仓库中的记录 2 轮转综合结构 该结构将数据存储单位分为日 周 月 年几个级别 结构简捷 数据量比简单堆 积结构大大减少 但损失了数据细节 3 简单直接结构 类似于简单堆积文件 但不是每天集成后 放入数据仓库 而是间隔一定时间间隔 简单直接结构也可以认为是按一定的时间 间隔对数据库的采样 4 连续结构 通过两个或更多的连续的简单直接结构数 据组织形式的文件 可以生成连续结构数 据组织形式的文件 对于各种文件结构的最终实现 关系数据 库中仍然要依靠 表 的结构 2 3 数据仓库的说明 数据仓库通过标准手册进行说明 标准手 册中包含 描述什么是数据仓库 描述对数据仓库输送数据的源系统 如何使用数据仓库 有了问题如何获得帮助 谁负责什么 数据仓库的迁入计划 数据仓库数据如何与面向应用的数据相 关联 如何为决策分析系统使用数据仓库 什么时候不向数据仓库中加数据 数据仓库中没有什么类型的数据 可利用的元数据的说明 数据仓库的记录系统是什么 2 4 数据仓库的清理 数据从数据仓库中 清除 有以下几种形 式 1 数据加入到失去原有细节的一个轮转 综合结构数据组织形式的文件中 2 数据从高性能的介质转移到大容量介 质上 3 数据从数据仓库系统中真正清除 4 数据从偶给你体系结构的一个层次转 移到另一个层次 教学后记教学后记 本章节的重点是数据仓库的定义 难点是 数据仓库的结构 学生掌握情况一般 还 需课后多查看相关资料 上课时间上课时间第三周上课节次上课节次3 节课课 型型理论 课课 题题数据仓库系统的设计 数据的访问及应用 教学目的教学目的使学生学会设计数据仓库系统 并访问其数据 教学方法教学方法讲授 重点 难重点 难 点点 数据仓库系统的设计与素具仓库数据的访问 时间分配时间分配教学内容教学内容 板书或课件板书或课件 版面设计版面设计 2 5 数据仓库系统的设计 2 5 1 数据仓库系统设计方案 数据仓库是一个面向数据分析处理的数据 环境 数据仓库的数据是面向主体的 集 成的 不可更新的 随时间不断变化的 1 数据仓库系统设计与数据库系统设计 的不同 主要表现在面向的处理类型步步 面向的 需求不同 系统设计的目标不同 两者的 数据来源或系统的输入不同以及设计的方 法和步骤不同等几个方面 2 声明周期发 SDLC SDLC 有独立的手机需求和分析需求的阶 段 一旦进入到构建数据库阶段 系统的 需求就基本不变了 3 螺旋式卡法方法 CLDS CLDS 方法没有独立的收集需求和分析需 求的阶段 而是将对需求的过程贯穿整个 设计的过程 4 数据驱动 创建数据仓库的工作实在原有的数据库的 数据基础上进行的 这种从已有数据出发 的数据仓库设计方法被称为 数据驱动 的系统设计方案 其基本思路是 利用以前所取得的工作成果 不再是面向应用 利用数据模型 数据仓库的系统设计是一个动态的返回和 循环的过程 2 5 2 数据仓库设计的三级数据模型 数据模型是对现实世界进行抽象的工具 抽象的程度不同 性阿城的抽象级别层次 就不同 数据仓库的数据模型中不包含纯操作型 的数据 数据仓库的数据模型扩充了码结构 增 加了时间属性作为码的一部分 数据仓库的数据模型中增加了一些导出 数据 在数据仓库设计中存在着概念级数据模型 逻辑数据模型和物理数据模型三级 1 概念数据模型 是主观与客观之间的桥梁 最常用的表示 方法是实体 联系 E R 法 2 逻辑数据模型 数据仓库中采用的路基数据模型就是关系 模型 无论主题还是主题之间的联系都用 关系来表示 数据仓库的逻辑数据模型描述了数据仓库 的主题的逻辑实现 即每个主题所对应的 关系表的关系模式的定义 3 物理数据模型 数据仓库的物理数据模型就是逻辑数据模 型在数据仓库中的实现 4 高层数据模型 中间层数据模型和低 层数据模型 高层数据模型对数据抽象程度最大 使用 的主要表达工具是 E R 图 高层数据模型建好后 对高层数据模型中 标识的每个主要的主题域或实体 都要建 一个中间层数据模型 中间层数据模型有 联接数据组 主要用于标识本主题域与其 它主题域之间的联系 基本数据组 基本 不会发生变化的数据项 二次数据组 基 本不变化 但又有变化的可能的数据项 和类型数据组 经常变化的数据项 四种 基本构造 底层数据模型就是物理数据模型 2 5 3 提高数据仓库的性能 建立数据仓库过程中一个重要的问题就是 如何提高系统的性能 提高系统性能主要 就是提高系统的物理 I O 性能 1 粒度划分 一般要将数据划分为 详细数据 轻度综 合 高度综合三级或更多级粒度 不同粒 度级别的数据用于不同类型的分析处理 划分粒度步骤 估算数据仓库中数据的行数和所需占用 的空间大小 根据估算出的数据行数和所需占用的空 间大小 决定是否要划分粒度及如何划分 粒度 2 分割 数据仓库中的库中的数据分割与数据库 中的数据分片概念相近 按时间进行数据分割是最普遍的 分割的标准一般要考虑数据量 数据分 析处理的实际情况 简单易行以及粒度划 分侧率等几方面因素 3 其它设计问题 合并表 建立时间序列 将数据严格按处理顺序存放到一个或几个 连续的物理块中 即所谓的建立数据序列 建立时间序列可以在同一次调页中处理更 多的记录 将物理 I O 的次数降到最低 引入冗余 引入冗余的目的是减少连接操作 从而减 少访问的代价 但引入冗余后需要注意维 护数据各个副本间的一致性 表的物理分割 生成导出数据 建立广义索引 2 5 4 数据仓库设计步骤 数据仓库系统开发时一个经过不断循环 反馈而使系统不断增长与完善的过程 其 设计大体上可分为以下几个步骤 1 概念模型设计 2 技术准备工作 3 逻辑模型设计 4 物理模型设计 5 数据仓库生成 6 数据仓库运行与维护 2 6 数据仓库数据的访问 在一些特殊情况下 有可能会出现数据从 仓库流向操作性环境的这种数据 回流 现象 当出现 回流 情况时 对数据仓 库数据的访问有数据仓库数据的直接访问 和间接访问两种方式 2 6 1 数据仓库数据的直接访问 所谓直接访问即操作环境下的一个传统应 用向属于数据仓库的数据提出访问请求 在数据仓库环境中查询到所需的数据 再 传输到操作型环境中 2 6 2 数据仓库数据的接按揭访问 所谓间接访问即利用程序对数据仓库的数 据进行定期的分析 将分析的结果产生新 的文件 用来满足操作型应用的需要 数据仓库数据的访问大多采用间接访问方 式 2 7 数据仓库的应用 主要应用领域 1 全局应用 主要用于企业在发展过程中形成的多种独 立应用的系统 或者用于一些大公司地理 位置上分布的多个子公司或部门 2 复杂应用 需要将数据分为操作环境数据和分析环境 数据量大部分 教学后记教学后记 本章节重点是数据仓库系统的设计和数据 仓库数据的访问 难点是数据仓库的应用 学生并未真正建立和使用过数据仓库 对 其设计和使用都还只是停留在理论阶段 上课时间上课时间第四周上课节次上课节次3 节课课 型型理论 课课 题题数据预处理的目的以及数据的清理 集成和变换 教学目的教学目的使学生掌握数据的基本处理方法 教学方法教学方法讲授 重点 难重点 难 点点 数据的清理 集成和变换 时间分配时间分配教学内容教学内容 板书或课件板书或课件 版面设计版面设计 3 1 数据预处理的目的 3 1 1 原始数据中存在的问题 原始数据主要存在以下几个方面问题 不一致 重复 不完整 含噪声 噪声是指一个测量变量中的随机错误或偏 离期望的孤立点值 维度高 一个完整的数据挖掘系统应该提供数据预 处理模块 此模块的功能是形成供数据挖 掘算法使用的目标数据知识基 3 1 2 数据预处理的方法和功能 数据预处理包含数据清洗 数据集成 数 据变换和数据归约击中方法 1 数据清洗过程即填充空缺值 识别孤 立点 去掉原始数据中的噪声和无关数据 2 数据集成是将多个数据源中的数据结 合起来存放在一个一致的数据存储中 数据集成涉及多个数据源的数据匹配 数 值冲突和数据冗余的问题 3 数据变换是把原始数据转换成为适合 数据挖掘的形式 包括对数据的汇总和聚 集 概化 规范化 还可能需要进行属性 的构造 4 数据归约技术用于产生数据的规约表 示 是的数据的范围减小 但更适合于数 据挖掘算法的需要 并能够得到和原始数 据相同的分析结果 3 2 数据清理 从数据中选取合适的属性作为数据挖掘属 性的过程有以下几个参考原则 尽可能赋予属性名和属性值明确的含义 统一多数据源的属性值编码 去除唯一属性 去除重复属性 去除可忽略字段 合理选择关联字段 3 2 1 处理空缺值 处理空缺值有以下几种方法 忽略该记录 去掉属性 手工填写空缺值 使用默认值 使用属性平均值 使用同类样本平均值 预测最可能的值 3 2 2 噪声数据的处理 在测量一个变量时可能产生一些误差或者 错误 是的测量值相对于真实值有一定的 偏差 这种偏差成为噪声 去除噪声的方法有 1 分箱 分箱方法是一种简单常用的预处理方法 通过考察相邻数据来确定最终值 所谓 箱子 实际上就是按照属性值划分 的子区间 在采用分箱技术时 需要确定的两个主要 问题就是 如何分箱以及如何对每个箱子 中的数据进行平滑处理 注意 分箱之前血药对记录按照目标属性 值的大小进行排序 分箱方法有统一权重 等深分箱法 统一 区间 等宽分箱法 最小熵和用户自定义 区间等 分箱的目的是对各个箱子中的数据进行处 理 所以完成分箱之后 要考虑的就是选 择一种方法对数据进行平滑 使得数据尽 可能接近 常使用的数据平滑方法有按平均值怕你规 划 按边界值平滑和按中值平滑三种 2 聚类 聚类是将物理的或抽象对象的集合分组为 由类似的对象组成的多个类的过程 聚类的结果是生成一组由数据对象组成的 集合 称为簇 同一簇中的所有对象具有相似性 并且一 个对象与同簇中任何一个对象之间的相似 性一定强于它于其它簇中任何一个对象之 间的相似性 同一簇中的对象用相同的特征来标识 落 在簇之外的值称为孤立点 这些孤立点被 视为噪声 聚类的质心即聚类中的平均点 3 回归 回归试图发现两个相关的变量之间的变化 模式 通过使数据适合一个函数来平滑数 据 即通过建立数学模型来预测下一个数 值 包括线性回归和非线性回归 线性回归也称为简单回归 是最简单的回 归形式 用直线建模 将一个变量看作另 一个变量的线性函数 多元回归是线性回归的扩展 也成为复回 归 有两个火两个以上自变量 3 3 数据集成和变换 数据挖掘所使用的数据通常来自于多个数 据存储 所以经常需要把多个数据存储合 并起来 这个过程称为数据集成 而为了 是数据符合算法和数据挖掘目标的需要 还学需要对数据进行变换 3 3 1 数据集成 数据集成是将多文件或者多数据库中的异 构数据进行合并 然后存放在一个一致的 数据存储中 解决语义模型问题 主要工 作涉及到数据的冲突问题和不一致数据的 处理问题 在数据集成过程中 通常需要考虑模式匹 配 数据冗余和数据值冲突问题 3 3 2 数据变换 1 平滑 平滑即去除噪声 还可以将连续的数据离 散化 增加粒度 数据平滑的方法包括分箱 聚类 回归等 2 聚集 聚集即对数据进行汇总 聚集常用来构造数据立方体 3 数据概化 从原始数据集得到的数据包含一些低层概 念的描述 而在数据挖掘中有时并不需要 细化到这些概念 可以用它的高层概念替 换 所以需要对数据进行概化 4 规范化 将数据按比例缩放 使之落入一个特定的 区域 称为规范化 常用的规范化方法有最小 最大规范化 零 均值规范化和小叔定标规范化等 5 属性构造 为了提高数据挖掘的精度或者使数据结构 更容易理解 有时会根据已有的属性构造 新的属性添加到数据挖掘集中 这种方法 对分类算法有帮助 教学后记教学后记 本章节重点是数据的基本处理方法 难点 是处理方法的应用 学生对处理方法的理 论尚能掌握 但实际应用方面没有经验 上课时间上课时间第五周上课节次上课节次3 节课课 型型理论 课课 题题数据归约 教学目的教学目的是学生掌握各种数据归约的方法 教学方法教学方法讲授 重点 难重点 难 点点 各种数据归约的算法及其实现 时间分配时间分配教学内容教学内容 板书或课件板书或课件 版面设计版面设计 3 4 数据归约 数据归约用于从源数据集中得到数据集的 归约表示 数据归约的目的是为了获得比原始数据小 得多的 但不破坏数据完整性的挖掘数据 集 该数据集可以得到与原始数据相同的 挖掘结果 3 4 1 数据归约的方法 1 数据立方体聚集 即把聚集的方法用于数据立方体 2 维归约 即检测并删除不相关 弱相关或冗余属性 3 数据压缩 即选择正确的编码压缩数据集 4 数值压缩 即用较少的数据表示数据或采用较短的数 据单位 数据模型代表数据 5 离散化和概念分层 使连续的数据离散化 就是用确定的有限 个区段值代替原始值 概念分层是指用较 高层次的概念替换低层次的概念 以此来 减少取值个数 3 4 2 数据立方体聚集 数据立方体是数据的多维建模和表示 由 维和事实组成 维就是涉及到的属性 而事实是一个具体 的数据 3 4 3 维归约 在数据立方体的概念基础上 把属性称为 维 维归约即去掉不相关的属性 减少数 据挖掘处理的数据量 属性子集选择的基本方法 逐步向前选择 逐步向后删除 向前选择和向后删除结合 判定树归纳 基于统计分析的归约 3 4 4 数据压缩 数据压缩就是用数据编码或者变换 得到 原始数据压缩表示 数据压缩可以减少数据存储而不影响数据 挖掘的结果 数据压缩的方法分为无损压缩和有损压缩 两种 3 4 5 数值归约 数值归约就是通过某种方法 选择较少的 数据来替代原数据 减少数据量 1 直方图 直方图技术是一种常用的归约技术 它使 用分箱方法对数据进行近似 每个箱代表一个区域范围内的值 箱的宽 度代表值域范围 箱的高度代表这个范围 内的值的个数 即频率 每个箱可以代表一个属性的值和频率 称 为一维直方图 也可以代表两个以上属性 的值和频率 称为多维直方图 若每个箱只表示一个属性值 则成为单桶 2 聚类 用数据的聚类来代表实际数据 当数据中 存在聚类特征时 即数据可以形成有限个 聚类时 此方法可以很好的归约数据 3 抽样 抽样是对记录进行选取 用较小的数据样 本集表示大的数据集 几种常用的抽样方法 不放回简单随机抽样 放回简单随机抽样 聚类抽样 分层抽样 4 线性回归和非线性回归 线性回归和非线性回归方法用数据模型近 似数据 它们并不保存实际数据 而是产 生一个数据模型 只保存数据模型的参数 所以也称为参数方法 此类方法只对数值型数据有效 3 4 6 离散化与概念分层 离散化就是为了适应算法或者存储的需要 用有限数量的离散数据替代连续数据 在数据集上递归的使用某种离散化技术就 形成了数据集俄概念分层 1 数值数据的离散化与概念分层 数值数据的概念分层可以通过数据分析自 动产生 它们能够无干预的完成对属性的 概念分层 但是这些方法划分出来的层并 不考虑边界值是否直观或自然 2 分类数据的概念分层 分类数据是指分类属性值所包含的数据 所谓分类属性 就是那先具有有限个取值 的属性 典型的用于分类数据概念分层的方法有 由用户或者专家在模式级显式地说明数 据的包含关系 通过显式数据分组说明分层结构的一部 分 根据属性值的个数自动产生分层 根据数据语义产生分层 教学后记教学后记 本章节重点是各种数据归约算法的掌握 难点是各种算法的实现 学生对算法的掌 握尚可 但对算法的实现还学要多加练习 上课时间上课时间第六周上课节次上课节次3 节课课 型型理论 课课 题题数据挖掘发现知识的类型 一 教学目的教学目的使学生掌握各种知识的概念及发现方法 教学方法教学方法讲授 重点 难重点 难 点点 广义知识 关联知识和分类知识 时间分配时间分配教学内容教学内容 板书或课件板书或课件 版面设计版面设计 4 1 广义知识 4 1 1 广义知识的概念 广义知识是指类别特征的概括性描述知识 即对大量数据的归纳 概括 提炼出带有 普遍性的 概括性的描述统计知识 4 1 2 广义知识的发现方法 1 数据立方体 也称为 多维数据库 实现视图 等 实质上就是一个多维数组 是维和变量的 组合表示 数据立方体的基本思想是实现某些常用的 代价较高的聚集函数的计算 并将这些实 现视图储存在多维数据库中 2 面向属性的归约 也称为维规约 规约即经过相互协议规定下来的共同遵守 的条款 面向属性的规约即关于属性的经过相互协 议规定下来的共同遵守的条款 规定这些条款的目的是减少属性个数 从 而减少数据量 减少数据量的方法可以从以下几方面考虑 将无用的 冗余的 错误的或影响小的 属性直接删除 减少属性个数 增大数据统计的粒度 提升概念树 对属性设置控制阈值 过滤一部分数据 量 使用聚集函数 4 2 关联知识 4 2 1 关联知识的概念 关联知识是反映一个事件和其它事件之间 以来或相互关联的知识 4 2 2 关联知识的发现方法 1 Apriori 算法 关联规则的发现可分为两步 迭代识别所有的频繁项目集 要求频繁 项目集的支持度不低于用户设定的最低值 从频繁项目集中构造可惜度不低于用户 设定的最低值的规则 识别或发现所有频繁项目集是关联规则发 现算法的核心 也是计算量最大的部分 2 关联及关联规则 数据关联是数据库中存在的一类重要的可 被发现的知识 关联分析的目的是找出数据库中隐藏的关 联网 关联可分为简单关联 时序关联 因果关 联 关联规则从本质上讲是条件概率 在关联规则的挖掘中要注意 充分理解数据 目标明确 数据准备工作要做好 选取恰当的最小支持度和最小可信度 很好地理解关联规则 如何合理地运用得出的关联关系 完全靠 决策者的正确理解和决策 4 3 分类知识 4 3 1 分类知识的概念 分类知识是反映同类事物共同性质的特征 型知识和不同事物之间的差异型特征知识 4 3 2 分类知识的发现方法 所谓分类 就是把给定的数据划分到一定 的类别中 分类的关键是对数据按照什么标准或什么 规定进行分类 分类的过程 在已知训练集上 根据属性特征 为每 一种类别找到一个合理的描述或模型 及 分类规则 根据规则对新数据进行分类 对于分类规则的挖掘通常有决策树方法 贝叶斯方法 人工神经网络方法 粗糙集 方法和遗传算法等 教学后记教学后记 本章节重点是各种知识的概念 难点是各 种知识的发现方法 学生能够掌握概念和 各知识理论上的发现方法 但实际应用方 面的经验比较匮乏 上课时间上课时间第七周上课节次上课节次3 节课课 型型理论 课课 题题数据挖掘发现知识的类型 二 教学目的教学目的使学生掌握各种知识的概念及发现方法 教学方法教学方法讲授 重点 难重点 难 点点 预测型知识和偏差型知识 时间分配时间分配教学内容教学内容 板书或课件板书或课件 版面设计版面设计 4 4 预测型知识 4 4 1 预测型知识的概念 预测型知识是根据时间序列型数据 由历 史的和当前的数据去推测未来的数据 也 可以认为是以时间为关键属性的关联知识 4 4 2 预测型知识的发现方法 目前 时间序列预测方法有经典的统计方 法 神经网络和机器学习等 对于连续型数值的预测可以用称为回归的 统计技术进行建模 回归分析的目的是找 到一个联系输入变量和输出变量的最优模 型 回归方法包括 线性回归 多元回归 非 线性回归等 4 5 偏差型知识 4 5 1 偏差型知识的概念 偏差型知识是对差异和极端特例的描述 解释事物偏离常规的异常现象 偏差即异常 在数据挖掘中也称其为 孤 立点 孤立点探测和分析是数据挖掘中的一个很 特殊的任务 被称为孤立点挖掘 4 5 2 偏差型知识的发现方法 偏差检测的基本方法是 寻找观测结果与 参照值之间有意义的差别 最常用的偏差型知识的发现方法是异常探 测法 异常探测法对异常的定义是 异常 是既不属于聚类也不属于背景噪声的点 具体的异常探测算法有 基于统计的方法 基于距离的方法 基于偏离的方法 教学后记教学后记 本章节重点是各种知识的概念 难点是各 种知识的发现方法 学生能够掌握概念和 各知识理论上的发现方法 但实际应用方 面的经验比较匮乏 上课时间上课时间第八周上课节次上课节次3 节课课 型型理论 课课 题题神经网络算法 教学目的教学目的使学生了解并掌握神经网络算法 教学方法教学方法讲授 重点 难重点 难 点点 神经网络的概念与基于神经网络的算法 时间分配时间分配教学内容教学内容 板书或课件板书或课件 版面设计版面设计 5 1 神经网络算法 神经网络的研究的历史阶段 1943 1969 年的初创期 1970 1986 年的过渡期 1987 今的发展期 5 1 1 神经网络的概念 1 人工神经元原理 神经元由细胞体 树突和轴突三部分组成 是一种根须状的蔓延物 是组成人脑的最 基本单元 传递神经元冲动的地方称为突触 从信息处理功能看 神经元具有如下性质 多输入 单输出 突触兼有兴奋和抑制两种性能 可时间加权和空间加权 可产生脉冲 脉冲进行传递 非线性 2 人工神经网络 人工神经网络是一个并行和分布式的信息 处理网络结构 严格来说 神经网络就是 一个具有如下性质的有向图 对于每个节点有一个状态变量 Vj 节点 j 到节点 i 有一个连接权系数 Tij 对于每个节点有一个阈值 j 对于每个节点定义一个变换函数 f x 人工神经网络是生物神经网络的一种模拟 和近似 它主要从两个方面进行模拟 一 种是从结构和实现机理方面进行模拟 另 一种是从功能上加以模拟 即尽量使得人 工神经网络具有生物神经网络的某些功能 特性 3 MP 模型与 Hebb 规则 MP 模型 每个神经元的状态 Si i 1 2 n 只取 0 或 1 分别代表抑制与兴奋 每个神经元 的状态由 MP 方程决定 j jjiji SfS Hebb 规则 若 i 与 j 两种神经元之间同时处于兴奋状 态 则它们之间的连接应加强 0 jiij SS 5 1 2 神经网络的计算机模型 1 反向传播模型 BP 模型 BP 模型是 1985 年由 Rumelhart 等人于提 出的 该模型具有分层结构 最下层是输 入层 中间是隐含层 最上面一层是输出 层 信息从输入层一次向上传递 直至输出层 BP 网络的主要优点有 只要有足够多的隐含层和隐节点 BP 网 络可以逼近任意的非线性映射关系 BP 网络的学习算法术语全局逼近的方法 因而具有良好的泛化能力 BP 网络的主要缺点有 收敛速度慢 局部极值 难以确定隐含层和隐节点的个数 BP 网络能够实现输入输出的非线性映射关 系 但并不依赖于模型 由于连接权的个数很多 个别神经元的损 坏只对输入输出关系有较小的影响 因此 BP 网络具有较好的容错性 BP 网络由于具有很好地逼近非线性映射的 能力 因而它可以应用于信息处理 图像 识别 数据挖掘等多个方面 2 反馈式 Hopfield 模型 J Hopfield 于 1982 年提出了离散型反馈神 经网络 DHNN 于 1984 年又提出了连续 型反馈神经网络 CHNN 离散型 Hopfield 神经网络 DHNN 离散型神经网络是一个单层的神经网络 每个节点之间互相连接 DHNN 有同步和异步两种工作方式 同步 方式在任何时刻 t 所有神经元都更新 网络收敛于一个稳定点或一个周期解 异 步方式在任一时刻 t 只有一个神经元状态 更新 其余神经元状态不变 异步方式使 能量函数单调下降 保证了网络稳定性和 收敛性 连续型 Hopfield 网络模型 CHNN Hopfield 连续型网络结构与电子电路直接 对应 主要用于优化计算 5 1 3 定义神经网络拓扑 神经网络的拓扑结构在一定程度上影响网 络的分类能力 隐层单元数与问题的要求 输入输出单元 的多少都有直接关系 5 1 4 基于神经网络的算法 神经网络的工作过程可分为两个阶段 第 一阶段是对神经网络进行训练 学习期 在学习期主要是利用给定的数据或只是来 调整网络的各参数 第二阶段 工作期 是神经网络利用学习期所学到的知识 对 网络输入作出正确的响应 1 神经网络的学习方式 神经网络有监督学习 分监督学习和再励 学习三种学习方式 2 神经网络的学习方法 误差纠正算法 误差纠正学习的最终目的是使某一基于误 差信号 ek n dk n yk n 的目标函数达 到最小 以使网络中每一输出单元的实际 输出在某种统计意义上逼近应有输出 ek n 表示误差信号 yk n 为输入是 xk n 时 的神经元 k 在 n 时刻的实际输出 dk n 表 示应有的输出 Hebb 学习 Hebb 学习规则可归纳为 当某一连接两端 的神经元同步激发或同步抑制时该来凝结 强度应增强 反之减弱 竞争学习 在竞争学习时 网络各输出单元相互竞争 最后达到只有一个最强者激活 3 几种常用的神经网络学习算法 BP 反向传播 学习算法 这是实现函数逼近的一种方法 遗传算法 产生于一些生物学家用计算机模拟生物进 化过程的仿真实验 是一种优化搜索算法 遗传算法首先产生一个初始可行解群体 然后对这个群体通过模拟生物进化的选择 交叉 变异等遗传操作遗传到下一代群体 并最终达到全局最优 最小二乘学习算法 最小二乘法训练神经网络利用一组朝顶方 程组来估计网络的连接权 使网络输出与 实际输出的均方误差在统计上达到最小 教学后记教学后记 本章节重点是神经网络的概念 难点是基 于神经网络的算法 学生对概念和算法的 掌握还可以 但对算法的实现还存在一些 困难 上课时间上课时间第九周上课节次上课节次3 节课课 型型理论 课课 题题Apriori 算法 教学目的教学目的使学生了解并掌握 Apriori 算法 教学方法教学方法讲授 重点 难重点 难 点点 关联规则的分类与 Apriori 算法的描述 时间分配时间分配教学内容教学内容 板书或课件板书或课件 版面设计版面设计 5 2 使用候选项集找频繁项集 Apriori 算 法 Apriori 算法是一种最有影响的挖掘布尔关 联规则频繁集的算法 5 2 1 关联规则的分类 1 基于规则中处理的变量的类别分类 基于关联规则中处理的变量的类别 可分 为布尔型和数值型两种 布尔型关联规则处理的值都是离散的 种 类化得 关联规则显示这些变量之间的关 系 数值型关联规则是对数值型字段进行 处理 将其进行动态的分割 或者直接对 原始的数据进行处理 2 基于规则中数据的抽象层次分类 基于规则中数据的抽象层次分类 可分为 单层关联规则和多层关联规则 在单层的关联规则中 所有的变量都没有 考虑到现实的数据时具有多个不同的层次 的 在多层的关联规则中 考虑数据的多 层性 3 基于规则中涉及到的数据的维数分类 基于规则中设计到的数据的维数分类 关 联规则可分为单维和多维的 单维的关联规则中只涉及到数据的一个维 多维关联规则中要处理的数据将会涉及多 个维 单维关联规则是处理单个属性中的 某些关系 多维关联规则是处理多个属性 的各个属性之间的某些关系 5 2 2Apriori 算法 Apriori 算法将发现关联规则的过程分为两 步 第一步是通过迭代 检索出源数据中 的所有频繁项集 第二步是利用第一部中 检索出的频繁项集构造出满足用户最小信 任度的规则 Apriori 算法的核心是第一步 也占整个算 法工作量的大部分 Apriori 算法产生频繁项集是采用迭代的方 法实现的 每一次迭代包括产生候选集和 计算并选择候选集两个步骤 Apriori 算法的一个特殊性质是 若一个项 集是频繁的 那么它的所有子集也是频繁 的 Apriori 算法不仅计算所有频繁项集的支持 度 也计算那些在删减过程中不会被排除 的非频繁候选项集的支持度 所有这些非 频繁但有 Apriori 算法的支持度的候选项集 的集合被称为负边界 若项集是非频繁的 但它的所有子集都是 频繁的 那么它就在负边界中 5 2 3 从频繁项集产生关联规则 在使用 Apriori 算法或其它类似的算法所建 立的所有的频繁 1 项集的基础上 来挖 掘关联规则 若规则 X1 X2 X3 X4 那 么项集 X1 X2 X3 X4 和 X1 X2 X3 都必须 是频繁的 然后计算规则的置信度 c s x1 x2 x3 x4 s x1 x2 x3 置信度 c 大于 给定的阈值的规则就是强关联规则 注意 注意 并不是所有被挖掘出来的强关联规 则都有意义或者都有用 需要注意是否有 负关联的情况 教学后记教学后记 本章节重点是关联规则的分类 难点是 Apriori 算法的应用 学生对分类规则和算 法的描述掌握还可以 但对算法的应用实 现还存在一些困难 上课时间上课时间第十周上课节次上课节次3 节课课 型型理论 课课 题题决策树算法 教学目的教学目的使学生了解并掌握决策树算法 教学方法教学方法讲授 重点 难重点 难 点点 ID3 算法与树的剪枝 时间分配时间分配教学内容教学内容 板书或课件板书或课件 版面设计版面设计 5 3 决策树算法 决策树算法是以样本为基础的归纳学习算 法 主要用于分类和预测 结果比较容易 转换成分类规则 决策树的表现形式是类似于流程图的树结 构 在决策树的内部节点进行属性测试 并根据属性值判断由该节点引出的分支 在决策树的叶节点得到结论 内部节点是属性或属性的集合 叶节点代 表样本所属的类或类分布 决策树学习的基本算法是贪心算法 采用 自定向下的递归方式构造决策树 5 3 1 信息论的基本原理 1 信息论原理 信息论也称为统计通信理论 是为了解决 信息传递过程问题而建立的理论 信息系统由信源 信宿和信道三者组成 信息是用来消除不确定性的度量 信息量 的大小由所消除的不确定性的大小来衡量 2 互信息的计算 5 3 2ID3 算法 1 主算法 从训练集中随机选择一个既含正例又含 反例的子集 称为 窗口 用 建树算法 对当前窗口形成一颗决 策树 用训练集 窗口除外 中例子对所得决 策树进行类别判定 找出错判的例子 若存在错判的例子 把它们插入窗口 转 否则结束 2 建树算法 对当前例子集合 计算各特征的互信息 选择互信息最大的特征 Ak 把在 Ak出取值相同的例子归于同一子集 Ak取几个值就得几个子集 对既含正例又含反例的子集 递归调用 建树算法 若子集仅含正例或反例 对应分枝上标 P 或 N 返回调用处 5 3 3 树剪枝 剪枝是一种克服噪声的技术 同时它也能 使树得到简化而变得更容易理解 剪枝策略有先剪枝和后剪枝两种 先剪枝 也称为预剪枝 用于限制决策树的过度生 长 后剪枝则是待决策树生成后再进行剪 枝的技术 1 先剪枝 最直接的先剪枝方法是事先限定决策树的 最大生长高度 使决策树不能过度生长 先剪枝算法有可能过早停止树的生长而存 在视野效果问题 但该算法效率高 适合 于规模大的问题 2 后剪枝 后剪枝技术允许决策树过度生长 然后根 据一定的规则 减去那些不具有代表性的 节点和分枝 可采用自上而下的顺序 也可采用自下而 上的顺序进行剪枝 剪枝之后的决策树的叶节点不再只包含一 类实例 节点有一个类分布描述 即该叶 节点属于某类的概率 可以将先剪枝和后剪枝算法交叉使用 后 剪枝所需的计算比先剪枝多 但能产生更 可靠的树 5 3 4 由决策树提取分类规则 从决策树提取规则可分为获得简单规则和 获得精简规则属性两个步骤 1 获得简单规则 对于生成好的决策树 可以直接从中获得 规则 从根到叶的每一条路径都可以是一条规则 用 if then 的形式表示 2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 免疫培训考试题库及答案
- 森林防火气象知识培训课件
- 桥梁节段拼装培训课件
- 2025年重庆市养老护理员职业资格技师培训题(含答案)
- 2025年高职院校实训指导教师招聘考试模拟试题及解析报告
- 2025年医疗保健行业招聘笔试模拟题详解
- 2025年年满七十岁以上老人驾考三力测试题及答案
- 2025年信息技术行业招聘面试全真模拟题及解析
- 2025年农产品储备库笔试重点解析
- 2025年网络安全工程师核心技能面试题集
- 小学生学习与发展课件
- 特种设备安全风险辨识与评估分级
- 在家办公申请书
- 股东代持合同模板
- 2025年山东省东营市经济技术开发区辅警岗位招聘30人历年高频重点提升(共500题)附带答案详解
- 2025-2030全球水飞蓟素原料药行业调研及趋势分析报告
- 2025年江苏无锡宜兴市高塍镇招聘专职网格员36人历年高频重点提升(共500题)附带答案详解
- GB/T 44947-2024机器状态监测与诊断性能诊断方法
- 2024-2025成都各区初二年级下册期末数学试卷
- 激励与奖惩机制
- 2024年考研英语核心词汇
评论
0/150
提交评论