数据挖掘概念与技术读书笔记_第1页
数据挖掘概念与技术读书笔记_第2页
数据挖掘概念与技术读书笔记_第3页
数据挖掘概念与技术读书笔记_第4页
数据挖掘概念与技术读书笔记_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章第一章 1 可以挖掘的数据类型 数据库数据 数据仓库 是一个从多个数据源收集的信息存储库 存放在一致的模式下 并且通常驻留在单个站点上 通常数据仓库 用称作数据立方体的多维数据结构建模 数据立方体有下钻 往下 细分 和上卷 继续记性总和归纳 操作 事务数据 时间先关或 序列数据 如历史记录 股票交易数据等 数据流 空间数据 工 程设计数据 超文本和多媒体数据 2 可以挖掘什么类型的模型 数据挖掘功能包括特征化与区分 频繁模式 关联和相关性挖掘 分类与回归 聚类分析 离群点分析 数据挖掘功能用于指定数据 挖掘任务发现的模式 一般而言 这些任务可以分为两类 描述性 和预测性 描述性挖掘任务刻画目标数据中数据的一般性质 预测 性挖掘任务在当前数据上进行归纳 以便做出预测 特征化与区分 数据特征化 如查询某类产品的特征 数据区 分 将目标类数据对象的一般特性与一个或多个对比类对象的一般 特性进行比较 如把具有不同特性的产品进行对比区分 挖掘频繁模式 关联和相关性 频繁模式是在数据中频繁出现的 模式 频繁项集 频繁子序列和频繁子结构 用于预测分析的分类与回归 分类是找出描述和区分数据类或概 念的模型 以便能够使用模型预测类标号未知的对象的类标号 到 处模型是基于对训练数据集的分析 该模型用来预测类标号未知的 对象类标号 表现形式有 分类规则 IF THEN 决策树 数学公 式和神经网络 分类预测类别标号 而回归简历连续值函数模型 而不是离散的 类标号 相关分析可能需要在分类和回归之前进行 他试图识别与分类和 回归过程显著相关的属性 聚类分析 聚类分析数据对象 而不考虑类标号 离群分析 数据集中可能包含一些数据对象 他么对数据的一般 行为或模型不一致 这些数据时利群点 3 使用什么技术 统计学中的统计模型 机器学习 监督学习 分类的同义词学习中监督来自训练数据集 中标记的实例 无监督学习 本质上是聚类的同义词 学习过程是无监督的 因 为输入实例没有类标记 由于训练无边际 所以学习到的模型并不 能告诉我们所发现的簇的语意 半监督学习 在学习模型时 它使用标记的和未标记的实例 标 记的实例用来学习类模型 而未标记的实例用来进一步改进类边界 主动学习 是一种机器学习方法 它让用户在学习过程中扮演主 动角色 数据库系统和数据仓库 4 面向什么类型的应用 哪里有数据 哪里就用数据挖掘应用 商务智能 进行有效的市场分析 比较类似产品的顾客反馈 发 现其竞争对手的优势和缺点 留住具有高价值的顾客 做出聪明的 商务决策 Web 搜索引擎 需要数以上千或上万计的计算机云协同挖掘海量 数据 把数据挖掘方法升级到计算机计算机云和大型分布数据集上 5 数据挖掘的主要问题 挖掘方法 挖掘各种新的知识类型 挖掘多维空间中的知识 数 据挖掘 跨学科的努力 提升网络环境下的发现能力 处理不确定 性 噪声或不完全数据 模式评估和模式或约束指导的挖掘 用户界面 交互挖掘 数据挖掘过程应该是高度交互的 结合背景知识 特定的数据挖掘和数据挖掘查询语言 数据挖掘 结果的表示和可视化 有效性和可伸缩性 数据挖掘算法的有效性和可伸缩性 为了有 效地从多个数据库或动态数据流的海量数据提取信息 数据挖掘算 法必须是有效的和可伸缩的 并行 分布式和增量挖掘算法 大量数据和数据挖掘算法的计算 复杂性是促使开发并行和分布式数据密集型挖掘算法的因素 第二章第二章 认识数据认识数据 1 主要学习了解属性的不同类型 以及描述属性数据的中心趋势 和散步的统计度量 还有熟悉对属性值分布可视化的技术 以 及如何计算对象之间的相似性或相异性 2 数据对象与属性类型 标称属性 是一些符号或事物的名称 有些使用数字表示 但这 些数字不具有数值属性 二元属性 0 1 是否不是 序数属性 ranking 数值属性是定量的 即它是可度量的量 用整数或实数值表示 区间标度属性 用相等的单位尺度度量 如温度 比例标度属性 是具有固有零点的数值属性 如不同币种间的汇 率 离散属性与连续属性 离散属性具有有限或无线可数个数 可以 用或不用整数表示 如果不是离散的就是连续的 术语 数值属性 和 连续属性 通常可以互换地使用 3 数据的基本统计描述 中心趋势度量 均值 中位数 众数 中列数 数据的散布 极差 四分位数 方差 标注差和四分位数极差 可视化的审视数据 2 1 1 2 1 1 2 2 2 上式表示的是方差 其中 是观测的均值 观测值的标准差 是方 差的平方根 2 数据段基本统计描述的图形显示 分位数图 分位数 分位数图 直方图 散点图与数据相关 4 数据可视化 从存放在诸如关系数据库中的多维数据开始 讨论一些表示方法 包括基于像素的技术 几何投影技术 基 于图符的技术 以及层次的和基于图形的技术 以及复杂数据 对象和关系的可视化 基于像素的可视化技术 在屏幕上创建 m 个窗口 每维一个 记录的 m 个维值映射到这些 窗口中对应位置上的 m 个像素 像素的颜色反应对应的值 集合投影可视化技术 几何投影首要挑战是设法解决如何在二维显示上可视化高维空间 散点图 使用笛卡尔坐标显示二维数据点 5 度量数据的相似性和向异性 1 数据矩阵与向异性矩阵 相似性等于 1 减去向异性 2 标称属性的邻近性度量 d i j p m p m 是匹配的数目 p 表示所有属性的个数 二元属性的邻近性度量 对于非对称性的二元属性 计算向异性时 分母的取值可以定 义存在取值为 1 的属性个数 数值属性的向异性 闵可夫斯基距离 一般而言 用较小的单 位表示一个属性将导致该属性具有较大的值域 因而趋向于给 种属性更大的影响或 权重 叙述属性的邻近性度量 第 i 个对象的 f 值为 Xif 属性 f 有 Mf 个有序的状态 表嫂排位 1 Mf 用对应的排位 Rifb 每个对象映射到 0 0 1 0 上 以便每个属性都有相同的权重 实现格式化如下图 P49 混合类型属性的向异性 第三章第三章 数据预处理数据预处理 1 数据预处理概述 数据质量 为什么要对数据预处理 数据质量 准确性 完整性 一致性 时效性 可信性和可解释 性 数据预处理的主要任务 数据清理 填写缺失值 光滑噪声数据 识别或删除离群点 并 解决不一致性来 清理 数据 数据集成 在分析中使用来自过个数据源的数据 这涉及集成多 个数据库 数据立方体或文件 数据归约得到数据集的简化表示 他小得多 但能够产生同样的 或几乎同样的 分析结果 数据归约策略包括维归约 使用数据编码 方案 以便得到原始数据的简化或 压缩 表示 和数值归约 使用 参数模型 如直方图 聚类 抽样或数据聚集 用较小的表示取代 数据 2 数据清理 缺失值 人工填写缺失值 使用一个全局常量填充缺失值 使用 属性的中心独恋填充缺失值 使用与给定元组属同一类的所有样本 的属性均值或中位数 使用最可能的值填充缺失值 噪声数据 分箱 可以用箱均值 中位数 和箱边界光滑 回归 也可以用一个函数拟合数据来光滑数据 离群点分析 可以通过 如聚类来检测离群点 数据清理作为一个过程 数据由于各种各样的原因 如记录标准 不同 记录目的不同 数据失效了等 产生偏差 如何进行偏差检测 字段过载 唯一性规则 连续性规则 空值规则 3 数据集成 实体识别问题 冗余和相关分析 标称数据的卡方相关检验 数值数据的协方差 元组重复 4 数据归约 可以用来得到数据集的归约表示 他小得多 但仍接 近于保持原始数据的完整性 数据归约策略 维归约 减少所考虑的随机变量或属性的个数 数量归约 用替代的 较小的数据表示形式替换原数据 数据压缩 使用变量变换 以便得到原数据的归约或 压缩 表示 如果原数据能够从压缩后的数据重构 而不损失信息 则该

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论