传统数据挖掘技术.ppt_第1页
传统数据挖掘技术.ppt_第2页
传统数据挖掘技术.ppt_第3页
传统数据挖掘技术.ppt_第4页
传统数据挖掘技术.ppt_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章传统数据挖掘技术 5 1传统的统计分析类数据挖掘技术5 2统计分析类工具5 3统计分析类工具的应用5 4统计分析类工具应用的问题练习 5 1传统的统计分析类数据挖掘技术 5 1 1统计与统计类数据挖掘技术1 统计与数据挖掘统计推断分析2 统计类数据挖掘技术 5 1传统的统计分析类数据挖掘技术 5 1 2数据的聚集与度量技术常用的聚集函数 例如 count sum avg max min 等数据中心趋势度量 可以采用算术平均值加权算术平均值 5 1 3柱状图数据挖掘技术 5 1 3柱状图数据挖掘技术 5 1 4线性回归数据挖掘技术 线形回归是最简单的回归形式 双变量回归将一个随机变量Y 称作响应变量 看作为另一个随机变量x 称为预测变量 的线形函数 即Y x 5 1 5 1 5非线性回归数据挖掘技术 双曲线模型二次曲线模型对数模型三角函数模型指数模型幂函数模型修正指数增长曲线 5 1 6聚类数据挖掘技术 1 聚类分析原理 5 1 6聚类数据挖掘技术 1 聚类分析原理 孤立点 或 奇异点 欧几里得距离 曼哈顿距离 明考斯基距离 2 分层聚类 BIRCH算法主要分两个阶段进行 阶段一 扫描数据库 建立一个初始的CF树 看作一个数据的多层压缩 试图保留数据内在的聚类结构 当一个对象被插入到最近的叶节点 子聚类 中时 如果在插入对象后 存储在叶节点中子聚类的直径大于阀值 那么该叶节点被分裂 也可能有其他节点被分裂 新对象插入后 关于该对象的信息向根节点传递 通过修改阀值 CF树的大小可以改变 阶段二 采用某个聚类算法对CF树的叶节点进行聚类 BIRCH算法具有可伸缩性 通过对数据集的首次扫描产生一个基本聚类 二次扫描则进一步改进聚类质量并处理孤立点 BIRCH算法处理速度较快 只是对非球形簇处理效果不好 CURE算法的主要步骤如下 从源数据集中抽取一个随机样本S 将样本S划分为一组划分 对每个划分进行局部的聚类 通过随机抽样剔除孤立点 如果一个簇增长太慢 就删除该簇 对局部的簇进行聚类 落在每个新形成的簇中的代表点根据用户定义的收缩因子收缩或向簇中心移动 这些点代表了簇的形状 用相应的簇标签来标记数据 3 划分聚类k 平均算法最为简单 每个簇用该簇中对象的平均值来表示 首先将所有对象随机分配到k个非空的簇中 计算每个簇的平均值 并用该平均值代表相应的簇 根据每个对象与各个簇中心的距离 分配给最近的簇 然后转第二步 重新计算每个簇的平均值 这个过程不断重复直到满足某个准则函数才停止 k 中心点算法每个簇用接近聚类中心的一个对象来表示 首先为每个簇选择一个代表对象 剩余的对象根据其与代表对象的距离分配给最近的一个簇 然后反复用非代表对象代替代表对象 以提高聚类的质量 4 密度聚类DBSCAN算法首先需要用户给定聚类对象的半径 邻域和 邻域中最少要包含的对象数MitPts 然后算法检查某个对象 邻域中的对象数 如果对象数大于MitPts 该对象就是核心对象 就构建以该对象为核心的新簇 然后反复寻找从这些核心对象出发在 邻域内的对象 这个寻找过程可能会合并一些簇 直到没有新的对象可以添加到任何簇中为止 4 密度聚类OPTICS算法是对DBSCAN算法的改进 因为在DBSCAN算法中需要用户设定 邻域和MitPts 但是在实际应用中用户往往很难确定这些参数 而且这些参数设置的不同往往会导致聚类结果有很大差别 在OPTICS算法中认定对象应该以特定的顺序进行处理 这个顺序首先处理最小的 值密度可达的对象 这样可以首先完成高密度的聚类 4 密度聚类DENCLUE算法的依据是某个数据点在邻域内的影响可以用一个数学函数来形式化地模拟 这个函数为影响函数 所聚类数据空间的整体密度看成是所有数据点影响函数的总和 在聚类时就根据全局密度函数的局部最大 即密度吸引点来确定 5 网格聚类STING算法将数据空间区域划分为矩形单元 并且对应于不同级别的分辨率 存在着不同级别的矩形单元 高层的每个单元被分为多个低一层的单元 每个网络单元的统计信息被预先计算和存储 供处理和查询使用 5 网格聚类利用STING算法可以自顶向下回答查询 从层次中选定一层 含较少单元的层次 作为查询处理的开始 对当前层次的每个单元计算置信区间 用以反映该网格单元与给定查询的关联程度 当前层次处理完毕 转入下一层次 处理下一层次时只检查处理相关单元 重复以上过程 直到底层处理完毕 如果查询要求满足 就返回相关单元的区域 否则检索和进一步处理相关单元中的数据 直到满足查询要求为止 5 网格聚类WaveCluster方法首先通过在数据空间上强加一个多维网格结构来汇总数据 每个网格单元汇总了一组映射到该单元中的点的信息 然后采用一种小波变换对原特征空间进行变换 汇总信息在进行小波变换时使用 接着在变换后的空间中找到聚类区域 小波变换的聚类是无监督聚类 不用事先假定聚类的形状 可以发现任意形状的聚类 边界弱信号不会被屏蔽 可以剔除孤立点 本身运算开销不大 5 网格聚类基于网格和密度的聚类CLIQUE算法主要步骤是 将数据空间划分为互不相交的长方形单元 记录每个单元中的对象数 用先验性质识别包含簇的子空间 在符合兴趣度的子空间中先找出密集单元 再找出相连接的密集单元 以识别簇 为每个簇生成最小化的描述 5 1 7最近邻数据挖掘技术基本概念是 相互之间 接近 的对象具有相似的预测值 如果 你知道了其中一个对象的预测值后 就可以用它来预测其最近的邻居对象 5 1 7最近邻数据挖掘技术 5 2统计分析类工具 5 2 1统计类数据挖掘工具SAS和SPSS许多数据挖掘工具中都使用了这样一些统计分析过程 决策树推断 C4 5 CART 规则推断 AQ CN2 RECON 最近邻方法 聚类方法 关联规则 特征提取和可视化等 5 2 2统计类数据挖掘的商业分析 统计分析工具已经开始为商业分析人员所采纳和应用处于知识发现工具和信息处理工具之间的数据挖掘工具统计类数据挖掘工具可以完成信息的分析处理 并能进一步进行商业活动的统计分析 5 2 3统计类数据挖掘工具的功能 1 可视化功能2 探索功能3 统计功能和操作4 数据管理功能5 显示功能6 挖掘结果描述功能7 开发工具8 可接受的响应时间 5 2 4统计类数据挖掘工具 SPSS 5 2 4统计类数据挖掘工具 SPSS 5 2 4统计类数据挖掘工具 SPSS 5 2 4统计类数据挖掘工具 SPSS 1 基本统计分析报告分析通过命令 Analyze Report 可以启动联机分析处理 OLAPCubes 观察值摘要分析 CasesSummary 行式摘要报告 ReportSummariesinRows 和列式摘要报告 ReportSummariesinColumns 等分析 描述性统计分析可以通过 Analyze DescriptiveStatistics 启动频数分析 Frequencies 描述形统计量分析 Descriptives 探索分析 Explore 和多维频数分布列联表 Crosstabs 5 2 4统计类数据挖掘工具 SPSS 2 回归分析线性回归分析 Linear 曲线回归分析 CurveEstimation 二维logistic回归分析 BinaryLogistic 多维logistic回归分析 MultinomialLogistic Ordinal回归分析 Ordinal 概率单位回归分析 Proibit 和非线性回归分析 Nonlinear 等统计分析 这些回归分析均在 Analyze Regression 菜单项中启动 3 相关分析相关分析 Bivariate 偏相关分析 Partial 和距离分析 Distances 等数据分析功能 相关分析的启动需要使用命令 Analyze Correlate 5 2 4统计类数据挖掘工具 SPSS 4 分类分析快速样本聚类 K MeansCluster 层次聚类 HierarchicalCluster 和判别分类 Discriminant 这些分类方法均可在命令 Analyze Classify 下启动 5 因子分析用 Analyze DataReduction Factor 命令可以进行因子分析 5 3统计分析类工具的应用 5 3 1趋势分析 5 3 2时序分析5 3 3周期分析 5 4统计分析类工具应用的问题 5 4 1统计类数据挖掘的预处理问题1 空缺值处理 1 忽略元组 2 人工填写空缺值 3 使用一个全局变量填充空缺值 4 使用属性的平均值填充空缺值 5 使用最可能的值填充空缺值 练习 1 在某一数据库中有不同元组值是 12 13 13 15 16 16 16 19 19 22 22 25 25 25 25 25 28 28 28 29 31 31 32 32 32 35 35 36 36 36 37 37 39 39 39 40 41 44 45 45 该系列数据的count sum avg max min分别是多少 另外给出其它三个本章没有介绍的常用数据统计度量值 2 给定两个对象分别用元组 22 1 42 10 和 20 0 36 8 描述 计算这两个对象之间的曼哈顿距离 欧几里得

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论