第五章+传统数据挖掘技术1.3.ppt_第1页
第五章+传统数据挖掘技术1.3.ppt_第2页
第五章+传统数据挖掘技术1.3.ppt_第3页
第五章+传统数据挖掘技术1.3.ppt_第4页
第五章+传统数据挖掘技术1.3.ppt_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五章 传统数据挖掘技术,5.1 传统的统计分析类数据挖掘技术,数据挖掘技术从传统意义上说是指数据的统计分析工具。数据挖掘中所采用的传统数据分析技术主要包含线性分析和非线性分析、回归分析、逻辑回归分析、单变量分析、多变量分析、时间序列分析、最近邻算法和聚类分析等技术。,5.1.1 统计与统计类数据挖掘技术,1.统计与数据挖掘 统计推理分析一般需要借助统计数学模型完成,它是利用已有信息推断未知信息的过程。主要是利用过去的资料推断未来,利用局部资料推断总体,利用相关总体的资料进行变量间关系的推断等。 2.统计类数据挖掘技术 作为统计类的数据挖掘技术包含一般数据库中的聚集函数、数据的度量、数据分布的

2、图形、数据的趋势、数据的最近邻分析和数据的聚类分析等。,5.1.2 数据的聚集与度量技术,1.数据的聚集函数:count()、sum()、avg()、max()、min() 2.算数平均值: 3.加权算数平均值:,5.1.3 柱状图数据挖掘技术,表5-1 客户信用数据库表,图5.1 信用属性柱状图,5.1.4 线性回归数据挖掘技术,线性回归是最简单的回归形式。双变量回归是将一个随即变量Y(称作响应变量)看作另一个随机变量x(称为预测变量)的线性函数,即 假定Y的方差为常数, 是回归系数,分别表示直线在Y轴截距和直线的斜率。这些系数可以用最小二乘法求解,这使得实际数据与该直线的估计之间误差很小。

3、给定 个或形如 回归系数 可以用下式来计算:,表5-2 年薪数据表,图5.2 工作年数与年薪关系分析表,5.1.5 非线性回归数据挖掘技术,非线性回归的模型主要有: 双曲线模型: 二次曲线模型: 对数模型: 三角函数模型: 指数模型:,幂函数模型: 修正指数增长曲线:,5.1.6 聚类数据挖掘技术,图5.3 客户聚类分析图,1.聚类分析原理,其中q=1就是曼哈顿距离, q=2就是欧几里德距离,其余是明考夫斯基距离。,以上是加权明考夫斯基距离。,2.分层聚类,图5.4 客户新增与流失分层聚类图,表5-3 新增与流失客户数据,3.划分聚类,图 k均值划分算法,图 基于k均值方法的一组对象的聚类,图

4、 k中心点划分算法PAM,图 k中心聚类代价函数的四种情况,4.密度聚类,图 在基于密度聚类中密度可达和密度相连性(DBSCAN),图 OPTICS术语,图 OPTICS中的簇次序,可达距离,对象的簇次序,无定义,图 2-D数据集的可能密度函数(DENCLUE),图 中心定义的簇(顶部)和任意形状的簇(底部)的例子,5.网格聚类,图 STING聚类的层次结构,图 特征空间及其多种分辨率结果 (WaveCluster),6.模型聚类,图 分类树,图 神经网络方法,The result of SOM clustering of 12088 Web articles The picture on t

5、he right: drilling down on the keyword “mining” Based on websom.hut.fi Web page,5.1.7 最近邻数据挖掘技术,图5.5 最近邻的预测数据A、B和C的信用评价情况,5.2 统计分析类工具,5.2.1 统计类数据挖掘工具,许多数据挖掘工具都使用了这样一些统计分析过程:决策树推断(C4.5、CART)、规则推断(AQ、CN2、RECON)、最近邻方法、聚类方法、关联规则、特征提取和可视化等。 但是许多常规的数据挖掘工具并不包含一些常用的统计方法。例如,假设检验、实验设计、线性回归、判别分析、各种非线性回归、相关分析和因

6、子分析。,5.2.2 统计类数据挖掘的商业分析,图5.6 商业分析人员在统计类数据挖掘中的作用,5.2.3 统计类数据挖掘工具的功能,1.可视化功能 2.探索功能 3.统计和操作功能 4.数据管理功能 5.显示功能 6.数据挖掘结果描述功能 7.开发工具 8.可接受的响应时间,5.2.4 统计类数据挖掘工具-spss,SPSS功能: 1.基本统计分析 2.回归分析 3.相关分析 4.分类分析 5.因子分析,5.3 统计分析类工具的应用,5.3.1 趋势分析,图 股票价格的时间序列数据,5.3.2 时序分析,图 时间序列数据中的子序列匹配,5.3.3 周期分析,图5.10 超市销售情况周变化趋势

7、,5.4 统计分析类工具应用的问题,5.4.1 统计类数据挖掘的预处理问题,数据清理包括空缺值处理、噪声数据处理和不一致数据处理: 1.空缺值处理 1)忽略元组 2)人工填写空缺值 3)使用一个全局变量填充空缺值 4)使用属性的平均值填充空缺值 5)使用最可能的值填充空缺值,2.噪声数据处理 1)分箱 2)聚类 3)计算机和人工检查结合 4)回归,图5.11 分箱技术的示例,3.不一致数据的处理 对于有些事务,所记录的数据可能存在不一致。 1)有些数据的不一致可以通过使用其他数据进行人工更正。 2)知识工程工具也可以用来检测违反限制的数据。,5.4.2 统计分析应遵循的基本原则,1.与定性分析

8、相结合的原则 2.连贯和类推原则 3.统计资料的可靠性和分析公式的适应性原则,5.4.3 统计分析的步骤,1.确定挖掘对象 2.收集、审核及分析统计数据 3.确定分析模型、选择合适的统计分析方法 4.进行分析处理 5.误差分析,5.4.4 统计类数据挖掘的性能问题,统计分析作为一种有力的数据挖掘技术,可以了解客户、市场、产品和其他关键商业参数,但在使用中也存在一些问题,例如: (1)统计分析需要相当一部分统计分析员和商业分析员的分析劳动. (2)成功的可能性很大程度上依赖于商业分析员解决问题的能力,不能自行查找隐藏在数据背后的知识. (3)在许多情况下,商业分析员并不知道要查找什么,或者无法选择离散的变量来启动分析处理。此时,统计分析工具就难以承担重任.,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论