数据分析思维训练(打印报告)_第1页
数据分析思维训练(打印报告)_第2页
数据分析思维训练(打印报告)_第3页
数据分析思维训练(打印报告)_第4页
数据分析思维训练(打印报告)_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2015/8/4 数据分析的新思维 数据挖掘 中的数据准备 朱建平 厦门大学经济学院计划统计系 2015/8/4 报告内容及目的 让大家了解数据挖掘的概念,认识海量数据分析中所遇到的问题,在此基础上,介绍原始大型数据库的基本表述和特征,了解数据准备的不同技术,比较去除丢失值的不同方法,构造时间相关数据的统一表述方法,实现一些数据预处理技术。其目的是让大家从中领悟现代统计方法的基本思想。 2015/8/4 参考文献 1. Cios, K. J., Pedrycz, W. and Swiniarski, R. W. (1998), Data Mining Methods for Knowledge Discovery, U.S.A 2. Friedman, J. H., Data Mining and Statistics: Whats The Connection? Technical Report, Stanford University 3. Glymour, C., etc. Statistical Themes and Lessons for Data Mining, Data Mining and Knowledge Discovery 1, 11-28 (1997) 4. Han, J . W. and Kamber, M. Data Mining: Concepts and Techniques ,Higher Education Press, (2001) 5. Theresa, B., Frederick, E. P. and Gurdial, A., Information-Theoretic Measures of Uncertainty for Rough Sets and Rough Relational Databases, Journal of Information Sciences 109(1998), pp185-195 6. Nelson , D. E., High Range Resolution Radar Target Classification: A Rough Set Approach, Paper of PhD 2015/8/4 张尧庭,谢邦昌,朱世武, 数据采掘入门及应用 从统计技术看数据采掘 ,中国统计出版社,北京, (2001.6) 史忠植著,知识发现,清华大学出版社,北京, (2002.1) 数据挖掘讨论组,数据挖掘的研究历史和现状, / 闪四清等译 (Mehmed Kantardzic),数据挖掘 概念、模型、方法和算法,清华大学出版社, (2003.8) 张银奎等译 (Hand, D),数据挖掘原理,机械工业出版社, (2003.4) 范明等译( Hastie, J ), 统计学习基础 数据挖掘、推理与预测, 电子工业出版社, (2004.1) 朱建平,数据挖掘中的统计方法及实践,中国统计出版社( 2006.10) 2015/8/4 现代 统计分析中的数据准备 一、数据挖掘的定义 二、数据挖掘与知识发现 三、海量数据分析中遇到的问题 四、 数据准备 1、数据选择 2、数据预处理 3、数据变换 2015/8/4 一、数据挖掘的技术定义与商业定义 什么是数据挖掘 (Data Mining)? 关于定义取决于定义者的观点和背景,各人的说法不一 . Friedman, J. H.在技术报告Data Mining and Statistics: Whats The Connection? 中总结出了多家关于数据挖掘的定义 (也有对知识发现而言的 ): Fayyad提出数据挖掘是一个确定数据中有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程 . 2015/8/4 Zekulin的说法是数据挖掘是一个从大型数据库中提取以前未知的、可理解的、可执行的信息,并用它来进行关键的商业决策的过程 . Ferruzza给出数据挖掘是用在知识发现过程,来辩识存在于数据中的未知关系和模式的一些方法 . Jonn提到数据挖掘是发现数据中有益模式的过程 . Parsaye定义数据挖掘是我们为那些未知的信息模式而研究大型数据集的一个决策支持过程 . 这些表达方式虽然不同,但从各自的角度描述出了对数据挖掘的理解 .这里我们主要从技术和商业的角度给出数据挖掘的定义 . 2015/8/4 1、 数据挖掘的技术定义 从技术角度,数据挖掘 (Data Mining)就是从 大量的、不完全的、有噪声的、模糊的、随机的数据中, 提取 隐含在其中的、人们事先不知道的、但又是潜在有用的 信息和知识的过程 . 它是涉及 机器学习、模式识别、统计学、人工智能、数据库管理及数据可视化等 学科的边缘学科 . 2015/8/4 这个定义包括好几层含义 : 数据源必须是真实的、大量的、含噪声的; 发现的是用户感兴趣的知识; 发现的知识要可接受、可理解、可运用; 这些知识是相对的,是有特定前提和约束条件的,在特定领域中具有实际应用价值 . 2015/8/4 什么是知识呢 ? 从广义上理解,数据、信息是知识的表现形式,但是人们更把 概念、规则、模式、规律和约束等看作知识 . 人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样 . 发现知识的方法可以是 数学的, 也可以 是非数学的; 可以是 演绎的, 也可以是 归纳的 . 发现的知识可以被用于信息管理、查询优化、决策支持和过程控制等,还可以用于数据自身的维护 . 2015/8/4 2、数据挖掘的商业定义 从商业应用角度看,数据挖掘是一种新的商业信息处理技术。 其主要特点是对商业数据库中的大量业务数据进行 抽取、转换、分析和其他模型化处理, 从中提取辅助商业决策的关键性知识,即从一个数据库中自动发现相关商业模式。 2015/8/4 数据挖掘也可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,且进一步将其模型化的数据处理方法 . 2015/8/4 二、数据挖掘与知识发现 ( DM & KDD) 1、 知识发现 (Knowledge Discovery in Database)过程 知识发现过程可以粗略的理解为三部曲: 数据准备 (data preparation) 数据挖掘 (data mining) 结果的解释评估 (interpretation and evaluation) 2015/8/4 知识发现过程示意图 2015/8/4 数据准备 又可分为三个子步骤 : 数据选取、数据预处理和数据变换 . 数据选取 的目的是确定发现任务的操作对象,即目标数据 . 数据预处理 一般可能包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等 . 数据变换 的主要目的是消减数据维数或降维,即从初始特征中找出真正有用的特征以减少数据开采时要考虑的特征或变量数 . 2015/8/4 数据挖掘阶段 主要是确定开采的任务,如 数据总结、分类、聚类、关联规则发现或序列模式发现等 . 2015/8/4 结果解释和评价 主要是数据挖掘阶段发现出的模式, 经过用户和机器的评价, 可能存在冗余或无关的模式,这时需要将其剔除。如果有的模式不满足用户要求,需要将整个发现过程退回到发现阶段之前。 最终结果是要面向用户, 有时要对发现的模式进行可视化,或着将结果转化为用户易懂的另一种形式 . 2015/8/4 2、数据挖掘的地位 KDD是一种知识发现的一连串程序,数据挖掘只是KDD的一个重要程序 . 数据挖掘主要是利用某些特定的知识发现算法,在一定的运算效率的限制内,从数据中发现有关的知识,即隐藏的模式 . 数据挖掘是 KDD中最重要的一步,在 KDD的全过程中起到了至关重要的作用 . 因此,人们往往不加区别地使用数据挖掘和 KDD. 2015/8/4 三、海量数据分析中遇到的问题 2015/8/4 Given 7 2 5 8 11 1 6 What is the mean? What is the median? What is the first quartile? What is the third quartile? Introductory Statistics 2015/8/4 7143.5740761118527xMean Put in order 1 2 5 6 7 8 11 Q1 Median Q3 2015/8/4 Given x1, x2, x3, , xn What is the mean? What is the median? What is the first quartile? What is the third quartile? 2015/8/4 nxnx. . . . .xxx n 21Mean Put in order x(1) x(2) x( ) x(n-1) x(n) Median 2n2015/8/4 Given x1, x2, x3, , xn where n=300,000,000. What is the mean? What is the median? What is the first quartile? What is the third quartile? 2015/8/4 四、 数据准备 (一) 数据选择 (二) 数据预处理 (三) 数据变换 2015/8/4 1、原始数据的表述 数据样本是数据挖掘过程的基本组成部分 (一)数据选择 2015/8/4 每个样本都用几个特征来描述,每个特征有不同类型的值。 常见的类型有: 数值型和分类型 。 数值型包括 实型变量和整型变量 注: 具有数值型值的特征有两个重要的属性:其值有顺序关系和距离关系 。 2015/8/4 分类型变量的两个值可以相等或不等。 一个有两个值的分类型变量原则上可以转化成一个二进制的数值型变量,这种数值型变量有两个值: 0或 1; 而有 N值的分类型变量原则上可以转化成一个二进制的数值型变量,这种数值型变量有 N个值。 2015/8/4 例如 :如果变量 “ 眼睛颜色 ” 有 4个值:黑色、蓝色、绿色、褐色。 特征值 编码 黑色 1000 蓝色 0100 绿色 0010 褐色 0001 2015/8/4 2、数据分类 一种基于变量值的数据分类方法就是定性 (qualitative)和定量 (quantitative).定性数据也可以看作是离散型数据,是用描述性术语来区分值 .例如,性别通常分为男性 (M)和女性 (F).有一种特殊的定性数据就是周期型数据,例如星期、月或年中的日期 . 2015/8/4 定量型也叫连续型或度量型, 是以数字值为特征,用于开发预测 .如果建立了优先规则,定性型数据也可以转换成定量型数据 .如,性别就可以规定性别值为 1和 2, 1表示 “ M”或男性, 2表示 “ F”或女性 . 2015/8/4 定量型共有四种 1)标称数据 (nominal data). 表示类别或属性的数值数据, 如表示性别的数字值 .表示性别的数字值 (1或 2)就是标称数据值 .标称数据的一个重要特性是它没有相关重要性 .如,即使男性 =1,女性 =2,也不意味着女性的值是男性的 2倍或更高 .对于建模来说,只有两个值的标称变量应编码为0和 1. 2015/8/4 2)序数数据 (ordinal data). 序数数据是表示有相对重要性的类别的数值数据,可用于给强度、重要性分等级 .例如,用 1-5表示用户对某产品的质量评价,分别表示很差、较差、中等、较好、很好 . 2015/8/4 3)间隔数据 (interval data). 间隔数据是有相对重要性,没有 0点的数值数据 .对它而言,加、减是有意义的操作 .例如,可以用更详细的数字来分析产品质量的好坏,可以用 0-100之间的数字具体分析产品之间的差距 . 2015/8/4 4)连续数据 (continuous data). 连续数据是开发预测模型时最常用的数据,适用于所有基本的算术运算,包括加、减、乘、除 .大多数业务数据如销售额、余款、差额等都是连续数据 . 2015/8/4 另一种数据分类维度是基于数据与时间有关的行为特性 .我们把那些不随时间的变化而变化的数据称为 静态数据 .而另一部分随时间变化而变化的属性值,我们称之为 动态数据或时间数据 .在大多数的数据挖掘算法中都使用的静态数据,若要使用动态数据,则需要进行特殊的考虑和预处理 . 这方面的内容将在后面介绍 . 2015/8/4 (二)数据预处理 1、噪声数据的处理 噪声 (noise)是一个被测变量中的随机误差或偏差 .下面我们将要讨论给定一个数值型属性,要如何平滑数据去除噪声的方法 . 1)数据的平整 一个数值型的特征 y可能包括许多不同的值,这些数据之间的小小差异也许并不重要,但是却有可能影响到挖掘方法的性能甚至最终结果 .实际上我们也可以把这些数据之间的差异看成是同一数值的随机变差,因此有时对这些数据进行平整处理还是很重要的 . 2015/8/4 2015/8/4 有些情况下的平整算法比较复杂,这将在以后的章节详细讨论 .减少不同的数值数目意味着同时减少了数据空间的维度,这对数据挖掘的方法十分有利 .这样的平整方法可用于将连续型特征分解成一系列离散二元 “ 真假 ” 值的特征 . 2015/8/4 2) Bin方法 . Bin方法也就是分箱方法,是通过利用相应被平滑数据点的 “ 邻居 ” (即周围的值 ),对一组排序数据进行平滑 .排序成的这些数据被分配到一些 “ 桶 ” 或箱中 .由于 Bin方法考察的是相邻的值, 因此它进行局部平滑 . 2015/8/4 下面给出了一些 Bin的方法技术 2015/8/4 2015/8/4 2015/8/4 3)聚类方法 . 通过聚类分析可以检测到异常数据,也就是孤立点 .聚类将相似或相邻近的数据聚合到一起形成了各个聚类集合 .直观地看,落在聚类集合之外的值就被认为是孤立点 .孤立点之值作为噪声处理,将其删除,试用 “ 聚类 ”中心值代替 .有关聚类分析的思想和方法将在第五章中详细讨论 . 2015/8/4 4)计算机与人工检查结合 . 这也是一种识别孤立点的方法 .例如 :在实际应用中,使用信息理论度量可以帮助识别手写符号库中的异常模式 .度量值反映要判断的字符与已知的符号要相比的 “ 差异 ” 程度 .孤立点模式可能是提供有用的信息 (识别有用的数据异常 ),也可能是错误的信息 .将所识别出的孤立点输出到一个列表中,然后使用人工对这一列表中的孤立点进行检查,识别出真正的垃圾,这种人机结合的方法要比单单使用人工来搜索整个数据库快得多了 .在其后的数据挖掘中,这些垃圾模式将由数据库中清除掉 . 2015/8/4 5)回归分析法 可以通过回归关系,根据大量统计数据,找出变量之间在数量变化方面的统计规律,从而消除变量之间的随机关系,以达到拟合函数对数据平滑的目的 .例如可以借助线性回归 (linear regression),拟合一个变量与其他多个变量之间的关系,这样就可以用这一关系以一组变量值来帮助预测另一个变量 .通过回归分析可以消除随机因素,除去噪声 . 2015/8/4 6)样条方法 样条方法是以适当控制通过一组给定的数据点的曲线 .B样条 (Basic splines)在样版权法的理论和应用研究中起着很基本的作用 .局部性质是 B样条曲线最重要的性质之一,在部分参数区域上的一点到多与 k+1个控制顶点有关,与其他的无关,因此改变这部分的控制顶点至多影响到这部分的曲线,其余不会受到影响 .它在每曲线段内部是无限次可微,并且随着次数 k的升高,曲线会越来越光滑 .通过用 B样条去拟合数据,可以经过调整增加曲线的光滑度去除噪声 . 2015/8/4 2、异常的分析 2015/8/4 2015/8/4 2)距离检测法 例如: 数据集为: S=S1,S2,S3,S4,S5,S6,S7 =(2,4),(3,2),(1,1),(4,3),(1,6),(5,3),(4,2) 欧氏距离 d=(X1-X2)2+(Y1-Y2)21/2 取阈值距离为 d=3 2015/8/4 2015/8/4 根据所用程序的结果和所给的阈值, 可选择 S3和 S5作为异常点。 2015/8/4 2015/8/4 3、缺失数据 2015/8/4 2015/8/4 2015/8/4 2015/8/4 2015/8/4 我们看一个替代的例子 注 1:缺点是替代值并不是正确值,会引起数据的偏差。 注 2:假设这些丢失值对最终的数据挖掘结果没有任何影响,我们可以将一个丢失值的样本扩展成为一组人工样本(会引起样本的组合爆炸)。 例如 :如果一个三维样本被假定为 ,其中第二个特征值丢失,这样在特征定义 内产生 5个人工样本: 31 ?X43210341,331,321,311,301 14321 XXXXX2015/8/4 (三)数据变换 1、 标准化 一些数据挖掘方法,需要对数据进行标准化以获得最佳的效果。 1)小数缩放 小数缩放移动小数点,但是要仍然保持原始数据的特征。典型的缩放是保持数值在 -1和 1范围内。可以用格式描述 kii XX 10/2015/8/4 2)最小 -最大标准化 最小 -最大标准化的格式: 注:这种转换可能会导致标准化值无意识的集中。 )m i n ()m ax ()m i n (iiiii XXXXX2015/8/4 3)标准差标准化 标准差标准化的格式是 其中: 是均值; 是标准差 SXXX iiX S2015/8/4 2、高维度问题 大多数数据挖掘问题的出现是因为有大量的样本具有不同类型的特征。此外,这些样本往往是高维度的,这就意味着它们有相当大数目的可测量特征。 大型数据集中这种高维现象会产生 “ 高维祸根 ” (维数灾),这种现象可以用高维空间几何学来解释,这是数据挖掘问题的典型。 2015/8/4 注意: 数据集的大小随维数呈指数增长,这个数据集在一个 n维空间中生成数据点的 相同密度 例如: n个数据点的一维样本,其密度令人满意的,那么,要在 k维空间中获得同样的密度,需要 nk 个数据点。 注意: 几乎每一个点都是异常点 高维空间的物体比低维空间的物体拥有更大的面积。 2015/8/4 3、差值和比率 设数值型变量 的数值为 , 其差值转换为 ;比率转换为 。 X niXi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论