




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2021-5-6 数据分析的新思维数据分析的新思维 数据挖掘数据挖掘中的数据准备中的数据准备 朱建平朱建平 厦门大学经济学院计划统计系厦门大学经济学院计划统计系 2021-5-6 报告内容及目的 让大家了解数据挖掘的概念,认识海量 数据分析中所遇到的问题,在此基础上,介 绍原始大型数据库的基本表述和特征,了解 数据准备的不同技术,比较去除丢失值的不 同方法,构造时间相关数据的统一表述方法, 实现一些数据预处理技术。其目的是让大家 从中领悟现代统计方法的基本思想。 2021-5-6 参考文献 1.cios, k. j., pedrycz, w. and swiniarski, r. w. (19
2、98), data mining methods for knowledge discovery, u.s.a 2.friedman, j. h., data mining and statistics: whats the connection? technical report, stanford university 3.glymour, c., etc. statistical themes and lessons for data mining, data mining and knowledge discovery 1, 11-28 (1997) 4.han, j . w. and
3、 kamber, m. data mining: concepts and techniques ,higher education press, (2001) 5.theresa, b., frederick, e. p. and gurdial, a., information-theoretic measures of uncertainty for rough sets and rough relational databases, journal of information sciences 109(1998), pp185-195 6.nelson , d. e., high r
4、ange resolution radar target classification: a rough set approach,paper of phd 2021-5-6 n张尧庭,谢邦昌,朱世武,数据采掘入门及应用从统计技术看数据采掘, 中国统计出版社,北京,(2001.6) n史忠植著,知识发现,清华大学出版社,北京,(2002.1) n数据挖掘讨论组,数据挖掘的研究历史和现状, http:/ n闪四清等译(mehmed kantardzic),数据挖掘概念、模型、方法和算法, 清华大学出版社,(2003.8) n张银奎等译(hand, d),数据挖掘原理,机械工业出版社,(2003.
5、4) n范明等译(hastie, j ),统计学习基础数据挖掘、推理与预测,电子工 业出版社,(2004.1) n朱建平,数据挖掘中的统计方法及实践,中国统计出版社(2006.10) 2021-5-6 现代现代统计分析中的数据准备统计分析中的数据准备 一、数据挖掘的定义 二、数据挖掘与知识发现 三、海量数据分析中遇到的问题 四、数据准备 1、数据选择 2、数据预处理 3、数据变换 2021-5-6 一、数据挖掘的技术定义与商业定义 n什么是数据挖掘(data mining)? 关于定义取决于定义者的观点和背景,各 人的说法不一. friedman, j. h.在技术报告 data mining
6、 and statistics: whats the connection? 中总结出了多家关于数据挖掘的 定义(也有对知识发现而言的): nfayyad提出数据挖掘是一个确定数据中有效的、 新颖的、潜在有用的,以及最终可理解的模式 的非平凡过程. 2021-5-6 nzekulin的说法是数据挖掘是一个从大型数据库中提取 以前未知的、可理解的、可执行的信息,并用它来进 行关键的商业决策的过程. nferruzza给出数据挖掘是用在知识发现过程,来辩识 存在于数据中的未知关系和模式的一些方法. njonn提到数据挖掘是发现数据中有益模式的过程. nparsaye定义数据挖掘是我们为那些未知的信
7、息模式而 研究大型数据集的一个决策支持过程. n这些表达方式虽然不同,但从各自的角度描述出了对 数据挖掘的理解.这里我们主要从技术和商业的角度给 出数据挖掘的定义. 2021-5-6 1 1、 数据挖掘的技术定义数据挖掘的技术定义 n从技术角度,数据挖掘(data mining)就是从大 量的、不完全的、有噪声的、模糊的、随机的数 据中,提取隐含在其中的、人们事先不知道的、 但又是潜在有用的信息和知识的过程. n它是涉及机器学习、模式识别、统计学、人工智 能、数据库管理及数据可视化等学科的边缘学科. 2021-5-6 这个定义包括好几层含义: n数据源必须是真实的、大量的、含噪声的;数据源必须
8、是真实的、大量的、含噪声的; n发现的是用户感兴趣的知识;发现的是用户感兴趣的知识; n发现的知识要可接受、可理解、可运用;发现的知识要可接受、可理解、可运用; n这些知识是相对的,是有特定前提和约束条件的,在特这些知识是相对的,是有特定前提和约束条件的,在特 定领域中具有实际应用价值定领域中具有实际应用价值. 2021-5-6 什么是知识呢什么是知识呢? ? n从广义上理解,数据、信息是知识的表现形式, 但是人们更把概念、规则、模式、规律和约束等 看作知识. n人们把数据看作是形成知识的源泉,好像从矿石 中采矿或淘金一样. n发现知识的方法可以是数学的,也可以是非数学 的;可以是演绎的,也可
9、以是归纳的. 发现的知识 可以被用于信息管理、查询优化、决策支持和过 程控制等,还可以用于数据自身的维护. 2021-5-6 2 2、数据挖掘的商业定义、数据挖掘的商业定义 从商业应用角度看,数据挖掘是一种新的商业 信息处理技术。 其主要特点是对商业数据库中的大量业务数据进 行抽取、转换、分析和其他模型化处理,从中提取 辅助商业决策的关键性知识,即从一个数据库中自 动发现相关商业模式。 2021-5-6 数据挖掘也可以描述为:按企业既 定业务目标,对大量的企业数据进行探 索和分析,揭示隐藏的、未知的或验证 已知的规律性,且进一步将其模型化的 数据处理方法. 2021-5-6 二、数据挖掘与知识
10、发现 (dm & kdd) 1 1、 知识发现知识发现(knowledge discovery in database)过程过程 知识发现过程可以粗略的理解为三部曲: 数据准备(data preparation) 数据挖掘(data mining) 结果的解释评估(interpretation and evaluation) 2021-5-6 知识发现过程示意图 2021-5-6 n数据准备又可分为三个子步骤:数据选取、数据预 处理和数据变换. n 数据选取的目的是确定发现任务的操作对象,即 目标数据. n 数据预处理一般可能包括消除噪声、推导计算缺 值数据、消除重复记录、完成数据类型转换等.
11、 n 数据变换的主要目的是消减数据维数或降维,即 从初始特征中找出真正有用的特征以减少数据开采 时要考虑的特征或变量数. 2021-5-6 n 数据挖掘阶段主要是确定开采的 任务,如数据总结、分类、聚类、 关联规则发现或序列模式发现等. 2021-5-6 n结果解释和评价主要是数据挖掘阶段发现出 的模式,经过用户和机器的评价,可能存在 冗余或无关的模式,这时需要将其剔除。如 果有的模式不满足用户要求,需要将整个发 现过程退回到发现阶段之前。 n最终结果是要面向用户,有时要对发现的模 式进行可视化,或着将结果转化为用户易懂 的另一种形式. 2021-5-6 2 2、数据挖掘的地位、数据挖掘的地位
12、 kdd是一种知识发现的一连串程序,数据挖掘只是 kdd的一个重要程序 . 数据挖掘主要是利用某些特定的 知识发现算法,在一定的运算效率的限制内,从数据中 发现有关的知识,即隐藏的模式. 数据挖掘是kdd中最 重要的一步,在kdd的全过程中起到了至关重要的作用. 因此,人们往往不加区别地使用数据挖掘和kdd. 2021-5-6 三、海量数据分析中遇到的问题三、海量数据分析中遇到的问题 2021-5-6 given 7 2 5 8 11 1 6 nwhat is the mean? nwhat is the median? nwhat is the first quartile? nwhat i
13、s the third quartile? introductory statistics 2021-5-6 7143. 5 7 40 7 61118527 x mean put in order 1 2 5 6 7 8 11 q1 median q3 2021-5-6 given x1, x2, x3, , xn nwhat is the mean? nwhat is the median? nwhat is the first quartile? nwhat is the third quartile? 2021-5-6 n x n x.xx x n 21 mean put in orde
14、r x(1) x(2) x( ) x(n-1) x(n) median 2 n 2021-5-6 given x1, x2, x3, , xn nwhere n=300,000,000. nwhat is the mean? nwhat is the median? nwhat is the first quartile? nwhat is the third quartile? 2021-5-6 四、四、数据准备数据准备 (一) 数据选择 (二) 数据预处理 (三) 数据变换 2021-5-6 1、原始数据的表述 数据样本是数据挖掘过程的基本组成部分 (一)数据选择 2021-5-6 n每个
15、样本都用几个特征来描述,每个特征有不 同类型的值。 n常见的类型有:数值型和分类型。 n数值型包括实型变量和整型变量 n注:具有数值型值的特征有两个重要的属性: 其值有顺序关系和距离关系。 2021-5-6 n分类型变量的两个值可以相等或不等。 n一个有两个值的分类型变量原则上可以转化 成一个二进制的数值型变量,这种数值型变 量有两个值:0或1;而有n值的分类型变量 原则上可以转化成一个二进制的数值型变量, 这种数值型变量有n个值。 2021-5-6 例如:如果变量“眼睛颜色”有4个值: 黑色、蓝色、绿色、褐色。 特征值 编码 黑色 1000 蓝色 0100 绿色 0010 褐色 0001 2
16、021-5-6 2、数据分类 一种基于变量值的数据分类方法就是定 性(qualitative)和定量(quantitative).定性数据也定性数据也 可以看作是离散型数据,是用描述性术语来区可以看作是离散型数据,是用描述性术语来区 分值分值. .例如,性别通常分为男性(m)和女性(f).有 一种特殊的定性数据就是周期型数据,例如星 期、月或年中的日期. 2021-5-6 定量型也叫连续型或度量型,是以 数字值为特征,用于开发预测.如果建 立了优先规则,定性型数据也可以转换 成定量型数据.如,性别就可以规定性 别值为1和2,1表示“m”或男性,2表 示“f”或女性. 2021-5-6 定量型共
17、有四种 1)标称数据(nominal data). 表示类别或属性的数值数据,如表示性 别的数字值.表示性别的数字值(1或2)就是标 称数据值.标称数据的一个重要特性是它没有 相关重要性.如,即使男性=1,女性=2,也 不意味着女性的值是男性的2倍或更高.对于 建模来说,只有两个值的标称变量应编码为 0和1. 2021-5-6 2)序数数据(ordinal data). 序数数据是表示有相对重要性的类 别的数值数据,可用于给强度、重要 性分等级.例如,用1-5表示用户对某产 品的质量评价,分别表示很差、较差、 中等、较好、很好. 2021-5-6 n3)间隔数据(interval data).
18、 n 间隔数据是有相对重要性,没有0点的数 值数据.对它而言,加、减是有意义的操作. 例如,可以用更详细的数字来分析产品质量 的好坏,可以用0-100之间的数字具体分析 产品之间的差距. 2021-5-6 n4)连续数据(continuous data). 连续数据是开发预测模型时最常用 的数据,适用于所有基本的算术运算, 包括加、减、乘、除.大多数业务数据如 销售额、余款、差额等都是连续数据. 2021-5-6 另一种数据分类维度是基于数据与时间有关 的行为特性.我们把那些不随时间的变化而变化的 数据称为静态数据.而另一部分随时间变化而变化 的属性值,我们称之为动态数据或时间数据.在大 多数
19、的数据挖掘算法中都使用的静态数据,若要 使用动态数据,则需要进行特殊的考虑和预处理. 这方面的内容将在后面介绍. 2021-5-6 (二)数据预处理 1、噪声数据的处理 噪声(noise)是一个被测变量中的随机误差或偏差.下面我 们将要讨论给定一个数值型属性,要如何平滑数据去除噪声的 方法. 1)数据的平整 一个数值型的特征y可能包括许多不同的值,这些数据之间 的小小差异也许并不重要,但是却有可能影响到挖掘方法的性 能甚至最终结果.实际上我们也可以把这些数据之间的差异看 成是同一数值的随机变差,因此有时对这些数据进行平整处理 还是很重要的. 2021-5-6 2021-5-6 有些情况下的平整
20、算法比较复杂,这将 在以后的章节详细讨论.减少不同的数值数 目意味着同时减少了数据空间的维度,这 对数据挖掘的方法十分有利.这样的平整方 法可用于将连续型特征分解成一系列离散 二元“真假”值的特征. 2021-5-6 2)bin方法. bin方法也就是分箱方法,是通过利用 相应被平滑数据点的“邻居”(即周围的 值),对一组排序数据进行平滑.排序成 的这些数据被分配到一些“桶”或箱中. 由于bin方法考察的是相邻的值,因此它 进行局部平滑. 2021-5-6 下面给出了一些bin的方法技术 2021-5-6 2021-5-6 2021-5-6 3)聚类方法. 通过聚类分析可以检测到异常数据,也就
21、 是孤立点.聚类将相似或相邻近的数据聚合到 一起形成了各个聚类集合.直观地看,落在聚 类集合之外的值就被认为是孤立点.孤立点之 值作为噪声处理,将其删除,试用“聚类” 中心值代替.有关聚类分析的思想和方法将在 第五章中详细讨论. 2021-5-6 4)计算机与人工检查结合. 这也是一种识别孤立点的方法.例如:在实际 应用中,使用信息理论度量可以帮助识别手写符 号库中的异常模式.度量值反映要判断的字符与 已知的符号要相比的“差异”程度.孤立点模式 可能是提供有用的信息(识别有用的数据异常), 也可能是错误的信息.将所识别出的孤立点输出 到一个列表中,然后使用人工对这一列表中的孤 立点进行检查,识
22、别出真正的垃圾,这种人机结 合的方法要比单单使用人工来搜索整个数据库快 得多了.在其后的数据挖掘中,这些垃圾模式将 由数据库中清除掉. 2021-5-6 5)回归分析法 可以通过回归关系,根据大量统计数据, 找出变量之间在数量变化方面的统计规律, 从而消除变量之间的随机关系,以达到拟合 函数对数据平滑的目的.例如可以借助线性 回归(linear regression),拟合一个变量与其 他多个变量之间的关系,这样就可以用这一 关系以一组变量值来帮助预测另一个变量. 通过回归分析可以消除随机因素,除去噪声. 2021-5-6 6)样条方法 样条方法是以适当控制通过一组给定的数据点的曲 线.b样条
23、(basic splines)在样版权法的理论和应用研究中 起着很基本的作用.局部性质是b样条曲线最重要的性质 之一,在部分参数区域上的一点到多与k+1个控制顶点有 关,与其他的无关,因此改变这部分的控制顶点至多影 响到这部分的曲线,其余不会受到影响.它在每曲线段内 部是无限次可微,并且随着次数k的升高,曲线会越来越 光滑.通过用b样条去拟合数据,可以经过调整增加曲线 的光滑度去除噪声. 2021-5-6 2、异常的分析 2021-5-6 2021-5-6 2)距离检测法 例如:数据集为: s=s1,s2,s3,s4,s5,s6,s7 =(2,4),(3,2),(1,1),(4,3),(1,6
24、),(5,3),(4,2) 欧氏距离 d=(x1-x2)2+(y1-y2)21/2 取阈值距离为 d=3 2021-5-6 2021-5-6 根据所用程序的结果和所给的阈值, 可选择s3和s5作为异常点。 2021-5-6 2021-5-6 3 3、缺失数据、缺失数据 2021-5-6 2021-5-6 2021-5-6 2021-5-6 2021-5-6 我们看一个替代的例子 n 注 1:缺点是替代值并不是正确值,会引起数据 的偏差。 n 注 2:假设这些丢失值对最终的数据挖掘结果没 有任何影响,我们可以将一个丢失值的样本扩展成为 一组人工样本(会引起样本的组合爆炸)。 例如:如果一个三维样
25、本被假定为 ,其 中第二个特征值丢失,这样在特征定义 内产生5个人工样本: 31?x 43210 341,331,321,311,301 14321 xxxxx 2021-5-6 (三)数据变换 1、 标准化 一些数据挖掘方法,需要对数据进行标准化以 获得最佳的效果。 1)小数缩放 小数缩放移动小数点,但是要仍然保持原始 数据的特征。典型的缩放是保持数值在-1和1 范围内。可以用格式描述 k ii xx10/ 2021-5-6 2)最小-最大标准化 最小-最大标准化的格式: 注:这种转换可能会导致标准化值无意识的集中。 )min()max( )min( ii ii i xx xx x 2021
26、-5-6 3)标准差标准化 标准差标准化的格式是 其中: 是均值; 是标准差 s xx x i i xs 2021-5-6 2、高维度问题 n大多数数据挖掘问题的出现是因为有大量的 样本具有不同类型的特征。此外,这些样本 往往是高维度的,这就意味着它们有相当大 数目的可测量特征。 n大型数据集中这种高维现象会产生“高维祸 根”(维数灾),这种现象可以用高维空间 几何学来解释,这是数据挖掘问题的典型。 2021-5-6 注意:数据集的大小随维数呈指数 增长,这个数据集在一个n维空间中生成 数据点的相同密度 例如:n个数据点的一维样本,其密 度令人满意的,那么,要在k维空间中获 得同样的密度,需要nk 个数据点。 注意:几乎每一个点都是异常点 高维空间的物体比低维空间的物体拥有更大高维空间的物体比低维空间的物体拥有更大 的面积。的面积。 2021-5-6 3、差值和比率 设数值型变量 的数值为 , 其差
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 显卡故障诊断与维修技巧考核试卷
- 发电机组在农业烘干与农产品加工的电力需求考核试卷
- 精加工智能制造技术应用考核试卷
- 橡胶制品的供应链管理与合作伙伴选择策略研究考核试卷
- 搪瓷卫生洁具的行业标准化建设考核试卷
- 司马迁的‘大数据思维’:《史记》如何成为历史数据整合的典范
- 汉代公务员体系解析:《汉官六种》的史料价值与研究
- 2025厦门房屋私人租赁合同
- 2025店面转让合同协议范本
- 2025新劳动合同法实施满月 企业临时工将面临何种挑战
- 山东青岛平度市人社局招考聘用劳务派遣制就业人才综合柜员11人冲刺卷(3套)答案详解㈠
- 《跨境电子商务》教案
- 阿里腿部力量三板斧完整课件
- 废品入库单模板
- 2023年版-肿瘤内科临床路径
- 婚育情况登记表
- word精美小升初简历欧式模板
- 复旦大学附属眼耳鼻喉医院耳鼻喉进修汇报
- 岩芯鉴定手册
- 快速排序算法高校试讲PPT
- 甘肃历史与甘肃文化
评论
0/150
提交评论