




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第六讲 数据预处理 韩 璐 数据预处理的必要性 数据预处理是整个数据挖掘与知识发现过 程中的一个重要步骤。 不完整、含噪声的和不一致的数据是现实 世界大型数据库或数据仓库的共同特点。 数据的预处理能有效的提高数据质量,节 约大量的时间和空间。 一些比较成熟的算法对其处理的数据集合 一般有一定的要求。 数据预处理的常规方法 1.数据清洗 去掉噪声和无关数据 2.数据集成 将多个数据源中的数据结合起来存放在一个一致的数 据存储中 3.数据变换 把原始数据转换成为适合数据挖掘的形式 4.数据归约 主要方法包括:数据立方体聚集,维归约,数据压缩, 数值归约,离散化和概念分层等 数据预处理 数据集成数据
2、集成 2 2 数据清洗数据清洗3 3 1 1 数据变换数据变换 3 3 3 3 数据归约数据归约 4 4 数据清洗处理空缺值 数据并不总是完整的 在分析一个商场销售数据时,发现有多个记录中的属性值为 空,如:顾客的收入属性对于为空的属性值 引起空缺值的原因 设备异常 与其他已有数据不一致而被删除 因为误解而没有被输入的数据 在输入时,有些数据应为得不到重视而没有被输入 数据清洗处理空缺值 空缺值要经过推断而补上 1.忽略该记录 2.去掉属性 3.手工填写空缺值 4.使用默认值 5.使用属性平均值 6.使用同类样本平均值 7.预测最可能的值 噪声数据的处理分箱 分箱:把待处理的数据按照一定的规则
3、放进一 些箱子中,考察每一个箱子中的数据,采用某 种方法分别对各个箱子中的数据进行处理。 箱子:按照属性值划分的子区间,如果一个属 性值处于某个子区间范围内,就称把该属性值 放进这个子区间代表的“箱子”里。 分箱技术需要确定的主要问题: 分箱方法,即如何分箱 数据平滑方法,即如何对每个箱子中的数据进行平 滑处理 噪声数据的处理分箱 分箱的方法:分箱前对记录集按目标属性值的大 小进行排序。 等深分箱法 等宽分箱法 用户自定义区间 最小熵 例:客户收入属性income排序后的值(人民币 元):800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000
4、 3500 4000 4500 4800 5000 噪声数据的处理分箱 等深分箱法(统一权重 ) 按记录行数分箱,每箱具有相同的记录数,每 箱记录数称为箱的权重,也称箱子的深度。 设定权重(箱子深度)为4,上述例子分箱 后的结果如下。 箱1:800 1000 1200 1500 箱2:1500 1800 2000 2300 箱3:2500 2800 3000 3500 箱4:4000 4500 4800 5000 噪声数据的处理分箱 等宽分箱法(统一区间) 在整个属性值的区间上平均分布,即每个箱的 区间范围是一个常量,称为箱子宽度。 设定区间范围(箱子宽度)为1000元人民 币,分箱后 箱1:
5、800 1000 1200 1500 1500 1800 箱2:2000 2300 2500 2800 3000 箱3:3500 4000 4500 箱4:4800 5000 噪声数据的处理分箱 最小熵 使在各区间分组内的记录具有最小的熵。 信息是信号、符号或消息所表示的内容, 用以消除对客观事物认识的不确定性 信息量的直观定义:信息量的大小取决于 信息内容消除人们认识的“ 所消除的不确定程度越大,则所包含的信 息量就越大。 熵信息的度量(利用概率来度量) A到1000人的学校去找B。传达室人告诉他,“B是信息管理系”,而管理 系有100人。他获得的信息是100/10000.1,也就是将可能性
6、空间缩小 到原来的1/10. 又有人告诉他:B在信息管理与信息系统教研室(10人),则第2个信息 的确定性又缩小到原来的100/1000*10/100=10/1000,也就是将可能性的 空间缩短到原来的1100. 熵信息的度量 信息量大小的单位用比特来衡量。1比特的信息量是指含 有两个独立均等概率状态的事件所具有的不确定性能被全 部消除所需要的信息。 信息量:H(x)=-H(x)=- P(Xi)log P(Xi)log2 2P(Xi) P(Xi) i i=1,2,3,=1,2,3,n ,n 其中Xi表示第i个状态(共n个状态); P(Xi)代表出现第i个状态时的概率; H(x)为消除不确定性所
7、需的信息量,单位为比特(bit)。 例如:币下落可能有正反两种状态,出现这两种状态的概 率都是1/2,即:则, H(x)=-P(X1)log2P(X1)+P(X2)log2P(X2)=-(-0.5-0.5) =1比特。 同理可得,投掷均匀正六面体骰子的H(X)2.6比特。 噪声数据的处理分箱 用户自定义区间 用户根据需要自定义区间。 用户自定义:如将客户收入划分为1000元以下、 10002000、20003000、30004000和4000元以上 几组,分箱后 箱1:800 箱2:1000 1200 1500 1500 1800 2000 箱3:2300 2500 2800 3000 箱4:
8、3500 4000 箱5:4500 4800 5000 噪声数据的处理聚类 簇:一组数据对象集合。同一簇内的所有对象具 有相似性,不同簇间对象具有较大差异性。 聚类:将物理的或抽象对象的集合分组为由不同 簇,找出并清除那些落在簇之外的值(孤立点), 这些孤立点被视为噪声。 通过聚类分析发现异常数据:相似或相邻近的数 据聚合在一起形成了各个聚类集合,而那些位于 这些聚类集合之外的数据对象,自然而然就被认 为是异常数据。 特点:直接形成簇并对簇进行描述,不需要任何 先验知识。 噪声数据的处理聚类 数据预处理 数据集成数据集成 2 2 数据清洗数据清洗3 3 1 1 数据变换数据变换 3 3 3 3
9、 数据归约数据归约 4 4 数据集成 数据集成:将多个数据源中的数据整合到 一个一致的存储中 1.模式匹配模式匹配 2.数据冗余数据冗余 3.数据值冲突数据值冲突 数据集成模式匹配 整合不同数据源中的元数据。 实体识别问题:匹配来自不同数据源的现 实世界的实体,比如: A.cust-id=B.customer_no 。 数据集成数据冗余 同一属性在不同的数据库中会有不同的字 段名。 一个属性可以由另外一个表导出。如:一 个顾客数据表中的平均月收入属性,它可 以根据月收入属性计算出来。 有些冗余可以被相关分析检测到 数据集成数据值冲突 对于一个现实世界实体,其来自不同数据 源的属性值或许不同。
10、产生的原因:表示的差异、比例尺度不同、 或编码的差异等。例如:重量属性在一个 系统中采用公制,而在另一个系统中却采 用英制。同样价格属性不同地点采用不同 货币单位。 数据预处理 数据集成数据集成 2 2 数据清洗数据清洗3 3 1 1 数据变换数据变换 3 3 3 3 数据归约数据归约 4 4 数据变换聚集 对数据进行汇总 avg(), count(), sum(), min(), max() 例如:每天销售额(数据)可以进行合计操作 以获得每月或每年的总额。 可以用来构造数据立方体 数据变换数据概化 用更抽象(更高层次)的概念来取代低层 次或数据层的数据对象 例如:街道属性,就可以泛化到更高
11、层次 的概念,诸如:城市、国家。同样对于数 值型的属性,如年龄属性,就可以映射到 更高层次概念,如:年轻、中年和老年。 数据变换规范化 将数据按比例进行缩放,使之落入一个特 定的区域,以消除数值型属性因大小不一 而造成挖掘结果的偏差。如将工资收入属 性值映射到-1.0,1.0范围内。 方法: (1)最小-最大规范化 (2)零-均值规范化(z-score规范化) (3)小数定标规范化 最小-最大规范化 已知属性的取值范围,将原取值区间 old_min,old_max映射到 new_min,new_max 保留了原来数据中存在的关系。但若将来保留了原来数据中存在的关系。但若将来 遇到超过目前属性遇
12、到超过目前属性old_min,old_max取值取值 范围的数值,将会引起系统出错范围的数值,将会引起系统出错 最小-最大规范化 function R,xmin,xrange = rscore(x,dim) %极差归一化变换 % R = rscore(X) 对X进行极差归一化变换,这里X可以是一个向量、矩阵或高维数组。 % 若X是一个向量,返回变换后结果向量R = (Xmin(X)./range(X);若X是一个矩阵,则用X的每一列的最小值和极差对该 列进行极差归一化变换,返回变换后矩阵R;若X是一个高维数组,则沿X的首个非单一维方向计算最小值和极差,然后对X进行 极差归一化变换,返回变换后高
13、维数组R. 例如X是一个1114的4维数组,由于X的前三维均为单一维,于是计算X的第4 维方向上的最小值和极差,对X进行极差归一化变换,返回的R也是一个1114的4维数组。 % R,xmin,xrange = rscore(X) 还返回X的最小值xmin = min(X)和极差xrange = range(X). % . = rscore(X,dim) 用dim参数指定沿X的哪个维进行极差归一化变换,例如dim = 1,表示对X的各列进行极差归一化 变换;dim = 2,表示对X的各行进行极差归一化变换。 % 请参考zscore, min 和 range 函数的用法. if isequal(x
14、,), z = ; return; end if nargin 2 % Figure out which dimension to work along. dim = find(size(x) = 1, 1); if isempty(dim), dim = 1; end end % Compute Xs min and range, and standardize it xmin = min(x,dim); xrange = range(x,dim); xrange0 = xrange; xrange0(xrange0=0) = 1; R = bsxfun(minus,x, xmin); R
15、= bsxfun(rdivide, R, xrange0); %- % 数据的极差归一化变换 %- % 调用rand函数产生一个10行,4列的随机矩阵,每列服从不同的均匀分布 x = rand(10,1), 5*rand(10,1), 10*rand(10,1), 500*rand(10,1) % 调用rscore函数对x按列进行极差规格化变换, % 返回变换后矩阵R,以及矩阵x各列的最小值构成的向量xmin,各列的极差构成的向量xrange R,xmin,xrange = rscore(x) 零-均值规范化(z-score规范化) 根据属性A的均值和偏差来对A进行规格化, 常用于属性最大值与
16、最小值未知;或使用 最大最小规格化方法时会出现异常数据的 情况。 %- % 数据的标准化变换 %- % 调用rand函数产生一个10行,4列的随机矩阵,每列服从不同的均匀分布 x = rand(10,1), 5*rand(10,1), 10*rand(10,1), 500*rand(10,1) % 调用zscore函数对x进行标准化变换(按列标准化), % 返回变换后矩阵xz,以及矩阵x各列的均值构成的向量mu,各列的标准差构成的向量sigma xz,mu,sigma = zscore(x) mean(xz) % 求标准化后矩阵xz的各列的均值 std(xz) % 求标准化后矩阵xz的各列的标
17、准差 零-均值规范化(z-score规范化) 小数定标规范化 通过移动属性A值的小数位置,将属性A的 值映射到0,1之间,用小数的科学表示 法来达到规格化的目的。 移动的小数位数取决于属性A绝对值的最大 值。 小数定标规范化 数据变换属性构造 利用已有属性集构造出新的属性,并加入 到现有属性集合中以帮助挖掘更深层次的 模式知识,提高挖掘结果准确性。 例如:根据宽、高属性,可以构造一个新 属性:面积。 数据预处理 数据集成数据集成 2 2 数据清洗数据清洗3 3 1 1 数据变换数据变换 3 3 3 3 数据归约数据归约 4 4 数据归约的方法 1.数据立方体聚集数据立方体聚集: 2.维归约维归
18、约 3.数据压缩数据压缩 4.数值归约数值归约 5.离散化和概念分层生成离散化和概念分层生成 数据归约数据立方体聚集 数据立方体基本概念: 数据立方体是数据的多维建模和表示,由 维和事实组成。 维属性 事实数据 数据立方体聚集定义将n维数据立方体 聚集为n-1维的数据立方体。 数据归约数据立方体聚集 2000 2001 2002 2003 天津 河北 江苏 广东 体育厨房家装 文具 年份 商品类型 省份 1042 520 807 1720 412 32 324 75058411702 9973154 21401140 15005004 销售金额 数据归约数据立方体聚集 聚集后的销售数据立方体聚
19、集后的销售数据立方体 2002 年 2001 年 季度 销售额 一季度 224 000 元 二季度 408 000 元 三季度 350 000 元 四季度 586 000 元 2000 年 季度 销售额 一季度 224 000 元 二季度 408 000 元 三季度 350 000 元 四季度 586 000 元 2000 1 568 000 元 2001 2 356 000 元 2002 3 594 000 元 年 销售额 下图数据是某商场20002002年每季度的销售数 据,对这种数据进行聚集,使结果数据汇总每年 的总销售额,而不是每季度的总销售额。 聚集后数据量明显减少,聚集后数据量明显
20、减少, 但没有丢失分析任务所需的信息。但没有丢失分析任务所需的信息。 对年度内的 各季度数据进行 sum(求和)聚集 数据归约数据立方体聚集 数据归约维归约 维归约去掉无关的属性,减少数据挖 掘处理的数据量。 例如:挖掘顾客是否会在商场购买Mp3 播 放机的分类规则时,顾客的电话号码很可 能与挖掘任务无关,应该可以去掉。 目标:寻找出最小的属性子集并确保新数 据子集的概率分布尽可能接近原来数据集 的概率分布。 维归约选择相关属性子集 1.逐步向前选择 从一个空属性集(作为属性子集初始值)开始,每次从原来 属性集合中选择一个当前最优的属性添加到当前属性子集中。 直到无法选择出最优属性为止。 2.
21、逐步向后删除 从一个全属性集(作为属性子集初始值)开始,每次从当前 属性子集中选择一个当前最差的属性并将其从当前属性子集 中消去。直到无法选择出最差属性为止。 3.向前选择和向后删除结合 4.判定树(决策树)归纳 利用决策树的归纳方法对初始数据进行分类归纳学习,获得 一个初始决策树,所有没有出现这个决策树上的属性均认为 是无关属性,因此将这些属性从初始属性集合删除掉,就可 以获得一个较优的属性子集。 数据归约数据压缩 数据压缩用数据编码或者变换,得到 原始数据的压缩表示。 在数据挖掘领域通常使用的两种数据压缩方法 均是有损的: 主成分分析法(PCA) 假定待压缩的数据由N个取自k个维的元组或数
22、据向 量组成。主要成分分析并搜索得到c个最能代表数 据的k维正交向量,这里 ck。这样就可以把原数 据投影到一个较小的空间,实现数据压缩 小波转换 利用分箱方法对数据分布情况进行近似 数值归约直方图(“频率值”对应关系图) 优点:获取样本的时间仅与样本规模成正 比 方法: 不放回简单随机抽样 放回简单随机抽样 聚类抽样:先聚类,再抽样 分层抽样:先分层,再抽样 数值归约抽样(采样) 数据归约离散化与概念分层生成 三种类型的属性值: 名称型e.g. 无序集合中的值 序数e.g. 有序集合中的值 连续值e.g. 实数 离散化技术 以通过将属性(连续取值)域值范围分为若干区间,来帮助消减 一个连续(
23、取值)属性的取值个数。 概念分层 概念分层定义了一组由低层概念集到高层概念集的映射。它允许 在各种抽象级别上处理数据,从而在多个抽象层上发现知识。用 较高层次的概念替换低层次(如年龄的数值)的概念,以此来减 少取值个数。虽然一些细节在数据泛化过程中消失了,但这样所 获得的泛化数据或许会更易于理解、更有意义。在消减后的数据 集上进行数据挖掘显然效率更高。 概念分层结构可以用树来表示,树的每个节点代表一个概念。 数据归约概念分层生成 数据预处理方法的一些改进 对数据预处理方法的分析与思考 数据预处理的每一个步骤都有着多种不同 的方法。 某些不同的处理方法在不同的阶段可分别 使用。 预处理方法中有较多的统计方法。 不同阶段中相同的预处理方法 分箱:可以选用箱均值或箱中位数来平滑 噪声,也可以用做数值归约和概念分层产 生的离散方法。 回归:在数据清理阶段,既可以用来填充 缺失值,又可以平滑噪声,同时在数据归 约阶段还可以实现数值归约。 聚类:在平滑噪声时可以使用这种方法, 聚类分析可以通过离散化数值属性来达到 离散和概念分层,从而实现数值归约。 不同阶段中相同的预处理办法 决策树:可以通过构造
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 波峰焊技术员试题及答案
- ISO 9001(DIS)-2026重大变化之1:“质量文化和道德行为”专题深度专业解读与应用指导材料(雷泽佳编制-2025A0)
- 农业银行2025金融科技岗笔试题及答案安徽地区
- 农业银行2025乐山市秋招笔试英语题专练及答案
- 中国银行2025六盘水市秋招结构化面试经典题及参考答案
- 2025年3D打印技术的骨骼修复技术
- 2025年3D打印技术的材料科学与制造工艺
- 建设银行2025吐鲁番市信息科技岗笔试题及答案
- 辅导员业务知识培训课件
- 农业银行2025黄石市秋招笔试创新题型专练及答案
- 2025年体育组织行业研究报告及未来行业发展趋势预测
- 采购进口生蚝合同协议书
- 2024年永州市工会社会工作者招聘笔试真题
- 推进文旅医养融合发展的策略及实施路径
- 成本分析表-产品成本构成
- 2024年云南航空产业投资集团招聘考试真题
- 2025年山东快递工程专业职称考试(快递设施设备知识·技术员、助理工程师)历年参考题库含答案详解(5卷)
- 蓝莓种植加工一体化发展项目可行性研究报告写作模板-申批备案
- 2025年汽车驾驶员技师资格证书考试及考试题库含答案
- 消防消控室设备管理制度
- 项目现场伙食费管理办法
评论
0/150
提交评论