《数据挖掘原理与应用 第2版 》课件 3.6数据准备-数据变换_第1页
《数据挖掘原理与应用 第2版 》课件 3.6数据准备-数据变换_第2页
《数据挖掘原理与应用 第2版 》课件 3.6数据准备-数据变换_第3页
《数据挖掘原理与应用 第2版 》课件 3.6数据准备-数据变换_第4页
《数据挖掘原理与应用 第2版 》课件 3.6数据准备-数据变换_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3章数据准备数据变换数据变换数据变换是指将数据变换成适合于数据挖掘的形式数据变换的目的从另一个角度、另一个域发现数据的更为显著的特征提升数据处理算法的效率、效果例如,将语音数据变换为频率谱,则更便于分析语音的特征数据变换方法属性变换(变量变换)离散化主成分分析(PCA)因子分析线性判别分析独立成分分析属性变换(变量变换)

目标:使整个值的集合具有特定的性质数据集合中的最小值,映射变换为0,最大值为1,其他数据依序变换属性变换(变量变换)归一化将数据映射变换到[0,1]区间目的便于进行比较便于进行加权处理idCountryCarMPGWeightDrive_RatioHorsepowerDisplacementCylinders0U.S.AMCConcordD/L18.13.412.7312025861U.S.AMCSpirit27.42.673.088012142GermanyAudi500020.32.833.910313153GermanyBMW320i21.52.63.6411012144U.S.BuickCenturySpecial20.63.382.7310523165U.S.BuickEstateWagon16.94.362.7315535086U.S.BuickSkylark28.42.672.539015147U.S.Chevette302.1553.7689848U.S.ChevyCapriceClassic173.842.4113030589U.S.ChevyCitation28.82.5952.69115173610U.S.ChevyMalibuWagon19.23.6052.56125267811U.S.ChryslerLeBaronWagon18.53.942.45150360812JapanDatsun21031.82.023.76585413JapanDatsun51027.22.33.5497119414JapanDatsun810222.8153.797146615U.S.DodgeAspen18.63.622.71110225616JapanDodgeColt35.11.9152.978098417U.S.DodgeOmni30.92.233.3775105418U.S.DodgeStRegis18.23.832.45135318819ItalyFiatStrada37.32.133.16991420U.S.FordCountrySquireWagon15.54.0542.26142351821U.S.FordLTD17.63.7252.26129302822U.S.FordMustang426.52.5853.0888140423U.S.FordMustangGhia21.92.913.08109171624JapanHondaAccordLX29.52.1353.056898425JapanMazdaGLC34.11.9753.736586426U.S.MercuryGrandMarquis16.53.9552.26138351827U.S.MercuryZephyr20.83.073.0885200628U.S.OldsOmega26.82.72.84115173629FrancePeugeot694SL16.23.413.58133163630U.S.PlymouthHorizon34.22.23.3770105431U.S.PontiacPhoenix33.52.5562.6990151432SwedenSaab99GLE21.62.7953.77115121433JapanToyotaCorona27.52.563.0595134434SwedenVolvo240GL173.143.5125163635GermanyVWDasher30.52.193.77897436GermanyVWRabbit31.91.9253.787189437GermanyVWScirocco31.51.993.7871894属性变换(变量变换)归一化将数据映射变换到[0,1]区间目的便于进行比较便于进行加权处理算法需要属性变换(变量变换)归一化将数据映射变换到[0,1]区间目的最小-最大规范化将数据映射到[min,max]属性变换(变量变换)

8可以用中位数取代均值可以用绝对标准差(absolutestandarddeviation)取代标准差属性变换(AttributeTransformation)

离散化和概念分层10分箱基本思想对于连续变量,在取值区间中指定n

1个分割点(splitpoint)将其划分为n个区间将一个区间中的所有值映射到同一个分类值离散化11离散化问题的关键选择多少个分割点?分割点位置如何确定?分割点数目一般由用户确定分割点位置可以用非监督/监督方法确定结果表示区间:{(x0,x1],(x1,x2],...,(xn-1,xn)},其中x0和xn可以分别为-

或+

不等式:x0<x≤x1,...,xn-1<x<xn离散化差别:是否使用类信息12为什么要离散化数据规约,维规约一些算法要求离散属性数据产生概念分层结构,可在不同抽象层进行挖掘离散化减少属性值个数,便于挖掘,结果知识表达更简洁、更易于理解、更易使用13为什么要离散化数据规约,维规约一些算法要求离散属性数据产生概念分层结构,可在不同抽象层进行挖掘消除奇异值带来的影响离散化高中低14【例】给定一组数据,进行离散化离散化DataEqualintervalwidthEqualfrequencyK-meansK-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。采用:等间隔(等宽)等频K-均值15离散化的特例二元化二元化方法确定一个分割点,划分为0/1二元分类值16什么是“二元化”?一些算法要求二元属性数据【例】一组成绩,进行二元化处理。学号成绩192286375468554645774873971106911681265离散化的特例二元化二元化方法17【例】5个值{awful,poor,OK,good,great}的分类变量二元化。需要三个二元变量x1、x2、x3

属性值整数值x1x2x3awful0000poor1001OK2010good3011great4100属性值整数值awful0poor1OK2good3great4属性值awfulpoorOKgoodgreat离散化的特例二元化二元化方法18如果属性具有m个值,则将每个原始值唯一地映射到区间[0,m

1]中的一个整数(保序)把m个整数都变换成一个二进制数需要n=

log2m

个二进位表示这些整数用n个二元属性表示这些二进制数缺点:建立了属性之间的联系(如good值用x1=0,x2=1,x3=1表示)不适合非对称属性处理假定数据属于不同类确定分割点的原则极大化区间纯度度量纯度的方法监督离散化最纯:区间中的数据都属于一个类别最不纯:区间中的数据以相同比例属于各个类别熵是一种不纯度度量分类错误率……19主成分分析(PCA)是一种设法将原来变量重新组合成一组新的相互无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法。20把多项指标转化为少数几个综合指标,以达到降维的目的主成分分析x2x1ee⊥21主成分分析主成分分析法在数学上是一种处理降维的方法,其基本原理是借助于一个正交变换,将一组分量相关的原随机向量(p个),重新组合转化成分量不相关的新随机向量(m个元素)来综合代表原分量。22主成分分析23处理过程:1.数据Z-score标准化;2.计算数据的协方差矩阵;3.协方差矩阵求特征值、特征向量;4.保留特征值显著的成分(特征向量),构建降维的表达式。主成分分析【例】24产生数据主成分分析【例】25标准化处理

xyzx1.000.80-0.44y0.801.000.07z-0.440.071.00协方差矩阵主成分分析【例】26提取特征值、特征向量

xyzx1.000.80-0.44y0.801.000.07z-0.440.071.001.88,占62.83%,累积62.83%1.06,占35.30%,累积98.13%0.06,占1.87%,累积100.00%特征值=0.0562,1.8848,1.059特征向量=

[-0.70

0.62, -0.37]

[0.72

0.62, -0.31]

[-0.04 0.48,

0.88]特征值选取

在线求特征值和特征向量/主成分分析【例】27新的随机变量表示特征向量=

[-0.70

0.62, -0.37]

[0.72

0.62, -0.31]

[-0.04 0.48,

0.88]

主成分分析【例】28原始数据降维

主成分分析【例3-3】素材_地区经济发展竞争力评价.csv29主成分分析【例3-3】因子分析检验30主成分分析(PCA)【例3-3】主成分分析31主成分分析(PCA)【例3-3】32省份z1z2z3……………………………………………………主成分分析(PCA)缺点变换后得到的主成分,其释义会带有一定的模糊性,难以给出符合实际背景和意义的解释,不如原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。当主成分的因子负荷的符号有正有负时,综合评价函数意义就更为不明确。33主成分分析(PCA)注意抽取的主成分变量个数m通常应明显小于原始变量个数p否则维数降低的利可能抵不过主成分因子丧失原始含义的弊34主成分分析(PCA)注意相矛盾:保证所抽取的主成分的累计贡献率达到一个较高的水平35需进行仔细比较,综合权衡即变量降维后的信息量须保持在一个较高水平上主成分分析(PCA)主成分分析法在数学上是一种处理降维的方法,其基本原理是借助于一个正交变换,将一组分量相关的原随机向量(p个),重新组合转化成分量不相关的新随机向量(m个元素)来综合代表原分量。3637因子分析因子分析(FactorAnalysis)通过研究数据变量的相关系数矩阵,将相关性较高的变量归为同一个组,同时使不同组的变量间的相关性较低。每组变量代表一个基本结构,将其用一个不可观测的综合变量表示,就得到了公共因子。通过因子分析,可以把变量间错综复杂的关系归结成少数几个综合因子,其个数一定少于原始变量的个数,但又包含原始变量的主要信息,所以因子分析也可以用于数据的维度规约。38因子分析

39因子分析

40因子分析

因子1因子2因子3-0.8850-0.38320.1211-0.60650.59840.2710-0.9118-0.16070.2121-0.46550.72260.3683-0.4860-0.7383-0.27500.5085-0.25180.79670.6194-0.59440.4378-0.8228-0.42650.211041因子分析【例3‑5】对于各省市经济数据,进行因子分析。4)旋转因子载荷矩阵。使用方差最大正交旋转(varimax)法,旋转后的因子载荷为:

因子1因子2因子3国内生产-0.95490.1253-0.1316居民消费水平-0.21660.8408-0.2135固定资产投资-0.87120.3522-0.1382职工平均工资-0.05070.9268-0.1139货物周转量-0.7521-0.5053-0.1894居民消费价格指数0.1346-0.00860.9688商品零售价格指数0.1021-0.49400.8211工业总产值-0.94390.1110-0.0154因子1-〉“生产指标”={国内生产,固定资产投资,

货物周转量,工业总产值}因子2-〉“消费指标”={居民消费水平,

职工平均工资}因子3-〉“价格指标”={居民消费价格指数,

商品零售价格指数}42因子分析【例3‑5】对于各省市经济数据,进行因子分析。5)计算因子得分。处理得到的过变换,以因子表示的原始数据为:地区生产指标消费指标价格指标广东2.4211-0.89020.0881江苏1.87410.86490.3555上海1.6775-2.25032.6590…………青海-1.2323-0.73720.2426贵州-1.47120.40411.1262因子分析在市场调研、心理学、社会学等领域都有着广泛的应用。因子分析可以将复杂的观测数据简化为少数几个公共因子,更容易理解和解释数据结构和模式,帮助识别观测数据变量间的潜在关系,揭示的数据的结构和模式,是数据降维、模式识别等处理的重要工具,也为进一步的统计分析和数据挖掘提供了基础。将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性线性判别分析

线性判别分析-原理

应用:类内散度矩阵广泛用于分类问题。例如,在人脸识别领域中,可以使用类内散度矩阵来衡量不同人脸之间的相似性和差异性。不区分类别,整体(类内)散度矩阵类协方差矩阵线性判别分析-原理

线性判别分析-原理

则,经过推导:

线性判别分析-原理最佳鉴别映射?定义目标函数:

使映射后的两个类别的样本中心点尽量分离。线性判别分析-原理最佳鉴别映射?定义目标函数:

线性判别分析-原理最佳鉴别映

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论