数据挖掘导论PPT学习课件

上传人：文*** IP属地：广东上传时间：2020-04-19 格式：PPT 页数：78 大小：3.85MB 积分：12 举报 版权申诉

已阅读5页，还剩73页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第2章数据数据类型数据质量数据预处理相似性和相异性度量 1 数 2 2 1数据类型 2 1 1属性与度量2 1 2数据集的类型 2 数 2 3 数据数据集是数据对象的集合数据对象用一组刻画对象基本特性如物体质量或事件发生时间的属性描述数据对象的其他名称记录点向量模式事件案例样本观测或实体属性 attribute 是对象的性质或特性他因对象而异或随时间而变化属性的其他名称变量特性字段特征或维属性如何测量和描述既取决于事物本身的客观性质也和所掌握的技术手段相关涉及到测量精度海岸线长度虹膜颜色分几类颜色描述 RBG均值描述 RBG直方图描述数据挖掘导论 2020年4月19日星期日 2 数 4 测量标度是将数值或符号与对象的属性相关联的规则属性的性质不必与用来度量它的值的性质相同属性的类型序性质可加性序性质 2 数 5 属性的类型属性的类型即测量标度类型取决于下列4种数值性质属性值数值的性质1 Distinctness 相异性 2 Order 序 3 Addition 加法 Multiplication 乘法属性的类型不同允许的操作不同 2 数 6 属性的类型 Therearedifferenttypesofattributes标称 Nominal Examples 邮编雇员ID序数 Ordinal Examples 成绩街道号码区间 Interval Examples 日期温度比率 Ratio Examples 绝对温度长度年龄计数 2 数 7 表2 2不同的属性类型分类的定性的数值的定量的标称序数区间比率 2 数 8 表2 3定义属性层次的变换分类的定性的数值的定量的标称序数区间比率 2 数 9 用值的个数描述属性离散vs 连续属性离散属性 DiscreteAttribute 有限或无限可数 countableinfinite 个值例邮政编码计数文档集的词常表示为整数变量注意二元属性 binaryattributes 是离散属性的特例连续属性 ContinuousAttribute 属性值为实数例温度高度重量实践中实数只能用有限位数字的数度量和表示连续属性一般用浮点变量表示 2 数 10 数据集的一般特性维度 Dimensionality 数据集的维度是数据集中的对象具有的属性数目维灾难 CurseofDimensionality 维归约 dimensionalityreduction 稀疏性 Sparsity 如具有非对称特征的数据集一个对象的大部分属性上的值都为0只存储和处理非零值分辨率 Resolution 数据的模式依赖于分辨率度量尺度 scale 在数米的分辨率下地球表面看上去很不平坦但在数十公里的分辨率下却相对平坦小时标度下的气压变化反映风暴或其他天气系统的移动在月标度下这些现象就检测不到 2 数 11 数据集类型三大类记录数据数据矩阵 DataMatrix 文本数据 DocumentData 每篇文档可以表示成一个文档词矩阵事务数据 TransactionData 基于图形 Graph 的数据WorldWideWeb分子结构 MolecularStructures 有序 Ordered 数据空间数据 SpatialData 时间数据 TemporalData 序列数据 SequentialData 2 数 12 数据集类型1 记录数据数据矩阵数据矩阵如果一个数据集中的所有数据对象都具有相同的数值属性集则数据对象可以看做是多维空间中的点其中每个位代表描述对象的一个不同属性这样的数据集可以用一个mXn的矩阵表示 2 数 13 数据集类型1 记录数据事务数据典型的记录数据事务数据或购物篮数据 2 数 14 数据集类型2 基于图形的数据1 带有对象之间联系的数据Examples HTMLLinks 2 数 15 数据集类型2 基于图形的数据2 具有图形对象的数据对象具有结构即对象包含具有联系的子对象例苯分子的球棍图包含碳原子黑色和氢原子灰色 2 数 16 数据集类型3 有序数据时序数据有序数据有多种常常涉及时间或空间序时序数据 sequentialdata 也称时间数据 temporaldata 时间次序重要但具体时间不重要例事务序列 2 数 17 数据集类型3 有序数据序列数据序列数据 sequencedata 个体项的序列例基因组序列数据DNA都由4种核苷酸A T G和C构造没有时间标记但与时序数据类似重要的是在序列中的位置 2 数 18 数据集类型3 有序数据时间序列数据时间序列数据 timeseriesdata 特殊的时序数据其中每个记录都是一个时间序列 timeseries 即一段时间的测量序列时间自相关 temporalautocorrelation 即如果两个测量的时间很接近这些测量的值通常非常相似 2 数 19 数据集类型3 有序数据空间数据空间数据具有空间属性如位置或区域例不同的地理位置收集的气象数据降水量气温气压空间自相关性 spatialautocorrelation 物理上靠近的对象趋向于在其他方面也相似右图每月是空间数据显示多月是时间空间数据 Spatial TemporalData 2 2数据质量 20 数 2 2 2数据质量 2 2 1测量和数据收集问题1 测量误差和数据收集错误2 噪声和伪像3 精度偏倚准确率4 离群点5 遗漏值6 不一致的值7 重复的值2 2 2数据质量应用问题 21 数 2 2 数 22 测量误差和数据收集错误测量误差和数据收集错误测量误差 measurementerror 测量过程导致的任何问题表现为记录值与实际值不同数据收集错误 datacollectionerror 遗漏数据对象或属性值或不正确地包含数据对象等错误测量误差和数据收集错误都可能是系统的或随机的 2 数 23 测量误差和数据收集错误数据中可能存在的问题噪声测量误差的随机部分离群点可能同时涉及测量误差和数据收集错误遗漏值可能同时涉及测量误差和数据收集错误不一致的值可能同时涉及测量误差和数据收集错误重复的值可能同时涉及测量误差和数据收集错误 2 数 24 噪声和伪像噪声是测量误差的随机部分可能扭曲值或附加的谬误对象Examples distortionofaperson svoicewhentalkingonapoorphoneand snow ontelevisionscreen 2 数 25 精度偏倚准确率精度 precision偏倚 bias准确率 accuracy 2 数 26 离群点离群点 Outliers dataobjectswithcharacteristicsthatareconsiderablydifferentthanmostoftheotherdataobjectsinthedataset 2 数 27 遗漏值原因Informationisnotcollected e g peopledeclinetogivetheirageandweight Attributesmaynotbeapplicabletoallcases e g annualincomeisnotapplicabletochildren 处理EliminateDataObjectsorAttribute删除数据对象或属性EstimateMissingValues估计遗漏值IgnoretheMissingValueDuringAnalysis分析时忽略遗漏值 2 数 28 不一致的值数据可能包含不一致的值例如地址字段其中列出了邮政编码和城市但是特定的邮政编码区域并不包含在该城市纠正不一致需要附加或冗余信息时间序列数据中的不一致可能是使用不同的测量手段例海洋表面温度 SST 1958 1982年用船或浮标收集SST1983年之后使用卫星收集SST两组数据每组内的年相互之间趋向于正相关但与另一组的年负相关 2 数 29 重复数据 Datasetmayincludedataobjectsthatareduplicates oralmostduplicatesofoneanotherMajorissuewhenmergingdatafromheterogeneoussourcesExamples 同一个人具有多个email地址SamepersonwithmultipleemailaddressesDatacleaning重复数据需要进行数据清洗Processofdealingwithduplicatedataissues 2 数 30 数据质量应用问题时效性有些数据收集后就开始老化例如顾客的购买行为或Web浏览模式的快照只代表有限时间内的真实情况如果数据已经过时则基于它的模型和模式也已经过时相关性可用的数据必须包含应用所需要的信息例如构造一个模型预测驾驶事故发生率如果忽略了关于驾驶员的年龄和性别信息那么除非这些信息可以间接地通过其他属性得到否则模型的精度可能是有限的 2 3数据预处理 31 数 2 2 数 32 数据预处理数据预处理方法聚集 Aggregation 抽样 Sampling 维归约 DimensionalityReduction 特征子集选择 Featuresubsetselection 特征创建 Featurecreation 离散化与二元化 DiscretizationandBinarization 属性变换 AttributeTransformation 2 数 33 聚集 Aggregation 聚集 Combiningtwoormoreattributes orobjects intoasingleattribute orobject 将两个或多个对象合并成单个对象PurposeDatareduction 数据归约 ReducethenumberofattributesorobjectsChangeofscale 标度转换 Citiesaggregatedintoregions states countries etcMore stable data 更稳定的数据 Aggregateddatatendstohavelessvariability缺点丢失有趣的细节 2 数 34 聚集例子 VariationofPrecipitationinAustralia 澳大利亚降水量 2 数 35 抽样抽样是一种选择数据对象子集进行分析的常用方法统计学抽样vs数据挖掘抽样统计学抽样的原因是因为得到感兴趣的整个数据集的代价太高数据挖掘使用抽样是因为处理所有数据的代价太高有效抽样的原则代表性保留原数据集的性质抽样方法简单抽样 SimpleRandomSampling Thereisanequalprobabilityofselectinganyparticularitem简单无放回抽样 Samplingwithoutreplacement Aseachitemisselected itisremovedfromthepopulation简单有放回抽样 Samplingwithreplacement Objectsarenotremovedfromthepopulationastheyareselectedforthesample Insamplingwithreplacement thesameobjectcanbepickedupmorethanonce分层抽样 Stratifiedsampling Splitthedataintoseveralpartitions thendrawrandomsamplesfromeachpartition每组抽相同个数vs按比例自适应 adaptive 或渐进抽样 progressivesampling 原因有时难以预先确定样本集大小方法从一个小样本开始然后增加样本容量直至得到足够容量的样本 36 数据挖掘导论 2020年4月19日星期日 2 数 37 样本大小例子从8000个点分别抽2000和500个点2000个点的样本保留了数据集的大部分结构500个点的样本丢失了许多结构 8000points2000Points500Points 2 数 38 维归约数据集包含大量特征例文档数据集数以万计的词对应数以万计的属性维灾难 curseofdimensionality 随着数据维度的增加许多数据分析变得非常困难特殊地随着维度增加数据在它所占据的空间中越来越稀疏对于分类这可能意味没有足够的数据对象来创建模型对于聚类点之间的密度和距离的定义对聚类是至关重要的变得不太有意义结果对于高维数据许多分类和聚类算法以及其他数据分析算法都有麻烦分类准确率降低聚类质量下降技术PCA PrincipleComponentAnalysis主成分分析SVD SingularValueDecomposition奇异值分解 2 数 39 维归约 PCA GoalistofindaprojectionthatcapturesthelargestamountofvariationindataFindtheeigenvectorsofthecovariancematrixTheeigenvectorsdefinethenewspace 2 数 40 特征子集选择特征子集选择是降低维度的另一种方法当存在冗余特征 Redundantfeatures 不相关特征 Irrelevantfeatures 时使用特征的一个子集能在降低维度的同时避免丢失信息特征子集选择的技术 Brute forceapproach暴力穷举 Embeddedapproaches嵌入方法 FeatureselectionoccursnaturallyaspartofthedataminingalgorithmFilterapproaches过滤方法 FeaturesareselectedbeforedataminingalgorithmisrunWrapperapproaches包装方法 Usethedataminingalgorithmasablackboxtofindbestsubsetofattributes 2 数 41 特征创建 Createnewattributesthatcancapturetheimportantinformationinadatasetmuchmoreefficientlythantheoriginalattributes三种一般方法特征提取FeatureExtractiondomain specific高度针对具体领域如人脸检测指纹识别映射数据到新的空间MappingDatatoNewSpace特征构造FeatureConstructioncombiningfeatures从多个原特征构造新的特征 2 数 42 特征创建映射数据到新空间傅里叶变换 Fouriertransform 小波变换 Wavelettransform 例傅里叶变换左两个sin波中两个sin波之和噪声检测不到模式右傅里叶变换到频谱两个尖峰对应于两个无噪声的时间序列 2 数 43 特征创建特征构造原始数据集的特征具有必要的信息但其形式不适合数据挖掘算法由原特征构造的新特征可能比原特征更有用例文物数据库每件文物的特征包括体积和质量以及其他信息文物材质类木材陶土青铜黄金原特征不适合分类构造新特征密度质量体积常依据专家意见 2020年4月19日星期日数据挖掘导论 44 离散化和二元化为什么要离散化二元化减少属性值个数便于挖掘结果知识表达更简洁更易于理解更易使用离散化产生概念分层结构可以在不同抽象层进行挖掘有些算法需要离散属性有些算法需要二元属性1 离散属性二元化2 连续属性离散化3 具有过多值的离散属性非监督vs监督离散化差别是否使用类信息 44 数据挖掘导论 2020年4月19日星期日 2 数 45 变量变换变量属性变换 variable attributetransformation Afunctionthatmapstheentiresetofvaluesofagivenattributetoanewsetofreplacementvaluessuchthateacholdvaluecanbeidentifiedwithoneofthenewvalues简单变换Simplefunctions xk log x ex x 1 x注意可能改变数据的特性例变换1 x压缩了大于1的值但是放大了0和1之间的值 2 数 46 变量变换标准化规范化标准化 standardization 规范化 normalization 在数据挖掘中不区分在统计学有不同涵义目标使整个值的集合具有特定的性质例设是属性值的均值 sx是它们的标准差变换创建一个新的变量它具有均值0和标准差1可以用中位数取代均值可以绝对标准差 absolutestandarddeviation 取代标准差 2 4相似性和相异性的度量 47 数 2 2 4相似性和相异性的度量 2 4 1基础1 相似性和相异性的定义2 相似性和相异性的变换2 4 2简单属性间的相似相异度2 4 3数据对象间的相异度2 4 4数据对象间的相似度2 4 5邻近性度量的例子 48 数 2 2 数 49 相似性和相异性相似性 Similarity Numericalmeasureofhowaliketwodataobjectsare Ishigherwhenobjectsaremorealike Oftenfallsintherange 0 1 相异性 Dissimilarity NumericalmeasureofhowdifferentaretwodataobjectsLowerwhenobjectsaremorealikeMinimumdissimilarityisoften0Upperlimitvaries邻近性 Proximity referstoasimilarityordissimilarity 2 数 50 pandqaretheattributevaluesfortwodataobjects 简单属性的相似相异度 2 数 51 数据对象的相异度欧几里得距离欧氏距离n是维数而xk和yk分别是x和y的第k个属性分量 2 数 52 闵可夫斯基距离 Minkowski距离是欧氏距离的推广Whererisaparameterr 1 城市街区距离又称为曼哈顿距离 Cityblock Manhattan taxicab L1norm distance AcommonexampleofthisistheHammingdistance whichisjustthenumberofbitsthataredifferentbetweentwobinaryvectorsr 2 欧几里得距离Euclideandistancer 上确界距离 supremum Lmaxnorm L norm distance Thisisthemaximumdifferencebetweenanycomponentofthevectors 2 数 53 距离的性质 Distances suchastheEuclideandistance havesomewellknownproperties 非负性 Non negativity d x y 0forallxandy andd x y 0onlyifx y 对称性 Symmetry d x y d y x forallxandy 三角不等式 TriangleInequality d x z d x y d y z forallpointsx y andz whered x y isthedistance dissimilarity betweenpoints dataobjects xandy Adistancethatsatisfiesthesepropertiesisametric 2 数 54 非度量的相异度有些相异度都不满足一个或多个度量性质例1 集合差每个对象是一个集合相异度用集合差的元素个数定义d A B size A B 一般地可能A B B A size A B size B A 定义d A B size A B size B A 例2 时间详见P43 2 4相似性和相异性的度量 2 4 1基础1 相似性和相异性的定义2 相似性和相异性的变换2 4 2简单属性间的相似相异度2 4 3数据对象间的相异度2 4 4数据对象间的相似度2 4 5邻近性度量的例子 55 数据挖掘导论 2020年4月19日星期日 2 数 56 数据对象之间的相似度设s x y 是数据点x和y之间的相似度通常 0 s x y 1 s x y 1 iffx y 0 s x y 1 s x y s y x 三角不等式或类似的性质通常不成立 2 4相似性和相异性的度量 2 4 1基础1 相似性和相异性的定义2 相似性和相异性的变换2 4 2简单属性间的相似相异度2 4 3数据对象间的相异度2 4 4数据对象间的相似度2 4 5邻近性度量的例子 57 数据挖掘导论 2020年4月19日星期日 2 数 58 简单匹配系数 Jaccard系数设x和y是两个对象都由n个二元属性组成f00 x取0并且y取0的属性个数f01 x取0并且y取1的属性个数f10 x取1并且y取0的属性个数f11 x取1并且y取1的属性个数简单匹配系数 SimpleMatchingCoefficient SMC Jaccard系数 JaccardCoefficient 2 数 59 简单匹配系数 Jaccard系数例例两个对象x和yx 1 0 0 0 0 0 0 0 0 0 y 0 0 0 0 0 0 1 0 0 1 f01 2x取0并且y取1的属性个数f10 1x取1并且y取0的属性个数f00 7x取0并且y取0的属性个数f11 0 x取1并且y取1的属性个数 2 数 60 余弦相似度设x和y是两个向量则表示向量点积 x 是向量x的长度几何解释其中 x x x y y y 是长度为1的向量 2 数 61 余弦相似度例例两个数据向量对象x 3 2 0 5 0 0 0 2 0 0 y 1 0 0 0 0 0 0 1 0 2 x y 3 1 2 0 0 0 5 0 0 0 0 0 0 0 2 1 0 0 0 2 5cos x y 5 5 48 2 45 0 31 2 数 62 广义Jaccard系数广义Jaccard系数Tanimoto系数设x和y是两个向量则 2 数 63 相关性对象之间的相关性是对象属性之间线性联系的度量设x和y是两个向量标准差协方差皮尔森相关 Pearson scorrelation 系数 1 corr x y 1 corr x y 0 不相关 corr x y 1 1 正负相关 2 数 64 相关性可视化 Scatterplotsshowingthesimilarityfrom 1to1 2 数 65 邻近度计算问题1 距离度量的标准化和相关性属性具有不同的值域问题距离可能被具有较大值域的属性左右处理变换到相同值域某些属性之间相关使用Mahalanobis距离马氏距离 mahalanobis x y x y 1 x y T其中 1是数据协方差矩阵的逆协方差矩阵是这样的矩阵它的第ij个元素是第i个和第j个属性的协方差马氏距离它是一种有效的计算两个未知样本集的相似度的方法与欧氏距离不同的是它考虑到各种特性之间的联系即独立于测量尺度 2 数 66 邻近度计算问题1 例例 1000个点其x属性和y属性的相关度为0 6 在椭圆长轴两端的两个大点之间的欧几里得距离为14 7 但Mahalanobis距离仅为6 2 数 67 邻近度计算问题2 组合异种属性的相似度Sometimesattributesareofmanydifferenttypes butanoverallsimilarityisneeded 附录 68 数据挖掘导论 2020年4月19日星期日 2020年4月19日星期日数据挖掘导论 69 离散化和二元化为什么要离散化二元化减少属性值个数便于挖掘结果知识表达更简洁更易于理解更易使用离散化产生概念分层结构可以在不同抽象层进行挖掘有些算法需要离散属性有些算法需要二元属性非监督vs监督离散化差别是否使用类信息 69 数据挖掘导论 2020年4月19日星期日 2020年4月19日星期日数据挖掘导论 70 离散属性二元化1 方法1如果属性具有m个值则将每个原始值唯一地映射到区间 0 m 1 中的一个整数保序把m个整数都变换成一个二进制数需要n log2m 个二进位表示这些整数用n个二元属性表示这些二进制数例 5个值 awful poor OK good great 的分类变量需要三个二元变量x1 x2 x3 70 数据挖掘导论 2020年4月19日星期日 2020年4月19日星期日数据挖掘导论 71 离散属性二元化2 方法1的缺点建立了属性之间的联系如good值用x2 1 x3 1

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘导论PPT学习课件

文档简介

温馨提示

最新文档

评论

数据挖掘导论PPT学习课件

文档简介

温馨提示

最新文档

评论

相关文档