《数据挖掘原理与应用 第2版 》课件 第4章 数据探索_第1页
《数据挖掘原理与应用 第2版 》课件 第4章 数据探索_第2页
《数据挖掘原理与应用 第2版 》课件 第4章 数据探索_第3页
《数据挖掘原理与应用 第2版 》课件 第4章 数据探索_第4页
《数据挖掘原理与应用 第2版 》课件 第4章 数据探索_第5页
已阅读5页,还剩92页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据探索数据探索的作用数据探索新数据如何着手全新领域和行业的数据以前从未处理过没有相应的知识和经验分析人员也没有这些领域相关的业务背景做法建立起数据所涉及领域的必要的业务知识对数据的内容和性质进行初步的探索对数据的质量(如完整性和一致性等)进行评估和加工利用人的认知能力来对数据的性质、模式和分布等进行识别,进而有助于选择合适的工具和技术对数据进行预处理和数据分析数据探索数据准备(数据预处理)2数据探索【例】对以下4组数据进行分析,找出各(x,y)数据对的关联关系。3【例】对以下4组数据进行分析数据探索4数据探索【例】对以下4组数据进行分析

5数据探索可视化数据统计分析人对数据模式认知能力,是数据分析工具所不能比拟的6数据探索可视化可视化是将数据转化为可视的图或表格的格式来展现,以便能够通过直观的方法来发现数据及其属性之间的关联。数据可视化与信息图形、信息可视化、科学可视化以及统计图形密切相关。数据可视化已经提出了许多方法,这些方法根据其可视化的原理不同可以划分为:基于几何的技术面向像素技术分布式技术基于层次的技术基于图标的技术基于图像的技术8可视化数据的可视化是最有效和最吸引人的数据探索的手段之一因为人类具备以视觉角度分析海量信息的能力,尤其在模式认知和变化趋势的评估,和异常值检测和异常模式识别上9可视化【例】温度分布图。可以直观清楚地看到温度的高低变化的程度和趋势10可视化【例】美国“单身狗”分布图。11可视化【例】台风“山竹”路径。12可视化【例】拿破仑东征(征俄)信息图。六个独立变量:军队规模(线条的宽度)军队移动的经纬度军队移动的方向(棕-前进,黑-撤退)某些特定日期军队所在地撤退途中的温度变化13可视化直方图盒状图茎叶图饼图累计分布图散点图曲面图等高线图低维切片矩阵图平行坐标系雷达图14直方图15直方图136,125,109,105,129,111,129,99,102,123,98,97,124,123,126,89,99,101,108,119,102,117,87,111,97,110,90,116,117,98,110,113,131,103,100,121,99,97,99,121,99,110,97,105,115,80,121,102,118,101,121,92,102,92,111,120,123,108,106,113,110,102,123,114,106,121,107,101,119,102,96,109,104,108,117,104,111,95,97,103,100,104,104,104,104,108,91,107,126,104,103,112,128,102,109,118,100,101,108,10816最小值最大值全距R组距h中心点上组界下组界组数

直方图绘制参数计算

数据个数:数据的个数,用N表示。

数据数量组数小于505-750-1006-10100-2507-12250以上10-2017直方图绘制参数计算18

组距:一般用h表示,为所分组的跨度区间,在直方图中则为条块的宽度。有h=R/k。所有组距相等。中心点:本组最大值和最小值的平均,即组内最小值到最大值的中心。直方图【例】绘制直方图136,125,109,105,129,111,129,99,102,123,98,97,124,123,126,89,99,101,108,119,102,117,87,111,97,110,90,116,117,98,110,113,131,103,100,121,99,97,99,121,99,110,97,105,115,80,121,102,118,101,121,92,102,92,111,120,123,108,106,113,110,102,123,114,106,121,107,101,119,102,96,109,104,108,117,104,111,95,97,103,100,104,104,104,104,108,91,107,126,104,103,112,128,102,109,118,100,101,108,108数据个数100最小值80最大值136全距56组数7组距8上组界下组界计数80882889669610430104112301121201312012814128136519直方图工具-利用Excel绘制直方图添加“分析工具库”加载项20直方图工具-利用Excel绘制直方图添加“分析工具库”加载项准备数据21直方图工具-利用Excel绘制直方图添加“分析工具库”加载项准备数据“数据分析”--“直方图”22直方图工具-利用Excel绘制直方图添加“分析工具库”加载项准备数据“数据分析”--“直方图”生成直方图分析结果23直方图24(128,136](120,128](112,120](104,112](96,104](88,96](80,88](-∞,80]直方图示例【例】对77种早餐即食麦片的营养成分利用绘制直方图进行分析。数据中,对品牌、厂商、食用类型、热量、蛋白质、脂肪、钠元素、膳食纤维、碳水化合物、糖分、钾、维生素和矿物质、重量、含量等进行了观测和采集。这里,选择了3组数据,利用Excel绘制直方图。绝大多数品种的产品中,膳食纤维处于较低的水平;有较多的产品的钠元素含量较高;而脂肪含量各产品间较为统一。25二维直方图二维直方图是在一张图表上,利用直方图联合显示一项数据的两个属性。“二维”是指可以在一个图形中显示相互关联的二个属性的内容。有资料将这种图形称为三维直方图,这是从图中表示数据的柱状图是三维立体图而命名的。26二维直方图【练习】生产早餐即食麦片的各厂商的不同品牌的产品中,每一份的重量的统计数据(

数据来源:DASL-TheDataAndStoryLibrary)。得出什么结论?各厂家产品最常见的每份重量为1盎司,A、N、Q、R等厂商的产品包装种类较为单一,而G、K、P厂商的包装种类相对丰富。27盒状图BoxPlot箱线图、盒形-须线图由五个数值点组成:最小值(min)下四分位数(Q1)中位数(median)上四分位数(Q3)最大值(max)(有的盒状图还会包括平均值(mean))下四分位数、中位数、上四分位数组成一个“带有隔间的盒子”上四分位数到最大值之间建立一条延伸线,这个延伸线成为“胡须”。box-and-whisker

plot28绘制盒状图【例】136,125,109,105,129,111,129,99,102,123,98,97,124,123,126,89,99,101,108,119,102,117,87,111,97,110,90,116,117,98,110,113,131,103,100,121,99,97,99,121,99,110,97,105,115,80,121,102,118,101,121,92,102,92,111,120,123,108,106,113,110,102,123,114,106,121,107,101,119,102,96,109,104,108,117,104,111,95,97,103,100,104,104,104,104,108,91,107,126,104,103,112,128,102,109,118,100,101,108,108最大值136最小值80上四分位数117下四分位数101中位数107平均数108.178090100110120130140

29盒状图【练习】可以得出什么结论?USA:France:Japan:Germany:Sweden:Italy:30茎叶图Stem-and-Leafdisplay枝叶图顾名思义茎(枝)叶31茎叶图Stem-and-Leafdisplay【例】数据462516492513498444522484583519505527493505467497482511413518468485512537472553484501497477478553488492488523485520497490544504484510488483468467470495474549............32数据分布情况?数据排序,按位数进行比较将数的大小基本不变或变化不大的位作为一个主干(茎)将变化大的位的数作为分枝(叶),列在主干的后面可以清楚地看到每个主干后面有几个数值,每个数具体是多少茎叶图【例】A组和B组的某数据值的茎叶对比图33茎叶图【例】人口变化茎叶图34饼图PieChart【例】35累计分布图CumulativeDistributionDiagram累积分布图是在一组依大小顺序排列的测量值中,当按一定的组距分组时出现测量值小于某个数值的频数的分布图。

36累计分布图利用Excel绘制累计分布图37累计分布图【练习】根据累计分布图,绘制数据分布图。38散点图Scatterplots描述变量关系的一种直观方法,通常用来表示一个事件的两个(或多个)特性之间的相互关联关系。【例】39散点图Scatterplots从散点图的分布特征中,可以直观看出两个变量之间相关关系的强弱和类型。散点图可用于图形化地显示两个(或多个)属性之间的关系40例如,分类算法中,给出类标号时,将不同类别的数据用不同的颜色在图中进行显示可以考察类别属性区分类别的显著程度可以对比不同类别的数据的分布情况进而可以用简单曲线将属性平面进行划分,建立分类模型部分散点图【例】散点图应用:回归分析41三维散点图以三维散点图,来展示三组数据之间的关联关系42其他形式散点图【例】某产品体现市场份额—销售团队规模—广告投入关系市场份额数值标尺43销售团队规模广告投入等高线图等高线图(Contourplots)1998年12月份平均海洋表面温度(SST)的等高线图44低维切片【例】1982年12个月海平面气压。JanFebMarAprMayJunJulAugSepOctNovDec45矩阵图矩阵图法就是从多维问题的事项中,找出成对的因素,排列成矩阵图,然后根据矩阵图来分析问题,确定事项的相关性和相关程度的方法。【例】Iris数据集的数据矩阵表示。可以看出:Setosa的花瓣宽度和长度远低于平均值;Versicolour的花瓣宽度和长度在平均值附近;Virginica的花瓣宽度和长度高于平均值。46矩阵图

47矩阵图【例】Iris数据集的相关矩阵如图。可以看出:每组内的花相互之间最为相似,Versicolour和Virginica较相似,都与Setosa差异较大。48平行坐标系Parallelcoordinates每个属性一个坐标轴,但坐标轴是平行的,而不是正交的;对象用线而不是用点表示;对象每个属性的值映射到与该属性相关联的坐标轴上的点,将这些点连接起来形成代表该对象的线。将高维数据可视化的表示方法49平行坐标系适用于对象的类别或分组较少每个分组内的数据点具有类似的属性值数据对象的数量不太多缺点模式的检测可能依赖于坐标轴的序。50平行坐标系【例】汽车技术指标51其他调和曲线52

其他Radviz图53其他复合表示54可视化的原则理解性(Apprehension)ACCENT原则能够正确地揭示变量之间的关联。例如:图形是否能够对变量间关联的理解最大程度地提供帮助?55可视化的原则理解性(Apprehension)清晰性(Clarity)能够在视觉上区分图形中的所有元素例如:是否能够在图形中突出地展现最为重要的元素或关联?56可视化的原则理解性(Apprehension)清晰性(Clarity)一致性(Consistency)能够保持与既有图形释义的相似性。例如:图形中所使用的元素、符号和色彩是否与以往的图形相一致?57可视化的原则理解性(Apprehension)清晰性(Clarity)一致性(Consistency)有效性(Efficiency)能够用最简单的方法描绘复杂关系。例如:图形元素的使用方式是否经济有效,图形是否容易解释?58用图形和图形元素来表述的必要性。例如:是否图形是一种较其他方式(如表格、文本)更为有效的表达数据的方法?是否需要用所有的图形元素来表达数据的关联关系?可视化的原则理解性(Apprehension)清晰性(Clarity)一致性(Consistency)有效性(Efficiency)必要性(Necessity)59具有用任意图形元素的尺寸,隐性地或显性地表征数据的真实量值的能力。例如:是否已对图形元素进行准确地定位和定标?可视化的原则理解性(Apprehension)清晰性(Clarity)一致性(Consistency)有效性(Efficiency)必要性(Necessity)真实性(Truthfulness)ACCENT原则60可视化61小结数据可视化是对数据进行了解和探索的一个重要手段,可以通过视觉的方式直观地看到数据的质量、分布和规律等使用可视化技术,可以对大型多维数据以多种方式进行呈现和表示,并利用人类的认知能力来获得基本的认知和判别,为后续的针对性地选择数据挖掘和知识发现的方法和技术提供线索和参考这一方法简单、有效,因而数据可视化技术已经随着数据表现和数据知识发现实践的深化,得到了一定的发展,成为一个独立的门类。62数据探索数据统计分析数据统计分析集中量数频率(frequency)均值(mean)中位数(Median)众数(mode)百分位数(Percentile)差异量数相关性量数数据统计分析64数据统计分析集中量数极差/全距(Range)标准差(Std.Deviation)方差(Variance)平均绝对误差(MAE)中位数绝对偏差差异量数相关性量数数据统计分析四分位差65数据统计分析集中量数协方差协方差矩阵差异量数相关性量数数据统计分析相关系数相关矩阵66频率

67频率【例】比赛成绩数据数据个数为50,其中出现的分值为{50,55,60,70,75,80,85}分值50556070758085出现次数84584813出现频率0.160.080.100.160.080.160.26出现频率%16%8%10%16%8%16%26%68众数众数是指一组数据中出现次数最多的那个数据。从分布角度看,众数是具有明显集中趋势的数值。69众数【例】某鞋厂要了解消费者最需要哪种型号的男鞋,调查了某百货商场某季度男鞋销售情况,得到:号码(厘米)销售量(双)24.01224.58425.011825.554126.032026.510427.052合计1200可以看到,如果用号码的算术平均数(25.65厘米)来表示销售量情况,显然是没有实际意义的。而用25.5厘米的鞋号销售量最多,25.5厘米作为顾客对男皮鞋所需尺寸的集中趋势既便捷又符合实际。商场某季度男皮鞋销售情况70众数众数是指一组数据中出现次数最多的那个数据。从分布角度看,众数是具有明显集中趋势的数值。一组数据可以有多个众数,也可以没有众数。众数常用于表示社会经济现象中最普遍出现的标志值。71百分位数百分位数又称百分位分数,是一种相对地位量数,它是次数分布中的一个点。设

x是有序或连续属性,m是0与100之间的数,第

m个百分位数

pm是一个

x值,使得

x

m%的观测值小于

pm。地位量数:描述数据次数分布中各数据所处地位的统计量。72百分位数计算Pm为第

m百分位数L为

Pm所在组的组实下限U为

Pm所在组的组实上限F为

Pm所在组的次数Fb为小于

L的累积次数Fa为大于

U的累积次数。i为对应观测组中数据的个数百分位数用P加下标m(特定百分点)表示。例如,若P30=60,则其表明在该次数分布中有30%的样本数值低于60。

P90=90

P70=85

P50=70

P30=60

P10=40描述一组数据某一百分位置的水平多个百分位数结合应用,可全面描述一组观察值的分布特征1020213120.5……73百分位数对有序或连续属性的计算和表征把一个次数分布排序后,分为100个单位,百分位数就是次数分布中相对于某个特定百分点的原始数值,它表明在次数分布中特定个案百分比低于该数值。74百分位数【例】某省某年公务员考试考生分数分布如表,预定取考分居前15%的考生进行面试选拔,请划定面试分数线。分数分组人数向上累积次数向下累积次数向上累积相对次数95~99716407100%90~941616332399.57%85~895316177698.60%80~8478156415495.37%75~7990148624490.61%70~74119l39636385.12%65~69159127752277.87%60~64156111867868.17%55~5914096281858.66%50~5414582296350.12%45~49140677110341.28%40~44135537123832.74%35~39130402136824.51%30~34126272149416.59%25~297814615728.90%20~24256815974.15%15~19204316172.62%1040%5~97716400.43%取考分居前15%的考生进行面试,即有85%的考生分数低于划定的分数线由此可知,分数线在70~74这一组中。75百分位数【例】某省某年公务员考试考生分数分布如表,预定取考分居前15%的考生进行面试选拔,请划定面试分数线。分数分组人数向上累积次数向下累积次数向上累积相对次数95~99716407100%90~941616332399.57%85~895316177698.60%80~8478156415495.37%75~7990148624490.61%70~74119l39636385.12%65~69159127752277.87%60~64156111867868.17%55~5914096281858.66%50~5414582296350.12%45~49140677110341.28%40~44135537123832.74%35~39130402136824.51%30~34126272149416.59%25~297814615728.90%20~24256815974.15%15~19204316172.62%1040%5~97716400.43%思考:为什么不在红框所示的[70,74]区间内?76均值

对数据所代表的范围的中心位置的度量77均值均值的问题:少量极端值可能严重影响均值解决方法:使用截断均值(trimmedmean)截断均值是去掉高、低极端值得到的均值公司的平均工资可能被少数高报酬的经理显著抬高班级的考试平均成绩可能因为少数几个非常低的成绩而降低相当多例如,可以将工资的观测值排序,并在计算均值前去掉上下2%的值,然后求均值避免在两端截断的比例太大(如20%),因为这可能导致损失有价值的信息78极差和方差极差(range)range(x)=max(x)

min(x)是较为简单的一种度量数据波动情况的量,但只能反映数据的波动范围,不能衡量每个数据的变化情况,而且受极端值的影响较大。79极差和方差标准差(standarddeviation)标准差能反映一个数据集的离散程度平均数相同的两组数据,标准差未必相同80极差和方差【例】A,B两组各有6位学生参加同一次语文测验,A组的分数为92,86,75,68,54,45;B组的分数为74,73,71,69,68,65。这两组的平均数都是70但A组的标准差为17.078分,B组的标准差为2.160分,说明A组学生之间的差距要比B组学生之间的差距大得多。81极差和方差【例】A,B两组各有6位学生参加同一次语文测验,A组的分数为92,86,75,68,54,45;B组的分数为74,73,71,69,68,65。82极差和方差方差(variance)是标准差的平方方差和标准差都是最常用的统计量因使用均值计算,容易受极端值(离群点)的影响,可能被离群值扭曲83绝对平均偏差AbsoluteAverageDeviation,AAD84中位数绝对偏差MedianAbsoluteDeviation,MAD

85特性标准差(StandardDeviation)中位数绝对偏差(MAD)核心思想基于均值和平方距离基于中位数和绝对距离对异常值非常敏感,一个异常值就能使其大幅增加非常稳健,几乎不受异常值影响效率在完全纯净的正态分布数据上,是最优的估计量在正态分布上效率略低于标准差(需要更多数据达到相同精度)适用场景数据干净,近似正态分布数据中存在异常值,分布未知或有重尾解释性与正态分布性质紧密相连,解释性强解释更直观:典型数据点与中位数的典型距离中位数绝对偏差MedianAbsoluteDeviation,MAD

一种用于衡量数据离散程度(变异性)的统计量一种更“稳健”的标准差(对异常值的极度不敏感)“中位数+MAD”替代“均值+标准差”【例】数据A={8,5,9,6,3,2,4,9,2,3,4,5,6,8,9}其中位数为5。计算数据A中的每一数据与中位数5的绝对差,有:|A-5|={3,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论