《数据描述性分析》PPT课件.ppt_第1页
《数据描述性分析》PPT课件.ppt_第2页
《数据描述性分析》PPT课件.ppt_第3页
《数据描述性分析》PPT课件.ppt_第4页
《数据描述性分析》PPT课件.ppt_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据描述性分析,内容分布,均值、方差的数据特征 数据的分布 二元数据的数字特征及相关系数 误差 坏值的剔除,内容分布,均值、方差的数据特征 数据的分布 二元数据的数字特征及相关系数 误差 坏值的剔除,数据描述性分析,数据分析研究的对象是数据,它们是 个观测值: 如果这 个观测值就是所要研究对象的全体,那么数据分析的任务就是提取数据中包含的有用的信息。如果数据是从总体中抽出的样本,就要分析推断样本中包含的总体的信息。,均值、方差等数字特征,一元数据的数字特征主要是以下几种。设 个观测值为 其中 称为样本容量。 1 均值:即是 的平均数: 均值表示数据的集中位置。,均值、方差等数字特征,2 方差、标准差与变异系数 方差是描述数据取值分散性的一个度量, 其量纲是数据量纲的平方。 标准差,均值、方差等数字特征,变异系数:刻画数据相对分散性的度量 CV 校正平方和 CSS 未校平方和 USS ,均值、方差等数字特征,3 偏度与峰度 偏度与峰度是刻画数据的偏态、尾重程度的度量。它们与数据的矩有关。数据的矩分为原点矩与中心矩。 k阶原点矩 K阶中心矩,均值、方差等数字特征,偏度 其中s是标准差。偏度是刻画数据对称性的指标。关于均值对成的数据其偏度为0,右侧更分散的数据偏度为正,左侧更分散的数据偏度为负。,均值、方差等数字特征,峰度 当数据的总体分布为正态分布时,峰度近似为0;当分布较正态分布的尾部更为分散时,峰度为正,否则峰度为负。 当峰度为正时,两侧极端数据较多;当峰度为负时,两侧极端数据较少。,总体的数据特征,设观测数据是由总体X中取出的样本,总体的分布函数是F 。当X为离散分布时,总体的分布可由概率分布列刻画: 总体为连续分布时,总体的分布可由概率密度 刻画。连续分布中最重要的是正态分布,它的概率密度 及分布函数 分别为 具有正态分布的总体成为正态总体,总体的数据特征,与样本数字特征对应的是总体的数字特征 总体均值 总体方差 总体标准差 总体变异系数,总体的数据特征,总体原点矩(k阶) 总体中心矩(k阶) 总体偏度 总体峰度,总体峰度是以同方差的正态分布为标准,比较总体分布尾部分散性的指标。,细尾,峰度为负,正态分布,总体峰度为0,粗尾,峰度为正,总体数字特征和样本数字特征,根据统计学的结果,样本数字特征是相应的总体数字特征的矩估计。当总体数字特征存在时,相应的样本数字特征是总体数字特征的相合估计,从而当n较大时,有,总体数字特征和样本数字特征,当观测数据 是所要研究对象的全体时,数据的分布即总体分布,我们认为取得每一个观测数据 是等可能性的,即为 ;总体分布是离散均匀分布: 对这种情况,数据数字特征即总体数字特征。,例1,从19个杆塔上的普通盘形绝缘子测得该层电导率()的数据如下: 9.89 8.00 6.40 6.17 5.39 7.27 9.08 10.40 11.20 8.75 6.45 11.90 10.30 9.58 9.24 7.75 6.20 8.95 8.33 计算均值、方差、标准差、变异系数、偏度、峰度。,通过计算,得 8.487 , 3.046, 1.845, CV21.745, 0.035, 0.852 , 的绝对值比较小,可以认为是来自正态总体的数据。,中位数、分位数、三均值与极差,均值、方差、标准差等数字特征是总体相应特征值的一种矩估计,更适合于来自正态分布的数据的分析。 若总体的分布未知,或者数据严重偏态,有若干异常值(极端值),上述分析数据的方法不甚合适,而应计算中位数、分位数、三均值、极差等数据数字特征,计算上述特征需要用到次序统计量。,次序统计量,设 是n个观测值,可以理解为来自某些总体的样本。将其按数值大小记为 这就是次序统计量。 最小统计量 与最大统计量 分别为:,中位数与极差,中位数的计算公式是 中位数是描述数据中心位置的数字特征。大体上比中位数大或小的数据个数为整个数据个数的一半。,中位数与极差,对于对称分布的数据,均值与中位数较接近;对于偏态分布的数据,均值与中位数不同。 中位数的另一个显著特点是不受异常值(特大或特小)的影响,具有稳健性,因此它是数据分析中相当重要的统计量。 极差的计算公式是 它是描述数据分散性的数字特征。数据越分散,极差越大。,例,考虑下列样本: 5 3 11 3 1 7 8 写出次序计量,并求中位数、极差。,对 和容量为 的样本 它的 分位数是 其中np表示np的整数部分,当p=1时,M1 =x (n),分位数,0.5分位数 就是中位数M.在实际应用中,0.75分位数与0.25分位数比较重要,它们分别称为上、下四分位数,并简记为 下列分位数也在实际应用中经常用到: , , , , , 。,例,考虑下列样本: 5 3 11 3 1 7 8 计算上面数据的 , ,及 , , , , , 。,以此类推,我们可以得到其他的结果:,均值 与中位数M皆是描述数据集中位置的数字特征。计算 时,用了样本 的全部信息,而M仅用了数据分布中的部分信息。因此,在正常情况下,用 比用M描述数据的集中位置为优。然而,当存在异常值时, 缺乏稳健性,而M具有很强的稳健性。考虑到要充分利用样本信息,又要具有较强的稳健性,可以用三均值 作为数据集中位置的数字特征。 三均值的计算公式是:,上、下四分位之差称为 四分位极差(或半级差)。 有一种简便判断数据为异常值的方法,以 为数据的上下截断点。,例,从19个杆塔上的普通盘形绝缘子测得该层电导率()的数据如下: 9.89 8.00 6.40 6.17 5.39 7.27 9.08 10.40 11.20 8.75 6.45 11.90 10.30 9.58 9.24 7.75 6.20 8.95 8.33 计算中位数、诸分位数、极差、四分位数、三均值,并分析是否有异常值。,上、下截断点分别为1.29和15.05,故数据无异常值。,内容分布,均值、方差的数据特征 数据的分布 二元数据的数字特征及相关系数 误差 坏值的剔除,数据的分布,数据的数字特征刻画了数据的主要特征,而要对数据的总体情况作全面的描述,就要研究数据的分布。 对数据分布的主要描述方法是直方图与茎叶图、数据的理论分布即总体分布。数据分析的一个重要问题是要研究数据是否来自正态总体,这是分布的正态性经验的问题。,直方图、QQ图,对于数据分布,常用直方图进行描述。将数据取值的范围分成若干区间(一般是等间隔的),在等间隔区间的情况,每个区间的长度称为组距。考察数据落入每一区间的频数与频率,在每个区间上画一个矩形,它的宽度是组距,它的高度可以是频数、频率或频率/组距,在高度是频率/组距的情况,每一矩形的面积恰是数据落入区间的频率,这种直方图可以估计总体的概率密度。 组距对直方图的形态有很大的影响,组距太小,每组的频数较少,由于随机性的影响,邻近区间上的频数可能很大;组距太大,直方图所反映概率密度的形态就不灵敏。,QQ图可以帮助界别样本分布是否近似于某种类型的分布。,茎叶图、箱线图,与直方图相比较,茎叶图更能细致地看出数据分布的结构。 例 某班有31个学生,某门课程的考试成绩如下: 25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84 84 84 85 86 86 86 87 89 89 89 90 91 91 92 100 做出其茎叶图。,茎叶图的特点,茎叶图与直方图一样,可以直观地看出数据的分布状况。从茎叶图分析,可大致直观地看出这批数据是否接近对称,分散性如何,是否有异常值,数据中是否有间隙等等。 利用茎叶图,很自然地可以对所有数据排序。从茎叶图可以看出由原始数据得到的次序统计量。 对于排过序的一批数据,从小到大的每个数据的排序名次,称为升秩;而从大到小的每个数据的排序名次,称为降秩。每个数据的升秩与降秩的较小者,称为该数据的深度,即 深度min(升秩,降秩),例,铅压铸件硬度数据如下: 53.0 70.2 84.3 55.3 78.5 63.5 71.4 53.4 82.5 67.3 69.5 73.0 55.7 85.8 95.4 51.1 74.4 54.1 77.8 52.4 69.1 53.5 64.3 82.7 55.7 70.5 87.5 50.7 72.3 59.5 做出数据的茎叶图。,箱线图,茎叶图是探索性数据分析所采用的重要方法。而箱线图也能直观简洁地展现数据分布的主要特征。,内容分布,均值、方差的数据特征 数据的分布 二元数据的数字特征及相关系数 误差 坏值的剔除,多元数据的数字特征与相关分析,以上我们分析的都是一元数据,但在实际中,人们更多的遇到的是多元数据 对于多元数据,除分析各变量的取值特点外,更要分析各个变量之间的相关关系,二元数据的数字特征及相关系数,设 是二元总体,从中取得观测数据 引进数据观测矩阵 记,二元数据的数字特征及相关系数,则 ,称为二元观测数据的均值向量。记,二元数据的数字特征及相关系数,协方差矩阵 有 由Schwarz不等式 所以S总是非负定的,一般是正定的。,设M是n阶实系数对称矩阵, 如果对任何非零向量 X=(x1,.xn) 都有 XMX0,就称M正定(Positive Definite)。,二元数据的数字特征及相关系数,观测数据的相关系数(Pearson)计算公式是 由Schwarz不等式,有 即总有,二元数据的数字特征及相关系数,Spearman相关系数,秩 设 其次序统计量是 若 ,则称 是 在样本中的秩,记作 例: -0.8,-3.1,1.1,-5.2,4.2 次序统计量是 -5.2,-3.1,-0.8,1.1,4.2 而秩统计量是 3,2,4,1,5 当观测数据中有两个观测值相等,则相应的秩统计量不能唯一确定,通常对相同的观测值,其秩取为他们秩的平均值。,Spearman相关系数,Spearman相关系数,内容分布,均值、方差的数据特征 数据的分布 二元数据的数字特征及相关系数 误差 坏值的剔除,误差的定义,定义:,x 测量误差 x 测量结果 x0 真值,测量结果与其真值的差异,,真值:,被测量的客观真实值,理论真值:,理论上存在、计算推导出来,如:三角形内角和180,约定真值:,国际上公认的最高基准值,如:基准米,(氪-86的能级跃迁在真空中的辐射波长),相对真值:,利用高一等级精度的仪器或装置的测量结果作为近似真值,1m=1 650 763.73 ,标准仪器的测量标准差 1/3 测量系统标准差, 检定,定量表示,误差理论,测量误差的性质与分类,(1) 随机误差( random error ),正态分布,性质:,原因:装置误差、环境误差、使用误差 处理:统计分析、计算处理 减小,对称性,有界性,抵偿性,单峰性,测量误差的性质与分类,(2) 系统误差( system error ) :,性质:有规律,可再现,可以预测 原因:原理误差、方法误差、环境误差、使用误差 处理:理论分析、实验验证 修正,(3) 粗大误差( abnormal error ) :,性质:偶然出现,误差很大,异常数据,与有用数据混在一起 原因:装置误差、使用误差 处理:判断、剔除,测量精度,精度:,测量结果与真值吻合程度,定性概念,测 量 精 度 举 例,不精密(随机误差大) 准确(系统误差小),精密(随机误差小) 不准确(系统误差大),不精密(随机误差大) 不准确(系统误差大),精密(随机误差小) 准确(系统误差小),精密度:,( precision ),表述:,概念:,重复测量时,测量结果的分散性,准确度:,表述:,测量结果与真值的接近程度,系统误差的影响程度,随机误差的标准差 ( standard deviation ),性质:,平均值与真值的偏差 ( deviation ),算术平均值法,表述:,x1, x2, xn - 测量数据,原理:,多次重复测量时,取全部测量数据的算术平均值为测量结果,剩余误差,偶然误差,性质:,(1)剩余误差的代数和等于零,即 算术平均值法可以滤除或减小偶然误差,(2)剩余误差的平方和为最小 最小二乘法基础,标准误差,用偶然误差表示:,用剩余误差表示:,Bessel公式,内容分布,均值、方差的数据特征 数据的分布 二元数据的数字特征及相关系数 误差 坏值的剔除,坏值的剔除,基本思想:给定一定的显著水平 ,并确定一个门限,凡是超过这个门限的误差就认为他不属于税基误差的范畴,予以剔除。 方法:拉依达(Pauta)准则、格拉布斯(Grubbs)准则、狄克逊(Dixon)准则、 肖维勒(Chauvenet)准则,拉依达(Pauta)准则,如果可疑数据xp与试验数据的算术平均值 的偏差的绝对值V i大于3倍(或2倍)的标准偏差,即: Vi3s 或2s 则应将xp从该组试验值中剔除,至于选择3s还是2s与显著性水平有关。显著性水平表示的是检验出错的几率为,或者是检验的可信度为1。 3s相当于显著水平=0.01 ,2s相当于显著水平 =0.05。,拉依达准则方法简单,无须查表,用起来方便。该检验法适用于试验次数较多或要求不高时,这是因为,当n10时,用s作界限,即使有异常数据也无法剔除;若用s作界限,则次以内的试验次数无法舍去异常数据。,格拉布斯(Grubbs)准则,用格拉布斯准则检验可疑数据xp时,当 Vi(,n) s 时,则应将xp从该组实验值中剔除。这里的(,n)称为格拉布斯检验临界值,它与实验次数n及给定的显著性水平有关。,狄克逊(Dixon)准则,将n个实验数据按从小到大的顺序排列,得到: x1x2xn-1xn 如果有异常值存在,必然出现在两端,即x1或xn。检验x1 或xn时,使用附表所列的公式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论