由数据,分析报告位置特性分散性关联性_第1页
由数据,分析报告位置特性分散性关联性_第2页
由数据,分析报告位置特性分散性关联性_第3页
由数据,分析报告位置特性分散性关联性_第4页
由数据,分析报告位置特性分散性关联性_第5页
免费预览已结束,剩余17页可下载查看

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、由数据,分析位置特性-分散性-关联性-等.1 一维数据的数字特征来自总体X 一维数据x1,x2JH,xn称为样本观测值(样本容量为n) 主论:集中位置、分散程度、分布形状1.位置的数字特征(1)均值(Mean) xX,简易,但不稳健(难抗异值)次序统计量值:X一 &)一川一 X(n)(由Xi,X2, HI,Xn排序而得),其中X(i)二呷臥人,心)种蛊Xj(2)中位数(Median) MXI121n为奇数n为偶数5 / 19np不是整数较稳健,抗异值;(若数据对称,则两边个数约等)p分位数X(np1)M = 1(Quanti I es)X(np) X(np 1)np是整数.2其中 0 一 p

2、:: 1 ,当 p = 1 时,规定:M 1 = X(n)常用上、下四分位数=M 0.75,=M 0.25 111三均值M? Q MQq(较准、较稳)4 1243(5)连续型总体分布F(X)的p分位数F( p)二 p (0 : p :1)当J惟一时,在一定条件下,有 样本p分位数Mp以概率 总体的p分位数; 故当n充分大时,有p : M p(相合估计)例1.1 100个女生的血清蛋白含量(g/L)数据如下:74.378. E68.878,07(J480.580,569.771.273-379,575.675.078.&72.0TN 077.074.371.272.075.D7S.578.874

3、.75.865 Q74.37E269.768.073.575.072-064.15.15SO. 369.774.373.573.375.1575.88.876.570.471.2St ,275.070.46.0i70.472.07374 376. 577, &67.572.015.074. 379.573.374.765.076.5l 675.472.772. 767-276.572.770.477.2鞘,S67.367_367-372.775. E73.375.072.773. 573.572.781.670.374.373.579.570.47(,572,777.2阿375.076.37Q

4、. 4求均值冲位数,上,下四分位数,M 0.99 , M0.95 , M 0.90M 0.10 , M 0.05 , M 0.01 分位数,三均值.61/9P P乙L 1z9 Z= 0 + IAI + 0 | =削VVV0179U!l/l %099179%L0Z9%9017*9%0LOS12P %9209ZUB!P9|/| %090892e0 %9Z9162%060908%969678%66O178xe|/| %00L91BUJI1S39|!;uer)o区番黔1 BW eleueAiun oojd畐辰宙:搦proc iml ; /*iml1.sas*/m=0.25 *75.80 +0.5 *

5、73.50 +0.25 * 71.20 print m;2.分散性的数字特征(1)变异系数n样本的方差标准差1 n-X)2n -1 i(Variance, Std Deviation)变异系数(Coefficient Variation ): CV = 100 汇 (%).(无量纲)X2若x Xn来自总体X ,则s ,s,CV分别是总体的 匚2二Var(X)卢二、._Var(X), r二的相合估计,即 当n充分大时,有二2 : s2,匚 s,r CV(2)极差(Range)四分位极差(Interquartile Range)R = X(n)- X;R = Q3 - Q1 (抗扰,稳健)对于正态

6、总体N(二2),有总体的4.75 = 4 + 0.674 5b , 4.25 =卩-0.6745b故总体的四分位极差ri =0.75 -0.25 = 1.349 -这时1.349若总体标准差存在,则得二的(抗扰)估计 ?Rl(称为四分位标准差)1.349(3)异常值简易判别法数据的上、下截点:Q3 1.5R, Q, -1.5R, 界外视为特小、大值,统称异常值若总体为N(,二2),理论上的上、下截点为-0.75 +1.5r,=4 +2.698J.25 -1.5* = 4 -2.698b界外概率为0.006 98,即异常值比例约为 0.7%. 例1.2计算例1.1血清蛋白含量数的方差、标准差、

7、变异系数、极差、四分位极差、四分位标准差、并分析是否有异常值解调用类似的过程 example1_2.sas,可得 s2 = 15.524,s =3.94,CV =5.349,R =20,R =4.6, 3.41下、上截点:64.3和82.7,剔除84.3,再计算得X =73.552, M =73.5, s =3.81,Q3 -75.6Q =71.2,R4.6结果表明:中位,四分位抗扰,均值和标准差都有变化(敏感)12 / 19右偏态(正偏) 峰度(数据的)(Kurtosis)3.形状的数字特征(1)偏度(数据的)(Skewness1 n _g1亍 (Xi -x)3(n -1)(n -2) s

8、y左偏态(负偏)对称11 / 19g2 =-1n(n 2)A、(x _x) (n -1)(n -2)(n -3) s = 3(n-1)2(n -2)(n-3)以正态分布为标准,比较两侧端数据分布情况 (数据分布边缘-正态(密度)分布边缘) 若数据呈现正态,则g2 =0;若g20,则含有较多远离均值的极端数据若g2 :: 0,则含有较少的极端数据(3)总体的偏度、峰度设x1,x2j|l,xn是取自总体 X的样本,3、4阶中心矩X E(x 1)E(X )4,则总体的偏度和峰度分别为Gi =遗和 G?二一4 - 3,C3CT4数据的gi和g2是总体的G和G2的相合估计,故当n相当大时,有Gi gi

9、和 G2 : g2若总体是对称分布,则3=0,故有G =0,余见图.总体峰度是以同方差的正态分布为准,比较尾部分 若总体分布为正态,则有 =4,故有G0;当G2 0,称为粗尾的,当G2 0,称为细尾的(4)多维数据简介 对每一分量,分别计算其数字特征 例1.3从1952年至2001年,我国国民生产总值、第 一产业(农业)、第二产业(工业与建筑业)、第三产业的产值见表1. 1(单位:亿元).分别计算国民生产总 值、第一、二、三产业产值的主要数字特征并考察 异常值情况表解:调用example13.sas,可得(1) 国民生产总值:X =16 764.45, M =3 099.6, s =26 94

10、8.17,s2 =7.262 108,Q3 =16909.2,Q! =1457.0,R =95254.3, R =15452.2, g“ =1.8689, g2 =2.1814.(2) 第一产业x =3486.65, M =969.05, s =4687.75, s2 =21975020, Q3 =4 228.00, =559.0,R =14269.2, R =3669.0, g, =1.6190,g2 =1.1713.(3)第二产业(4)第三产业1 J二 l 4K80I = 5,迄M =皿 20S :13 530.61.J 1“删时18 797.20.丿=77 册2 3377 278.0,E=M2,2% = 5 403.2,(?, z. 156JR=48 WJ,R.二6师&K二戏腑0.0,JI, = 4 94金 9=Al 2,岛-1.481 S斷=J-1 5.用=1500 4特征:X与M差距大,有较散的数据;(2) g10且较大,有较多偏右态的数据(3) g20且较大,分布呈现粗尾,有较多的大值表明:我国国民生产总值及各类产业总值在迅速增 长,尤其是改

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论