统计学第二章描述_第1页
统计学第二章描述_第2页
统计学第二章描述_第3页
统计学第二章描述_第4页
统计学第二章描述_第5页
已阅读5页,还剩103页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计学第二章描述本章重点尺度形态分位数箱线图位置詹姆斯312527381913211923332829363222312538262522493725612436182718352829152030322428352522384331343230352525223424331830252226731172142271517212532303219222926241317263213233630262130222717173734332139杜兰特313225434229303718282525382728265433303831332751373136343624253627352826372

2、9292015262335422633243333281538302833301727333930282938414832323727362842433221302523403331273636482824333642293441462431191342詹姆斯杜兰特詹姆斯分布形态钟型分布(bell shaped)钟型分布中间观测值分布多,越往两侧分布越少。因其形状像钟而得名。根据分布的对称性,钟型分布又可分为对称分布、左偏分布和右偏分布对称分布(symmetry)对称分布左偏(left skewed)左偏右偏(right skewed)右偏正态分布(normal distribution)也叫

3、高斯分布(gaussian distribution)是一种完美的、对称的钟型分布,可以用函数精确地表达出来实践中大量的变量逼近正态分布,换而言之,一个变量大约成正态分布才是正常(normal)的杜兰特对比双直方图( bi-histogram)对比描述 位置(location):中心(center) 尺度(scale):差异(variability)或离散(spread)形态(shape)第一节 位置均值(mean)众数 (mode)中位数 (median)分位数 (quantile)均值 观测值之和除以观测值数目中位数 中间位置上的数观测值从小到大排列中间位置:(n-1)/2+1中位数 排序

4、:中间位置:(n-1)/2+1=(101-1)/2+1=51中位数:31众数 分布次数(频数)最多的观测值次数分布找到分布最多的观测值众数不一定存在,也不一定唯一事实上,连续型变量很难精确地找到众数众数位置 分布众数 位置:最多分布为9众数:33分位数 q分位数:观测值从小到大排序后,q等分,处于分界点上的数二分位数(中位数)三分位数(tertiles)四分位数(quartiles)五分位数(quintiles)六分位数(sextiles)十分位数(deciles)十二分位数(duo-deciles)二十分位数(vigintiles)百分位数(percentiles)千分位数(permille

5、s)四分位数 观测值按大小顺序排列后,均分为四部分,处于分界点上的数2/4位置:中位数1/4位置:下四分位数3/4位置:上四分位数 四分位数 詹姆斯:杜兰特:月薪 从某公司随机抽取13位职工,调查他们的月薪如下: 2000 2600 3500 1800 2500 4800 2800 3000 2200 3300 5200 4600 4000四分位数位置176543213121110984710十分位数位置176543213121110982.23.44.65.878.29.410.611.8分位数位置 第k个q分位数的位置:位置汇总 均值:27.13中位数:26众数:25下四分位数:22上四分

6、位数:32均值:31.62中位数:31众数:33下四分位数:27上四分位数:36练习求30家经销商销量均值、中位数、众数、四分位数、十分位数524854614736515843396947496843475954684653342820384173475178第二节 尺度绝对平均差(average absolute deviation)方差(variance)标准差(standard deviation)全距(range)四分位距(inter-quartile range) 绝对中位差(median absolute deviation)散点图均值差异( 离散)中心化( centering)

7、中心化 合计合计不为0绝对值 绝对平均差 平方方差 自由度计算样本方差时应除以n-1,而不是n这里n-1叫自由度(degree of freedom),表示样本可自由取值的数目自由度?如果某班只有1位学生,身高为172如果从某班抽取1位学生调查其身高为172总体无差异无法获知总体差异标准差 变异系数( coefficient of variation) 标准差只能度量绝对差异,而不能度量相对差异变异系数全距 四分位距 绝对中位差 尺度汇总 绝对平均差: 6.31方差: 67.3标准差: 8.20变异系数:0.302全距: 54四分位距: 10绝对中位差:5绝对平均差: 5.96方差: 59.0

8、标准差: 7.68变异系数:0.243全距: 41四分位距: 9绝对中位差:5总体均值和方差 假设知道总体的数据,则可计算总体均值和方差因为总体是唯一的,总体均值和方差也是唯一的,故也称总体参数(parameter)实际中只能用样本均值和方差去估计总体练习求10家经销商销量的绝对平均差、方差、标准差、变异系数、全距、四分位距、绝对中位差52485461483651584339极端值(extremes)也叫离群值(outliers),指明显偏离主体数据的值。极端值应给予特别关注:观测错误特殊情况判定3倍标准差1.5倍四分位距准则极小值极大值标准化(无尺度化)极小值极大值准则极小值极大值讨论判断3

9、0家经销商销量的极端值52485461473651584339694749684347595468160533428103841734751278月薪正常数据有极大值数据右偏正常右偏月薪正常数据有极小值数据左偏正常左偏月薪正常数据既有极大值,又有极小值数据尖峰(厚尾)正常尖峰(厚尾)销量正常数据有极大值数据位置描述 均值:50.1中位数:48.5众数:47均值:63.9中位数:50众数:47正常极大值尺度描述 正常极大值绝对平均差: 9.87方差: 171.4标准差: 13.1变异系数:0.26全距: 58四分位距: 10绝对中位差:6.5绝对平均差: 28.85方差: 5768.5标准差:

10、76.0变异系数:1.19全距: 440四分位距: 10绝对中位差:8.5稳健(robust)诸如中位数、四分位距、绝对中位差的只受主体数据影响不受极端值影响的统计量成为稳健统计量稳健统计量意味着缺乏敏感性 调整均值中间均值(mid-mean):用25%75%分位数之间的数据计算均值切尾均值(trimmed mean):用5%95%分位数之间的数据计算均值缩尾均值(winsorized mean):将5%分位数之前的数据替为5%分位数,95%之后的数据替为95%分位数,再计算均值 讨论求30家经销商销量均值、中间均值、切尾均值、缩尾均值52485461473651584339694749684

11、34759546846053342820384173475178第三节 形态偏度(skewness)峰度(kurtosis)中心化数据(一次方)二次方三次方四次方汇总图中心矩(central moment)二阶中心矩即为方差三阶中心矩可度量偏度四阶中心矩可度量峰度偏度标准化(无尺度化)三阶中心矩偏度大于0为右偏,小于0为左偏峰度标准化(无尺度化)四阶中心矩正态分布的峰度为3,因此峰度大于3为尖峰(厚尾),小于3为平峰(薄尾)。超额峰度(excess kurtosis):形态 偏度:0.705峰度:4.99超额峰度:1.99偏度:0.249峰度:3.29超额峰度:0.29讨论求10家经销商销量的

12、偏度和峰度52485481483651584319箱线图(box plot) 5点:P1:P2:P3:P4:P5:绘图P1P2P3P4P5箱线图可以看出位置(中心)尺度(差异或离散)偏态和峰态极端值 对比练习 相对湿度(%)月份北京长春南京郑州武汉广州成都昆明兰州西安1234567891011124941475055576974684766567068503956547079665959577671777268738282717582825757686763577471675377657775817571748173717278827280808483878684818072757983817

13、97582847875787882656558615872847477767171514149464143585755455352676774705842625565657372湿度第四节 其它 分组数据(grouped data)质量变量的描述分组数据销量组中值频数 302029303940495059606970792410842分组数据销售额组中值频数20以下203030404050506060以上1525354555651511106336加权平均均值方差其中,x为组中值,f为权数加权平均销售额xf20以下15115-26.67 711.11 711.11 2030255125-16.

14、67 277.78 1388.89 30403511385-6.67 44.44 488.89 405045104503.33 11.11 111.11 506055633013.33 177.78 1066.67 60以上65319523.33 544.44 1633.33 3615005400 计算加权的意义较之简单(simple)平均,加权(weighted)平均意味着观测值在均值中的重要性会随着权数调整简单平均可看作加权平均的特例众数 销售额频数20以下203030404050506060以上1511106336 3061d10-d中位数 销售额频数累计20以下203030404050506060以上151110631617273336364050练习求工资的平均数、标准差、众数、中位数、四分位数月工资(元)人数(人)2000以下20002500250030003000

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论