版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Chapter 2,描述,本章重点,尺度,形态,分位数,箱线图,位置,詹姆斯,杜兰特,詹姆斯,杜兰特,詹姆斯,分布形态,钟型分布(bell shaped),钟型分布中间观测值分布多,越往两侧分布越少。因其形状像钟而得名。 根据分布的对称性,钟型分布又可分为对称分布、左偏分布和右偏分布,对称分布(symmetry),对称分布,左偏(left skewed),左偏,右偏(right skewed),右偏,正态分布(normal distribution),也叫高斯分布(gaussian distribution)是一种完美的、对称的钟型分布,可以用函数精确地表达出来 实践中大量的变量逼近正态分布,
2、换而言之,一个变量大约成正态分布才是正常(normal)的,杜兰特,对比,双直方图( bi-histogram),对比,描述,位置(location):中心(center) 尺度(scale):差异(variability)或离散(spread) 形态(shape),第一节 位置,均值(mean) 众数 (mode) 中位数 (median) 分位数 (quantile),均值,观测值之和除以观测值数目,中位数,中间位置上的数 观测值从小到大排列 中间位置:(n-1)/2+1,中位数,排序: 中间位置:(n-1)/2+1=(101-1)/2+1=51 中位数:31,众数,分布次数(频数)最多的
3、观测值 次数分布 找到分布最多的观测值 众数不一定存在,也不一定唯一 事实上,连续型变量很难精确地找到众数,众数位置,分布,众数,位置:最多分布为9 众数:33,分位数,q分位数:观测值从小到大排序后,q等分,处于分界点上的数 二分位数(中位数) 三分位数(tertiles) 四分位数(quartiles) 五分位数(quintiles) 六分位数(sextiles) 十分位数(deciles) 十二分位数(duo-deciles) 二十分位数(vigintiles) 百分位数(percentiles) 千分位数(permilles),四分位数,观测值按大小顺序排列后,均分为四部分,处于分界点
4、上的数 2/4位置:中位数 1/4位置:下四分位数 3/4位置:上四分位数,四分位数,詹姆斯: 杜兰特:,月薪,从某公司随机抽取13位职工,调查他们的月薪如下: 2000 2600 3500 1800 2500 4800 2800 3000 2200 3300 5200 4600 4000,四分位数位置,1,7,6,5,4,3,2,13,12,11,10,9,8,4,7,10,十分位数位置,1,7,6,5,4,3,2,13,12,11,10,9,8,2.2,3.4,4.6,5.8,7,8.2,9.4,10.6,11.8,分位数位置,第k个q分位数的位置:,位置汇总,均值:27.13 中位数:2
5、6 众数:25 下四分位数:22 上四分位数:32,均值:31.62 中位数:31 众数:33 下四分位数:27 上四分位数:36,练习,求30家经销商销量均值、中位数、众数、四分位数、十分位数,第二节 尺度,绝对平均差(average absolute deviation) 方差(variance) 标准差(standard deviation) 全距(range) 四分位距(inter-quartile range) 绝对中位差(median absolute deviation),散点图,均值,差异( 离散),中心化( centering),中心化,合计,合计不为0,绝对值,绝对平均差,
6、平方,方差,自由度,计算样本方差时应除以n-1,而不是n,这里n-1叫自由度(degree of freedom),表示样本可自由取值的数目,自由度?,如果某班只有1位学生,身高为172,如果从某班抽取1位学生调查其身高为172,总体无差异,无法获知总体差异,标准差,变异系数( coefficient of variation),标准差只能度量绝对差异,而不能度量相对差异 变异系数,全距,四分位距,绝对中位差,尺度汇总,绝对平均差: 6.31 方差: 67.3 标准差: 8.20 变异系数:0.302 全距: 54 四分位距: 10 绝对中位差:5,绝对平均差: 5.96 方差: 59.0 标
7、准差: 7.68 变异系数:0.243 全距: 41 四分位距: 9 绝对中位差:5,总体均值和方差,假设知道总体的数据,则可计算总体均值和方差 因为总体是唯一的,总体均值和方差也是唯一的,故也称总体参数(parameter) 实际中只能用样本均值和方差去估计总体,练习,求10家经销商销量的绝对平均差、方差、标准差、变异系数、全距、四分位距、绝对中位差,极端值(extremes),也叫离群值(outliers),指明显偏离主体数据的值。极端值应给予特别关注: 观测错误 特殊情况,判定,3倍标准差 1.5倍四分位距,准则,极小值,极大值,标准化(无尺度化),极小值,极大值,准则,极小值,极大值,
8、讨论,判断30家经销商销量的极端值,月薪,正常数据 有极大值数据,右偏,正常,右偏,月薪,正常数据 有极小值数据,左偏,正常,左偏,月薪,正常数据 既有极大值,又有极小值数据,尖峰(厚尾),正常,尖峰(厚尾),销量,正常数据 有极大值数据,位置描述,均值:50.1 中位数:48.5 众数:47,均值:63.9 中位数:50 众数:47,正常,极大值,尺度描述,正常,极大值,绝对平均差: 9.87 方差: 171.4 标准差: 13.1 变异系数:0.26 全距: 58 四分位距: 10 绝对中位差:6.5,绝对平均差: 28.85 方差: 5768.5 标准差: 76.0 变异系数:1.19
9、全距: 440 四分位距: 10 绝对中位差:8.5,稳健(robust),诸如中位数、四分位距、绝对中位差的只受主体数据影响不受极端值影响的统计量成为稳健统计量 稳健统计量意味着缺乏敏感性,调整均值,中间均值(mid-mean):用25%75%分位数之间的数据计算均值 切尾均值(trimmed mean):用5%95%分位数之间的数据计算均值 缩尾均值(winsorized mean):将5%分位数之前的数据替为5%分位数,95%之后的数据替为95%分位数,再计算均值,讨论,求30家经销商销量均值、中间均值、切尾均值、缩尾均值,第三节 形态,偏度(skewness) 峰度(kurtosis)
10、,中心化数据(一次方),二次方,三次方,四次方,汇总图,中心矩(central moment),二阶中心矩即为方差 三阶中心矩可度量偏度 四阶中心矩可度量峰度,偏度,标准化(无尺度化)三阶中心矩 偏度大于0为右偏,小于0为左偏,峰度,标准化(无尺度化)四阶中心矩 正态分布的峰度为3,因此峰度大于3为尖峰(厚尾),小于3为平峰(薄尾)。超额峰度(excess kurtosis):,形态,偏度:0.705 峰度:4.99 超额峰度:1.99,偏度:0.249 峰度:3.29 超额峰度:0.29,讨论,求10家经销商销量的偏度和峰度,箱线图(box plot),5点: P1: P2: P3: P4: P5:,绘图,P1,P2,P3,P4,P5,箱线图可以看出,位置(中心) 尺度(差异或离散) 偏态和峰态 极端值,对比,练习 相对湿度(%),湿度,第四节 其它,分组数据(grouped data) 质量变量的描述,分组数据,30,2029 3039 4049 5059 6069 7079,2 4 10 8 4 2,24.534.544.554.564.574.5,分组数据,加权平均,均值 方差 其中,x为组中值,f为权数,加权平均,计算,加权的意义,较之简单(simple)平均,加权(weighted)平均意味着观测值在均值中的重要性会随着权数调整 简单平均可看作加权平均的特
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 产品盲盒设计策略与实施流程
- 嘉士利饼干新包装设计
- 老年抑郁症心理治疗指导
- 肺部感染治疗监测流程培训
- 药剂科药物不良反应处理规范
- 脑卒中康复护理计划
- 慢性鼻窦炎护理规范
- 软装设计演讲核心框架
- 基于LBS的附近商家系统课程设计
- 天气开源组件使用课程设计
- DB13T 5714-2023 道路运输企业安全生产风险分级管控规范
- 建筑工程项目汇报ppt
- 2023年江苏第二师范学院招聘工作人员17人笔试备考试题及答案解析
- GA/T 832-2014道路交通安全违法行为图像取证技术规范
- 输电线路工程组塔施工质量控制
- 最新人教部编版六年级下册语文《古诗词诵读:春夜喜雨》教学课件
- 公共伦理学(第三版)-课件
- 国家电网有限公司十八项电网重大反事故措施(修订版)
- 景观园林植物废弃物资源化利用(课堂PPT)
- 汽轮机灵活性运行-PPT课件
- 七年级数学下推理填空题专项练习
评论
0/150
提交评论