版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1第三讲
数据的描述性分析2教学目的和要求通过本讲的学习,学生应该熟练掌握描述数据特征,即数据的集中趋势、离散趋势的分析方法,要求学生掌握各种测度指标的含义和计算方法,并且能够运用这些指标来研究事物或现象的总体特征和变化规律。3本讲内容描述数据特征的意义集中趋势测度指标种类计算适用情况离散趋势测度指标种类计算适用情况位置测度指标种类计算适用情况箱索图绘制方法作用4描述数据特征的意义1.集中趋势指标的最一般意义:作为总体的代表水平同其他同质的总体进行比较;反映的是同质总体的共性、集中性。2.离散趋势指标反映的是个性和分散性,用来衡量集中趋势指标的代表性强弱。5集中趋势测度指标(平均数、中位数、众数)掌握计算方法掌握每种指标的适用情况6
集中趋势指标----平均数衡量变量分布中心的指标最常用的集中趋势指标容易受极端值的影响极端值:远离分布中心的数值7平均数的种类简单算术平均数加权算术平均数几何平均数8简单算术平均数公式:适用情况
♦资料未分组
♦每一个变量值的作用相同影响平均数大小的因素只有变量值9加权算术平均数定义:将各变量值分别乘以代表该变量值重要程度的权数,然后用此乘积之和除以权数之和,所得的商为加权算术平均数。公式:加权平均数
(权数对均值的影响)
甲乙两组各有10名学生,他们的考试成绩及其分布数据如下甲组:考试成绩(x): 020100
人数分布(f):118
乙组:考试成绩(x): 020100
人数分布(f):81111几何平均数公式:♦几何平均数适用于比例和速度等♦相对数的平均计算12几何平均数的应用1132013年各月全国住宅价格环比指数为100.611月100.95月100.86月100.610月101.14月100.79月101.23月100.98月101.12月100.87月100.71月环比指数时间环比指数时间求2013年平均环比增长速度几何平均数的应用2
12月100.414平均环比速度平均环比速度15集中趋势指标2--中位数(Median)16中位数计算方法对于未分组数据排序后处于中间位置上的值。不受极端值影响确定Me=Me50%50%17中位数计算举例2(5个数据的算例)原始数据:
2422212620排序: 2021222426位置: 123 45中位数=22Û18中位数计算举例(N=6)原始资料:10.34.98.911.76.37.7按顺序排列:4.96.37.78.910.311.7位置:123456中位数所在的位置为:中位数=(7.7+8.9)/2=8.319中位数计算方法对于分组数据排序后处于中间位置上的值。不受极端值影响确定中位数项次(n+1)/2Me50%50%20集中趋势指标3--众数(Mode)出现次数最多的那个变量值是一个常用的集中趋势指标它不受极端值的影响并非所有的数列都存在众数mo21(众数的不唯一性)无众数原始数据:10591268一个众数
原始数据:659855多于一个众数
原始数据:252828364242众数、中位数、平均数的特点和应用平均数易受极端值影响数学性质优良,实际中最常用数据对称分布或接近对称分布时代表性较好中位数不受极端值影响数据分布偏斜程度较大时代表性接好众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时代表性较好怎样评价集中趋势代表值?假定有两个地区每人的平均收入数据,其中甲地区的平均收入为5000元,乙地区的平均收入为3000元。你如何评价两个地区的收入状况?如果平均收入的多少代表了该地区的生活水平,你能否认为甲地区的平均生活水平就高于乙地区呢?要回答这些问题,首先需要搞清楚这里的平均收入是否能代表大多数人的收入水平。如果甲地区有少数几个富翁,而大多数人的收入都很低,虽然平均收入很高,但多数人生活水平仍然很低。相反,乙地区多数人的收入水平都在3000元左右,虽然平均收入看上去不如甲地区,但多数人的生活水平却比甲地区高,原因是甲地区的收入差距大于乙地区怎样评价集中趋势代表值?仅仅知道数据的集中趋势是远远不够的,还必须考虑数据之间的差距有多大。数据之间的差距用统计语言来说就是数据的离散程度。数据的离散程度越大,各描述统计量对该组数据的代表性就越差,离散程度越小,其代表性就越好。甲乙25离散趋势测度指标全距方差标准差变异系数反映数据分散程度的指标26离散程度指标掌握这些指标的作用掌握计算它们的方法掌握每种指标的适用情况掌握这些指标的优缺点27全距(Range)全距=最大值-最小值原始资料:1716211813161211顺序排列:1112131616171821全距=21-11=10优缺点:离散程度的最简单测度值;未考虑数据的分布;易受极端值影响;
方差和标准差
(varianceandstandarddeviation)数据离散程度的最常用测度值反映各变量值与均值的平均差异根据总体数据计算的,称为总体方差(标准差),记为2();根据样本数据计算的,称为样本方差(标准差),记为s2(s)29方差30样本方差计算1(未分组)原始数据:171621181316121131样本方差计算2续(已分组)问题:♦11.14说明什么
♦优点:离散程度可以量化
缺点:方差计算结果会给人以夸大离散程度规模的效果,使人们不易达到直观认识离散程度的目的;方差的计量单位与原观察值得计量单位不一致。32标准差(方差的平方根)♦
计算公式♦展示的信息:一组数据对其均值为代表的中心的某种偏离程度。♦优点:反映的一组数据的离散程度。标准差(或方差)较小的分布一定是比较集中在均值附近的,反之则是比较分散的。
缺点:计算起来比较麻烦。标准差也是根据全部数据来计算的,但是它也会受到极端值的影响。2008年8月样本方差和标准差
(samplevarianceandstandarddeviation)方差的计算公式标准差的计算公式(n-1为样本的自由度)2008年8月总体方差和标准差
(PopulationvarianceandStandarddeviation)方差的计算公式标准差的计算公式35标准差的应用标准差度量投资风险标准差度量产品质量的稳定性标准差度量企业的生产及服务的质量标准36集中趋势指标与离散程度指标的关系离散程度指标大,说明总体分散或者说总体中各标志值离集中趋势指标远,那么集中趋势指标代表性就小。离散程度指标小,说明总体集中或者说总体中各标志值离集中趋势指标近,那么集中趋势指标代表性就大。2008年8月数据分布的形状—偏态与峰态扁平分布尖峰分布偏态峰态左偏分布右偏分布与标准正态分布比较!偏态
(skewness)统计学家K.Pearson于1895年首次提出。是指数据分布的不对称性测度统计量是偏态系数(coefficientofskewness)3.偏态系数=0为对称分布;>0为右偏分布;<0为左偏分布偏态系数大于1或小于-1,为高度偏态分布;偏态系数在0.5~1或-1~-0.5之间,为是中等偏态分布;偏态系数越接近0,偏斜程度就越低峰态
(kurtosis)统计学家K.Pearson于1905年首次提出。数据分布峰值的高低测度统计量是峰态系数(coefficientofkurtosis)峰态系数=0扁平峰度适中峰态系数<0为扁平分布峰态系数>0为尖峰分布40原始数据:1716211813161211
EXCEL输出结果:平均15.5标准误差1.180193689中位数16众数16标准差3.338091842方差11.14285714峰度-0.596449704区域10最小值11最大值21求和124观测数841SPSS描述性分析StatisticsN Valid 8 Missing0 Mean 15.5000 Std.ErrorofMean1.18019 Median 16.0000 Mode 16.00 Std.Deviation 3.33809 Variance11.143 Skewness .184 Kurtosis -.596Range10.00 Minimum 11.00 Maximum 21.00 Sum 124.00
42位置测度指标●位次指标:根据观察值在变量数列中的位置而确定的指标●常用的位置测度指标有:
四分位次指标
十分位次指标百分位次指标四分位距
43
五大位次指标
(三个四分位次指标加上最大值及最小值)▼五大位次具体指:♦最小值♦第一四分位数♦第二四分位数(中位数)♦第三四分位数♦最大值
44五大位次指标位置的图示25%25%25%25%Q1Q3最小值最大值中位数把变量数列(从小到大排列)分成四等份45四分位数的确定1原始数据:10.34.98.911.76.37.7按顺序排列:4.96.37.78.910.311.7位置:123456第1四分位数的位置公式为:
Q1位置=1(n+1)/4
46Q1
位置=1(n+1)/4=1(6+1)/4=1.75Q1=6.3Q2位置=2(n+1)/4=2(6+1)/4=3.5Q2=(7.7+8.9)/2=8.3Q3位置=3(n+1)/4=3(6+1)/4=5.25Q3=10.3四分位距Qr=Q3-Q1用于说明中间50%数据的离散程度四分位数的确定2四分位数把一组数据按从小到大(或从大到小)的次序排成一个数列,将这个数列分成4个部分,每个部分包含数目相等的数据,各部分数据分界点上的数据值叫做四分位数。第一个四分位数Q1之前包括了25%的数据,第二个四分位数Q2即中位数,中位数之前包括了50%的数据,第三个四分位数Q3之前包含了75%的数据。四分位差舍去数列中数值最高的25%数据和数值最低的25%的数据,求出中间50%的数据中最大数据与最小数据的数值差,即四分位差。四分位差表明有50%的样本值在分布在这一区间内,用Q代表四分位差,计算公式为:
Qr=Q3-Q149五大位次指标的图示:箱索图箱索图是一种将五个位次指标显示在一条横轴上,以刻划变量数列集中、离散和偏斜态势的统计图主要作用:用于对两个或两个以上数列的集中、离散和偏斜态势作迅速而直观的对比。识别数据中是否存在异常值50箱索图的画法首先确定第一四分位数、第二四分位数(中位数)第三四分位数计算1.5倍的四分位距5162人智商分数的箱索图第一四分位数95.75第二四分位数(中位数)107第三四分位数117.25四分位距21.5Q3+1.5*21.5=107.25+32.25=139.5最小值=78最大值=135Q1-1.5
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 眼科患者的心理护理
- 排水管涵施工方案
- 提高护理服务质量的评估方法
- 2026年纳米材料在绿色建筑保温中应用
- 护理技能实操的模拟训练
- 管桩施工方案.钢结构实验学校预应力
- 2026年细胞工厂外泌体规模化制备技术
- 2026年十五五服务机器人新质生产力核心攻关与投资主线
- 智能护理技术在儿科护理中的应用
- 管道防腐施工方案
- 2025年CFA三级投资组合管理真题
- PLC时序图课件教学课件
- 23G525 吊车轨道联结及车挡(适用于钢吊车梁)施工技术规范
- 医学生基础医学社区获得性肺炎查房课件
- 桥检车作业技术安全管理考核试题(附含答案)
- 汪曾祺文学作家名人介绍人物
- 人工智能在农产品质量检测行业的创业计划书提供智能农产品质检解决方案
- 幼儿园实物拓印版画教学的实践研究
- 2025年湖南农电服务招聘考试(非电工类)模拟试题及答案
- 禁毒安全主题班会课件
- 2024河南农业大学辅导员招聘笔试真题及答案
评论
0/150
提交评论