版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 4-1 4第四章第四章 数据的描述性分析数据的描述性分析 通过本章的学习,我们应该知道:通过本章的学习,我们应该知道: 描述数据的集中趋势的指标及计算描述数据的集中趋势的指标及计算 描述数据的离散程度的指标及计算描述数据的离散程度的指标及计算 了解数据分布的偏态与峰度了解数据分布的偏态与峰度 1. 利用利用Excel进行数据的描述性统计分析进行数据的描述性统计分析 S t a t i s t i c s 4-2 本章内容概述 1 本章内容是关于:单变量截面数据的特征 描述 2 为了对统计分组和简单整理后的数据的进 一步认识,借助于下面的四类指标进行深 入讨论: 集中趋势、离散程度、偏态与峰度
2、 3 统计指标的作用 4-3 1 集中趋势的描述 集中趋势(central tendency)反映的是一组数据向某 一中心值靠拢的倾向。 数据的集中趋势通常用来反映。 集中趋势指标(平均指标)按计算方法不同分为: 算术平均数 调和平均数 几何平均数 中位数 众数 4-4 4-5 数值平均数数值平均数 是同质总体内各个个体某一数量标志的具体是同质总体内各个个体某一数量标志的具体 表现在一定时间、地点、条件下所达到的一表现在一定时间、地点、条件下所达到的一 般水平,是反映现象总体综合数量特征的重般水平,是反映现象总体综合数量特征的重 要指标,又称为平均指标要指标,又称为平均指标 4-6 1-1算术
3、平均数(arithmetic mean) 1 概念: 算术平均数是分析社会经济现象一般水平和典型特征的最最 基本指标基本指标,是统计中计算平均数最常用的方法最常用的方法。 2 基本公式: 注意: 公式中分子和分母在经济内容上的从属关系: 公式中分子和分母在范围上是一致的,否则不是平均数 例 劳动生产率=粮食产量/种粮农民人数; 全国平均每人拥有的粮食产量=粮食产量/全国人口数。 总体包含个体总数 总体标志总量 算术平均数 4-7 简单算术平均数与加权算术平均数 简单算术平均数简单算术平均数(simple arithmetic mean) 特点:适于未分组数列;每个变量值出现的次数都是1。 加权
4、算术平均数加权算术平均数(weighted arithmetic mean) 特点:适于分组数列;平均数的值受权数的影响。 计算公式: 其中:原始数据分为 组,第 组变量值为 对应的次数为 n i i n i ii f fx x 1 1 n i xi i f 注意:注意:对变量值 的说明 单项变量数列直接对变量值进行加权平均计算; 组距变量数列先求出该组变量值的组中值,作为 进行计算。 i x i x 4-8 VAR00001 174.0 173.0 172.0 171.0 170.0 169.0 168.0 167.0 166.0 165.0 164.0 163.0 162.0 161.0
5、160.0 159.0 158.0 157.0 156.0 155.0 154.0 153.0 152.0 14 12 10 8 6 4 2 0 Std. Dev = 4.86 Mean = 163.3 N = 83.00 83名女生的身高名女生的身高 分布的集中趋势、分布的集中趋势、 中心数值中心数值 算术平均数算术平均数 4-9 组距数列加权算术平均数计算举例 某企业工人日产量的算术平均数计算表(单位:千克) 按日产量分组工人数 fi组中值 xixifi 60以下10 607019 708050 809036 9010027 10011014 110以上8 合计164 55550 6512
6、35 753750 853060 952565 1051470 115920 13550 工人平均日产量=13550/164=82.62(千克) 4-10 权数(weight) 1 概念 我们把变量数列中的次数看作变量值的权数。 原因在于:次数在平均数中的影响起着某种权衡轻重的作用 影响平均数大小的两个因素:变量值大小和权数。 2 形式 权数有两种形式:绝对数形式(频数)、相对数形式(频率) 同一总体资料,用权数的两种形式计算的平均数完全相同。 5x X 4 5 6 合计 频数频率(%) 10 20 10 25.0 50.0 25.0 40100.0 X 4 5 6 合计 频数频率(%) 20
7、 40 20 25.0 50.0 25.0 80100.0 X 4 5 6 合计 频数频率(%) 20 10 10 50.0 25.0 25.0 40100.0 75. 4x5x 4-11 m i i m i ii f fX X 1 1 成绩(分)成绩(分) 人数(人)人数(人) 甲班甲班乙班乙班丙班丙班 6039150 10013950 平均成绩(分)平均成绩(分)619980 4-12 算术平均数的数学性质 1 算术平均数与总体单位数的乘积等于总体各单位标志值的总和。 2 各变量值与算术平均数的离差之和等于零。 3 各变量值与算术平均数的离差平方之和最小。 优点:1 容易理解,便于计算 2
8、 灵敏度高 缺点:1 容易受极端变量值的影响 2 在开口组中,代表性变差 n i ii n i i fxfx 11 n i i xnx 1 0 1 n i i xx minxx n i i 最小值 1 2 4-13 1-2调和平均数(harmonic mean) 概念: 由于在社会经济统计中缺乏资料,计算平均数时就需要 采用间接的方式,于是产生了调和平均数。 时间单价(元/斤)x所花钱数(元)m购买量(斤)m/x 早市 中市 晚市 0.5 0.4 0.2 1 1 1 合计 3 购买3次该蔬菜的平均价格是多少? 总重量 总金额 平均价格 已知分子资料 未知分母资料 4-14 调和平均数与算术平均
9、数的关系 Hx x m m xf x xf f xf x 1 调和平均数在实际应用中一般是作为算术平均数的变形使用, 区别在于两者所掌握的原始资料不同。 对于相同的总体,两者计算得到的结果完全相同。 9.5 3 合计 2 2.5 5 1 1 1 0.5 0.4 0.2 早市 中市 晚市 购买量(斤) m/x 所花钱数(元)m单价(元/斤)x时间 已知资料调和平均数 已知资料算术平均数 4-15 调和平均数的特点 优点: 1 灵敏度高 2 在某些情况下,代替简单平均数进行计算 缺点: 1 不容易理解 2 容易受极值影响 3 有标志值为0时,不能计算 总重量 总金额 平均价格 已知分子资料 未知分
10、母资料 H x 总重量 总金额 平均价格 未知分子资料 已知分母资料 x 4-16 1-3 几何平均数(geometric mean) 1 概念: 若干项变量值连乘积开其项数次方的算术根。 当各项变量值的连乘积等于总比率总比率或总速度总速度时,适宜使用 他计算平均比率或平均速度。 2 计算(见例4.6,4.7) 简单几何平均数: 加权几何平均数: 3 优点: 受极端变量值影响小;适宜计算平均比率和平均速度。 缺点: 有变量值为0或负值不能计算;应用范围较窄。 n n i i n n xxxxx G 1 21 . f f n i i ffff n ff G i n n xxxxx 1 . 21
11、21 21 . 4-17 1-4 中位数与分位数 1 概念 总体单位标志值按大小顺序排列,处于中间位置的那 个标志值就是中位数(median)Me。 意义:总体标志值中一半比中位数小,一半比它大。 人口普查中应用年龄中位数;产品质量控制中取中位数 2 计算:(见书中例题) 先对数据进行排序; 未分组数据确定中位数: 单项数列确定中位数: 先计算各组的累积次数(向上或向下累计);再根据 中位数的位置 找到中位数。 2 1 n M e位置 2 1 f 4-18 中位数与分位数 中位数的特点: 优点:容易理解;不受极端值影响;某些不具有数学特点 或不能用数字测定的现象可以用中位数求其一般水平。 缺点
12、:灵敏度差,不宜计算 分位数概念: 四分位数(Quartiles): 把一个变量数列分为四等分,形成三个分割点Q1、Q2、Q3, 这三个分割点的数值就是四分位数。Q2=Me 计算:略 十分位数(dectile) 百分位数(percentile) 4-19 1-5 众数 1 概念: 众数(mode)是总体中出现次数最多的标志值。 它能直观的说明客观现象分配中的集中趋势。 2 应用举例: 有时常用众数代替算术平均数来说明社会经济现象的一般 水平 例:市场上某种商品一天的价格变动,成交量最多的那个 价格 大批服装(鞋)规格不同,市场需求最多的那个规格 3 计算: 未分组资料或单项数列:直接观察法出现
13、次数最多的 4-20 众数的特点 特点: 只有总体单位数较多,标志值次数分配具有明显 的集中趋势时,众数才有存在的意义。 优点:容易理解;不受极值影响 缺点:不唯一;不易计算,尤其对于不等距分组 的数列 4-21 1-6 各种平均指标之间的关系 1. 三类数值平均数之间: 算术平均数、几何平均数、调和平均数 xxx GH 2. 数据的分布与众数、中位数、算术平均数 4-22 1-7 对各平均指标需要说明的问题 1. 数据的非对称状态越强, 之间的差 别就越大 x 0 M e M 2. 正确应用平均指标的原则 平均指标只能用于同质总体 4-23 概念: 离散程度指标又称标志变异指标,离中趋势指标
14、等 它反映变量分布离散趋势;常与平均指标匹配使用 (1)评价平均数的代表性; (2)是对事物发展均衡性的量度: 供货计划完成的均衡性,协调性;产品质量的稳定性 作用: 2 2 离散程度的描述离散程度的描述 种类 离散程度的绝对指标 离散程度的相对指标 4-24 2-1 极差、四分位差 概念: 极差(Range)也叫全距,是一组数据的最大值与 最小值之离差,即: 特点:极差是最简单的测度值,计算简单,易于 理解。 只说明两个极端变量值的差异范围,不能反映各 单位变量值变异程度,易受极端值的影响。 2.四分位差(quartile deviation)是指第三四 分位数与第一四分位数之差,也称为内距
15、或四分 间距,用Qr表示。 Qr=Q3-Q1 特点:反映了中间50%数据的离散程度,不受极端 值影响,在某种程度上弥补了极差的一个缺陷 1. )min()max( ii xxR 4-25 平均差 n xx M n i i D 1 简单式 DD MA 或 平均差(mean deviation)也称平均离差,是各 变量值与其平均数离差绝对值的平均数,通常用 表示。 n i i n i ii D f fxx M 1 1 加权式 4-26 平均差 在可比的情况下,一般平均差的数值越大,则其 平均数的代表性越小,说明该组变量值分布越分 散;反之,平均差的数值越小,则其平均数的代 表性越大,说明该组变量值
16、分布越集中。 缺点: 平均差由于采用绝对值的离差形式加以数学假定, 在应用上有较大的局限性。 4-27 2-2 标准差与方差 概念: 标准差是各单位标志值与其算术平均数的离差平方的算 术平均数的平方根,是实际中应用最广泛的离散程度测 度值,量纲与标志值的计量单位相同 计算: 未分组资料: 分组资料: 标准差与平均差之间的关系: n XX i 2 f fXX 2 D M 4-28 2-3 离散程度的相对指标:离散系数 对于平均数不等或计量单位不同的不同组 别的变量值,是不能直接用离散程度的绝 对指标比较其离散程度的。为了消除变量 平均数不等和计量单位不同对离散程度测 试值的影响,需要计算离散程度
17、的相对指 标,即离散系数 4-29 2-3 离散程度的相对指标:离散系数 例:从学校大一学生中抽取100人,测得他 们的身高和体重的平均值分别为168cm, 52kg;相应的标准差为9cm,5kg。问身高和 体重的差异哪一个大? %100 x V 离散系数:把算术平均数与离散程度绝对指标联 系起来的一个相对测度。 身高的离散系数=9/168*100%=5.36% 体重的离散系数=5/52*100%=9.62% 4-30 2-4 数据的标准化 z-z-分数分数 在计算了算术平均数和标准差后,我们可以对一组数据中 各个数值进行标准化处理,以测度每个数据在该组数据中 的相对位置,并可以用它来判断一组
18、数据是否有异常值 标准化数值是变量值与其平均数的离差除以标准差后的值, 也称为z分数或标准分数 标准差数值z: 经验法则:3-原则 通常一组数据中高于或低于算术平均数三倍标准差的数值 是很少的,即在算术平均数加减三个标准差的范围内几乎 包含了全部数据 s xx z xx z ii 或 4-31 总方差等于组内方差的平均数加上组间方 差 组内方差反映组内标志值对组平均数的方 差 组间方差反映组平均数对总平均数的方差 2-5 总方差、组内方差和组间方差 222 i 4-32 为什么要研究偏态和峰度?为什么要研究偏态和峰度? 要全面了解数据分布的特点,还需要掌握 数据分布的形状是否对称、偏斜的程度以 及扁平程度等。反映这些分布特征的测度 值是偏态和峰度 3 3 分布的偏态与峰度分布的偏态与峰度 4-33 3 分布的偏态与峰度分布的偏态与峰度 3-1 原点距与中心距 k阶原点距:以标志值0点为原点或支点,以各组标志值的k 次方为力臂,以 为作用力的大小 算术平均数可用一阶原点矩表示 k u n i i n i k ii f xf 1 1 n i i i f f 1 4-34 k阶中心距:把原点移到算术平均数处,以 的各次方作为力臂的距离,以 为作用力的大 小 方差可用二阶中心矩表示 n i i n i i k i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 地毯铺设施工工程施工工艺
- 内部举报投诉制度
- 内部反馈制度
- 内部安全检查工作制度
- 2025至2030中国免税品市场政策红利与渠道竞争格局演变报告
- 2025至2030中国包装用铝箔板材行业标准升级与市场机遇研究报告
- 口腔门诊各项规章制度
- 2026高温合金产业链分析及未来市场趋势预测报告
- 2026零代码开发平台企业采纳障碍与功能完善方向分析报告
- 2026镍基合金行业成本结构优化与盈利模式研究报告
- 冀教版八年级英语下册Lesson28 Ms Lius Great Idea 核心素养教案
- 2026春小学科学青岛版(五四制2024)三年级下册教学计划、教案及每课教学反思(附目录)
- 2026年内蒙古化工职业学院单招综合素质考试题库及一套参考答案详解
- 2026上海交通大学医学院招聘91人考试备考题库及答案解析
- 2026年南京铁道职业技术学院单招职业适应性考试题库附答案详解(夺分金卷)
- 2026年春季人教PEP版五年级下册英语教学计划含教学进度表
- (2026年)海姆立克法急救培训课件
- 湖北2025年湖北科技学院招聘19人笔试历年参考题库附带答案详解
- 收单外包服务合作相关制度
- 2025年泰安集团招聘笔试题答案
- 河北衡水恒通热力有限责任公司招聘笔试题库2024
评论
0/150
提交评论