第四章-数据分布特征描述_第1页
第四章-数据分布特征描述_第2页
第四章-数据分布特征描述_第3页
第四章-数据分布特征描述_第4页
第四章-数据分布特征描述_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章数据分布特征的描述 描述数据分布特征的指标主要有三大类 一是描述数据分布集中趋势的指标 二是描述数据分布离散程度的指标 三是描述分布偏斜程度的指标 统计指标的分类 总量指标 绝对数 数量指标相对指标 相对数 质量指标平均指标 平均数 质量指标 绝对数 现象的规模 水平一般以绝对数形式表现 相对数 相对数由两个互相联系的数值对比求得 常用的相对数包括 结构相对数 动态相对数 比较相对数 强度相对数 利用程度相对数 计划完成相对数等 平均数 平均数反映现象总体的一般水平或分布的集中趋势 第一节总量指标和相对指标 一 总量指标 一 总量指标的概念和作用总量指标是反映现象在具体时间 地点 条件下的总规模或总水平的统计指标 总量指标也称为绝对指标或绝对数 总量指标在社会经济统计中的作用 可以反映社会经济和企业的基本情况 反映一个国家的基本国情和国力 它是计算相对指标 平均指标等描述指标的基础 是制定政策 编制计划 实行社会经济管理的基本依据 二 总量指标的种类 1 总量指标按其反映的时间状况不同 分为时期指标和时点指标 时期指标反映现象在某一时期发展过程的总数量 时点指标则反映现象在某一时刻上的状况总量 2 总量指标按计量单位不同 分为实物量指标 价值量指标和劳动量指标 实物量指标是以所反映现象的实物单位为计量单位的总量指标 价值量指标是以货币为计量单位的总量指标 劳动量指标是以劳动时间为计量单位的总量指标 时期指标和时点指标的不同特点 时期指标的数值是连续计数的 时点指标的数值则是间断计数的 时期指标具有累加性 时点指标则不具有 时期指标数值的大小受时期长短的制约 时点指标数值的大小与时点的间隔长短无直接关系 二 相对指标 一 相对指标的概念和作用相对指标又称相对数 它是两个有联系的指标数值对比的结果 注 用来对比的两个数既可以是绝对数 也可以是平均数和相对数 相对指标的主要作用 能具体表明社会经济现象之间的比例关系 能使一些不能直接对比的事物找出共同比较的基础 相对指标便于记忆 易于保密 相对指标的表现形式 有名数 无名数 有名数是将对比的分子指标和分母指标的计量单位结合起来使用 无名数是一种抽象化的数值 一般分为系数 倍数 成数 百分数 千分数等 二 相对指标的种类和计算方法 相对指标通常分为 结构相对指标 比例相对指标 比较相对指标 计划完成相对指标 强度相对指标和动态相对指标 1 结构相对指标计算各组总量占总体或样本总量的比重 用以反映总体或样本结构状况的综合指标 1 结构相对指标 可以反映总体内部结构的特征 通过不同时期相对数的变动 可以看出事物的变化过程及其发展趋势 结构相对数一般用百分数表示 各组结构相对数之和等于100 或1 例 我国规模以上工业增加值的轻重工业构成表 2 比例相对指标 比例相对数是总体或样本中不同部分加以对比 用以反映总体或样本内部的比例关系和协调关系的综合指标 例 我国规模以上工业增加值的轻重工业构成表 2007年 3 比较相对指标 反映某一现象在同一时期内或同一时点上不同空间下的不平衡程度的综合指标 比较相对数可以是两个总量指标对比 也可以是相对指标或平均指标对比 4 计划完成相对数 长期计划的检查 5 强度相对指标 概念 是性质不同但又有内在联系的两个绝对指标的对比 是用以反映某现象的强度 密度或普遍程度的综合指标 强度相对数的两种表示方法 1 一般用无名数表示 2 少数用百分数或千分数表示 注 强度相对数不是平均数 不是同类指标数值之比 例 表现社会服务能力的强度相对数是用服务单位数与人口比较 表现现象普遍成都的强度相对数 如人口密度 公路网密度等 6 动态相对指标 概念 是不同时期同一指标数值之比 用以反映现象在不同时期发展变化程度的综合指标 动态相对数的计算结果用百分数或倍数表示 例 我国2001 2007年若干统计指标资料 相对指标的种类和计算方法 数据分布的特征描述 数据分布的特征 一 集中趋势 反映数据向其中心靠拢或聚集程度 二 离散趋势 数据远离中心的趋势 三 偏态和峰态 偏态是对数据分布对称性的度量 峰度是指数据分布的平峰或尖峰程度 形状 数据分布的特征 离散趋势 变异指标 分散程度 偏态和峰度 形状 数据分布的特征和测度 数据的特征和测度 分布的形状 集中趋势 离散程度 数据的特征和测度 集中趋势 离散程度 第二节平均指标 数据分布集中程度的描述指标 1 概念也称平均指标或平均数 用来反映标志值的典型水平或标志值分布的中心位置或集中趋势 2 作用反映变量分布的集中趋势和一般水平 可用来比较同一总体在不同空间的发展水平可用来分析现象之间的依存关系是统计推断中一个重要的统计量 第二节平均指标 集中趋势 centraltendency 一组数据向其中心值靠拢的倾向和程度测量集中趋势就是寻找数据水平的代表值或中心值不同类型的数据用不同的集中趋势测度值 集中趋势指标的分类 数值平均数算术平均数调和平均数几何平均数位置平均数众数中位数及其他分位数 一 算术平均数 算术平均数的基本公式 最基本指标 分为 简单算术平均数 加权算术平均数 一 简单算术平均数 把每项数据直接加总后除以它们的项数通常用于对未分组的数据计算算术平均数计算公式 Xi代表变量 代表算数平均数 n变量值个数 求和 例题 采用简单算术平均法计算 即全体队员的平均年龄为 单位 周岁 若采用简单平均 分组数据不能简单平均 因为各组变量值的次数不等 二 加权算术平均数 加权算术平均数的计算公式 加权 为了体现各变量值轻重不同的影响作用 对各个变量值赋予不尽相同的权数 fi 二 加权算术平均数 设分组后各组的变量值或组中值为 x1 x2 xn相应的频数为 f1 f2 fn 正确的计算是 例 表某班级40名同学统计学原始成绩 单位 分 简单算术平均数算式 表40名同学统计学成绩汇总表 单位 分 加权算术平均数算式 55 2 65 8 75 16 85 10 95 4 3060 权数 fi 也称权重 权数 指在计算总体平均数或综合水平的过程中对各个数据起着权衡轻重作用的变量 可以是绝对数形式 也可以是比重形式 如频率 表示 事实上比重权数更能够直接表明权数权衡轻重作用当权数完全相等 f1 f2 fn 时 加权算术平均数就成了简单算术平均数 一种是以绝对数表示 称次数或频数f 另一种是以比重表示 称频率 用频率计算的公式和直接用次数计算的公式在内容上是相等的 即 变量数列的权数有两种形式 三 算术平均数的数学性质 1 各个变量值与算术平均数的离差之和等于零 2 各个变量值与算术平均数的离差平方之和等于最小值 算术平均数有两点不足 1 算术平均数易受极端变量值的影响 使的代表性变小 而且受极大值的影响大于受极小值的影响 2 当组距数列为开口组时 由于组中值不易确定 使的代表性也不很可靠 二 调和平均数 1 集中趋势的测度值之一 2 算术平均数的另一种表现形式 3 易受极端值的影响 4 有简单调和平均数和加权调和平均数 原来只是计算时使用了倒数 调和平均数又称 倒数平均数 它是各个变量值倒数的算术平均数的倒数 简单调和平均数和加权调和平均数 二 调和平均数 例 1 简单调和平均数 应用条件 资料未分组 各变量值次数都是1 计算公式 举例 一个人步行两里 走第一里时速度为每小时候10里 走第二里时为每小时20里 则平均速度为 2 加权调和平均数 应用条件 资料经过分组 各组次数不同 计算公式 3 调和平均数特点 如果数列中有一标志值等于零 则无法计算 它作为一种数值平均数 受所有标志值的影响 它受极小值的影响大于受极大值的影响 但较之算术平均数 受极端值的影响要小 三 几何平均数 概念 几何平均数又称 对数平均数 它是若干项变量值连乘积开其项数次方的算术根 一 简单几何平均数 在实际工作中 常用即几何平均数是各个变量值对数的算术平均数的反对数 表6某工业产品产量平均发展速度计算表 二 加权几何平均数 当各个变量值的次数 权数 不相同时 应采用加权几何平均数 其计算公式为 将公式两边取对数 则为 表7某投资银行年平均利率计算表 几何平均数特点 如果数列中有一个标志值等于零或负值 就无法计算 受极端值影响较算术平均数和调和平均数小 故较稳健 四 中位数和其他分位数 一 中位数1 概念 现象总体中各单位标志值按大小顺序排列 居于中间位置的那个标志值就是中位数 2 特点 集中趋势的测度值之一 排序后处于中间位置上的值 不受极端值的影响 主要用于定序数据 也可用数值型数据 但不能用于定类数据 各变量值与中位数的离差绝对值之和最小 3 中位数位置的确定 未分组数据 分组数据 未分组数据的中位数 计算公式 4 中位数的计算 数值型未分组数据的中位数 5个数据的算例 原始数据 2422212620 中位数Me 22 排序 2021222426位置 12345 数值型未分组数据的中位数 6个数据的算例 原始数据 10591268 排序 56891012位置 123456 由分组资料确定中位数 例 方法 计算各组的累计次数 向上累计次数或向下累计次数 根据中位数位置找出中位数 结果 中位数为第40名的日产量 24件 根据位置公式确定中位数所在的组采用下列近似公式计算该公式假定中位数组的频数在该组内均匀分布 由组距式分组计算中位数 L 中位数所在组下限 Sm 1前一组累计频数 fm本组频数 h组距 数值型分组数据的中位数 例 例 根据表3 5中的数据 计算50名工人日加工零件数的中位数 中位数的特点 是一种位置平均数 不受极端值及开口组的影响 具有稳健性 难获得数据资料时 某些不具有数学特点或不能用数字测定的现象 可以使用中位数作为这种数据的平均值 各单位标志值与中位数离差的绝对值之和为最小值 不能进行代数运算 很少用于高级统计分析 二 其他分位数 中位数是从中间点将全部数据等分为两部分 与中位数类似的还有 四分位数 quartile 十分位数 decile 百分位数 percentile 等 它们分别是用3个点 9个点和99个点将数据四等分 10等分和100等分后各分位点上的值 四分位数 排序后处于25 和75 位置上的值 不受极端值的影响 主要用于定序数据 也可用于数值型数据 但不能用于定类数据 四分位数 位置的确定 未分组数据 组距分组数据 数值型未分组数据的四分位数 原始数据 23213032282526 QL 23 QU 30 数值型分组数据的四分位数 计算公式 上四分位数 下四分位数 数值型未分组数据的四分位数 6个 N 1不能被4整除 数据的算例 原始数据 232130282526排序 212325262830位置 123456 QL 21 0 75 23 21 22 5 QU 28 0 25 30 28 28 5 数值型分组数据的四分位数 计算示例 QL位置 50 4 12 5 QU位置 3 50 4 37 5 例 根据表3 5中的数据 计算50名工人日加工零件数的四分位数 五 众数 一 众数的概念众数是总体中出现次数最多的标志值 它能直观地说明客观现象分配中的集中趋势 如果总体中出现次数最多的标志值不是一个 而是两个 那么 合起来就是复众数 注 众数存在的条件是总体的单位数较多 各标志值的次数分配又有明显的集中趋势时才存在众数 众数 例 出现次数最多的变量值不受极端值的影响 可能没有众数或有几个众数主要用于定类数据 也可用于定序数据和数值型数据 无众数原始数据 10591268 一个众数原始数据 659855 多个众数原始数据 252828364242 定序数据的众数 例 解 这里的数据为定序数据 变量为 回答类别 甲城市

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论