第三章-定量数据的描述方法..ppt_第1页
第三章-定量数据的描述方法..ppt_第2页
第三章-定量数据的描述方法..ppt_第3页
第三章-定量数据的描述方法..ppt_第4页
第三章-定量数据的描述方法..ppt_第5页
免费预览已结束,剩余73页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学 第3章定量数据的描述方法 苑振柱159 7534 9211 主要内容 3 1展示数据的分布3 2定量数据的其他图形展示3 3分布的集中位置3 4分布的离散程度3 5分布的形态度量3 6标准得分3 7利用描述方法扭曲事实 3 1展示数据的分布 3 1 13 1 2箱线图3 1 3散点图 3 1展示数据的分布3 1 1统计数据的分组 1 统计分组的概念统计分组是指根据所研究事物的特点和统计研究的目的与任务 按照一定的分组标志将总体划分成若干个组成部分的一种统计方法 2 分配数列的概念在统计分组的基础上 将总体中的所有单位按组归类整理 并按一定顺序排列 形成总体单位数在各组间的分布 这个数列称为分配数列 又称分布数列或次数分布 频数分布 3 1展示数据的分布3 1 1统计数据的分组 1 品质分配数列品质分配数列简称品质数列 是按品质标志分组形成的分配数列 2000年底某地区的人口情况 组名 品质属性 次数频率 3 1展示数据的分布3 1 1统计数据的分组 2 变量分配数列变量分配数列简称变量数列 是按可变的数量标志分组形成的分配数列 某班学生的学习成绩情况 组名 变量值 次数频率 3 1展示数据的分布3 1 1统计数据的分组 变量数列可分为单项式变量数列和组距式变量数列 1 单项式变量数列单项式变量数列简称单项数列 它是数列中的每个组只用一个变量值表示的数列 例如 某地区1997年家庭人口数抽样资料 3 1展示数据的分布3 1 1统计数据的分组 2 组距式变量数列组距式变量数列简称组距数列 它是数列中的每个组用表示一定范围的两个变量值表示的数列 例如 某企业职工工资分配情况 组限可分为上限和下限 每组最大的变量值叫上限 每组最小的变量值叫下限 上 下限间的距离叫组距 组距 上限 下限 为了反映分布在各组中变量值的一般水平 往往用组中值作为各组变量值的代表值 组中值是每组下限与上限之间的中点数值 组中值的计算公式为 组中值 编制组距变量数列时 常常使用像 以上 或 以下 这样不确定组限的组 成为开口组 开口组的组中值按下列公式计算 缺下限的最小组的组中值 上限 相邻组的组距 2缺上限的最大组的组中值 下限 相邻组的组距 2 3 变量数列的编制 1 单项式变量数列的编制编制单项式变量数列必须具备两个条件 一是变量是离散型变量 二是变量值的个数不多 只有同时具备这两个条件才可采用单项变量数列形式 编制步聚 第一 将变量值的原始资料按顺序排列 一般是由小到大排列 第二 确定各组的变量值和组数 一个变量值为一组 重复出现的变量值只取一个 第三 整理出变量值出现的次数 编制单项式变量数列 3 变量数列的编制 2 组距式变量数列的编制编制组距式变量数列应具备两个条件 一是适用于连续型变量 二是离散型变量的变量值比较多 这种条件下 在编制变量数列时多数情况下采用组距数列 编制步聚 第一 将原始资料的变量值按从小到大的顺序排列 第二 计算全距 全距是原始资料中最大值与最小值的差 它是确定组数和组距的依据 第三 确定组距和组数 全距一定的情况下 组距和组数是相互制约的 成反比关系 组距越大 组数越少 组距越小 组数越多 至于是先确定组数还是先确定组距 这个问题不能做统一规定 要看具体情况 第四 确定组限和组限的表示方法 第五 计算各组次数 编制成组距数列 分配数列的编制 例题分析 例 某车间30名工人每周加工某种零件件数如右表试对数据进行分组 次数分配表 3 1展示数据的分布3 1 2直方图 histogram 用矩形的宽度和高度来表示频数分布的图形 实际上是用矩形的面积来表示各组的频数分布 在直角坐标中 用横轴表示数据分组 纵轴表示频数或频率 各组与相应的频数就形成了一个矩形 即直方图 直方图下的总面积等于1 分组数据的图示 直方图的绘制 某车间工人周加工零件直方图 我一眼就看出来了 周加工零件在100 110之间的人数最多 3 1展示数据的分布3 1 3频数折线图 frequencypolygon 频数折线图也称频数多边形图 折线图 是在直方图的基础上 把直方图顶部的中点 组中值 用直线连接起来 再把原来的直方图抹掉 折线图的两个终点要与横轴相交 具体的做法是 第一个矩形的顶部中点通过竖边中点 即该组频数一半的位置 连接到横轴 最后一个矩形顶部中点与其竖边中点连接到横轴 折线图下所围成的面积与直方图的面积相等 二者所表示的频数分布是一致的 分组数据的图示 折线图的绘制 折线图与直方图下的面积相等 某车间工人周加工零件折线图 次数分配的类型 几种常见的频数分布 3 1展示数据的分布3 1 4茎叶图 stem and leafplot 用于显示未分组的原始数据的分布 由 茎 和 叶 两部分构成 其图形是由数字组成的 以该组数据的高位数值作树茎 低位数字作树叶 树叶上只保留一位数字 茎叶图类似于横置的直方图 但又有区别 直方图可观察一组数据的分布状况 但没有给出具体的数值 茎叶图既能给出数据的分布状况 又能给出每一个原始数值 保留了原始数据的信息 茎叶图 例题分析 茎叶图 扩展的茎叶图 3 1展示数据的分布3 1 5累计频数分布 cumulativefrequencydistribution 洛伦茨曲线 20世纪初美国经济学家 统计学家洛伦茨 M E Lorentz 根据意大利经济学家巴雷特 V Pareto 提出的收入分配公式绘制而成 描述收入和财富分配性质的曲线分析该国家或地区分配的平均程度 基尼系数 20世纪初意大利经济学家基尼 G Gini 根据洛伦茨曲线给出了衡收入分配平均程度的指标 A表示实际收入曲线与绝对平均线之间的面积 B表示实际收入曲线与绝对不平均线之间的面积 如果A 0 则基尼系数 0 表示收入绝对平均 如果B 0 则基尼系数 1 表示收入绝对不平均 基尼系数在0和1之间取值 一般认为 基尼系数若小于0 2 表明分配平均 基尼系数在0 2至0 4之间是比较适当的 即一个社会既有效率又没有造成极大的分配不公 基尼系数在0 4被认为是收入分配不公平的警戒线 超过了0 4应该采取措施缩小这一差距 3 2定量数据的其他图形表示 3 2 1线图3 2 2箱线图3 2 3散点图 3 2定量数据的其他图形表示3 2 1线图 linechart 时间序列图 timeseriesplot 反应某些指标或变量随时间的变化趋势 3 2定量数据的其他图形表示3 2 2箱线图 boxplot 用于显示未分组的原始数据的分布 箱线图由一组数据的5个特征值绘制而成 它由一个箱子和两条线段组成 箱线图的绘制方法 首先找出一组数据的5个特征值 即最大值 最小值 中位数Me和两个四分位数 下四分位数QL和上四分位数QU 连接两个四分 位 数画出箱子 再将两个极值点与箱子相连接 箱线图 箱线图的构成 例题分析 例 某车间30名工人每周加工某种零件件数如右表 30个工人产量排序 84858891919495969799101101103105105105106106106106107107109110111111118119121128 箱线图 例题分析 排序后 第8个数据 排序后 第23个数据 分布的形状与箱线图 不同分布的箱线图 未分组数据 多批数据箱线图 例题分析 例 从某大学经济管理专业二年级学生中随机抽取11人 对8门主要课程的考试成绩进行调查 所得结果如表 试绘制各科考试成绩的批比较箱线图 并分析各科考试成绩的分布特征 未分组数据 多批数据箱线图 例题分析 8门课程考试成绩的箱线图 未分组数据 多批数据箱线图 例题分析 3 2定量数据的其他图形表示3 2 3散点图 scatterplot 描述两个变量之间的关系 价格 销售量 3 3分布的集中趋势 3 3 1众数3 3 2中位数3 3 3均值3 3 4众数 中位数 均值之间的关系3 3 5几何平均数3 3 6切尾均值3 3 7分位数 3 3 1众数 mode 一组数据中出现次数最多的变量值 适合于数据量较多时使用 不受极端值的影响 一组数据可能没有众数或有几个众数 主要用于分类数据 也可用于顺序数据和数值型数据 众数 不惟一性 无众数原始数据 10591268 一个众数原始数据 659855 多于一个众数原始数据 252828364242 3 3 2中位数 median 1 排序后处于中间位置上的值 不受极端值的影响 主要用于顺序数据 也可用数值型数据 但不能用于分类数据 各变量值与中位数的离差绝对值之和最小 即 中位数 位置的确定 奇数个数据 偶数个数据 数值型数据的中位数 9个数据的算例 例 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 中位数 1080 数值型数据的中位数 10个数据的算例 例 10个家庭的人均月收入数据排序 66075078085096010801250150016302000位置 12345678910 3 3 3均值 mean 集中趋势的最常用测度值 一组数据的均衡点所在 体现了数据的必然性特征 易受极端值的影响 用于数值型数据 不能用于分类数据和顺序数据 1 简单均值 simplemean 设一组数据为 x1 x2 xn 总体均值 样本均值 3 3 3均值 mean 2 加权均值 weightedmean 设一组数据为 x1 x2 xn相应的频数为 f1 f2 fk 总体均值 样本均值 3 3 3均值 mean 加权均值 例题分析 数学性质 1 各变量值与均值的离差之和等于零 2 各变量值与均值的离差平方和最小 3 3 3均值 mean 3 3 4众数 中位数和均值的关系 众数 中位数 均值的特点和应用 众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用 n个变量值乘积的n次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为 5 可看作是均值的一种变形 3 3 5几何平均数 geometricmean 几何均值 例题分析 例 一位投资者购持有一种股票 在2000年 2001年 2002年和2003年收益率分别为4 5 2 1 25 5 1 9 计算该投资者在这四年内的平均收益率 算术平均 几何平均 3 3 6切尾均值 trimmedMean 去掉大小两端的若干数值后计算中间数据的均值 在电视大奖赛 体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用 计算公式为 n表示观察值的个数 表示切尾系数 切尾均值 例题分析 例 谋次比赛共有11名评委 对某位歌手的给分分别是 经整理得到顺序统计量值为 去掉一个最高分和一个最低分 取1 11 3 3 7分位数 quantile 上四分位数QU 75 分位数 意味着有3 4的数据值小于它 1 4的数据值大于它 下四分位数QL 25 分位数 意味着有1 4的数据值小于它 3 4的数据值大于它 中位数QM 0 5分位数 50 分位数 50百分位数 四分位数 quartile 排序后处于25 和75 位置上的值 不受极端值的影响主要用于顺序数据 也可用于数值型数据 但不能用于分类数据 四分位数 位置的确定 原始数据 数值型数据的四分位数 9个数据的算例 例 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 数值型数据的四分位数 10个数据的算例 例 10个家庭的人均月收入数据排序 66075078085096010801250150016302000位置 12345678910 统计函数 QUARTILE 3 3 4分布的离散程度 3 4 1极差和四分位数间距3 4 2方差和标准差3 4 3均值的标准差3 4 4变异系数 3 4 1极差和四分位数间距 极差 range 一组数据的最大值与最小值之差 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布 R max xi min xi 计算公式为 3 4 1极差和四分位数间距 四分位数间距 Inter QuartileRange IQR 也称四分位 极 差 内距 上四分位数与下四分位数之差 内距 QU QL反映了中间50 数据的离散程度 不受极端值的影响 可用于衡量中位数的代表性 去掉最小的25 的数据与最大的25 的数据 所剩中间部分的极差 3 4 2方差和标准差 平均差是总体中各单位标志值对其算术平均数离差的绝对值的算术平均数 也叫平均离差 补充的概念 例如 某工厂某车间两个班组工人的每人日产某种零件数 未经分组的资料见下表 求平均差 平均差计算表 补充的概念 经计算第一组的平均差为 D 28 件 经计算第二组的平均差为 D 7 6 件 上述计算结果表明 第一组和第二组两组工人的平均日产量虽然都是60件 但是 因为第一组的平均差 28件 比第二组的平均差 7 6件 大 所以 第一组的平均数代表性就小于第二组的代表性 补充的概念 方差和标准差 VarianceandStandarddeviation 方差是总体各单位标志值与其算术平均数离差平方的算术平均数 以 2表示 方差的平方根称为标准差 也称均方差 以 表示 标准差的计算步骤是 第一 计算各单位标志值对算术平均数的离差 第二 把各个离差值加以平方 第三 计算这些离差平方的算术平均数即方差 第四 再把这个方差开平方 即得标准差 其计算公式依据掌握资料的实际情况不同也分为简单式标准差 未分组 与加权式标准差 分组 两种 方差和标准差 VarianceandStandarddeviation 1 离散程度的测度值之一 2 最常用的测度值 3 反映了数据的分布 4 反映了各变量值与均值的平均差异 根据总体数据计算的 称为总体方差或标准差 根据样本数据计算的 称为样本方差或标准差 总体方差和标准差 PopulationvarianceandStandarddeviation 未分组数据 组距分组数据 未分组数据 组距分组数据 方差的计算公式 标准差的计算公式 样本方差和标准差 simplevarianceandstandarddeviation 未分组数据 组距分组数据 未分组数据 组距分组数据 方差的计算公式 标准差的计算公式 样本方差自由度 degreeoffreedom 一组数据中可以自由取值的数据的个数 当样本数据的个数为n时 若样本均值 x确定后 只有n 1个数据可以自由取值 其中必有一个数据则不能自由取值 例如 样本有3个数值 即x1 2 x2 4 x3 9 则 x 5 当 x 5确定后 x1 x2和x3有两个数据可以自由取值 另一个则不能自由取值 比如x1 6 x2 7 那么x3则必然取2 而不能取其他值 样本方差用自由度去除 其原因可从多方面解释 从实际应用角度看 在抽样估计中 当用样本方差去估计总体方差 2时 它是 2的无偏估计量 标准差与平均差既有相同之处又有不同之处 相同之处表现在 二者都是以平均数为中心 换句话说都是与平均数相比较 测定所有标志值变动程度的 不同之处表现在 平均差是以绝对值消除离差正负号的 标准差是以平方消除离差正负号的 以平方消除离差正负号在代数变换上优于绝对值的办法 同一个资料的标准差一定大于平均差 这正是标准差的放大作用 方差的放大效果更好 标准差将标志值的差别程度放大后 并不影响对问题的分析结论 根据标准差与平均差的分析结论是一致的 正是标准差代数变换的优越性和数值的放大作用 在统计分析中得到了比较广泛的应用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论