统计学PPT课件_第1页
统计学PPT课件_第2页
统计学PPT课件_第3页
统计学PPT课件_第4页
统计学PPT课件_第5页
已阅读5页,还剩114页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章 统计数据的描述 第一节数据的计量尺度 统计数据是对客观现象计量的结果 按照对事物计量的精确程度 可将所采用的计量尺度由低级到高级分为四个层次 一 列名尺度二 顺序尺度三 间隔尺度四 比率尺度 四种计量尺度 数据的计量尺度 例1 人口的性别 男 女 企业的所有制性质 国有 集体 私营等 特点 1 定类尺度只测度了事物之间的类别差 而对各类之间的其他差别却无法从中得知 因此各类地位相同 顺序可以任意改变 2 对定类尺度的计量结果 可以且只能计算每一类别中各元素个体出现的频数 frequency 注意 对事物进行分类时 必须符合穷尽 exhaustive 和互斥 mutuallyexclusive 要求 一 定类尺度 列名尺度 按照事物的某种属性对其进行平行的分类或分组 例2 产品等级 一等品 二等品 考试成绩 优 良 中 差 特点 1 不仅可以测度类别差 分类 还可以测度次序差 比较优劣或排序 2 无法测出类别之间的准确差值 因此该尺度的计量结果只能排序 不能进行算术运算 二 定序尺度 顺序尺度 是对事物之间等级或顺序差别的一种测度 例3 100分制考试成绩 分值之间的间隔是相等的 摄氏温度对不同地区温度的测量 每一度的温差都是相同的 特点 1 不仅能将事物区分为不同类型并进行排序 而且可准确指出类别之间的差距是多少 2 定距尺度通常以自然或物理单位为计量尺度 因此测量结果往往表现为数值 3 计量结果可以进行加减运算 加减运算有意义 4 0 是测量尺度上的一个测量点 并不代表 没有 三 定距尺度 间隔尺度 是对事物类别或次序之间间距的测度 例4 职工月收入 企业产值 公制的距离等 特点 1 与定距尺度属于同一层次 计量结果也表现为数值 2 除了具有其他三种计量尺度的全部特点外 还具有可计算两个测度值之间比值的特点 3 0 表示 没有 即它有一固定的绝对 零点 因此它可进行加 减 乘 除运算 而定距尺度只可进行加减运算 四 定比尺度 比率尺度 是能够测算两个测度值之间比值的一种计量尺度 注意 定距尺度中的 0 并不表示 没有 不是一个绝对的 零点 而定比尺度中的 0 表示 没有 是一个绝对的 零点 例如 某个学生统计学的考试成绩为 0 分 这个 0 分是他的统计学的客观成绩 并不表示他没有考试成绩或没有任何统计学知识 一个地区的温度为0 C 这表示一种温度的水平 并不是说没有温度 而定比尺度中绝对零点的 0 表示 没有 或 不存在 例如 一个人的身高为 0 米 表示这个人不存在 一个人的收入为 0 表示这个人没有收入 一个产品的产量为 0 表示没有这种产品 等等 1 高层次的计量尺度可以计量低层次计量尺度能够计量的事物 但反之不行 2 可将高层次计量尺度的计量结果转换为低层次计量尺度的计量结果 但不能反过来 Exercises 指出下面变量的测量尺度 学生住址距学校的距离 学生某门课的一次测验成绩 5分制 学生的出生地 按年级分类的高校学生 每周学生学习的小时数 四种计量尺度的区别与联系 四种计量尺度的比较 计量尺度 数学特性 表示该尺度所具有的特性 第二节统计数据的来源一 间接取得的数据 1 统计部门和政府部门公布的有关资料 如各类统计年鉴 2 各类经济信息中心 信息咨询机构 专业调查机构等提供的数据 3 各类专业期刊 报纸 书籍所提供的资料 4 各种会议 如博览会 展销会 交易会及专业性 学术性研讨会上交流的有关资料 5 从互联网或图书馆查阅到的相关资料 提供统计数据的部分政府网站 提供统计数据的部分政府网站 二 直接取得数据 一 普查 census 1 为特定目的专门组织的非经常性全面调查 如人口普查 工业普查等2 通常是一次性或周期性的3 一般需要规定统一的标准调查时间4 数据的规范化程度较高5 应用范围比较狭窄 只能调查一些最基本 最一般的现象 二 抽样调查 samplingsurvey 1 从总体中随机抽取一部分单位作为样本进行调查 并根据样本调查结果来推断总体特征的数据收集方法 2 具有经济性 时效性强 适应面广 准确性高等特点 三 重点调查 重点调查 是指在调查对象中 只选择一部分重点单位进行的非全面调查 重点单位 着眼于现象量的方面而言 尽管这些单位在全部单位中只是一部分 但它们在所研究现象的标志总量中却占有绝大的比重 在总体中具有举足轻重的作用 四 典型调查 典型调查是一种专门组织的非全面调查 根据调查的目的 在对所研究的对象进行初步分析的基础上 有意识地选取若干具有代表性的单位进行调查和研究 借以认识事物发展变化的规律 有人也认为它是 目的抽样 以若干具有代表性的单位为样本 注意 重点调查 典型调查与抽样调查的不同处在于 1 抽样调查是随机抽取调查单位 不存在对调查对象选择的主观性 因此可以根据抽样结果推断总体的数量特征 2 重点调查和典型调查不是随机取样 具有一定的主观性 因此调查结果不能推断总体 统计的整个过程就是对数据的加工过程 从原始数据的收集开始 经过整理 显示 样本信息的提取到总体数量规律性的科学推断 都有一个减少误差 提高数据质量的问题 也就是说 统计数据的质量控制问题是贯穿于统计研究全过程的重要问题 但在不同的统计工作阶段 统计数据误差的原因是不同的 严重程度也不同 第三节统计数据的质量 一 数据的误差 二 抽样误差 samplingerror 1 由于抽样的随机性所带来的误差2 所有样本可能的结果与总体真值之间的平均性差异3 影响抽样误差大小的因素样本量的大小总体的变异性 三 非抽样误差 non samplingerror 1 相对于抽样误差而言2 除抽样误差之外的 由于其他原因造成的样本观察结果与总体真值之间的差异3 存在于所有的调查之中概率抽样 非概率抽样 全面性调查4 有抽样框误差 回答误差 无回答误差 调查员误差 四 误差的控制 1 抽样误差可计算和控制2 非抽样误差的控制调查员的挑选调查员的培训督导员的调查专业水平调查过程控制调查结果进行检验 评估现场调查人员进行奖惩的制度 统计数据的整理 summarizingdata 是指对所搜集的数据进行加工整理 使之系统化 条理化 以符合分析的需要 第四节统计数据的整理 一 统计分组 一 统计分组的概念统计分组是根据统计研究的任务和目的 将总体按照一个或几个标志划分为若干个性质不同又有联系的部分 例1 某班学生 20人 总体按性别标志分组情况 例2 某班学生基本情况调查表 则 二 统计分组具有两个方面的含义 对总体而言 是 分 即将同质总体区分为性质有别的不同组成部分 对总体单位而言 它是 组 即将性质相同或相近的不同总体单位组合在一起 构成一个组 例如 要了解我国人口状况 只知道总人口数量是不够的 而应将人口总体按照年龄 性别 民族 城乡 文化程度 等分组 才能进一步地深入地了解我国人口总体的年龄结构 性别比例 民族构成等 三 统计分组的作用 1 区分现象的不同类型2 研究总体的内部结构3 分析现象间的依存关系 四 统计分组的种类统计分组可以按照不同的标准进行分类 一般有以下几种分类 1 按分组标志的性质划分 统计分组分为品质分组和数量分组 品质分组是按品质标志进行的分组 变量分组是按数量标志的分组 例2续 2 按分组标志的多少划分 统计分组分为简单分组和复合分组 简单分组是对研究的总体仅按一个标志进行的分组 复合分组是对研究的同一总体选择两个或两个以上标志层叠起来进行的分组 例2续 简单分组 复合分组 1 概念 统计分组体系是指在统计整理中 为研究现象总体的情况而运用多个分组标志对总体进行分组 从而形成一系列相互联系 相互补充的分组体系 2 分类 平行分组体系和复合分组体系 平行分组体系就是对同一总体选择两个或两个以上的标志分别进行简单分组 排列起来 如果多个复合分组组成的体系就形成了复合分组体系 例如 为了认识我国高等院校在校学生的基本状况 可以同时选择学科 本科或专科 性别三个标志进行复合分组 五 分组体系 二 次数分布 一 次数分布及次数的概念1 次数分布是在统计分组的基础上 将总体的所有单位 按组归并排列 从而形成总体中的各个单位在各组间的分布 又称为分配数列 2 分布在各组的个体单位数叫次数 次数可以用绝对数表示 即频数 也可以用结构相对数表示 即频率或比率或比重 二 次数分配表的编制 例题分析 例3某车间30名工人每周加工某种零件件数如右表试对数据进行分组 次数分配表 三 累计次数分布 1 向上累计 是将各组次数和比率由变量值低的组向变量值高的组逐组累计 2 向下累计 是将各组次数和比率由变量值高的组向变量值低的组逐组累计 例4某班学生身高情况表 向下累计 向上累计 向上累计 向下累计 一 直方图 histogram 用矩形的宽度和高度来表示频数分布的图形 实际上是用矩形的面积来表示各组的频数分布在直角坐标中 用横轴表示数据分组 纵轴表示频数或频率 各组与相应的频数就形成了一个矩形 即直方图直方图下的总面积等于1 四 次数分配直方图 二 分组数据的图示 直方图的绘制 某车间工人周加工零件直方图 我一眼就看出来了 周加工零件在100 110之间的人数最多 三 折线图 frequencypolygon 折线图也称频数多边形图是在直方图的基础上 把直方图顶部的中点 组中值 用直线连接起来 再把原来的直方图抹掉折线图的两个终点要与横轴相交 具体的做法是第一个矩形的顶部中点通过竖边中点 即该组频数一半的位置 连接到横轴 最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等 二者所表示的频数分布是一致的 15 12 9 6 3 105 110 115 120 125 130 135 140 日加工零件数 个 频数 人 图3 6某车间工人日加工零件数的折线图 四 分组数据的图示 折线图的绘制 五 次数分配的类型 几种常见的频数分布 一 组距分组 要点 1 将变量值的一个区间作为一组2 适合于连续变量3 适合于变量值较多的情况4 需要遵循 不重不漏 的原则5 可采用等距分组 也可采用不等距分组 五 组距分组 二 组距分组 步骤 1 确定组数 组数的确定应以能够显示数据的分布特征和规律为目的2 确定组距 组距 classwidth 是一个组的上限与下限之差 可根据全部数据的最大值和最小值及所分的组数来确定 即组距 最大值 最小值 组数3 统计出各组的频数并整理成频数分布表 三 组距分组 几个概念 1 下限 lowlimit 一个组的最小值2 上限 upperlimit 一个组的最大值3 组距 classwidth 上限与下限之差 组数4 组中值 classmidpoint 下限与上限之间的中点值 六 洛伦茨曲线 1 20世纪初美国经济学家 统计学家洛伦茨 M E Lorentz 根据意大利经济学家巴雷特 V Pareto 提出的收入分配公式绘制而成2 描述收入和财富分配性质的曲线分析该国家或地区分配的平均程度 累积的人口百分比 累积的收入百分比 绝对公平线 洛伦茨曲线 累计频数 频率 分布曲线 可用于分析社会财富 土地和工资收入等的分配是否公平的问题 该曲线图是由美国洛伦茨博士提出 故称为洛伦茨曲线 洛伦茨曲线 某国家收入所得的分配情况 20406080100 806040200 100 绝对平等线 实际收入分配线 绝对不平等线 绝对不平等线 人口 收入 洛伦茨曲线 A B 基尼系数 1 20世纪初意大利经济学家基尼 G Gini 根据洛伦茨曲线给出了衡收入分配平均程度的指标2 A表示实际收入曲线与绝对平均线之间的面积3 B表示实际收入曲线与绝对不平均线之间的面积4 如果A 0 则基尼系数 0 表示收入绝对平均5 如果B 0 则基尼系数 1 表示收入绝对不平均6 基尼系数在0和1之间取值7 一般认为 基尼系数若小于0 2 表明分配平均 基尼系数在0 2至0 4之间是比较适当的 即一个社会既有效率又没有造成极大的分配不公 基尼系数在0 4被认为是收入分配不公平的警戒线 超过了0 4应该采取措施缩小这一差距 基尼系数 一 众数二 中位数三 四分位数四 均值五 几何均值六 切尾均值七 众数 中位数和均值的比较 第五节分布集中趋势的测度 集中趋势 Centraltendency 一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据一般水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的集中趋势测度值适用于高层次的测量数据 反过来 高层次数据的集中趋势测度值并不适用于低层次的测量数据选用哪一个测度值来反映数据的集中趋势 要根据所掌握的数据的类型来确定 一 众数 mode 一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于定类数据 也可用于定序数据和数值型数据 众数 不惟一性 无众数原始数据 10591268 一个众数原始数据 659855 多于一个众数原始数据 252828364242 定类数据的众数 算例 例 根据表1中的数据 计算众数 解 这里的变量为 广告类型 这是个定类变量 不同类型的广告就是变量值 我们看到 在所调查的200人当中 关注商品广告的人数最多 为112人 占总被调查人数的56 因此众数为 商品广告 这一类别 即Mo 商品广告 定序数据的众数 算例 例 根据表2中的数据 计算众数 解 这里的数据为定序数据 变量为 回答类别 甲城市中对住房表示不满意的户数最多 为108户 因此众数为 不满意 这一类别 即Mo 不满意 数值型分组数据的众数 要点及计算公式 1 众数的值与相邻两组频数的分布有关 4 该公式假定众数组的频数在众数组内均匀分布 2 相邻两组的频数相等时 众数组的组中值即为众数 3 相邻两组的频数不相等时 众数采用下列近似公式计算 数值型分组数据的众数 算例 例 根据3中的数据 计算50名工人日加工零件数的众数 二 中位数 median 排序后处于中间位置上的值 不受极端值的影响主要用于定序数据 也可用数值型数据 但不能用于定类数据各变量值与中位数的离差绝对值之和最小 即 中位数 位置的确定 未分组数据 组距分组数据 未分组数据的中位数 计算公式 定序数据的中位数 算例 例 根据表4中的数据 计算甲城市家庭对住房满意状况评价的中位数 解 中位数的位置为 300 2 150从累计频数看 中位数在 一般 这一组别中 因此Me 一般 数值型未分组数据的中位数 5个数据的算例 原始数据 2422212620排序 2021222426位置 12345 中位数 22 数值型未分组数据的中位数 6个数据的算例 原始数据 10591268排序 56891012位置 123456 根据位置公式确定中位数所在的组采用下列近似公式计算 3 该公式假定中位数组的频数在该组内均匀分布 数值型分组数据的中位数 要点及计算公式 数值型分组数据的中位数 算例 例 根据表5中的数据 计算50名工人日加工零件数的中位数 三 四分位数 quartile 排序后处于25 和75 位置上的值 不受极端值的影响主要用于定序数据 也可用于数值型数据 但不能用于定类数据 四分位数 位置的确定 未分组数据 组距分组数据 定序数据的四分位数 算例 例 根据表4中的数据 计算甲城市家庭对住房满意状况评价的四分位数 解 下四分位数 QL 的位置为 QL位置 300 4 75上四分位数 QL 的位置为 QU位置 3 300 4 225从累计频数看 QL在 不满意 这一组别中 QU在 一般 这一组别中 因此QL 不满意QU 一般 数值型未分组数据的四分位数 7个数据的算例 原始数据 23213032282526排序 21232526283032位置 1234567 N 1 QL 23 QU 30 数值型未分组数据的四分位数 6个数据的算例 原始数据 232130282526排序 212325262830位置 123456 QL 21 0 75 23 21 22 5 QU 28 0 25 30 28 28 5 数值型分组数据的四分位数 计算公式 上四分位数 下四分位数 数值型分组数据的四分位数 计算示例 QL位置 50 4 12 5 QU位置 3 50 4 37 5 例 根据第三章表5中的数据 计算50名工人日加工零件数的四分位数 四 均值 mean 集中趋势的最常用测度值一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响用于数值型数据 不能用于定类数据和定序数据 均值 计算公式 设一组数据为 X1 X2 XN简单均值的计算公式为 设分组后的数据为 X1 X2 XK相应的频数为 F1 F2 FK加权均值的计算公式为 简单均值 simplemean 算例 原始数据 10591368 加权均值 weightedmean 算例 例 根据表5中的数据 计算50名工人日加工零件数的均值 加权均值 权数对均值的影响 甲乙两组各有10名学生 他们的考试成绩及其分布数据如下甲组 考试成绩 X 020100人数分布 F 118乙组 考试成绩 X 020100人数分布 F 811 0 1 20 1 100 8 10 82 分 0 8 20 1 100 1 10 12 分 均值 数学性质 1 各变量值与均值的离差之和等于零 2 各变量值与均值的离差平方和最小 几何均值 geometricmean n个变量值乘积的n次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为 5 可看作是均值的一种变形 几何均值 例题分析 例 一位投资者购持有一种股票 在2000年 2001年 2002年和2003年收益率分别为4 5 2 1 25 5 1 9 计算该投资者在这四年内的平均收益率 算术平均 几何平均 切尾均值 trimmedMean 去掉大小两端的若干数值后计算中间数据的均值在电视大奖赛 体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用计算公式为 n表示观察值的个数 表示切尾系数 切尾均值 例题分析 例 谋次比赛共有11名评委 对某位歌手的给分分别是 经整理得到顺序统计量值为 去掉一个最高分和一个最低分 取1 11 众数 中位数和均值的比较 1 众数 中位数和均值的关系 2 众数 中位数 均值的特点和应用 众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用 一 极差二 内距三 方差和标准差四 离散系数 第六节分布离散程度的测度 一 极差 range 一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布 未分组数据R max xi min xi 计算公式为 二 内距 Inter QuartileRange IQR 也称四分位差上四分位数与下四分位数之差内距QD QU QL反映了中间50 数据的离散程度不受极端值的影响可用于衡量中位数的代表性 四分位差 定序数据的算例 例4 12 根据表3 2中的数据 计算甲城市家庭对住房满意状况评价的四分位差 解 设非常不满意为1 不满意为2 一般为3 满意为4 非常满意为5已知QL 不满意 2 QU 一般 3四分位差 QD QU QL 3 2 1 三 方差和标准差 VarianceandStandarddeviation 1 离散程度的测度值之一2 最常用的测度值3 反映了数据的分布4 反映了各变量值与均值的平均差异5 根据总体数据计算的 称为总体方差或标准差 根据样本数据计算的 称为样本方差或标准差 总体方差和标准差 计算公式 PopulationvarianceandStandarddeviation 未分组数据 组距分组数据 未分组数据 组距分组数据 方差的计算公式 标准差的计算公式 总体标准差 计算过程及结果 例 根据表5中的数据 计算工人日加工零件数的标准差 样本方差和标准差 samplevarianceandstandarddeviation 未分组数据 组距分组数据 未分组数据 组距分组数据 方差的计算公式 标准差的计算公式 样本方差自由度 degreeoffreedom 一组数据中可以自由取值的数据的个数当样本数据的个数为n时 若样本均值 x确定后 只有n 1个数据可以自由取值 其中必有一个数据则不能自由取值例如 样本有3个数值 即x1 2 x2 4 x3 9 则 x 5 当 x 5确定后 x1 x2和x3有两个数据可以自由取值 另一个则不能自由取值 比如x1 6 x2 7 那么x3则必然取2 而不能取其他值样本方差用自由度去除 其原因可从多方面解释 从实际应用角度看 在抽样估计中 当用样本方差去估计总体方差 2时 它是 2的无偏估计量 四 离散系数 coefficientofvariation 1 标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响4 用于对不同组别数据离散程度的比较5 计算公式为 离散系数 例题分析 例 某管理局抽查了所属的8家企业 其产品销售数据如表 试比较产品销售额与销售利润的离散程度 离散系数 例题分析 结论 计算结果表明 v1 v2 说明产品销售额的离散程度小于销售利润的离散程度 第七节分布偏态与峰度的测度 一 偏态及其测度二 峰度及其测度 偏态与峰度分布的形状 偏态 峰度 偏态 概念要点 1 数据分布偏斜程度的测度2 偏态系数 0为对称分布3 偏态系数 0为右偏分布4 偏态系数 0为左偏分布5 计算公式为 偏态 实例 例 已知1997年我国农村居民家庭按纯收入分组的有关数据如表8 试计算偏态系数 农村居民家庭村收入数据的直方图 偏态与峰度 从直方图上观察 按纯收入分组 元 结论 1 为右偏分布2 峰度适中 偏态系数 计算过程 偏态系数 计算结果 根据上表数据计算得 将计算结果代入公式得 结论 偏态系数为正值 而且数值较大 说明农村居民家庭纯收入的分布为右偏分布 即收入较少的家庭占据多数 而收入较高的家庭则占少数 而且偏斜的程度较大 峰度 概念要点 1 数据分布扁平程度的测度2 峰度系数 3扁平程度适中3 偏态系数3为尖峰分布5 计算公式为 峰度系数 实例计算结果 代入公式得 例 根据表9中的计算结果 计算农村居民家庭纯收入分布的峰度系数 结论 由于 3 4 3 说明我国农村居民家庭纯收入的分布为尖峰分布 说明低收入家庭占有较大的比重 一 茎叶图二 箱线图 第八节茎叶图与箱线图 未分组数据 茎叶图 stem and leafdisplay 茎叶图的制作 用于显示未分组的原始数据的分布由 茎 和 叶 两部分构成 其图形是由

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论