




已阅读5页,还剩86页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第2章统计数据的描述 2 1数据的计量尺度2 2统计数据的来源2 3统计数据的质量2 4统计数据的整理2 5分布集中趋势的测度2 6分布离散程度的测度2 7茎叶图与箱线图本章小结 学习目标 了解数据的计量尺度了解统计数据的来源和数据的质量要求掌握数值型数据的整理方法掌握数据集中趋势和离散程度的测度方法掌握茎叶图和箱线图的制作方法掌握分布偏态与峰度的测度方法掌握统计表和统计图的使用 2 1数据的计量尺度 一 列名尺度二 顺序尺度三 间隔尺度四 比率尺度 四种计量尺度 数据的计量尺度 列名尺度 Nominalscale 也称名义尺度或分类尺度计量层次最低对事物进行平行的分类各类别可以指定数字代码表示使用时必须符合类别穷尽和互斥的要求数据表现为 类别 具有 或 的数学特性 顺序尺度 Ordinalscale 也称定序尺度对事物分类的同时给出各类别的顺序比列名尺度精确未测量出类别之间的准确差值数据表现为 类别 但有序具有 或 的数学特性 间隔尺度 Intervalscale 也称定距尺度对事物的准确测度2 比顺序尺度精确3 数据表现为 数值 4 没有绝对零点5 具有 或 的数学特性 比率尺度 Ratioscale 也称比例尺度对事物的准确测度2 与间隔尺度处于同一层次3 数据表现为 数值 4 有绝对零点5 具有 或 的数学特性 四种计量尺度的比较 计量尺度 数学特性 表示该尺度所具有的特性 2 2统计数据的来源 一 间接获取的数据二 直接获取的数据 间接取得的数据 间接取得的数据 统计部门和政府部门公布的有关资料 如各类统计年鉴各类经济信息中心 信息咨询机构 专业调查机构等提供的数据各类专业期刊 报纸 书籍所提供的资料各种会议 如博览会 展销会 交易会及专业性 学术性研讨会上交流的有关资料从互联网或图书馆查阅到的相关资料 提供统计数据的部分政府网站 提供统计数据的部分政府网站 直接取得的数据 普查 census 为特定目的专门组织的非经常性全面调查2 通常是一次性或周期性的3 一般需要规定统一的标准调查时间4 数据的规范化程度较高5 应用范围比较狭窄 抽样调查 samplingsurvey 1 从总体中随机抽取一部分单位作为样本进行调查 并根据样本调查结果来推断总体特征的数据收集方法 2 具有经济性 时效性强 适应面广 准确性高等特点 2 3统计数据的质量 数据的误差 抽样误差 samplingerror 由于抽样的随机性所带来的误差所有样本可能的结果与总体真值之间的平均性差异影响抽样误差大小的因素样本量的大小总体的变异性 非抽样误差 non samplingerror 相对于抽样误差而言除抽样误差之外的 由于其他原因造成的样本观察结果与总体真值之间的差异存在于所有的调查之中概率抽样 非概率抽样 全面性调查有抽样框误差 回答误差 无回答误差 调查员误差 测量误差 误差的控制 抽样误差可计算和控制非抽样误差的控制调查员的挑选调查员的培训督导员的调查专业水平调查过程控制调查结果进行检验 评估现场调查人员进行奖惩的制度 2 4统计数据的整理 一 统计数据的分组二 次数分配三 次数分配直方图四 洛伦茨曲线 统计数据的分组 组距分组 要点 将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况需要遵循 不重不漏 的原则可采用等距分组 也可采用不等距分组 组距分组 步骤 确定组数 组数的确定应以能够显示数据的分布特征和规律为目的确定组距 组距 classwidth 是一个组的上限与下限之差 可根据全部数据的最大值和最小值及所分的组数来确定 即组距 最大值 最小值 组数统计出各组的频数并整理成频数分布表 组距分组 几个概念 1 下限 lowlimit 一个组的最小值2 上限 upperlimit 一个组的最大值3 组距 classwidth 上限与下限之差4 组中值 classmidpoint 下限与上限之间的中点值 次数分配表的编制 例题分析 例 某车间30名工人每周加工某种零件件数如右表试对数据进行分组 次数分配表 次数分配直方图 直方图 histogram 用矩形的宽度和高度来表示频数分布的图形 实际上是用矩形的面积来表示各组的频数分布在直角坐标中 用横轴表示数据分组 纵轴表示频数或频率 各组与相应的频数就形成了一个矩形 即直方图直方图下的总面积等于1 分组数据的图示 直方图的绘制 某车间工人周加工零件直方图 我一眼就看出来了 周加工零件在100 110之间的人数最多 折线图 frequencypolygon 折线图也称频数多边形图是在直方图的基础上 把直方图顶部的中点 组中值 用直线连接起来 再把原来的直方图抹掉折线图的两个终点要与横轴相交 具体的做法是第一个矩形的顶部中点通过竖边中点 即该组频数一半的位置 连接到横轴 最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等 二者所表示的频数分布是一致的 分组数据的图示 折线图的绘制 折线图与直方图下的面积相等 某车间工人周加工零件折线图 次数分配的类型 几种常见的频数分布 洛伦茨曲线 洛伦茨曲线 20世纪初美国经济学家 统计学家洛伦茨 M E Lorentz 根据意大利经济学家巴雷特 V Pareto 提出的收入分配公式绘制而成描述收入和财富分配性质的曲线分析该国家或地区分配的平均程度 累积的人口百分比 累积的收入百分比 绝对公平线 基尼系数 20世纪初意大利经济学家基尼 G Gini 根据洛伦茨曲线给出了衡收入分配平均程度的指标A表示实际收入曲线与绝对平均线之间的面积B表示实际收入曲线与绝对不平均线之间的面积如果A 0 则基尼系数 0 表示收入绝对平均如果B 0 则基尼系数 1 表示收入绝对不平均基尼系数在0和1之间取值一般认为 基尼系数若小于0 2 表明分配平均 基尼系数在0 2至0 4之间是比较适当的 即一个社会既有效率又没有造成极大的分配不公 基尼系数在0 4被认为是收入分配不公平的警戒线 超过了0 4应该采取措施缩小这一差距 2 5分布集中趋势的测度 一 众数二 中位数三 四分位数四 均值五 几何均值六 切尾均值七 众数 中位数和均值的比较 众数 众数 mode 一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据 也可用于顺序数据和数值型数据 众数 不惟一性 无众数原始数据 10591268 一个众数原始数据 659855 多于一个众数原始数据 252828364242 中位数 中位数 median 排序后处于中间位置上的值 不受极端值的影响主要用于顺序数据 也可用数值型数据 但不能用于分类数据各变量值与中位数的离差绝对值之和最小 即 中位数 位置的确定 原始数据 顺序数据 数值型数据的中位数 9个数据的算例 例 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 中位数 1080 数值型数据的中位数 10个数据的算例 例 10个家庭的人均月收入数据排序 66075078085096010801250150016302000位置 12345678910 四分位数 四分位数 quartile 排序后处于25 和75 位置上的值 不受极端值的影响主要用于顺序数据 也可用于数值型数据 但不能用于分类数据 四分位数 位置的确定 原始数据 分组数据 数值型数据的四分位数 9个数据的算例 例 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 数值型数据的四分位数 10个数据的算例 例 10个家庭的人均月收入数据排序 66075078085096010801250150016302000位置 12345678910 统计函数 QUARTILE 均值 均值 mean 集中趋势的最常用测度值一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响用于数值型数据 不能用于分类数据和顺序数据 简单均值 simplemean 设一组数据为 x1 x2 xn 总体均值 样本均值 加权均值 weightedmean 设一组数据为 x1 x2 xn相应的频数为 f1 f2 fk 总体均值 样本均值 加权均值 例题分析 均值 数学性质 1 各变量值与均值的离差之和等于零 2 各变量值与均值的离差平方和最小 几何均值 几何均值 geometricmean n个变量值乘积的n次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为 5 可看作是均值的一种变形 几何均值 例题分析 例 一位投资者购持有一种股票 在2000年 2001年 2002年和2003年收益率分别为4 5 2 1 25 5 1 9 计算该投资者在这四年内的平均收益率 算术平均 几何平均 切尾均值 切尾均值 trimmedMean 去掉大小两端的若干数值后计算中间数据的均值在电视大奖赛 体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用计算公式为 n表示观察值的个数 表示切尾系数 切尾均值 例题分析 例 谋次比赛共有11名评委 对某位歌手的给分分别是 经整理得到顺序统计量值为 去掉一个最高分和一个最低分 取1 11 众数 中位数和均值的比较 众数 中位数和均值的关系 众数 中位数 均值的特点和应用 众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用 2 6分布离散程度的测度 一 极差二 内距三 方差和标准差四 离散系数 极差 range 一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布 R max xi min xi 计算公式为 内距 Inter QuartileRange IQR 也称四分位差上四分位数与下四分位数之差内距 Q3 Q1反映了中间50 数据的离散程度不受极端值的影响可用于衡量中位数的代表性 方差和标准差 方差和标准差 VarianceandStandarddeviation 1 离散程度的测度值之一2 最常用的测度值3 反映了数据的分布反映了各变量值与均值的平均差异根据总体数据计算的 称为总体方差或标准差 根据样本数据计算的 称为样本方差或标准差 总体方差和标准差 PopulationvarianceandStandarddeviation 未分组数据 组距分组数据 未分组数据 组距分组数据 方差的计算公式 标准差的计算公式 样本方差和标准差 simplevarianceandstandarddeviation 未分组数据 组距分组数据 未分组数据 组距分组数据 方差的计算公式 标准差的计算公式 样本方差自由度 degreeoffreedom 一组数据中可以自由取值的数据的个数当样本数据的个数为n时 若样本均值 x确定后 只有n 1个数据可以自由取值 其中必有一个数据则不能自由取值例如 样本有3个数值 即x1 2 x2 4 x3 9 则 x 5 当 x 5确定后 x1 x2和x3有两个数据可以自由取值 另一个则不能自由取值 比如x1 6 x2 7 那么x3则必然取2 而不能取其他值样本方差用自由度去除 其原因可从多方面解释 从实际应用角度看 在抽样估计中 当用样本方差去估计总体方差 2时 它是 2的无偏估计量 离散系数 离散系数 coefficientofvariation 1 标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响4 用于对不同组别数据离散程度的比较5 计算公式为 离散系数 例题分析 例 某管理局抽查了所属的8家企业 其产品销售数据如表 试比较产品销售额与销售利润的离散程度 离散系数 例题分析 结论 计算结果表明 v1 v2 说明产品销售额的离散程度小于销售利润的离散程度 2 7茎叶图与箱线图 一 茎叶图二 箱线图 茎叶图 stem and leafdisplay 用于显示未分组的原始数据的分布由 茎 和 叶 两部分构成 其图形是由数字组成的以该组数据的高位数值作树茎 低位数字作树叶树叶上只保留一位数字茎叶图类似于横置的直方图 但又有区别直方图可观察一组数据的分布状况 但没有给出具体的数值茎叶图既能给出数据的分布状况 又能给出每一个原始数值 保留了原始数据的信息 茎叶图 例题分析 茎叶图 扩展的茎叶图 箱线图 boxplot 用于显示未分组的原始数据的分布箱线图由一组数据的5个特征值绘制而成 它由一个箱子和两条线段组成箱线图的绘制方法首先找出一组数据的5个特征值 即最大值 最小值 中位数Me和两个四分位数 下四分位数QL和上四分位数QU 连接两个四分 位 数画出箱子 再将两个极值点与箱子相连接 箱线图 箱线图的构成 箱线图 例题分析 分布的形状与箱线图 不同分布的箱线图 未分组数据 多批数据箱线图 例题分析 例 从某大学经济管理专业二年级学
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 夹具钳工前沿技术考核试卷及答案
- 静电成像显影材料载体制造工标准化作业考核试卷及答案
- 社会体育指导员操作考核试卷及答案
- 野生植物管护巡护工应急处置考核试卷及答案
- 客运售票员入职考核试卷及答案
- 金属材碱洗工岗位操作规程考核试卷及答案
- 起重工5S管理考核试卷及答案
- 采油测试工专项考核试卷及答案
- 海洋油气操作工专业技能考核试卷及答案
- 2025年麻醉学常见并发症应急处置实操考核模拟考试卷答案及解析
- 2107北印复习05课件选题策划报告
- 2023年二级保密资格评分标准具体操作方法
- 商户收单业务培训
- 无机及分析化学课件(第四版)第一章学习资料
- 26个英文字母书写动态演示课件
- 电路学课件:1-6 电压源和电流源
- 区妇联家庭教育工作的调研报告
- 劳保用品发放表格及管理
- 江苏省盐城市各县区乡镇行政村村庄村名居民村民委员会明细
- Q∕SY 01004-2016 气田水回注技术规范
- TSG Z8002-2022 特种设备检验人员考核规则
评论
0/150
提交评论