版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第三章 统计数据的整理与显示PowerPoint统计学第三章 统计数据的整理与显示第一节 数据的预处理 第二节 品质数据的整理与显示第三节 数值型数据的整理与显示第四节 统计表学习目标了解数据预处理的内容和目的掌握品质数据整理与显示的方法掌握数值型数据整理与显示的方法用Excel作频数分布表和形图合理使用统计表第一节 数据的预处理一. 数据的审核与筛选二. 数据的排序数据的审核、筛选与排序数据的审核发现数据中的错误数据的筛选找出符合条件的数据数据排序发现数据的基本特征升序和降序数据的审核(原始数据) 审核的内容完整性审核检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全准确性审核
2、检查数据是否真实反映客观实际情况,内容是否符合实际检查数据是否有错误,计算是否正确等数据的审核(原始数据)审核数据准确性的方法逻辑检查从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象主要用于对定类数据和定序数据的审核计算检查检查调查表中的各项数据在计算结果和计算方法上有无错误主要用于对定距和定比数据的审核数据的审核(第二手数据)适用性审核弄清楚数据的来源、数据的口径以及有关的背景材料确定这些数据是否符合自己分析研究的需要时效性审核应尽可能使用最新的统计数据确认是否必要做进一步的加工整理数据的筛选对审核过程中发现的错误应尽可能予以纠正当发现数据中的错误不能予以纠
3、正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选数据筛选的内容包括:将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔出数据的排序(要点)按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索排序有助于对数据检查纠错,以及为重新归类或分组等提供依据在某些场合,排序本身就是分析的目的之一排序可借助于计算机完成数据的排序 (方法)定类数据的排序字母型数据,排序有升序降序之分,但习惯上用升序汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分定距和定比数据的排序递增排序:设一
4、组数据为X1,X2,XN,递增排序后可表示为:X(1)X(2)X(2)X(N) 第二节 品质数据的整理与显示一. 定类数据的整理与显示二. 定序数据的整理与显示定类数据的整理与显示定类数据的整理与显示(基本问题)要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的对定类数据和定序数据主要是做分类整理对定距数据和定比数据则主要是做分组整理适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据定类数据的整理(基本过程)1.列出各类别2. 计算各类别的频数3. 制作频数分布表4. 用图形显示数据定类数据的整理(可计算的指标
5、)1. 频 数:落在各类别中的数据个数2. 比 例:某一类别数据占全部数据的比值3. 百分比:将对比的基数作为100而计算的比值4. 比 率:不同类别数值的比值定类数据整理频数分布表(实例)【例3.1】为研究广告市场的状况,一家广告公司在某城市随机抽取200人就广告问题做了邮寄问卷调查,其中的一个问题是“您比较关心下列哪一类广告?” 1商品广告;2服务广告;3金融广告;4房地产广告;5招生招聘广告;6其他广告。表3-1 某城市居民关注广告类型的频数分布 广告类型人数(人)比例频率(%) 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告112519161020.5600.2550
6、.0450.0800.0500.01056.025.54.58.05.01.0合计2001100定类数据的图示条形图(条形图的制作)条形图是用宽度相同的条形的高度或长短来表示数据变动的图形条形图有单式、复式等形式在表示定类数据的分布时,是用条形图的高度来表示各类别数据的频数或频率绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图定类数据的图示条形图(由 Excel 绘制的条形图)人数(人)5191610211204080120 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告广告类型 图3-1 某城市居民关注不同类型广告的人数分布定类数据的图示圆形图(圆形图的制
7、作)也称饼图,是用圆形及园内扇形的面积来表示数值大小的图形主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用在绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形面积表示,这些扇形的中心角度,是按各部分百分比占3600的相应比例确定的例如,关注服务广告的人数占总人数的百分比为25.5%,那么其扇形的中心角度就应为360025.5%91.80,其余类推定类数据的图示圆形图(由 Excel 绘制的圆形图) 其他广告1.0% 房地产广告8.0% 商品广告56.0% 金融广告4.5% 服务广告25.5% 招生招聘广告5.8%图3-2 某城市居民关注不同类型广告的人数构成定序数据的整理
8、与显示定序数据的整理(可计算的指标)1. 累计频数:将各类别的频数逐级累加2. 累计频率:将各类别的频率(百分比)逐级累加 定序数据频数分布表(实例 )【例3.2】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意? 1非常不满意;2不满意;3一般;4满意;5非常满意。 表3-2 甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)向上累积 向下累积 户数(户)百分比(%)户数(户)百分比(%) 非常不满意 不满意 一般 满意 非常满意24108934530836311510241322252703008
9、.044.075.090.0100.03002761687530100.092562510合计300100.0定序数据频数分布表(实例 )表3-3 乙城市家庭对住房状况评价的频数分布回答类别乙城市户数(户)百分比(%)向上累积 向下累积 户数(户)百分比(%)户数(户)百分比(%) 非常不满意 不满意 一般 满意 非常满意21997864387.033.026.021.312.7211201982623007.040.066.087.3100.030027918010238100.093.060.034.012.7合计300100.0定序数据的图示累计频数分布图(由 Excel 绘制的累计频数
10、分布图)243001322252700100200300400 非常不满意 不满意 一般 满意 非常满意累积户数(户)(a)向下累积27616830300750100200300400 非常不满意 不满意 一般 满意 非常满意累积户数(户)(b)向上累积图3-3 甲城市家庭对住房状况评价的累积频数分布定类数据的图示环形图(环形图的制作)环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示环形图与圆形图类似,但又有区别圆形图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环环形图可用于进行比较研究 环形图可用于展示定类和定序的数据品质数
11、据的图示环形图(由 Excel 绘制的环形图)8%36%31%15%7%33%26%21%13%10% 非常不满意 不满意 一般 满意 非常满意 图3-4 甲乙两城市家庭对住房状况的评价第三节 数值型数据的整理与显示一. 数据的分组二. 数值型数据的图示三. 频数分布的类型频数分布表的编制编制频数分布表的步骤确定组数编制频数分布表的步骤确定组距计算频数编制表格频数分布表的编制(实例)117 122 124 129 139 107 117 130 122 125108 131 125 117 122 133 126 122 118 108110 118 123 126 133 134 127 1
12、23 118 112112 134 127 123 119 113 120 123 127 135137 114 120 128 124 115 139 128 124 121【例3.3】某生产车间50名工人日加工零件数如下(单位:个)。试采用单变量值对数据进行分组。 分组方法分组方法等距分组异距分组单变量值分组组距分组单变量值分组(要点)1. 将一个变量值作为一组2. 适合于离散变量3. 适合于变量值较少的情况单变量值分组表(实例)表3-4 某车间50名工人日加工零件数分组表零件数(个)频数(人)零件数(个)频数(人)零件数(个)频数(人)10710811011211311411511711
13、8121211133119120121122123124125126127121443223128129130131133134135137139211122112组距分组(要点)将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况必须遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组 组距分组(步骤)确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按 Sturges 提出的经验公式来确定组数K确定各组的组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 组距( 最大值 - 最小值)
14、组数 根据分组整理成频数分布表 组距分组(几个概念)1. 下 限:一个组的最小值2. 上 限:一个组的最大值3. 组 距:上限与下限之差4. 组中值:下限与上限之间的中点值下限值+上限值2组中值等距分组表(上下组限重叠)表3-5 某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)105110110115115120120125125130130135135140358141064610162820128合计50100等距分组表(上下组限间断)表3-6 某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)1051091101141151191201241251291
15、30134135139358141064610162820128合计50100等距分组表(使用开口组)表3-7 某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)110以下110114115119120124125129130134135以上358141064610162820128合计50100组距分组与不等距分组(在表现频数分布上的差异)等距分组各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征和规律不等距分组各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实际状况需要用频数密度(频数密度频数/组距)反映频数分布的实际状况数值型数据
16、的图示用Excel作图以下图形均由计算机绘制!ExcelSTATISTICA分组数据直方图(直方图的制作)用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram)直方图下的总面积等于1分组数据直方图(直方图的绘制)频数(人)1512963105110115120125130135140日加工零件数(个)直方图下的面积之和等于1图3-5 某车间工人日加工零件数的直方图我一眼就看出来了,大多数人的日加工零件数在120125之间!分组数据直方图(直方图与条形图
17、的区别)条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义直方图的各矩形通常是连续排列,条形图则是分开排列分组数据折线图(折线图的制作)折线图也称频数多边形图(Frequency polygon)是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方
18、图的面积相等,二者所表示的频数分布是一致的1512963105110115120125130135140日加工零件数(个)频数(人)折线图下的面积与直方图的面积相等!分组数据折线图(折线图的绘制)图3-6 某车间工人日加工零件数的折线图未分组数据茎叶图(茎叶图的制作)用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶对于n(20n300)个数据,茎叶图最大行数不超过 L = 10 log 10 n 5. 茎叶图类似于横置的直方图,但又有区别直方图可大体上看出一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况
19、,又能给出每一个原始数值,保留了原始数据的信息树茎树叶78894446677788910111213数据个数3132410茎叶图类似横置的直方图未分组数据茎叶图(茎叶图的制作)图3-7 某车间工人日加工零件数的茎叶图未分组数据茎叶图(扩展的茎叶图)树茎树叶10s10.11*11t11f11s11.12*12t12f12s12.13*12t13f13s13.78 802 2 34 57 7 78 8 8 90 0 12 2 2 2 3 3 3 34 4 4 5 56 6 7 7 78 8 90 13 34 4 579 9树茎树叶10*10.11*11.12*12.13*13.7 8 80 2 2
20、 3 45 7 7 7 8 8 8 90 0 1 2 2 2 2 3 3 3 3 4 4 45 5 6 6 7 7 7 8 8 90 1 3 3 4 4 5 7 9 9图3-8 图3.7扩展后的茎叶图未分组数据箱线图(箱线图的制作)用于显示未分组的原始数据或分组数据的分布箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成其绘制方法是:首先找出一组数据的5个特征值,即最大值、最小值、中位数Me 和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接 未分组数据单批数据箱线图(箱线图的构成)中位数4681012QUQLX最大值X最小值
21、图3-9 简单箱线图未分组数据单批数据箱线图(实例)最小值107最大值139中位数123下四分位数117.75上四分位数128105 110 115 120 125 130 135 140图3-10 50名工人日加工零件数的箱线图分布的形状与箱线图 对称分布QL中位数 QU左偏分布QL中位数 QU右偏分布QL 中位数 QU图3-11 不同分布的箱线图未分组数据多批数据箱线图(实例)【例3.4】 从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表3-8。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征表3-8 11名学生各科的考试成绩数据
22、课程名称学生编号1234567891011英语经济数学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177未分组数据多批数据箱线图(由STATIATICA绘制的多批数据箱线图)图3-12 8门课程考试成绩的箱线图图3-13 11名学生8门课程
23、考试成绩的箱线图Min-Max25%-75%Median value455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生11未分组数据箱线图(由STATIATICA绘制的多批数据箱线图)时间序列数据线图(线图的制作) 绘制线图时应注意以下几点时间一般绘在横轴,指标数据绘在纵轴图形的长宽比例要适当,其长宽比例大致为10:7一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断时间序列数据线图(实例)【例3.5】已知19911998年我国城乡居民家庭的人均收入数据如表3-11。试绘制线图¥ 表3-1
24、1 19911998年城乡居民家庭人均收入年份城镇居民农村居民199119921993199419951996199719981700.62026.62577.43496.24283.04838.95160.35425.1708.6 784.0 921.61221.01577.71926.12091.12162.0时间序列数据(由 Excel 绘制的线图)020004000600019911992199319941995199619971998城镇居民农村居民收入 (元) 图3-14 城乡居民家庭人均收入雷达图(Radar Chart)是显示多个变量的常用图示方法在显示或对比各变量的数值总和时
25、十分有用假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比可用于研究多个样本之间的相似程度多变量数据雷达图(要点) 设有n组样本S1,S2,Sn,每个样本测得P个变量X1,X2,Xp,要绘制这P个变量的雷达图,其具体做法是多变量数据雷达图(雷达图的制作) 先做一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,在将这P个点与圆心连线,得到P个幅射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示 再将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图多变量数据雷达图(实例)【例3.6】1997年我
26、国城乡居民家庭平均每人各项生活消费支出数据如表3-12。试绘制雷达图。今天的主食是面包表3-12 1997年城乡居民家庭平均每人生活消费支出项 目城镇居民农村居民 食品 衣着 家庭设备用品及服务 医疗保健 交通通讯 娱乐教育文化服务 居住 杂项商品与服务1942.59520.91316.89179.68232.90448.38358.64185.65 890.28 109.41 85.41 62.45 53.92 148.18 233.23 34.27合 计4185.641617.150500100015002000 食品 衣着 家庭设备用 品及服务 医疗保健 交通通讯 娱乐教育 文化服务 居住 杂项商品 与服务城镇居民农村居民 图3-15 1997年城镇居民家庭消费支出 (元)多变量数据雷达图(由 Excel 绘制的雷达图)多变量数据雷达图(实例)【例3.7】为研究某条河流的污染程度,环保局分别在上游、中游和下游设立取样点,每个取样点化验水中的五项污染指标,所得数据如表3-13。将各指标用雷达图表示出来,并分析该河流的主要污染源。 表3-13 不同样本点的化验指标指标1指标2指标3指标4指标5上游中游
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 盛隆冶金招聘面试题目及答案
- 2024年防城港职业技术学院单招职业技能测试模拟测试卷附答案解析
- 2024年山东工程职业技术大学单招职业技能考试题库附答案解析
- 2024年重庆市德阳市单招职业倾向性考试题库附答案解析
- 2024年黄河水利职业技术学院单招职业适应性测试模拟测试卷附答案解析
- 2025年江西冶金职业技术学院单招综合素质考试模拟测试卷附答案解析
- 2025年石家庄经济职业学院单招职业倾向性考试题库附答案解析
- 2023年广东金融学院单招职业适应性考试题库附答案解析
- 2025年达州中医药职业学院单招职业倾向性测试题库附答案解析
- 2023年陕西省渭南市单招职业适应性测试模拟测试卷附答案解析
- 粮油保管员(高级)职业技能鉴定参考试题(附答案)
- 等腰三角形复习课教案
- 2025年中国大唐集团有限公司校园招聘笔试参考题库附带答案详解
- 常用统计软件应用知到智慧树章节测试课后答案2024年秋扬州大学
- 汽车配件供货协议书(2篇)
- 江西省吉安市泰和县2024-2025学年数学六年级第一学期期末统考试题含解析
- 《光伏发电工程安全验收评价规程》(NB-T 32038-2017)
- 水质分析仪安装调试报告
- GB/T 2881-2023工业硅
- 教科版四年级上册科学期末测试卷(含答案)
- 医院诊断证明书word模板
评论
0/150
提交评论