




已阅读5页,还剩60页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章数据的整理与图表展示,3.1数据的预处理3.2品质数据的整理与展示3.3数值型数据的整理与展示,1,3.1数据的预处理,1.数据审核发现数据中的错误2.数据筛选找出符合条件的数据3.数据排序发现数据的基本特征升序和降序,2,数据筛选,例3.1表3-1是8名学生4门课程的考试成绩数据(单位:分)。试找出(1)统计学成绩等于80分的学生(2)数学成绩最高的前三名学生,英语成绩最低的三名学生(3)统计学成绩在80-90之间的学生(4)四门课程成绩都大于70分的学生,3,数据排序,1.分类数据的排序字母型数据,排序有升序降序之分,但习惯上用升序汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分数值型数据的排序,4,分类汇总,根据不同的研究目的,按照某个类别进行汇总分析。分类汇总之前要先按分类项排序。简单分类汇总多级分类汇总,5,数据透视表,利用数据透视表可以按照研究目的不同,进行交叉汇总分析,使研究者可以从各种角度、维度去查看分析数据,从繁杂的数据中挖掘和整合数据。,6,例3.2在某大学随机抽取30名学生,调查他们的性别、家庭所在地、平均月生活费支出、平均每月购买衣物支出和购买衣物时所考虑的首选因素等,得到的数据如表3-2,试建立一个数据透视表,在表的行变量中给出性别和买衣物的首选因素,在列变量中给出学生的家庭所在地区,对平均月生活费和月平均衣物支出进行交叉汇总。,7,3.2品质数据的整理与展示,3.2.1分类数据的整理与图示1.列出各类别2.计算各类别的频数3.制作频数分布表4.用图形展示,8,分类数据中需要计算的指标,1.频数:落在各类别中的数据个数频数分布:把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来。2.比例:某一类别数据占全部数据的比值3.百分比:将对比的基数作为100而计算的比值4.比率:不同类别数值之间的比值,9,【例3.3】一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行调查。调查员随机观察了50名顾客购买饮料类型及购买者性别,并进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。数据见Excel表。要求:对饮料类型和顾客性别的分布状况进行描述分析,求不同品牌饮料的频数分布、比例和百分比。,10,方法一:数据透视表方法,利用数据透视表功能,进行频数分析。在数据透视表【布局】对话框中,依次将“饮料类型”拖到“行”区域以及“数据”区域,将“顾客性别”拖到“列”区域。,11,方法二:EXCEL中的函数功能,插入函数,COUNTIF,数一数COUNTIF要计算某一类别的频数,12,分类数据的图示,条形图条形图是用宽度相同的条形的高度或长短来表示数据多少的图形各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图对比条形图(复式条形图):显示分类变量在不同时间或不同空间上的差异或变化,13,14,15,复式条形图,16,对比条形图,17,分类数据的图示帕累托图,按各类别数据出现的频数多少排序后绘制的柱形图主要用于展示分类数据的分布,18,饼图,饼图:用圆形及圆内扇形的面积来表示数值大小的图形。主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用在绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度,是按各部分百分比占3600的相应比例确定的,19,20,环形图,环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示环形图与饼图类似,但又有区别饼图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环环形图可用于进行比较研究环形图可用于展示分类数据和顺序数据,21,22,3.2.2顺序数据的整理与图示,累积频数:将各有序类别的频数逐级累加起来得到的频数。向上累积:从类别顺序的开始一方,向类别顺序的最后一方累加频数;向下累积:从类别顺序的最后一方,向类别顺序的开始一方累加频数。2.累积频率:将各类别的百分比逐级累加,23,【例3.5】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?1非常不满意;2不满意;3一般;4满意;5非常满意。,24,25,26,27,甲城市家庭对住房状况评价的累积频数分布图,28,3.3数值型数据的整理与显示,3.3.1数据的分组,分组方法,29,单变量值分组(要点),适合于离散变量适合于变量值较少的情况步骤:,排序,将一个变量值作为一组,30,117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121,【例3.6】某生产车间50名工人日加工零件数如下(单位:个)。试采用单变量值对数据进行分组。,31,107108108110112112113114115117117117118118118119120120121122122122122123123123123124124124125125126126127127127128128129130131133133134134135137139139,32,33,组距分组(要点),适合于连续变量适合于变量值较多的情况将变量值的一个区间作为一组可采用等距分组,也可采用不等距分组,34,组距分组(几个概念),1.下限:一个组的最小值2.上限:一个组的最大值3.组距:上限与下限之差4.组中值:下限与上限之间的中点值,35,组距分组,第1步:排序,确定组数(K)5K15能够显示数据的分布特征和规律第2步:确定组距组距(最大值最小值)组数组距宜取5或10的倍数,36,第一组的下限应低于最小值,最后一组的上限应高于最大值。遵循“不重不漏”的原则第3步:根据分组整理成频数分布表,上组限不在内,37,等距分组表(上下组限间断),38,等距分组表(上下组限重叠),39,等距分组表(使用开口组),40,用Excel制作数值型数据的频数分布表,【工具】【数据分析】【直方图】【输入区域】:输入原始数据区域【接收区域】:输入各组的上限值【输出区域】:选择一个空白单元格(想要把输出的结果放在那里)【柏拉图】、【累积百分率】(不需要时,可不选)选择【图表输出】,41,利用FREQUENCY函数,制作频数分布表FREQUENCY(Data_array,Bins_array)Data_array为计算频数的数据区域或数组Bins_array为数据接收区间的数组,即指定的各分组的组上限值。注意:1.FREQUENCY函数返回的是一个数组;2.在输入函数前,应选定返回数组的区域;3.函数录入以后,应按住Ctrl+Shift+回车(确定),42,分组数据直方图,用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram),43,直方图与条形图的区别,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。直方图的各矩形通常是连续排列,条形图则是分开排列。条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。,44,分组数据折线图,折线图也称频数多边形图(Frequencypolygon)是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的,45,15,12,9,6,3,105,110,115,120,125,130,135,140,日加工零件数(个),频数(人),某车间工人日加工零件数的折线图,46,未分组数据茎叶图,用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶4.茎叶图类似于横置的直方图,但又有区别直方图可大体上看出一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息,47,107108108110112112113114115117117117118118118119120120121122122122122123123123123124124124125125126126127127127128128129130131133133134134135137139139,48,树茎,树叶,788,022347778889,001222233334445566777889,0133445799,数据个数,某车间工人日加工零件数的茎叶图,49,零件数Stem-and-LeafPlotFrequencyStem&Leaf3.0010.7885.0011.022348.0011.5777888914.0012.0012222333344410.0012.55667778896.0013.0133444.0013.5799Stemwidth:10Eachleaf:1case(s),50,未分组数据箱线图,1.箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成2.其绘制方法是:首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分位数画出箱子,再将两个极值点与箱子相连接,51,52,分布的形状与箱线图,不同分布的箱线图,53,未分组数据多批数据箱线图,【例】从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的比较箱线图,并分析各科考试成绩的分布特征,54,8门课程考试成绩的Median/Quart./Range箱线图,55,时间序列数据线图,线图主要用于反映现象随时间变化的特征绘制线图时应注意以下几点时间一般绘在横轴,指标数据绘在纵轴图形的长宽比例要适当,其长宽比例大致为10:7一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断,56,【例3.5】已知20062015年我国城乡居民家庭的人均收入数据如表3-17。试绘制线图,¥,表3-172006-2015年我国城乡居民人均消费水平,57,图3-23我国城乡居民人均消费水平,58,多变量数据的图示,1.散点图:用二维坐标展示两个变量之间关系的图形。每组数据(xi,yi)在坐标系中用一个点表示。2.气泡图:可用于展示三个变量之间的关系,一个变量放在x轴,另一个变量放在y轴,第三个变量用气泡的大小表示。3.雷达图:可显示
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 垃圾分类竞赛试题及答案
- 2025年大数据技术考试题及答案
- 2026届安徽省淮南市田区化学九年级第一学期期末经典试题含解析
- 2025年教师招聘之《小学教师招聘》考前冲刺练习题库及参考答案详解(巩固)
- 海尔车间安全培训资料课件
- 2025年循环定科考试题及答案
- 2025年闫河三基考试试题及答案
- 2025年教师招聘之《幼儿教师招聘》真题附参考答案详解(能力提升)
- 模拟电路竞赛试题及答案
- 童年知识竞赛试题及答案
- 融资风险评估报告
- 画法几何及土木工程制图课件
- 第2课 树立科学的世界观《哲学与人生》(高教版2023基础模块)
- 录入与排版教学计划
- 2023免拆底模钢筋桁架楼承板图集
- 云计算技术基础应用教程(HCIA-Cloud)PPT完整全套教学课件
- 呼吸衰竭小讲课课件
- 成人学士学位英语1000个高频必考词汇汇总
- 全屋定制家居橱柜衣柜整装安装服务规范
- 沥青及沥青混合料试验作业指导书
- 义务教育阶段学生艺术素质测评指标体系小学音乐
评论
0/150
提交评论