版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、All rights reserved11第第3 3章章 数据的图表展示数据的图表展示 3.1 数据的预处理 3.2 品质数据的整理与展示 3.3 数值型数据的整理与展示 3.4 合理使用图表All rights reserved2参考书参考书2All rights reserved3参考书参考书3All rights reserved4参考书参考书4All rights reserved55参考书参考书All rights reserved6图表的力量图表的力量统计图表的意义n“给我10页纸的报告,必须有9页是数据和图表分析,还有1页是封面”n“文不如表,表不如图”nGraphs are t
2、he most effective way to communicate using datan一图胜千言lJohn Tukey:“图形的最大价值就是使我们注意到我们从来没有料到过的信息”All rights reserved7图表的力量图表的力量历史上著名的统计图表n拿破仑的大军团进军俄国lMinard绘制的地图,展现了1812年拿破仑的大军团进军俄国的路,线(上半部分)和撤退时的气温变化(下半部分)。这一历史事件中,法军数量的急剧减少以及恶劣的气候条件一览无遗All rights reserved8图表的力量图表的力量法国科学家 Marey称:该图所展现出的雄辩对历史学家的笔是一种极大的挑
3、战All rights reserved9图表的力量图表的力量n进出口时间序列lPlayfair (1786)绘制的线图。这幅图主要展示了1700年至1780年间英格兰的进出口时序数据All rights reserved10图表的力量图表的力量n南丁格尔“玫瑰图”人类发现了统计 统计改变了世界,若想了解上帝在想什么,我们就必须学统计,因为统计学就是在量测他的旨意All rights reserved11图表的力量图表的力量南丁格尔的极坐标面积图:两幅图分别是1854年和1855年的军队伤亡人数,一年12个月恰好可以将极坐标分为12等分,每一瓣代表一个月。图中用颜色标记出了三种死亡原因。All
4、 rights reserved12图表的力量(续)图表的力量(续)n统计地图l1854年英国Broad大街大规模爆发霍乱,当时了解微生物理论的人很少,人们不清楚霍乱传播途径,而“瘴气传播理论”是当时的主导理论;lJohn Snow对这种理论表示了怀疑,于1849年发表了关于霍乱传播理论的论文,本图即其主要依据All rights reserved13图表的力量图表的力量这幅图形揭示了一个重要现象,就是死亡发生地都在街道中部一处水源(水井)周围,市内其它水源周围极少发现死者。进一步调查他发现这些死者都饮用过这里的井水All rights reserved14143.1 数据预处理数据预处理Al
5、l rights reserved15数据的预处理数据的预处理数据审核n检查数据中的错误数据筛选n找出符合条件的数据数据排序n升序和降序n寻找数据的基本特征数据透视n按需要汇总数据的预处理数据的预处理All rights reserved16数据审核数据审核原始数据原始数据 完整性审核n应调查的单位或个体是否有遗漏n所有的调查项目或变量是否填写齐全 准确性审核n数据是否真实反映实际情况,内容是否符合实际n数据是否有错误,计算是否正确等All rights reserved17数据的审核数据的审核二手二手数据数据 适用性审核n弄清楚数据的来源、数据的口径以及有关的背景材料n确定数据是否符合自己分
6、析研究的需要 时效性审核n尽可能使用最新的数据 确认是否有必要做进一步的加工整理!All rights reserved18数据筛选数据筛选 当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选数据筛选的内容将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除All rights reserved19用用ExcelExcel例例3.13.1进行数据筛选进行数据筛选 数据筛选数据筛选All rights reserved20数据数据排序排序数据排序(Sort)按一定顺序将数据排列,以发现一些明显的特
7、征或趋势,找到解决问题的线索排序有助于对数据检查纠错,以及为重新归类或分组等提供依据在某些场合,排序本身就是分析的目的之一排序可借助于计算机完成All rights reserved21数据数据排序排序分类数据的排序n字母型数据,排序有升序降序之分,但习惯上用升序n汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分数值型数据的排序n递增排序:设一组数据为x1,x2,xn,递增排序后可表示为:x(1)x(2)x(2)x(n)All rights reserved22数据透视数据透视表表数据透视表(pivot table )以从复杂的数据中提取有用的信息可以对数
8、据表的重要信息按使用者的习惯或分析要求进行汇总和作图形成一个符合需要的交叉表(列联表)在利用数据透视表时,数据源表中的首行必须有列标题表3.2All rights reserved23233.2 品质数据的整理与展示品质数据的整理与展示All rights reserved24数据的整理与数据的整理与显示显示n明确面对的数据类型。不同类型的数据,采取不同的处理方式和方法n对分类数据和顺序数据主要是作分类整理n对数值型数据则主要是作分组整理n适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据All rights reserved25分类
9、数据的整理分类数据的整理n列出各类别n计算各列的频数n制作频数分布表n用图形显示数据All rights reserved26分类数据的整理分类数据的整理n频数频数(frequency) :落在各类别中的数据个数n比率比率(proportion) :某一类别数据个数占全部数据个数的比值n百分比百分比(percentage) :将对比的基数作为100而计算的比值n比例比例(ratio) :不同类别数值个数的比值All rights reserved27分类数据整理分类数据整理频数分布频数分布表表例3.3 一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天
10、对50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次 。右边就是记录的原始数据All rights reserved28分类数据的图示分类数据的图示BarBar图图n用宽度相同的条形的高度或长短来表示各类别数据的图形n有单式条形图、复式条形图等形式n主要用于反映分类数据的频数分布n绘制时,各类别可以放在纵轴,称为条形条形图图,也可以放在横轴,称为柱形图柱形图All rights reserved2929All rights reserved30帕累托图帕累托图30All rights reserved31频数汇总n罪犯的例子改造方式无新罪新罪总计
11、监狱221840文学课32638总计542478例析例析All rights reserved32例析例析新罪无新罪6050403020100是是否否犯犯新新罪罪计计数数改造方式文学课监狱403020100新罪无新罪Bar图All rights reserved33马赛克图马赛克图n总统选票 All rights reserved34分类数据的图示分类数据的图示饼图饼图n也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形n主要用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题n绘制圆形图时,样本或总体中各部分所占的百分比用圆内的各个扇形角度表示,这些扇形的中心角度,按各部分数据
12、百分比乘以3600确定All rights reserved35顺序数据的整理与图示顺序数据的整理与图示All rights reserved36顺序数据的整理顺序数据的整理(可计算的统计量可计算的统计量)n对 分 类 数 据 和 顺 序 数 据 主累 积 频 数累 积 频 数(cumulative frequencies):各类别频数的逐级累加n累积频率累积频率(cumulative percentages):各类别频率(百分比)的逐级累加All rights reserved37顺序数据的频数分布表顺序数据的频数分布表在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其
13、中的一个问题是:“您对您家庭目前的住房状况是否满意?” 1 非 常 不满意;2不满意;3一般;4满意;5非常满意。 回答类别回答类别甲城市甲城市户数户数(户户)百分比百分比(%)向上累积向上累积 向下累积向下累积 户数户数(户户)百分比百分比(%)户数户数(户户)百分比百分比(%) 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 836311510 24132225270300 8.0 44.0 75.0 90.0100.0300276168 75 30100.092562510合计合计300100.0All rights reserve
14、d38顺序数据的频数分布表顺序数据的频数分布表回答类别回答类别乙城市乙城市户数户数(户户)百分比百分比(%)向上累积向上累积 向下累积向下累积 户数户数(户户)百分比百分比(%)户数户数(户户)百分比百分比(%) 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2199786438 7.033.026.021.312.7 21120198262300 7.0 40.0 66.0 87.3100.0300279180102 38100.0 93.0 60.0 34.0 12.7合计合计300100.0All rights reserved39顺序数据的图示顺序数据的图示累
15、计频数分布图累计频数分布图243001322252700100200300400 非常不满意 不满意 一般 满意 非常满意累积户数(户)(a)向上累积向上累积27616830300750100200300400 非常不满意 不满意 一般 满意 非常满意累积户数(户)(b)向下累积向下累积All rights reserved40环形图环形图n环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示n与饼图类似,但又有区别 饼图只能显示一个总体各部分所占的比例, 环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环n用于结构比较研究 n用于展示分类和顺序数
16、据All rights reserved41环形图环形图 8%36%31%15%7%33%26%21%13%10% 非常不满意 不满意 一般 满意 非常满意 甲乙两城市家庭对住房状况的评价甲乙两城市家庭对住房状况的评价All rights reserved42423.3 数值型数据的整理与展示数值型数据的整理与展示All rights reserved43数据分组数据分组n将变量值的一个区间作为一组n适合于连续变量n适合于变量值较多的情况n需要遵循“不重不漏”的原则n可采用等距分组,也可采用不等距分组All rights reserved44组距分组组距分组n确定组数:组数的确定应以能够显示数
17、据的分布特征和规律为目的。在实际分组时,组数一般为5K 15n确定组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 组距组距( 最大值最大值 - 最小值最小值) 组数组数n统计出各组的频数并整理成频数分布表 All rights reserved45组距分组组距分组n确定组距:组距(下限下限(lower limit) :一个组的最小值n上限上限(upper limit) :一个组的最大值n 组距组距(class width) :上限与下限之差n 组中值组中值(class midpoint) :下限与上限之间的中点值下限值下限值+
18、上限值上限值2组中值组中值 =All rights reserved46频数分布表的编制频数分布表的编制【 例例 】 某 电脑 公 司 连 续个 月 各 天 的销售量数据(单位:台)。试 对 数 据 进行分组All rights reserved47等距分组表等距分组表(上下组限重叠上下组限重叠)All rights reserved48等距分组表等距分组表(上下组限间断上下组限间断)All rights reserved49等距分组表等距分组表(使用开口组使用开口组)All rights reserved50数值型数据的图示数值型数据的图示分组数据直方图和折线图All rights rese
19、rved51分组数据分组数据直方图直方图n用矩形的宽度和高度来表示频数分布n本质上是用矩形的面积面积来表示频数分布n在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图All rights reserved52分组数据的图示分组数据的图示我一眼就看出来了,销售量在170180之间的天数最多!All rights reserved53频数分布的类型频数分布的类型All rights reserved54分组数据分组数据直方图直方图(直方图与条形图的区别直方图与条形图的区别)n条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定
20、的n直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义n直方图的各矩形通常是连续排列,条形图则是分开排列n条形图主要用于展示分类数据,直方图则主要用于展示数值型数据All rights reserved55数值型数据的图示数值型数据的图示未未分组数据分组数据茎叶图和箱线图茎叶图和箱线图All rights reserved56未分组数据未分组数据茎叶图茎叶图n用于显示未分组的原始数据的分布n由“茎”和“叶”两部分构成,其图形是由数字组成的n以该组数据的高位数值作树茎,低位数字作树叶n树叶上只保留最后一位数字n茎叶图类似于横置的直方图
21、,但又有区别All rights reserved57未分组数据未分组数据茎叶图茎叶图All rights reserved58未分组数据未分组数据箱线图箱线图n用于显示未分组的原始数据的分布n由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成n绘制方法: All rights reserved59未分组数据未分组数据单批数据箱线图单批数据箱线图(箱线图的构成箱线图的构成)All rights reserved60未分组数据未分组数据单批数据箱线图单批数据箱线图最小值141最大值237中位数182下四分位数170.25上四分位数197140 150 160 170 180 190 20
22、0 210 220 230 240某电脑公司销售量数据的某电脑公司销售量数据的Median/Quart./Rang箱线图箱线图All rights reserved61分布的形状与箱线图分布的形状与箱线图左偏分布左偏分布Q L中位数中位数 QULeft-skewed distribution中位数中位数对称分布对称分布QL中位数中位数 QUBell-shaped distributionAll rights reserved62未分组数据未分组数据多批数据箱线图多批数据箱线图 【例例】 从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考
23、试成绩的批比较箱线图,并分析各科考试成绩的分布特征课程名称课程名称学生编号学生编号1234567891011英语英语经济数学经济数学西方经济学西方经济学市场营销学市场营销学财务管理财务管理基础会计学基础会计学统计学统计学计算机应用基础计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177
24、All rights reserved63未分组数据未分组数据多批数据箱线图多批数据箱线图Min-Max25%-75%Median value455565758595105英语经济数学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础All rights reserved64min-max25%-75%median value455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生11未分组数据未分组数据多批数据箱线图多批数据箱线图All rights reserved65n 原始数据 :37个女士结婚时的年龄302756403026312423
25、25293329223329462534192323442930252360252737242227312426n 数值从小到大排序示例示例All rights reserved6660544842363024结结 婚婚 年年 龄龄n 结婚年龄示例示例All rights reserved671441281129680644832男女s sp pe ee ed dn 开车速度示例示例All rights reserved68示例示例All rights reserved69女男16014012010080604020s sp pe ee ed d 的的箱箱线线图图示例示例All rights
26、reserved70Stem-and-leaf plot for YEAR(结婚年龄)1*92*22333344455556677799993*0001133474*0465*66*0示例示例All rights reserved71Stem-and-leaf plot for YEAR(结婚年龄)1. 92* 2233334442. 55556677799993* 000113343. 74* 044. 65* 5. 66* 0示例示例All rights reserved72605040302014121086420结结婚婚年年龄龄频频率率示例示例All rights reserved73
27、6035302520150.070.060.050.040.030.020.010.00结结婚婚年年龄龄密密度度直方图下的面积之和等于1示例示例All rights reserved74时间序列数据的展示时间序列数据的展示时间序列图All rights reserved75变量间的关系变量间的关系75散点图All rights reserved76变量间的关系变量间的关系气泡图All rights reserved771. 显示多个变量的图示方法2. 在显示或对比各变量的数值总和时十分有用3. 假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比4. 可用于研究多个样本之间的相
28、似程度多变量数据多变量数据雷达图雷达图All rights reserved78All rights reserved79洛伦茨曲线洛伦茨曲线和基尼系数和基尼系数 洛伦茨曲线n20世纪初美国经济学家、统计学家洛伦茨(M.E. Lorentz)根据意大利经济学家巴雷特(V. Pareto)提出的收入分配公式绘制而成n描述收入和财富分配性质的曲线分析该国家或地区分配的平均程度 AB累积的人口百分比 累积的收入百分比 绝对公平线 All rights reserved80洛伦茨曲线洛伦茨曲线和基尼系数和基尼系数( (续续) )基尼系数 n20世纪初意大利经济学家基尼(G. Gini)根据洛伦茨曲线给
29、出了衡收入分配平均程度的指标nA表示实际收入曲线与绝对平均线之间的面积nB表示实际收入曲线与绝对不平均线之间的面积=AAB基尼系数All rights reserved81洛伦茨曲线洛伦茨曲线和基尼系数和基尼系数( (续续) )n如果A=0,则基尼系数=0,表示收入绝对平均n如果B=0,则基尼系数=1,表示收入绝对不平均n基尼系数在0 和1之间取值n一般认为,基尼系数若小于0.2,表明分配平均;基尼系数在0.2至0.4之间是比较适当的,即一个社会既有效率又没有造成极大的分配不公;基尼系数在0.4被认为是收入分配不公平的警戒线,超过了0.4应该采取措施缩小这一差距。 All rights res
30、erved82统计地图n各国基尼系数All rights reserved83n各国腐败程度All rights reserved8484n各国灯光地图All rights reserved8585n春节百度迁徙All rights reserved8686n英国政府开支All rights reserved87人口金字塔n中国人口金字塔变动图All rights reserved88如何画好统计图表如何画好统计图表如何画统计表1999199920002000年城镇居民家庭抽样调查资料年城镇居民家庭抽样调查资料项目项目单位单位19991999年年 2000 2000年年 调查户数调查户数 平均
31、每户家庭人口平均每户家庭人口 平均每户就业人口平均每户就业人口 平均每户就业面平均每户就业面 平均一就业者负担人数平均一就业者负担人数 平均每人全部年收入平均每人全部年收入 可支配收入可支配收入 平均每人消费性支出平均每人消费性支出户户人人人人% %元元元元元元元元 40044 400443.143.141.771.7756.4356.431.771.775888.775888.775854.025854.024615.914615.91 4222.0 4222.0 3.13 3.13 1.68 1.68 53.67 53.67 1.86 1.86 6316.81 6316.81 6279.9
32、8 6279.98 4998.00 4998.00资料来源:中国统计年鉴2001,中国统计出版社,2001,第305页。注:本表为城市和县城的城镇居民家庭抽样调查材料。 All rights reserved89如何画好统计图表(续)如何画好统计图表(续) 画表的一般原则:n合理安排统计表的结构n总标题内容应满足3W 要求n数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明n表中的上下两条横线一般用粗线,其他线用细线All rights reserved90如何画好统计图表(续)如何画好统计图表(续)n通常情况下,统计表的左右两边不封口n表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一n对于没有数字的表格单元,一般用“”表示n必要时可在表的下方加上注释All rights reserved91如何画好统计图表(续)如何画好统计图表(续)怎样画好统计图n“好图”和“坏图”All rights reserved92如何画好统计图表(续)如何画好统计图表(续)n学位人数增加nIts a cluttered mess: No axis labels Confu
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025江西省华忆电子工业中等专业学校工作人员招聘考试试题
- 2025江苏城市职业学院常州办学点工作人员招聘考试试题
- 智能客服中心建设可行性分析:2025年技术引领沉浸式体验
- 绿植在小学美术教室空气质量提升中的应用效果研究教学研究课题报告
- 幼儿园教师观察记录能力培训效果研究-基于幼儿园教师专业技能培训数据分析深度研究
- 危大工程专项施工方案
- 新能源汽车电池回收再利用项目在2025年的市场拓展可行性分析
- 基于同伴互评的初中英语写作教学策略创新与实践效果分析教学研究课题报告
- 2026年通信行业6G技术展望报告
- 管理人员工作总结15篇
- 2026贵州省住房资金管理中心招聘工作人员1人备考题库含答案详解(考试直接用)
- 2026储能入市背景下的投资测算工具设计逻辑深度研究报告
- 2026四川省阿坝州州级事业单位考试调动37人重点基础提升(共500题)附带答案详解
- 2026湖北神农架林区公安局招聘辅警22人笔试参考题库及答案解析
- JJG 693-2011可燃气体检测报警器
- 光伏组件失效模式介绍课件
- 《过松源晨炊漆公店》PPT
- 市场调查与统计知到章节答案智慧树2023年北京财贸职业学院
- DB42T 1144-2016燃气用不锈钢波纹软管安装及验收规范
- GB/T 14048.7-2016低压开关设备和控制设备第7-1部分:辅助器件铜导体的接线端子排
- 《极地地区》第2课时示范公开课教学课件【地理人教七年级下册】
评论
0/150
提交评论