版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、案例:如何描述不同原因引起的寿命损失 文字:未结婚的男性会使寿命减少3500天,女性则减少1600天;吸烟的男性会使寿命减少2250天,女性则减少800天;饮酒会使寿命减少130天;超重会使寿命减少1300天;滥用药物会使寿命减少90天 表格 图形 Q:哪一种方式更好?,第三章 数据整理与图表展示,表3-1 不同原因引起的寿命损失,图3-1 不同原因引起的寿命损失,第三章 数据整理与图表展示,学习目标 了解统计数据的预处理方法 掌握非数值型数据的分类整理和图示 掌握数值型数据的分组整理和图示 重点:频数分布表绘制;各种统计图的绘制,并能解释其含义,一、数据审核(data auditing) 原
2、始数据 数据审核的内容和方式 二、数据筛选(data filter) 举例 表3-2是8名学生4门课程的成绩数据。 请找出统计学成绩等于87分的学生,英文成绩前5名的学生,四门课成绩均大于70分的学生。,3.1 数据的预处理,表3-2 8名学生的成绩数据,三、数据排序 举例 财富 2011全球500强企业 福布斯 2011全球富豪排行榜 2011 中国大学排行榜 四、数据透视表(Pivot Table) 按使用者要求对数据表重要信息进行汇总后的结果 Note:Excel的特色功能(举例),财富 2011全球500强企业,单位:百万美元,一、数据分组(Data Grouping)(P31) 根据
3、研究现象特点和数据分析目的,将原始数据按照总体单位的某一特征分为不同的组别。 分组数据 分组标志 非数值型数据分组和数值型数据分组,3.2 非数值型数据的分类整理和展示,二、非数值型数据分组(分类)(P32) 反映事物自然属性的非数值型数据的分组 反映事物社会经济属性的非数值型数据的分组 城镇家庭 “可支配收入” 分组,3.2 非数值型数据的分类整理和展示,表3-3 20002009年 江苏省城镇家庭可支配收入分组表 (单位:元),图3-4 20002009年江苏省城镇家庭可支配收入水平折线图,三、定类数据的整理和展示 1. 频数与频数分布(Frequency Distribution)(P3
4、8) 频数 频数分布表 频率(比例) 举例-1(P38) 按性别的人口构成(表3-4),3.2 非数值型数据的分类整理和展示,表3-4 2001-2003年我国按性别分人口数及构成 资料来源:2004中国统计年鉴. 北京. 中国统计出版社 2004 Q:统计学中怎么称呼分配在各组的单位数及其相对形式?,统计分组,分配在各组的单位数及其相对形式,1. 频数与频数分布(Frequency Distribution) 举例-2 表3-5是调查员随机观察的50名顾客购买的饮料类型及购买者性别记录。 要求:生成频数分布表,观察饮料类型和顾客性别的分布状况,并进行描述性分析。,三、定类数据的整理和展示,说
5、明:F女; M男;ts碳酸;lc绿茶;kqs矿泉水;gz果汁;qt其它,表3-5 顾客性别及购买的饮料类型,Excel结果: 表3-6 不同类型饮料和顾客性别的频数分布,2. 定类数据的图示 (1)条形图(Bar Chart) 用宽度相同的条形的高度或长短表示数据频数。,图3-5 饮料类型的条形图,图3-6 饮料类型和顾客性别的复式条形图,2. 定类数据的图示 (2)饼图(Pie Chart) 主要用于说明一个样本各部分所占比例,或者总体 内部结构分析。,图3-7 不同类型饮料构成的饼图,2. 定类数据的图示 (3)环形图(Doughnut Chart) 主要用于显示多个样本各部分所占的相应比
6、例,有助于构成的比较研究。 举例 表3-7是某年北京、上海和天津地区按收入法计算的地区生产总值(按当年价格计算)数据。 请绘制环形图比较三个地区的生产总值构成。,表3-7 某年北京、上海和天津地区生产总值构成 单位:亿元,图3-8 北京、上海和天津地区生产总值构成 的环形图,四、定序数据的整理和展示 1. 累积频数与累积频率(P38) 累积频数 向上/向下累积 累积频率 举例 关于城市住房问题的研究中,研究人员对两个城市各抽样调查300户,其中一个问题是:“您对家庭目前的住房状况是否满意?” 调查结果的频数分布表如表3-8、表3-9。,3.2 非数值型数据的分类整理和展示,表3-8 甲城市家庭
7、对住房状况评价的频数分布,表3-9 乙城市家庭对住房状况评价的频数分布,2. 定序数据的图示 举例:根据表3-7的数据绘制累积频数分布图。,图3-9 甲城市家庭对住房状况评价的累积频数分布图,一、数值型数据分组与频数分布 1. 数值型数据分组 根据统计研究需要,将原始数据按某种标准分成不同的组别。 关键:选择分组变量和划分各组界限 2.数值型数据分组的结果 形成频数分布表 两个构成要素 各组的分组界限 每组中的频数、频率,3.3 数值型数据的整理和图示,频数分布举例(表3-10),3. 数值型数据分组方法(P33),一、数值型数据分组与频数分布,(1) 单变量值分组 每一个变量值作为一组的分组
8、方式。 举例 某学院某年毕业研究生发表论文篇数的频数分布表(表3-11),(2) 组距分组 将全部变量值依次划分为若干个区间,将每一区间的变量值作为一组。 适合于连续变量或变量值较多时。 遵循“不重不漏”的原则。 等距与不等距分组。,基本概念 组限 上限(U ) / 下限(L) 组距(d) 间断/重合组限 闭口/开口组限 闭口组/开口组 Note:在采用重合组限场合,一般采用“上限不在内” 的统计惯例。(P35),怎样进行等距分组(结合例子) 确定取值范围 确定组数: Sturges 经验公式 计算组距: 确定各组祖限(多种形式) Note:三种常用的等距分组表(表1315) 根据分组整理成频
9、数分布表,已知某电脑公司2009年912月每天的销售量数据。 要求进行数据分组。 确定取值范围(R=96) 确定组数(H=10) 计算组距(d=10) 确定各组祖限 根据分组整理成频数分布表,等距分组 举例,表3-12 某电脑公司销售量的频数分布,等距分组 举例,等距分组表(上下组限间断),等距分组表(上下组限重叠,上组限不在内),等距分组表(使用开口组),4. 组中值(Class Midpoint)(P36) 如何计算及举例 (P36-37) 对于重合组限分组:(上限+下限)/2 对于间断组限分组:(上组下限+本组下限)/2 对于重合组限开口组: 缺少下限的组中值=本组上限-邻组组距/2 缺
10、少上限的组中值=本组下限+邻组组距/2 对于间断组限开口组: 缺少下限的组中值=邻组下限-邻组组距/2 缺少上限的组中值=本组下限+邻组组距/2,一、数值型数据分组与频数分布,表3-16 2003年我国按年龄和性别分人口数及组中值,Note:数据分组的要点和基本概念 统计分组 基本概念:R、K、d、组中值; 祖限、间断祖限、重合组限、开口组、闭口组; 频数、频数分布、频率、累积频数、累积频率。,非数值型数据分组,数值型数据分组,单变量分组,组距分组,等距分组,异距分组,5. 等距分组的应用(教材:P46),例3.1 某学期某班35名学生的统计学考试成绩的原始数据如下: 92,87,75,74,
11、65,91,98,78,84,83, 78,96,62,84,76,52,69,84,81,88, 70,91,89,87,75,79,82,86,79,82, 64,90,56,84,89 问题:对该班学生的统计学考试成绩,采用重合组限和开口组限设置进行等距分组、计算组中值和频数分布,编制统计表和统计图。,一、数值型数据分组与频数分布,Excel 应用,例3.1 某学期某班35名学生的统计学考试成绩的原始数据如下: 92,87,75,74,65,91,98,78,84,83,78,96,62,84,76, 52,69,84,81,88,70,91,89,87,75,79,82,86,79,8
12、2, 64,90,56,84,89,1. 计算取值范围 排序、确定最大值和最小值为98和52,计算得R=46(分) 2. 确定组数和组距 H=5,d=46/5=9.11 (分),取整,d为10分 3. 计算频数分布 4. 计算组中值 5. 绘制直方图和折线图,3. 计算频数分布(上限不在内) 98、96、92、91、91、90 (共6人) 89、89、88、87、87、86、84、84、84、84、83、82、82、81 (共14人) 79、79、78、78、76、75、75、74、70(共9人) 69、65、64、62(共4人) 56、52(共2人) 4. 计算组中值,表3-17 35名学生
13、统计学成绩统计表,常用统计图,二、数值型数据的图示,二、数值型数据的图示,分组数据:直方图(Histogram) 用来展示数值型分组数据分布的常用图形。 在统计分组的基础上,用矩形的宽度和高度表示频数分布。 注意对不等距分组:纵轴必须表示为频数密度 频数密度=频数/组距 (面积之和=总频数) 举例 等距分组 不等距分组,某会计师事务所对20家公司进行年终审计所需时间(天)的频数分布表(表3-18),直方图(等距分组),直方图(等距分组),我一眼就看出来了,审计时间在1520天之间的公司数最多!,图3-10 审计时间直方图(等距分组),某会计师事务所对20家公司进行年终审计所需时间(天)的频数分
14、布表(表3-19),直方图(不等距分组),图3-11 审计时间直方图(不等距分组),二、数值型数据的图示,2. 折线图(Frequency polygon) 在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再将原来的直方图抹掉。 折线图的两个终点应与横轴相交。 组数越多,组据就越小,折线图就越光滑,趋近于一条平滑曲线,即频数分布曲线。 举例,折线图与直方图 下的面积相等!,图3-12 审计时间折线图,图3-13 学生统计学成绩直方图,图3-14 在直方图基础上绘制的折线图,图3-15 学生统计学成绩折线图,二、数值型数据的图示,3. 未分组数据:茎叶图 (Stem-and-Lea
15、f Display) 用于显示未分组的原始数据的分布。由“茎”和“叶”两部分构成,其图形是由数字组成的。 通常以数据的高位数值作树茎,低位数字作树叶。 举例,原始数据:24, 26, 24, 21, 27, 27, 30, 41, 32, 38 从小到大排序后的数据: 21, 24, 24, 26, 27, 27, 30, 32, 38, 41 茎叶图(图3-16):,3 0 2 8,4 1,2 1 4 4 6 7 7,茎叶图,30,40名教师的年龄的数据: 40,41,48,51,37,35,36,50,33,42,28,33,36,29,28,29,34,35,27,36,28,29,34
16、,26,35,40,27,43,45,39,42,41,48,55,43,42,42,51,52,64,SPSS 生成的一个茎叶图,4. 时间序列数据:线图(Line Chart),图3-17 1996年-2003年城乡居民人民币储蓄存款年底余额,二、数值型数据的图示,Note: 增长速度 ?,3.4 绘制图表的要点,(不恰当)统计图举例,不必要的三维效果:三维图形可能比二维图形更能吸引读者的注意,但只能用来反映变化的趋势,不能用来进行精确的比较。,Note: 避免选用不恰当图形类型,1960: $1.00,1970: $1.60,1980: $3.10,1990: $3.80,Minimum Wage,不好的图形,Quarterly Sales,不好的图形,0,100,200,Q1,Q2,Q3,Q4,$,Note: 避免压缩纵轴,Monthly Sales,不好的图形,36,39,42,45,J,F,M,A,M,J,$,Note: 避免纵轴无零点,Monthly Sales,0,39,42,45,J,F,M,A,M,J,$,36,一、统计图绘制要点 图形类型选择恰当,刻度、长宽比例合理,能准确显示数据中包含的信息。 图形尽量简约。 图形应该有清楚的标题和必要的说明。 反复加工和修改是获得优秀统计图形的重要步骤。,3.4 绘制图表的要点,二、统计表设计要求,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 三角函数的图象与性质、三角恒等变换+课件-2026届高三数学二轮专题复习
- 护理学眼科考试试题及答案
- 2026五年级数学上册 小数乘法的学习兴趣
- 克缇奖金制度
- 2026二年级数学上册 生活中的数学
- 作为村干部如何落实八项制度
- 销售安全生产试题及答案
- 2026三年级数学下册 除法单元典型例题
- 部门工作考核奖惩制度
- 培训机构销售奖惩制度
- 种植多肉教学课件
- 语文●全国Ⅰ卷丨2024年普通高等学校招生全国统一考试语文试卷及答案
- (高清版)DG∕TJ 08-2405-2022 水运工程装配式护岸结构技术标准
- 2025智能接地箱技术规范
- 抗癫痫发作药物联合使用中国专家共识2025
- 春天的秘密幼儿园教育
- 人工智能在档案管理中的应用与发展
- 《医学影像检查技术学》课件-足X线摄影
- 部队采购招标资料3篇
- 南京财经大学C语言期末(共六卷)含答案解析
- 2024年度中国协同办公平台行业研究报告
评论
0/150
提交评论