统计学-数据的图表展示分析.ppt_第1页
统计学-数据的图表展示分析.ppt_第2页
统计学-数据的图表展示分析.ppt_第3页
统计学-数据的图表展示分析.ppt_第4页
统计学-数据的图表展示分析.ppt_第5页
免费预览已结束,剩余131页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2020 4 16 第三章数据的图表展示 3 1数据的预处理3 2用图表展示定型数据3 3用图表展示定量数据3 4合理使用图表 2020 4 16 不同原因引起的寿命损失 2020 4 16 柱形图 2020 4 16 帕累托图 2020 4 16 3 1数据的预处理DataPreparation 3 1 1 数据的审核与筛选3 1 2数据的排序3 1 3数据透视表 2020 4 16 数据的审核 筛选与排序 数据的审核DataCheck发现数据中的错误数据的筛选DataFilter找出符合条件的数据数据排序DataRank发现数据的基本特征升序和降序 2020 4 16 3 1 1数据的审核 原始数据Check RawData 审核的内容完整性审核检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全准确性审核检查数据是否真实反映客观实际情况 内容是否符合实际检查数据是否有错误 计算是否正确等 2020 4 16 数据的审核 原始数据 审核数据准确性的方法逻辑检查从定性角度 审核数据是否符合逻辑 内容是否合理 各项目或数字之间有无相互矛盾的现象主要用于对定类数据和定序数据的审核计算检查检查调查表中的各项数据在计算结果和计算方法上有无错误主要用于对定距和定比数据的审核 2020 4 16 数据的审核 第二手数据SecondHandData 适用性审核弄清楚数据的来源 数据的口径以及有关的背景材料确定这些数据是否符合自己分析研究的需要时效性审核应尽可能使用最新的统计数据确认是否必要做进一步的加工整理 2020 4 16 3 1 2数据的筛选 对审核过程中发现的错误应尽可能予以纠正当发现数据中的错误不能予以纠正 或者有些数据不符合调查的要求而又无法弥补时 需要对数据进行筛选数据筛选的内容包括 将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来 而不符合特定条件的数据予以剔出 2020 4 16 例3 1 学生四门课程的成绩数据筛选 表3 18名学生考试成绩 第一步 选择 工具 菜单 并选择 筛选 如果要筛选出给定条件的数据 可使用 自动筛选 命令 如图3 1所示 这时会在第一行出现下拉键头 用鼠标点击箭头会出现如图3 2所示的结果 第二步 在下拉键头方框内选择要筛选出的数据 比如 要筛选出统计成绩为75分的学生 选择75 得到结果如图2 3所示 要筛选出英语成绩最高的前四个学生 可选择 前4个 并在对话框中输入数据4 结果如图3 4所示 单击确定后即可得到相应的结果 图3 3 图3 4 第三步 如果要选出四门课成绩都大于70分的学生 由于设定的条件比较多 需要使用 高级筛选 命令 使用高级筛选命令时 必须建立条件区域 这时需要在数据清单上方至少留出三行作为条件区域 然后在 列表区域 选出其中要筛选的数据清单 在 条件区域 中选择匹配的条件 比如要筛选出四门课程成绩均大于70分的学生 如图3 5所示 单击 确定 后出现的结果如图3 6所示 图3 5 图3 6 2020 4 16 3 1 3数据的排序 按一定顺序将数据排列 以发现一些明显的特征或趋势 找到解决问题的线索排序有助于对数据检查纠错 以及为重新归类或分组等提供依据在某些场合 排序本身就是分析的目的之一排序可借助于计算机完成 数据的排序 定类数据的排序字母型数据 排序有升序降序之分 但习惯上用升序汉字型数据 可按汉字的首位拼音字母排列 也可按笔画排序 其中也有笔画多少的升序降序之分定距和定比数据的排序递增排序 设一组数据为X1 X2 XN 递增排序后可表示为 X 1 X 2 X N 2020 4 16 3 1 4数据透视表 利用数据透视表可以利用Excel提供的数据透视表工具 对数据重要信息按使用者习惯分析要求进行汇总和作图 形成一个符合需要的交叉表 列联表 在利用数据透视表时 数据源表中的首行必须有列标题 第一步 建立Excel数据清单 如表3 2 2020 4 16 表3 2 第二步 选中数据清单中的任意单元格 并选择 数据 菜单中的 数据透视表和数据透视图 弹出对话框如图3 7所示 然后根据需要选择 数据源类型 和 报表类型 这里我们选用 MicrosoftOfficeExcel数据列表或数据库 和 数据透视表 单击下一步 探出对框如图3 8所示 图3 7 图3 8 第三步 确定数据源区 本利的数据源区为 A 1 F 31 如果在启动想到之前单击了数据源单元格 Excel会自动选定数据源区域 单击下一步 探出的对话框如图3 9所示 图2 9 第四步 在上面的对话框中 选择数据透视表的输出位置 为方便起见可选择 现有工作表 并利用鼠标确定数据透视表的输出位置 本例为原工作表的G1单元格 然后选择 布局 弹出的对话框如图3 10所示 图2 10 第五步 在上面的 数据透视表和数据透视向导 布局 对话框中 依次将 性别 和 买衣物首选因素 拖至左边的 行 区域 将 家庭所在地 拖至上边的 列 区域 将 平均月生活费 和 月平均衣物支出 拖至 数据 区域 如图3 11所示 图3 11根据需要建立 数据透视表和数据透视图向导 布局 第六步 单击 确定 自动返回 数据透视表和数据透视图向导 3步骤之3 对话框 然后单击 完成 即可输出数据透视表 结果如图3 12所示 图3 12根据需要建立的数据透视表 2020 4 16 3 2品质数据的整理与显示 3 2 1生成频数分布图3 2 2定序数据的图示 2020 4 16 分类数据的整理与显示 2020 4 16 数据的整理与显示 基本问题 要弄清所面对的数据类型 因为不同类型的数据 所采取的处理方式和方法是不同的对定类数据和定序数据主要是做分类整理对定距数据和定比数据则主要是做分组整理适合于低层次数据的整理和显示方法也适合于高层次的数据 但适合于高层次数据的整理和显示方法并不适合于低层次的数据 2020 4 16 1 基本过程 1 列出各类别 3 制作频数分布表 4 用图形显示数据 3 2 1分类数据的整理与显示 2020 4 16 CategoricalDataOrganization生成频数分布图 1 Listallthecategories 列出所有分类 2 Calculatethefrequencyofeverycategory 计算各类别的频数 3 Makeafrequencydistributiontable 编制频数分布表 4 Graphicalpresentation 用图形表现出来 Procedure程序 2020 4 16 定类数据的整理 可计算的指标 1 频数 frequency 落在各类别中的数据个数2 比例 某一类别数据占全部数据的比值3 百分比 将对比的基数作为100而计算的比值4 比率 不同类别数值的比值 2020 4 16 顾客性别及购买的饮料类型 表3 3 2020 4 16 不同类型的饮料和顾客性别的频数分布表 表3 4 也称为列联表或交叉表 2020 4 16 SPSS生成频数分布表 第一步 选择 Analyze DescriptiveStatistics Frequencies 进入主题对话框第二步 将 饮料类型 或 顾客性别 选入 Variable 选中 DisplayFrequenciestables 第三步 点击 Statistics 或 Charts 并选择相应的选项 点击 OK 2020 4 16 表3 5不同类型饮料的频数分布 表3 6不同性别顾客的频数分布 2020 4 16 SPSS生成列联表 第一步 选择 Analyze DescriptiveStatistics Crosstabs 进入主题对话框第二步 将 饮料类型 选入 Rows 顾客性别 选入 Columns 行列可互换 第三步 点击 Cells 选择相关内容 或选其他相关选项 2020 4 16 表3 7饮料类型和顾客性别的交叉列联表 表3 8饮料类型和顾客性别的交叉列联表及其分析 2020 4 16 2 比例 proportion 3 百分比 percentage 4 比率 ratio 2 分类数据的图示 1 条形图 barchart 用宽度相同的条形高度或长度表示数据多少的图形 纵置或横置 纵置时称为柱形图 columnchart 1 频数 frequency 2020 4 16 图3 13 2020 4 16 例 2020 4 16 SPSS输出效果 2020 4 16 2 帕累托图 Paretochart 按各类数据频数多少排序后绘制的柱形图 2020 4 16 图3 14 2020 4 16 图3 14 2020 4 16 3 饼图 使用圆形或院内扇形的角度来表示数值大小的图形 主要用于表示一个样本 或总体 个组成部分的数据占全部数据的比例 图3 16 2020 4 16 定类数据整理 频数分布表 实例 例3 4 为研究广告市场的状况 一家广告公司在某城市随机抽取200人就广告问题做了邮寄问卷调查 其中的一个问题是 您比较关心下列哪一类广告 1 商品广告 2 服务广告 3 金融广告 4 房地产广告 5 招生招聘广告 6 其他广告 2020 4 16 定类数据的图示 条形图 条形图的制作 条形图是用宽度相同的条形的高度或长短来表示数据变动的图形条形图有单式 复式等形式在表示定类数据的分布时 是用条形图的高度来表示各类别数据的频数或频率绘制时 各类别可以放在纵轴 称为条形图 也可以放在横轴 称为柱形图 2020 4 16 定类数据的图示 条形图 由Excel绘制的条形图 2020 4 16 定类数据的图示 圆形图 圆形图的制作 也称饼图 是用圆形及园内扇形的面积来表示数值大小的图形主要用于表示总体中各组成部分所占的比例 对于研究结构性问题十分有用在绘制圆形图时 总体中各部分所占的百分比用园内的各个扇形面积表示 这些扇形的中心角度 是按各部分百分比占3600的相应比例确定的例如 关注服务广告的人数占总人数的百分比为25 5 那么其扇形的中心角度就应为3600 25 5 91 80 其余类推 2020 4 16 定类数据的图示 圆形图 由Excel绘制的圆形图 2020 4 16 定类数据的图示 环形图 环形图doughnutchart的制作 环形图中间有一个 空洞 总体中的每一部分数据用环中的一段表示环形图与圆形图类似 但又有区别圆形图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个总体的数据系列 每一个总体的数据系列为一个环环形图可用于进行比较研究环形图可用于展示定类和定序的数据 2020 4 16 品质数据的图示 环形图 由Excel绘制的环形图 2020 4 16 3 2 2顺序 定序 数据的整理 可计算的指标 1 累计频数 cumulativefrequencies 将各类别的频数逐级累加2 累计频率 cumulativepercntages 将各类别的频率 百分比 逐级累加 2020 4 16 定序数据频数分布表 实例 例3 5 在一项城市住房问题的研究中 研究人员在甲乙两个城市各抽样调查300户 其中的一个问题是 您对您家庭目前的住房状况是否满意 1 非常不满意 2 不满意 3 一般 4 满意 5 非常满意 2020 4 16 定序数据频数分布表 实例 2020 4 16 定序数据的图示 累计频数分布图 由Excel绘制的累计频数分布图 图3 19甲城市家庭对住房状况评价的累积频数分布 2020 4 16 3 3数值型数据的整理与显示 3 3 1 生成频数分布表 数据的分组 3 3 2 定量数据的图示 2020 4 16 频数分布表的编制 2020 4 16 编制频数分布表的步骤 编制频数分布表的步骤 2020 4 16 频数分布表的编制 实例 例3 6 某公司前5个月每天销售量数据如下 单位 台 试采用单变量值对数据进行分组 2020 4 16 分组方法 分组方法 2020 4 16 单变量值分组 要点 1 将一个变量值作为一组2 适合于离散变量3 适合于变量值较少的情况 2020 4 16 单变量值分组表 实例 2020 4 16 2020 4 16 频数表 用SPSS制作 有效数据 频数 频率 有效频率 累计频率 约2 3的人身高不超过165cm 2020 4 16 组距分组 要点 将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况必须遵循 不重不漏 的原则可采用等距分组 也可采用不等距分组 2020 4 16 统计分组的作用 总体经过分组 能够突出组与组之间的差异而抽象掉组内各单位之间的差异 使数据变得条理化 便于进一步分析研究 划分社会经济现象的类型反映社会经济现象的内部结构和比例关系揭示社会经济现象之间的相互依存关系 2020 4 16 选择分组标志 确定分组体系 总体单位归类 科学性 组间差异大 组内差异小 完备性和互斥性 每个单位均能且只能归到某个组中 统计分组的程序与原则 2020 4 16 对大学生月生活费支出情况进行分组研究 按家庭收入水平分组 按城乡分组 按性别分组 按年龄分组 统计分组的程序与原则 对父母亲下岗情况进行分组研究 单亲下岗 双亲下岗 双亲在岗 不符合科学性 不符合完备性和互斥性 2020 4 16 统计分组的程序与原则 各分组标志并列使用 各分组标志交叉结合使用 2020 4 16 平行分组体系 对教师的分类 按性别分类 男性 女性 按职称分类 按年龄分类 高级 中级 初级 青年 中年 共计7组2 3 2 2020 4 16 交叉分组体系 按性别分类 按职称分类 按年龄分类 男 女 高级 中级 初级 青年 中年 共计12组2 3 2 对教师的分类 2020 4 16 组距分组 步骤 确定组数 组数的确定应以能够显示数据的分布特征和规律为目的 在实际分组时 可以按Sturges提出的经验公式来确定组数K 确定各组的组距 组距 ClassWidth 是一个组的上限与下限之差 可根据全部数据的最大值和最小值及所分的组数来确定 即组距 最大值 最小值 组数 根据分组整理成频数分布表 2020 4 16 组距分组 几个概念 1 下限 一个组的最小值2 上限 一个组的最大值3 组距 上限与下限之差4 组中值 下限与上限之间的中点值 2020 4 16 等距分组表 上下组限重叠 2020 4 16 等距分组表 上下组限间断 2020 4 16 等距分组表 使用开口组 2020 4 16 组距分组与不等距分组 在表现频数分布上的差异 等距分组各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征和规律不等距分组各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实际状况需要用频数密度 频数密度 频数 组距 反映频数分布的实际状况 2020 4 16 数值型数据的图示用Excel作图 2020 4 16 分组数据 直方图 直方图的制作 用矩形的宽度和高度来表示频数分布的图形 实际上是用矩形的面积来表示各组的频数分布在直角坐标中 用横轴表示数据分组 纵轴表示频数或频率 各组与相应的频数就形成了一个矩形 即直方图 Histogram 直方图下的总面积等于1 2020 4 16 分组数据 直方图 直方图的绘制 日加工零件数 个 图3 20某电脑公虽销售量分布的直方图 我一眼就看出来了 大多数天的日销售台数在170 180之间 频数 台 2020 4 16 分组数据 直方图 直方图与条形图的区别 条形图是用条形的长度 横置时 表示各类别频数的多少 其宽度 表示类别 则是固定的直方图是用面积表示各组频数的多少 矩形的高度表示每一组的频数或百分比 宽度则表示各组的组距 其高度与宽度均有意义直方图的各矩形通常是连续排列 条形图则是分开排列 2020 4 16 分组数据 折线图 折线图的制作 折线图也称频数多边形图 Frequencypolygon 是在直方图的基础上 把直方图顶部的中点 组中值 用直线连接起来 再把原来的直方图抹掉折线图的两个终点要与横轴相交 具体的做法是第一个矩形的顶部中点通过竖边中点 即该组频数一半的位置 连接到横轴 最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等 二者所表示的频数分布是一致的 2020 4 16 15 12 9 6 3 105 110 115 120 125 130 135 140 日加工零件数 个 频数 人 分组数据 折线图 折线图的绘制 图3 20某车间工人日加工零件数的折线图 2020 4 16 未分组数据 茎叶图 茎叶图的制作 用于显示未分组的原始数据的分布由 茎 和 叶 两部分构成 其图形是由数字组成的以该组数据的高位数值作树茎 低位数字作树叶对于n 20 n 300 个数据 茎叶图最大行数不超过L 10 log10n 5 茎叶图类似于横置的直方图 但又有区别直方图可大体上看出一组数据的分布状况 但没有给出具体的数值茎叶图既能给出数据的分布状况 又能给出每一个原始数值 保留了原始数据的信息 2020 4 16 树茎 树叶 1349 0011233155567888 011222223344455556677888999 00122345667777888999 数据个数 未分组数据 茎叶图 茎叶图的制作 图3 21 14 15 023345689 16 17 18 2020 4 16 未分组数据 箱线图 箱线图boxplot的制作 用于显示未分组的原始数据或分组数据的分布箱线图由一组数据的5个特征值绘制而成 它由一个箱子和两条线段组成其绘制方法是 首先找出一组数据的5个特征值 即最大值 最小值 中位数Me和两个四分位数 下四分位数QL和上四分位数QU 连接两个四分 位 数画出箱子 再将两个极值点与箱子相连接 2020 4 16 未分组数据 单批数据箱线图 箱线图的构成 2020 4 16 未分组数据 单批数据箱线图 实例 2020 4 16 分布的形状与箱线图 图3 24不同分布的箱线图 2020 4 16 未分组数据 多批数据箱线图 实例 例3 7 从某大学经济管理专业二年级学生中随机抽取11人 对8门主要课程的考试成绩进行调查 所得结果如表3 8 试绘制各科考试成绩的批比较箱线图 并分析各科考试成绩的分布特征 2020 4 16 未分组数据 多批数据箱线图 由STATIATICA绘制的多批数据箱线图 图3 258门课程考试成绩的箱线图 2020 4 16 图3 2611名学生8门课程考试成绩的箱线图 Min Max 25 75 Medianvalue 45 55 65 75 85 95 105 学生1 学生2 学生3 学生4 学生5 学生6 学生7 学生8 学生9 学生10 学生11 未分组数据 箱线图 由STATIATICA绘制的多批数据箱线图 2020 4 16 时间序列数据 线图 线图的制作 绘制线图时应注意以下几点时间一般绘在横轴 指标数据绘在纵轴图形的长宽比例要适当 其长宽比例大致为10 7一般情况下 纵轴数据下端应从 0 开始 以便于比较 数据与 0 之间的间距过大时 可以采取折断的符号将纵轴折断 2020 4 16 时间序列数据 线图 实例 例3 8 已知1991 1998年我国城乡居民家庭的人均收入数据如表3 11 试绘制线图 2020 4 16 时间序列数据 由Excel绘制的线图 1 散点图Scatterdiagram 使用二维坐标展示两个变量之间关系的一种图形 它用横坐标轴代表变量x 纵轴代表y 每组数据 x y 在坐标系中用一个点表示 n组数据形成n个点 由坐标及散点组成的二维数据图称为散图 多变量的图示 例3 9小麦单位面积产量和温度 降雨量之间的关系 表3 18小麦产量与温度和降雨量的关系 2020 4 16 图3 28小麦产量与降雨量的散点图 图3 29小麦产量和温度之的散点图 2020 4 16 2 气泡图 bubblechart 用于展示三个变量之间的关系 绘制时将一个变量放在横轴 另一个变量放在纵轴 而第三个变量则用气泡大小来表示 图3 29小麦产量与降雨量和温度的气泡图 2020 4 16 雷达图 RadarChart 是显示多个变量的常用图示方法 也称为蜘蛛图 spidechart 在显示或对比各变量的数值总和时十分有用假定各变量的取值具有相同的正负号 总的绝对值与图形所围成的区域成正比可用于研究多个样本之间的相似程度 3 雷达图 2020 4 16 设有n组样本S1 S2 Sn 每个样本测得P个变量X1 X2 Xp 要绘制这P个变量的雷达图 其具体做法是 多变量数据 雷达图 雷达图的制作 先做一个圆 然后将圆P等分 得到P个点 令这P个点分别对应P个变量 在将这P个点与圆心连线 得到P个幅射状的半径 这P个半径分别作为P个变量的坐标轴 每个变量值的大小由半径上的点到圆心的距离表示再将同一样本的值在P个坐标上的点连线 这样 n个样本形成的n个多边形就是一个雷达图 2020 4 16 多变量数据 雷达图 实例 例3 10 2003年我国城乡居民家庭平均每人各项生活消费支出构成数据如表3 12 试绘制雷达图 今天的主食是面包 2020 4 16 多变量数据 雷达图 由Excel绘制的雷达图 2020 4 16 多变量数据 雷达图 实例 例3 11 为研究某条河流的污染程度 环保局分别在上游 中游和下游设立取样点 每个取样点化验水中的五项污染指标 所得数据如表3 13 将各指标用雷达图表示出来 并分析该河流的主要污染源 2020 4 16 多变量数据 雷达图 由Excel绘制的对数坐标雷达图 2020 4 16 3 4合理使用图表 一 鉴别图标优劣的准则二 统计表 2020 4 16 数据类型及图示 小结 散点图 气泡图 2020 4 16 频数分布的类型 图3 32几种常见的频数分布 2020 4 16 一 鉴别图形优劣的准则 1 显示数据 2 让读者注意力集中在图形的内容上 而不是制作图形上 3 避免歪曲 4 强调数据之间的比较 5 服务于一个明确的目的 6 有对图形的统计描述和文字说明 好的图形字应具有的特征 2020 4 16 鉴别图形优劣的准则 1 精心设计 有助于洞察问题的实质 2 使复杂的观点得到简明 确切 高效的阐述 3 能在最短的时间内以最少的笔墨给读者提供最大量的信息 4 应当是多维的 5 应当表述数据的真实情况 2020 4 16 数据表示中的错误ErrorsinPresentingData 1 使用花哨 Junk 图表2 数据比较时没有可靠的相对基准3 压缩纵轴CompressingtheVerticalAxis4 纵轴上无零点NoZeroPointontheVerticalAxis 2020 4 16 花哨图表ChartJunk 不准确的表示 准确的表示 1960 1 00 1970 1 60 1980 3 10 1990 3 80 最低工资 最低工资 0 2 4 1960 1970 1980 1990 2020 4 16 花哨图表ChartJunk 在报纸 杂志上的图表里通常都会加上花哨的图标和符号以增加吸引力 这种做法常常会掩盖或曲解数据应传递的准确信息实例1 人民生活步步高 北京日报 1997年9月10日实例2 北大画册 英文版 2001 2020 4 16 无相对基准NoRelativeBasis 准确的表示 按年级统计的A 按年级统计的A 不准确的表示 0 100 200 300 大一 大二 大三 大四 频数 0 10 20 3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论