第2章 数据的图表展示_第1页
第2章 数据的图表展示_第2页
第2章 数据的图表展示_第3页
第2章 数据的图表展示_第4页
第2章 数据的图表展示_第5页
已阅读5页,还剩136页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主讲人 吴锦桂管理学院 统计学告诉你的哲理 灰太狼被红太狼的平底锅砸过多少次 被喜羊羊捉弄过多少次 捉羊想过多少个办法 足迹能绕地球多少圈 至今吃到几只羊 统计学告诉你 被平底锅砸过9544次 被喜羊羊捉弄过2347次 捉羊想过2788个办法 足迹能绕地球954圈 至今一只羊没吃到 1 数据的预处理2 分类数据的整理与显示3 顺序数据的整理与显示4 数值型数据的整理与显示5 如何合理使用统计图表 了解数据预处理的内容和目的掌握分类和顺序数据的整理与显示方法掌握数值型数据的整理与显示方法用Excel和SPSS作频数分布表和图形合理使用图表 学习目标 1 数据的预处理 数据审核检查数据中的错误数据筛选找出符合条件的数据数据排序按字母和拼音顺序升序和降序寻找数据的基本特征数据透视按需要汇总 对数据进行哪些预处理 完整性审核应调查的单位或个体是否有遗漏所有的调查项目或变量是否填写齐全准确性审核数据是否真实反映实际情况 内容是否符合实际数据是否有错误 计算是否正确等 数据审核 原始数据 适用性审核弄清楚数据的来源 数据的口径以及有关的背景材料确定数据是否符合自己分析研究的需要时效性审核尽可能使用最新的数据确认是否有必要做进一步的加工整理 数据审核 二手数据 按一定顺序将数据排列 以发现一些明显的特征或趋势 找到解决问题的线索排序有助于对数据检查纠错 以及为重新归类或分组等提供依据在某些场合 排序本身就是分析的目的之一排序可借助于计算机完成 数据排序 数据排序 方法 1 分类数据的排序字母型数据 习惯上用升序汉字型数据 可按汉字的首位拼音字母排列 也可按笔画排序 其中也有笔画多少的升序降序之分2 数值型数据的排序递增排序 设一组数据为x1 x2 xn 递增排序后可表示为 x 1 x 2 x n 当数据中的错误不能予以纠正 或者有些数据不符合调查的要求而又无法弥补时 需要对数据进行筛选数据筛选的内容将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来 而不符合特定条件的数据予以剔除 数据筛选 例子 学生考试成绩 xls 可以从复杂的数据中提取有用的信息可以对数据表的重要信息按使用者的习惯或分析要求进行汇总和作图形成一个符合需要的交叉表 列联表 在利用数据透视表时 数据源表中的首行必须有列标题 数据透视表 例子 2 2随机抽取30名学生的调查数据 xls 2 分类数据的整理 表 要弄清所面对的数据类型不同类型的数据 采取不同的处理方式和方法对分类数据和顺序数据主要是作分类整理对数值型数据则主要是作分组整理 数据整理 一般用什么来展示数据 频数 frequency 落在各类别中的数据个数比例 proportion 某一类别数据个数占全部数据个数的比值百分比 percentage 将对比的基数作为100而计算的比值 即用百分数表示的比例比率 ratio 不同类别数值个数的比值 分类数据的统计量 1 列出各类别 3 生成频数分布表 生成频数分布表 例2 3 为研究不同类型的软饮料的市场销售情况 一家市场调查公司对随机抽取的一家超市进行调查 下面的表2 1是调查员随机观察的50名顾客购买的饮料类型及购买者性别的记录 生成频数分布表 观察饮料类型和消费者性别的分布状况 并进行描述性分析 制作频数分布表 Excel 第1步 选择 插入 菜单中的 数据透视表和数据透视图 第2步 确定数据源区域第4步 在 向导 3步骤之3 中选择数据透视表的输出位置 然后选择 布局 第5步 在 向导 布局 对话框中 依次将 分类变量 这里是 饮料品牌 连续拖放两次 一次拖至左边的 行 区域 一次拖至 数据 区域第6步 然后单击 确定 自动返回 向导 3步骤之3 对话框 然后单击 完成 即可输出数据透视表 使用excel数据透视方法 不同类型饮料和顾客性别的频数分布 绿色健康饮品 生成频数分布表 整理EXCEL文件 2 3顾客性别及购买的饮料类型 xls 将 2 3顾客性别及购买的饮料类型 xls 转换成SPSS文件 方法 导入或者复制 分析 描述统计 频率分析 描述统计 交叉表 生成频数分布表 spss spss输出结果 3 分类数据图示 用宽度相同的条形的高度或长短来表示各类别数据各类别可放在纵轴 称为条形图 可以放在横轴 称为柱形图 columnchart 分类数据图示 条形图 分类数据图示 条形图 作用 条形图有什么作用 清晰地用来比较大小 例2 3 为研究不同类型的软饮料的市场销售情况 一家市场调查公司对随机抽取的一家超市进行调查 下面的表2 1是调查员随机观察的50名顾客购买的饮料类型及购买者性别的记录 生成频数分布表 观察饮料类型和消费者性别的分布状况 并进行描述性分析 例子 绿色健康饮品 excel输出演示 饮料类型和顾客性别的条形图 SPSS的输出 分类数据图示 复式条形图 按各类别数据出现的频数多少排序后绘制的柱形图用于展示分类数据的分布 分类数据图示 帕累托图 第1步 现按频数进行排序 然后按排序计算出累计频率第2步 选择项目名和频数 插入柱状图 得到横坐标是项目名 纵坐标是频数的柱状图第3步 点选条形图 选择数据 添加累计频率一项第4步 点击选择系列2 右键选择设置数据系列格式 选择次坐标轴 选择次坐标轴 编辑坐标轴格式 将坐标轴范围定在0 100 第5步 点击系列2 然后点击插入 折线图 excel帕累托图做法步骤 分类数据图示 帕累托图 作用 帕累托图有什么作用 1 80 20法则 找出主要原因 2 通常应用到质量问题上 例2 3 为研究不同类型的软饮料的市场销售情况 一家市场调查公司对随机抽取的一家超市进行调查 下面的表2 1是调查员随机观察的50名顾客购买的饮料类型及购买者性别的记录 生成频数分布表 观察饮料类型和消费者性别的分布状况 并进行描述性分析 例子 演示 绿色健康饮品 excel输出演示 第一步 输入数据第二步 分析 质量控制 排列图 简单 定义 选择 变量和 饮料进入类别框 频数进入变量和框 spss帕累托图做法步骤 绿色健康饮品 spss输出演示 练习 分析 用圆形及圆内扇形的角度来表示数值大小的图形 主要用于表示一个样本 或总体 中各组成部分的数据占全部数据的比例用于研究结构问题 分类数据图示 简单饼图 分类数据图示 饼图 作用 饼图有什么作用 1 用来比较百分比 2 看占总体的比重 例2 3 为研究不同类型的软饮料的市场销售情况 一家市场调查公司对随机抽取的一家超市进行调查 下面的表2 1是调查员随机观察的50名顾客购买的饮料类型及购买者性别的记录 生成频数分布表 观察饮料类型和消费者性别的分布状况 并进行描述性分析 制作频数分布表 Excel 例子 绿色健康饮品 excel输出演示 P38课后练习2 4 练习一下 小结 分类数据用什么图和表展示 小结 分类数据展示 表 图 频数分布表 数据透视 条形图 饼图 帕累托图 4 顺序数据的整理 表 1 累积频数 cumulativefrequencies 各类别频数的逐级累加2 累积频率 cumulativepercentages 各类别频率 百分比 的逐级累加 顺序数据的整理 可计算的统计量 单个顺序数据一般采用累积分布图 折线图 进行分析问题 对于多个顺序数据一般采用环形图进行对比分析 顺序数据的整理 可计算的统计量 环形图中间有一个 空洞 样本或总体中的每一部分数据用环中的一段表示与饼图类似 但又有区别饼图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个样本或总体的数据系列 每一个样本或总体的数据系列为一个环用于结构比较研究用于展示分类和顺序数据 环形图 例2 4 在一项城市住房问题的研究中 研究人员在甲乙两个城市各抽样调查300户 其中的一个问题是 您对您家庭目前的住房状况是否满意 1 非常不满意 2 不满意 3 一般 4 满意 5 非常满意 顺序数据的频数分布表例子 顺序数据的频数分布表例子 6 顺序数据的图示 甲城市家庭对住房状况评价的累积频数分布 顺序数据的累积频数分布图显示 环形图例子 例 补充完表格 画出向上向下的累积频率分布图 向上累计 向下累计 练习 小结 顺序数据 顺序数据用什么图和表展示 小结 顺序数据展示 表 图 累计频数分布表 数据透视 累计频数线图 环形图 单个数据 多个数据 7 数值型数据的整理 表 数值型数据的表怎么画 数据分组 分组方法 分组方法 将一个变量值作为一组适合于离散变量适合于变量值较少的情况 将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况需要遵循 不重不漏 的原则可采用等距分组 也可采用不等距分组 组距分组 例子 某组为 30 50 组距分组 几个概念 上限 下限 组中值40 组距50 30 20 1 下限 lowlimit 一个组的最小值2 上限 upperlimit 一个组的最大值3 组距 classwidth 上限与下限之差4 组中值 classmidpoint 下限与上限之间的中点值 组距分组 概念 例 某公司今年每天的销售量数据如下 单位 个 试对数据进行分组 并画出频率分布表 频数分布表的编制 怎么做 step1 确定组数组数的确定应以能够显示数据的分布特征为目的 在实际分组时 组数一般为5 K 15 也可以按Sturges提出的经验公式来确定组数K 本例中由于数据较多 可考虑分为10组本例 生成频数分布表 step2 确定组距组距 ClassWidth 是一个组的上限与下限之差 可根据全部数据的最大值和最小值及所分的组数来确定 即组距 最大值 最小值 组数例如 本例最大值为798 最小值为222 组距 798 222 10 57 6 为便于计算 组距宜取5或10的倍数 且第一组的下限应低于最小变量值 最后一组的上限应高于最大变量值 因此组距可取60 第一组下限为220 生成频数分布表 上限不在内 原则统计上规定 一组中的上限值是不算为本组的 而是归入作为下限值的那一组内 但在excel中却默认是上限值算在本组中的 所以在用excel处理的时候要注意 按连续变量分组 第一组400 500 第二组500 600 第三组600 700 第四组700以上 则 A500在第一组B500在第二组C700在第三组D600在第二组 B 例子 按连续变量分组 第一组400 500 第二组500 600 第三组600 700 第四组700 800 则这一组在excel中处理的时候是怎样的 A第一组为400 500B第二组为499 599C第三组为600 699D第四组为699 800 C 例子 1 某连续变量数列 其末组为开口组 下限为500 相邻组的组中值为480 则末组的组中值为 A520B510C500D540 A step3 统计出各组的频数即属于每个组里面的个数 生成频数分布表 使用统计函数 FREQUENCY 创建频数分布表和直方图可解决这一问题 具体步骤是选择与接受区域相临近的单元格区域 作为频数分布表输出的区域选择统计函数中的 FREQUENCY 函数在对话框 Date array 后输入数据区域 在 Bins array 后输入接受区域同时按下 ctrl shift Enter 组合键 即得到频数分布 这个是锁定数组按键 不这样只会出来一个值 FREQUNCY统计函数 方法1 excel生成频数分布表 方法2 第1步 加载分析工具第2步 数据 数据分析 直方图第3步 输入区域选入 所有数据 接受区域选入 分组数据 输出区域点击输出的地方就行 勾选频数和累计百分比即可 演示得出结果 P392 6 练习 8 数值型数据的图示 用于展示分组数据分布的一种图形用矩形的宽度和高度来表示频数分布本质上是用矩形的面积来表示频数分布在直角坐标中 用横轴表示组距 纵轴表示频数或频率 各组与相应的频数就形成了一个矩形 即直方图 分组数据 直方图 第1步 选择 图形 下拉菜单 并选择 直方图 选项进入主对话框第2步 在主对话框中将变量选入 变量 点击 完成 spss生成直方图 第1步 加载分析工具第2步 数据 数据分析 直方图第3步 输入区域选入 所有数据 接受区域选入 分组数据 输出区域点击输出的地方就行 用excel作直方图的步骤 例 某公司今年每天的销售量数据如下 单位 个 画出直方图 例子 分组数据 直方图 以下各是什么图 有啥不同 excel绘制演示 条形图是用条形的长度 横置时 表示各类别频数的多少 其宽度 表示类别 则是固定的直方图是用面积表示各组频数的多少 矩形的高度表示每一组的频数或百分比 宽度则表示各组的组距 其高度与宽度均有意义条形图主要用于展示分类数据 直方图则主要用于展示数值型数据条形图一般是分开排列的 而直方图一般是连续排列的 分组数据 直方图与条形图区别 P392 6 练习 用于显示未分组的原始数据的分布由 茎 和 叶 两部分构成 其图形是由数字组成的以该组数据的高位数值作树茎 低位数字作树叶树叶上只保留最后一位数字eg 234 235 123 未分组数据 茎叶图 某电脑公司销售量分布的茎叶图 未分组数据 茎叶图 例子 未分组数据 扩展茎叶图 spss演示 第一列给出每个茎上叶子的频数第二列是 茎 第三列是 叶 下面标出了1个极端值237 茎的宽度10 每个叶代表一个数据 案例 SPSS自动将每个茎重复了一次 使分布的细节看的更清楚一些 当然 在数据较少时茎的数值也可以不重复 第1步 选择 分析 下拉菜单 并选择 描述统计 探索 选项进入主对话框第2步 在主对话框中将变量选入 因变量 点击 绘图 在对话框中选择 茎叶图 根据需要可选 直方图 以给出直方图 点击 继续 回到主对话框 点击 完成 spss绘制茎叶图和箱线图 含直方图 用于显示未分组的原始数据的分布由 茎 和 叶 两部分构成 其图形是由数字组成的以该组数据的高位数值作树茎 低位数字作树叶树叶上只保留最后一位数字茎叶图类似于横置的直方图 但又有区别直方图可观察一组数据的分布状况 但没有给出具体的数值茎叶图既能给出数据的分布状况 又能给出每一个原始数值 保留了原始数据的信息直方图适用于大批量数据 茎叶图适用于小批量数据 未分组数据 茎叶图 P392 6 课堂练习 用于显示未分组的原始数据的分布箱线图是由一组数据的最大值 maximum 最小值 minimum 中位数 median 两个四分位数 quartiles 这5个值绘制而成的中位数是一组数据排序后处于中间位置上的变量值四分位数是一组数据排序后处在数据25 位置和75 位置上的两个分位数值绘制方法首先找出一组数据的5个特征值 即最大值 最小值 中位数Me和两个四分位数 下四分位数QL和上四分位数QU 连接两个四分位数画出箱子 再将两个极值点与箱子相连接 未分组数据 箱线图 2010年 中位数 4 6 8 10 12 Median Quart Range箱线图 未分组数据 箱线图构成 最小值141 最大值237 中位数182 25 四分位数170 25 75 四分位数197 140150160170180190200210220230240 某电脑公司销售额数据的Median Quart Rang箱线图 未分组数据 箱线图 不同分布的箱线图 对称分布 Bell shapeddistribution Left skeweddistribution 左偏分布 右偏分布 Right skeweddistribution 箱线图 分布情况 例 从某大学经济管理专业二年级学生中随机抽取11人 对8门主要课程的考试成绩进行调查 所得结果如表 试绘制各科考试成绩的批比较箱线图 并分析各科考试成绩的分布特征 未分组数据 多批箱线图 第1步 选择 图形 下拉菜单 并选择 箱图 第2步 在出现的对话框中选择 简单 在 图中的数据为 中选择 各个变量的摘要 点击 定义 返回主对话框第3步 在主对话框将所有变量 各门课程or所有学生 选入 框的表征 点击 OK 多批箱线图spss绘制步骤 8门课程考试成绩的箱线图 多批箱线图图示 11名学生考试成绩的箱线图 多批箱线图spss图示 1 中位数 看平均考试成绩2 长度 看离散程度 集中程度3 分布形状 看对称情况4 离群点 看特殊 结果分析 例 某公司今年每天的销售量数据如下 单位 个 画出箱图 练习 练习答案 表示时间序列数据趋势的图形时间一般绘在横轴 数据绘在纵轴图形的长宽比例大致为10 7一般情况下 纵轴数据下端应从 0 开始 以便于比较 数据与 0 之间的间距过大时 可以采取折断的符号将纵轴折断 时间序列数据 线图 例2 7 我国1991 2003年城乡居民家庭的人均收入数据如表 试绘制线图 例子 例子分析 第1步 选择 图形 下拉菜单 并选择 线图 第2步 在出现的对话框中选择 多线线图 在 图中的数据为 中选择 各个变量的摘要 点击 定义 返回主对话框第3步 在主对话框将变量 城镇和农村变量 选入 框的表征 把年份变量选入 类别轴 点击 OK 线图spss绘制步骤 spss演示 展示两个变量之间的关系用横轴代表变量x 纵轴代表变量y 每组数据 xi yi 在坐标系中用一个点表示 n组数据在坐标系中形成的个点称为散点 由坐标及其散点形成的二维数据图 两个变量的关系 二维散点图 例子 画出产量和降雨量的二维散点图 两个变量的关系 二维散点图 练习 画出温度和降雨量的二维散点图 两个变量的关系 二维散点图 例子 画出三个变量的三维散点图 三个变量的关系 三维散点图 三个变量的关系 三维散点图 P612 10 练习 显示三个变量之间的关系图中数据点的大小依赖于第三个变量 三个变量的关系 气泡图 也称为蜘蛛图 spiderchart 显示多个变量的图示方法在显示或对比各变量的数值总和时十分有用假定各变量的取值具有相同的正负号 总的绝对值与图形所围成的区域成正比可用于研究多个样本之间的相似程度 多变量关系 雷达图 设有n组样本S1 S2 Sn 每个样本测得P个变量X1 X2 XP 要绘制这P个变量的雷达图 其具体做法是 先做一个圆 然后将圆P等分 得到P个点 令这P个点分别对应P个变量 在将这P个点与圆心连线 得到P个幅射状的半径 这P个半径分别作为P个变量的坐标轴 每个变量值的大小由半径上的点到圆心的距离表示将同一样本的值在P个坐标上的点连线 这样 n个样本形成的n个多边形就是一个雷达图 多变量关系 雷达图 例2 9 2003年我国城乡居民家庭平均每人各项生活消费支出构成数据如表 试绘制雷达图 今天的主食是面包 多变量关系 雷达图 例子 多变量关系 雷达图 例子分析 练习 画出雷达图 多变量关系 雷达图 P392 10 练习 小结 数值型数据 数值数据用什么图和表展示 小结 数值型数据展示 2 4合理使用图表2 4 1鉴别图形优劣的准则2 4 2统计表的设计 一张好的图表应包括以下基本特征显示数据让读者把注意力集中在图表的内容上 而不是制作图表的程序上避免歪曲强调数据之间的比较服务于一个明确的目的有对图表的统计描述和文字说明5种鉴别图表优劣的准则 一张好的图表应当精心设计 有助于洞察问题的实质使复杂的观点得到简明 确切 高效的阐述能在最短的时间内以最少的笔墨给读者提供最大量的信息是多维的表述数据的真实情况 鉴别图表优劣的准则 行标题 列标题 数字资料 表头 附加 统计表的结构 合理安排统计表的结构总标题内容应满足3W要求数据计量单位相同时 可放在表的右上角标明 不同时应放在每个变量后或单列出一列标明表中的上下两条横线一般用粗线 其他线用细线通常情况下 统计表的左右两边不封口表中的数据一般是右对齐 有小数点时应以小数点对齐 而且小数点的位数应统一对于没有数字的表格单元 一般用 表示必要时可在表的下方加上注释 统计表的设计 在2008年8月北京举办的第29届奥运会上 中国体育代表团共获得51枚金牌 占中国队获得奖牌总数的51 这里的 51 是 A 平均数B 频数C 比例D 比率某地区2008年新生婴儿中 男性婴儿为25万 女性婴儿为20万 男性婴儿与女性婴儿的人数之比为1 25 1 这个数值属于 A 比例B 比率C 频数D 平均数 C B 练习 3 在2008年8月北京举办的第29届奥运会上 中国体育代表团共获得51枚金牌 银牌21枚 铜牌28枚 要描述中国队获得奖牌的构成状况 适宜的图形是 A 条形图B 饼图C 茎叶图D 雷达图4 某集团公司下属5个子公司 集团公司想比较5个子公司在总生产成本 销售收入 销售人员数 公司所在地的居民收入水平这4项指标

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论