《应用统计学》(02)第2章用图表和统计量看数据.ppt_第1页
《应用统计学》(02)第2章用图表和统计量看数据.ppt_第2页
《应用统计学》(02)第2章用图表和统计量看数据.ppt_第3页
《应用统计学》(02)第2章用图表和统计量看数据.ppt_第4页
《应用统计学》(02)第2章用图表和统计量看数据.ppt_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2020 2 7 2020 2 7 图并没有说谎 是说谎者在画图 BenjaminDisraeli 统计名言 2020 2 7 怎样解决下面的问题 当你获得了一个地区各年的GDP 国内生产总值 数据如何观察经济的走势 当你有一个班级学生考试分数的数据 如何知道全班学生的学习状况 当你有一个企业职工工资的数据 该怎样处理和分析它们 你要用这些数据做什么 你关心这些数据的那些特征 2020 2 7 统计应用一种测量的平均数比单个的测量更可靠 即使用一种很准确 很可靠的仪器对同一物体进行重复测量 由于一些无法控制的因素的影响 每次得到的结果也不见得一样 美国 国家标准与技术协会 NIST NationalInstituteofStandardsandTechnology 的原子钟非常准确 它的准确程度是每600万年误差1秒 但也并不是百分之百准确世界标准时间是世界协调时间 UniversalCoordinatedTime 它是由位于法国的塞夫尔的国际计量局 BIPM 所 编辑 的 BIPM并没有比NIST更好的钟 它给出的时间是根据世界各地200个原子钟的平均时间得来的 2020 2 7 统计应用把数据画图之后 要用用脑袋 沃德 AbrahamWald 和许多统计学家一样 在第二次世界大战时也处理了战争与相关的问题 他发明的一些统计方法在战时被视为军事机密 以下是他提出的概念中较简单的一种沃德被咨询飞机上什么部位应该加强钢板时 开始研究从战役中返航的军机上受敌军创伤的弹孔位置 他画了飞机的轮廓 并且标识出弹孔的位置 资料累积一段时间后 几乎把机身各部位都填满了 于是沃德建议 把剩下少数几个没有弹孔的部位补强 因为这些部位被击中的飞机都没有返航 资料来源 DavidS Mroore著 统计学世界 第2章用图表和统计量看数据 2 1用图表描述数据2 2用统计量描述数据 2 1用图表描述数据2 1 1用图表展示定性数据2 1 2用图表展示定量数据 第2章用图表和统计量看数据 2 1 1用图表展示定性数据 2 1用图表描述数据 2020 2 7 用Excel生成频数分布表 例题分析 例 一家市场调查公司为研究不同类型饮料的市场占有率 对随机抽取的一家超市进行调查 调查员在某天对50名顾客购买饮料的类型进行了记录 如果一个顾客购买某一类型的饮料 就将这一类型的饮料记录一次 右边就是记录的原始数据 用Excel制作频数分布表 绿色健康饮品 2020 2 7 使用Excel数据透视表数计数 pivottable 第1步 选择 数据 菜单中的 数据透视表和数据透视图 第2步 确定数据源区域第3步 在 向导 3步骤之3 中选择数据透视表的输出位置 然后选择 布局 第4步 在 向导 布局 对话框中 依次将 分类变量 这是饮料品牌 连续拖放两次 一次拖至左边的 行 区域 一次拖至 数据 区域第5步 然后单击 确定 自动返回 向导 3步骤之3 对话框 然后单击 完成 即可输出数据透视表 用数据透视表产生分类数据的频数分布 2020 2 7 使用Excel计数函数 COUNTIF 如果只需要计算某一类别的数据个数 可以使用Excel中的统计函数 COUNTIF 在对话框 Range 后输入数据区域 在 Criteria 后输入数字 表达式 字符串等 计数单元格必须符合的条件 即可得出结果例如 我们要计算出碳酸饮料出现的频数 在 Rang 后输入数据所在的区域 在 Criteria 后输入 碳酸饮料 结果为15 如果数据区域是数值型数据 计算符合特定条件的数据个数 则可在 Criteria 后输入 某一数值 某一数值 某一数值 等等 统计函数 COUNTIF 2020 2 7 定性数据的图示 条形图 例题分析 2020 2 7 定性数据的图示 条形图 barChart 用宽度相同的条形的高度或长短来表示各类别数据的图形有单式条形图 复式条形图等形式主要用于反映分类数据的频数分布绘制时 各类别可以放在纵轴 称为条形图 也可以放在横轴 称为柱形图 columnchart 2020 2 7 定性数据的图示 饼图 pieChart 也称圆形图 是用圆形及圆内扇形的角度来表示数值大小的图形主要用于表示样本或总体中各组成部分所占的比例 用于研究结构性问题绘制圆形图时 样本或总体中各部分所占的百分比用圆内的各个扇形角度表示 这些扇形的中心角度 按各部分数据百分比乘以3600确定 2020 2 7 定性数据的图示 饼图 例题分析 2020 2 7 定性数据的图示 环形图 doughnutchart 环形图中间有一个 空洞 样本或总体中的每一部分数据用环中的一段表示与饼图类似 但又有区别饼图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个样本或总体的数据系列 每一个样本或总体的数据系列为一个环用于结构比较研究 2020 2 7 定性数据的图示 环形图 例题分析 例 在一项城市住房问题的研究中 研究人员在甲乙两个城市各抽样调查300户 其中的一个问题是 您对您家庭目前的住房状况是否满意 1 非常不满意 2 不满意 3 一般 4 满意 5 非常满意 2020 2 7 定性数据的图示 环形图 例题分析 2 1 2用图表展示定量数据 2 1用图表描述数据 2020 2 7 生成频数分布表 分组 确定组数 组数的确定应以能够显示数据的分布特征和规律为目的 在实际分组时 组数一般为5 K 15确定组距 组距 ClassWidth 是一个组的上限与下限之差 可根据全部数据的最大值和最小值及所分的组数来确定 即组距 最大值 最小值 组数统计出各组的频数 2020 2 7 生成频数分布表 例题分析 例 某电脑公司2008年前4个月每天的销售额数据 用Excel生成频数分布表 用Excel制作频数分布表 2020 2 7 使用Excel频数函数 FREQUENCY Excel的 直方图 工具的缺陷是 频数分布及直方图没有与数据链接 当改变任何一个数据时 频数分布表和直方图不会跟着改变使用统计函数 FREQUENCY 创建频数分布表和直方图可解决这一问题 具体步骤是选择与接受区域相临近的单元格区域 作为频数分布表输出的区域选择统计函数中的 FREQUENCY 函数在对话框 Date array 后输入数据区域 在 Bins array 后输入接受区域同时按下 ctrl shift Enter 组合键 即得到频数分布 统计函数 FREQUENCY 2020 2 7 分组数据 直方图 histogram 用于展示分组数据分布的一种图形用矩形的宽度和高度来表示频数分布本质上是用矩形的面积来表示频数分布在直角坐标中 用横轴表示数据分组 纵轴表示频数或频率 各组与相应的频数就形成了一个矩形 即直方图直方图下的总面积等于1 用Excel制作直方图 2020 2 7 用SPSS绘制直方图 第1步 选择 Graphs 下拉菜单 并选择 histogram 选项进入主对话框第2步 在主对话框中将变量选入 Variables 点击 OK 用SPSS绘制直方图 2020 2 7 分组数据 直方图 SPSS绘制的直方图 2020 2 7 分组数据 直方图 直方图与条形图的区别 条形图是用条形的长度 横置时 表示各类别频数的多少 其宽度 表示类别 则是固定的直方图是用面积表示各组频数的多少 矩形的高度表示每一组的频数或百分比 宽度则表示各组的组距 其高度与宽度均有意义直方图的各矩形通常是连续排列 条形图则是分开排列条形图主要用于展示分类数据 直方图则主要用于展示数值型数据 2020 2 7 原始数据 茎叶图 stem and leafdisplay 用于显示未分组的原始数据的分布由 茎 和 叶 两部分构成 其图形是由数字组成的以该组数据的高位数值作树茎 低位数字作树叶树叶上只保留最后一位数字茎叶图类似于横置的直方图 但又有区别直方图可观察一组数据的分布状况 但没有给出具体的数值茎叶图既能给出数据的分布状况 又能给出每一个原始数值 保留了原始数据的信息直方图适用于大批量数据 茎叶图适用于小批量数据 2020 2 7 用SPSS绘制茎叶图和箱线图 包括直方图 第1步 选择 Analyze 下拉菜单 并选择 Descriptivestatistics Explore 选项进入主对话框第2步 在主对话框中将变量选入 Variables 点击 Plots 在对话框中选择 Stem and leaf 根据需要可选 Histogram 以给出直方图 点击 Continue 回到主对话框 点击 OK 用SPSS绘制茎叶图 2020 2 7 原始数据 茎叶图 例题分析 某电脑公司销售额分布的茎叶图 2020 2 7 原始数据 箱线图 boxplot 用于显示未分组的原始数据的分布由一组数据的5个特征值绘制而成 它由一个箱子和两条线段组成绘制方法首先找出一组数据的5个特征值 即最大值 最小值 中位数Me和两个四分位数 下四分位数QL和上四分位数QU 连接两个四分位数画出箱子 再将两个极值点与箱子相连接该箱线图也称为Median Quart Range箱线图 2020 2 7 原始数据 简单箱线图 箱线图的构成 中位数 4 6 8 10 12 Median Quart Range箱线图 2020 2 7 原始数据 简单箱线图 例题分析 2020 2 7 分布的形状与箱线图 不同分布的箱线图 对称分布 Bell shapeddistribution Left skeweddistribution 左偏分布 右偏分布 Right skeweddistribution 2020 2 7 原始数据 多批数据箱线图 例题分析 例 从某大学经济管理专业二年级学生中随机抽取11人 对8门主要课程的考试成绩进行调查 所得结果如表 试绘制各科考试成绩的批比较箱线图 并分析各科考试成绩的分布特征 2020 2 7 用SPSS绘制多批数据箱线图 第1步 选择 Graphs 下拉菜单 并选择 Boxplot 第2步 在出现的对话框中选择 Simple 在 DatainChatAre 中选择 Summariesofseparatevariables 点击 Define 返回主对话框第3步 在主对话框将所有变量 这里是11个学生 选入 BoxesRepresent 将 课程名称 选入 LabelCasesby 点击 OK 用SPSS绘制箱线图 2020 2 7 11名学生8门课程考试成绩的Median Quart Range箱线图 原始数据 多批数据箱线图 例题分析 Median Quart Range 2020 2 7 11名学生8门课程考试成绩的Median Quart Range箱线图 原始数据 多批数据箱线图 SPSS绘制的箱线图 2020 2 7 原始数据 多批数据箱线图 例题分析 Median Quart Range 8门课程考试成绩的Median Quart Range箱线图 2020 2 7 两个变量间的关系 二维散点图 2DScatterplots 展示两个变量之间的关系用横轴代表变量x 纵轴代表变量y 每组数据 xi yi 在坐标系中用一个点表示 n组数据在坐标系中形成的n个点称为散点 由坐标及其散点形成的二维数据图 2020 2 7 两个变量间的关系 二维散点图 2DScatterplots 2020 2 7 用SPSS绘制散点图矩阵 MatrixScatter 第1步 选择 Graphs 下拉菜单 并选择 Scatter Dot 第2步 在出现的对话框中选择 MatrixScatter 要绘制三维散点图 点击 3DScatter 并定义各坐标轴 点击 Define 中将所有变量选 Matrixvariables 点击 OK 用SPSS绘制散点图 2020 2 7 两个变量间的关系 散点图矩阵 MatrixScatter SPSS 温度 降雨量 产量 2020 2 7 两个变量间的关系 散点图矩阵 MatrixScatter STATISTICA 温度 降雨量 产量 2020 2 7 三个变量间的关系 三维散点图 3DScatterplots SPSS 2020 2 7 三个变量间的关系 三维散点图 3DScatterplots STATISTICA 2020 2 7 三个变量间的关系 气泡图 bubblechart 显示三个变量之间的关系图中数据点的大小依赖于第三个变量 2020 2 7 也称为蜘蛛图 spiderchart 显示多个变量的图示方法在显示或对比各变量的数值总和时十分有用假定各变量的取值具有相同的正负号 总的绝对值与图形所围成的区域成正比可用于研究多个样本之间的相似程度 比较多个样本的相似性 雷达图 radarchart 2020 2 7 比较多个样本的相似性 雷达图 例题分析 例 2010年我国按收入等级分城镇居民家庭平均每人全年消费性支出数据如表 试绘制雷达图 今天的主食是面包 2020 2 7 比较多个样本的相似性 雷达图 例题分析 2 2用统计量描述数据2 2 1用一个值概括一组数据2 2 2找出数据彼此之间的差别2 2 3数据分布的形状 第2章用图表和统计量看数据 2 2 1用一个值概括一组数据 2 2用统计量描述数据 2020 2 7 x x 一组数据的平均数是多少 mean 也称为均值 常用的统计量之一消除了观测值的随机波动易受极端值的影响根据总体数据计算的 称为平均数 记为 根据样本数据计算的 称为样本平均数 记为 x 2020 2 7 平均数 mean 设一组数据为 x1 x2 xn 总体数据xN 样本平均数 总体平均数 2020 2 7 中间的值是多少 中位数 median 不受极端值的影响 排序后在中间的值 2020 2 7 中间的值是多少 中位数 9个数据的算例 例 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 中位数 1080 2020 2 7 中间的值是多少 中位数 10个数据的算例 例 10个家庭的人均月收入数据排序 66075078085096010801250150016302000位置 12345678910 统计函数 MEDIAN 2020 2 7 用3个点等分数据 四分位数 quartile 排序后处于25 和75 位置上的值 不受极端值的影响 2020 2 7 用3个点等分数据 四分位数 位置的确定 方法2 较准确算法 方法1 定义算法 2020 2 7 用3个点等分数据 四分位数 位置的确定 方法3 其中 表示中位数的位置取整 这样计算出的四分位数的位置 要么是整数 要么在两个数之间0 5的位置上方法4 Excel给出的四分位数位置的确定方法如果位置不是整数 则按比例分摊位置两侧数值的差值 2020 2 7 用3个点等分数据 四分位数 9个数据的算例 例 9个家庭的人均月收入数据 4种方法计算 原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 方法1 2020 2 7 用3个点等分数据 四分位数 9个数据的算例 例 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 方法2 2020 2 7 用3个点等分数据 四分位数 9个数据的算例 例 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 方法3 2020 2 7 用3个点等分数据 四分位数 9个数据的算例 例 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 方法4 统计函数 QUARTILE 2020 2 7 哪个数据出现的最多 众数 mode 一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数 mo 2020 2 7 用哪个值代表这组数据 平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用中位数不受极端值影响 具有稳健性数据分布偏斜程度较大时应用众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时应用 2 2 2找出数据彼此之间的差别 2 2用统计量描述数据 2020 2 7 最大的和最小的相差多少 极差 range 一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布计算公式为 R max xi min xi 2020 2 7 四分位差 quartiledeviation 也称为内距或四分间距上四分位数与下四分位数之差Qd QU QL反映了中间50 数据的离散程度不受极端值的影响用于衡量中位数的代表性 2020 2 7 与平均数相比平均差多少 平均差 meandeviation 各变量值与其平均数离差绝对值的平均数能全面反映一组数据的离散程度数学性质较差 实际中应用较少计算公式为 统计函数 AVEDEV 2020 2 7 与平均数相比平均差多少 方差和标准差 varianceandStandarddeviation 标准差 方差 标准差 样本方差和标准差 总体方差和标准差 方差 统计函数 STDEV 2020 2 7 自由度 degreeoffreedom 自由度是指数据个数与附加给独立的观测值的约束或限制的个数之差从字面涵义来看 自由度是指一组数据中可以自由取值的个数当样本数据的个数为n时 若样本平均数确定后 则附加给n个观测值的约束个数就是1个 因此只有n 1个数据可以自由取值 其中必有一个数据不能自由取值按着这一逻辑 如果对n个观测值附加的约束个数为k个 自由度则为n k 2020 2 7 某个数据离平均数有多远 标准分数 standardscore 1 也称标准化值2 对某一个值在一组数据中相对位置的度量3 可用于判断一组数据是否有离群点 outlier 4 用于对变量的标准化处理5 计算公式为 2020 2 7 标准分数 例题分析 2020 2 7 经验法则 经验法则表明 当一组数据对称分布时约有68 的数据在平均数加减1个标准差的范围之内约有95 的数据在平均数加减2个标准差的范围之内约有99 的数据在平均数加减3个标准差的范围之内 2020 2 7 切比雪夫不等式 Chebyshev sinequality 如果一组数据不是对称分布 经验法则就不再适用 这时可使用切比雪夫不等式 它对任何分布形状的数据都适用切比雪夫不等式提供的是 下界 也就是 所占比例至少是多少 对于任意分布形态的数据 根据切比雪夫不等式 至少有1 1 k2的数据落在平均数加减k个标准差之内 其中k是大于1的任意值 但不一定是整数 2020 2 7 切比雪夫不等式 Chebyshev sinequality 对于k 2 3 4 该不等式的含义是至少有75 的数据落在平均数加减2个标准差的范围之内至少有89 的数据落在平均数加减3个标准差的范围之内至少有94 的数据落在平均数加减4个标准差的范围之内 2020 2 7 比较几组数据的离散程度 离散系数 coefficientofvariation 1 标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响4 用于

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论