第2章描述统计表格与图形_第1页
第2章描述统计表格与图形_第2页
第2章描述统计表格与图形_第3页
第2章描述统计表格与图形_第4页
第2章描述统计表格与图形_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第第 2章章 描述性统计描述性统计:表格与图形表格与图形分类变量,分类变量,数值型变量数值型变量分类分类变量变量+ +数值数值型型变量变量频数分布表、条形图、直方图、茎叶图、点图、列联表等。频数分布表、条形图、直方图、茎叶图、点图、列联表等。July 30, 2010男学生更容易逃课吗?男学生更容易逃课吗? 读完四年大学,一次课也没有逃过,这样的学生恐怕不多。2004年5月,中国人民大学财政金融学院的3名学生就逃课问题做了一次调查。调查的对象是财政金融学院的大一,大二,大三本科生。样本的抽取方式是分层抽样与简单随机抽样结合,先根据年级划分层次,然后对各个班级简单随机抽样,共抽取151名学生组成

2、一个样本,并对每个学生采用问卷调查。问卷内容包括每周逃课次数、所逃课程的类型(选修课、专业课等等)和逃课原因等。调查得到的男女学生每周平均逃课次数的汇总表如下 July 30, 2010男学生更容易逃课吗? 逃课情况逃课情况男男女女合计合计几乎一次不逃几乎一次不逃2849771到到3次次2431553到到5次次64105次以上次以上336其他其他123合计合计6289151数据的整理与数据的整理与显示显示(基本问题基本问题)1. 要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的2. 对分类数据主要是做分类整理3. 对数值型数据则主要是做分组整理一、单个分类一、单个分类

3、数据数据的汇总的汇总(基本过程基本过程) 1. 列出列出各类别各类别 2 2. 计算各类别的频数计算各类别的频数3 3. 制作频数分布表制作频数分布表4 4. 用图形显示数据用图形显示数据分类分类频数频数相对频数相对频数百分比频数百分比频数ABCDE相对频数分布和百分比频数分布相对频数分布和百分比频数分布分类数据分类数据的汇总的汇总例例如:由以下40个人的血型资料 O O A B A O A A A O B O B O O A O O A A A A AB A B A A O O AO O A A A O A O O AB整理可得频数分布表如右整理可得频数分布表如右血型血型频数频数相对频数相对

4、频数百分比百分比频频数数(%)A180.4545AB20.055B40.110O160.440合计合计401100【例例】一家市场调查公司一家市场调查公司为研究不同品牌饮料的市为研究不同品牌饮料的市场占有率,对随机抽取的场占有率,对随机抽取的一家超市进行了调查。调一家超市进行了调查。调查员在某天对查员在某天对50名顾客购名顾客购买饮料买饮料的类型进行的类型进行了记录了记录,如果一个顾客购买某,如果一个顾客购买某一一种类的种类的饮料,就将这一饮饮料,就将这一饮料料的种类名字的种类名字记录一次记录一次 。右边就是记录的原始数。右边就是记录的原始数据据分类数据分类数据的汇总的汇总 碳酸饮料 碳酸饮料

5、 其他 矿泉水 绿茶 绿茶 绿茶 碳酸饮料 其他 碳酸饮料 矿泉水 其他 其他 碳酸饮料 矿泉水 矿泉水 碳酸饮料 果汁 绿茶 其他 碳酸饮料 绿茶 绿茶 碳酸饮料 碳酸饮料 矿泉水 绿茶 果汁 其他 果汁 碳酸饮料 碳酸饮料 碳酸饮料 矿泉水 矿泉水 绿茶 碳酸饮料 果汁 绿茶 绿茶 果汁 绿茶 矿泉水 其他 其他 碳酸饮料 矿泉水 碳酸饮料 果汁 矿泉水分类数据的图示分类数据的图示条形图与饼图条形图与饼图条形图条形图(bar chart)(bar chart):在横轴上标记组名,纵轴标记频数、相对频数或百分比频数,以相同宽度相同宽度的长方形代表每一类别。对于分类数据,为强调每组是彼此相互独

6、立的类别,应该将这些长方形分分隔开隔开频数分布频数分布表表定义定义饼图饼图(pie chart)(pie chart):先画一个圆圈表示所有数据,根据相对频数将整个圆分成若干个扇形,这些扇形角度与每一组的相对频数一致。分类数据的图示分类数据的图示条形图与饼图条形图与饼图每个扇区可以是频数、相对频数或每个扇区可以是频数、相对频数或百分比频数百分比频数饮料类别购买记录结构图课后作业课后作业1请对请对P46P46练习练习2222数据用数据用ExcelExcel完成:完成:a)a)构建频数分布表构建频数分布表b)b)画出条形图画出条形图c)c)画出饼图画出饼图统计图表11 步骤步骤1. 确定互不相叠的

7、分组的组数2. 确定每组的组距3. 确定每一组的界限二二、单个数值型数据的汇总、单个数值型数据的汇总表表2-4 2-4 年终审计所需时间(天)年终审计所需时间(天) 3. 确定组限确定组限选择合理的分组界限以保证每个观测值仅属于唯一的组针对数值型数据,分类数据无需指定组限对于表2-4,第一组以10作为该组下限,14作为该组上限,1014代表这一组。以此类推确定所有分组统计落入每组的数据频数,得频数分布表2-5所示: 4. 组中值组中值组中值(class midpoint):在每个组的下限和上限之间的中间值。在表2-4数据中,5个组的组中值分别为12、17、22、27、32 可以看出的信息有:可

8、以看出的信息有: 最普遍的审计时间介于最普遍的审计时间介于15151919天之间,天之间,2020次审次审计时间中有计时间中有8 8次处在这次处在这个范围内个范围内 只有一次审计时间需要只有一次审计时间需要3030天或者更长天或者更长价值价值:增加增加我们对数据的理解,我们对数据的理解,而观察原始的,杂乱无章而观察原始的,杂乱无章的原始数据是不容易得到的原始数据是不容易得到的的 相对频数分布和百分比频数分布相对频数分布和百分比频数分布从表中可以得到的信息从表中可以得到的信息有:有:有有40%40%的审计时间需的审计时间需要要15151919天天只有只有5%5%的审计需要的审计需要3030天或者

9、更长的时间天或者更长的时间点图点图定义定义点图点图(dot plot)(dot plot):横轴表示观测值的范围,每个观测值由位于坐标轴上方的点表示点图显示了数据的详细信息,在比较两个或更多变量的数据分布的时候是非常有利的直方图直方图定义定义直方图直方图(histogram)(histogram):对频数分布,相对频数分布,百分比频数分布表的图形概括。把所研究的变量放在横轴上,把频数、相对频数或百分数放在纵轴上来绘制。用矩形表示每个组的频数、相对频数或百分比频数。矩形的底边是横轴各组组距,矩形的高度就是各组对应的频数、相对频数或百分比频数。直方图直方图直方图与条形图直方图与条形图直方图中相邻的

10、长方形都是彼此相邻,不能断开彼此相邻,不能断开(因为组限相邻,其含义是第一组的下限和最后一组的上限之间任意一个值都是可能取到的)条形图针对分类数据,长方形之间是断开的,代表不同的类别直方图直方图直方图能解释数据分布的形状或形态直方图能解释数据分布的形状或形态中度左偏中度左偏中度右偏中度右偏对称对称严重右偏严重右偏累积分布累积分布定义定义累积频数分布累积频数分布(cumulative frequency distribution)(cumulative frequency distribution):不超过每个组的上限的观测值的数量例子例子考虑“小于或等于24”这个组。该组的累积频数就是观测值小

11、于或等于24的所有组的频数之和。对于表2-5的频数分布,分组1014、1519、2024的频数之和为4+8+5=17,表明共有17个观测值“小于或等于24”,因此,该组的累积频数为17。累积分布累积分布累积相对频数分布累积相对频数分布(cumulative relative frequency (cumulative relative frequency distribution)distribution):观测值小于或等于小于或等于每个组上限的个数占总数的比例累积百分比频数累积百分比频数(cumulative percent frequency distribution)(cumulativ

12、e percent frequency distribution):观测值小于或等于小于或等于每个组上限的个数占总数的百分数累积频数分布曲线累积频数分布曲线定义定义累积频数分布曲线累积频数分布曲线(ogive)(ogive):数据值标记在横轴上,纵轴则以累积频数、累积相对频数或累积百分比频数表示“我最恨数学了,都是数字。这是一句常听到的话,我最恨数学了,都是数字。这是一句常听到的话,可是从来没有人说过,我最恨钱了,都是数字。可是从来没有人说过,我最恨钱了,都是数字。”数字不是坏东西,看它在哪里出现,如果在老师发的数字不是坏东西,看它在哪里出现,如果在老师发的习题中有数字,而且很多,那么习题中有

13、数字,而且很多,那么哼的怨声就出来哼的怨声就出来了。如果数字印在钞票或支票上,数字则越多越好。了。如果数字印在钞票或支票上,数字则越多越好。统计图表25定义定义茎叶图茎叶图(stem-and-leaf display)(stem-and-leaf display):对数据进行快速概括的一种图形,既可以对数据进行排序,又能显示数据的分布形状例子例子申请霍斯金斯公司某一职位的面试人员测试结果。本测试需面试者回答150个问题,这些数据记录了个面试人员回答正确的问题个数三三、探索性数据分析、探索性数据分析茎叶茎叶图图 茎叶图茎叶图步骤步骤1. 将每个数据的前面数字列在一条竖线的左边2. 在右侧记录每个

14、数据的最后一个数字(09)比如,上表中的第一行数据(112726997107)可以构造如下茎叶图茎叶图茎叶图最终得到的茎叶图为对竖线右侧每一行数字排序,对竖线右侧每一行数字排序,就可得出如下形式的茎叶图就可得出如下形式的茎叶图茎茎叶叶茎叶图茎叶图茎叶图隐含的分布形态茎叶图隐含的分布形态1.1. 逆时针旋转逆时针旋转9090度,度,与直方图类似与直方图类似2.2. 容易手工绘制容易手工绘制3.3. 能够显示原始数值能够显示原始数值茎叶图茎叶图茎叶图的推广茎叶图的推广茎叶图没有固定数目的行和固定的单位1. 若原先的数据过于集中,则可以将每一行拆分成两行或多行(对0,9区间进行划分) 扩展茎叶图扩展

15、茎叶图2. 叶子的单位可以是0.1、1、10、100等(还原数值时需注意单位) 一般茎叶图一般茎叶图茎叶图茎叶图扩展茎叶图扩展茎叶图以以9 9为首的第一根茎为首的第一根茎以以9 9为首的第二根茎为首的第二根茎茎叶图茎叶图一般茎叶图一般茎叶图特别说明了单位是特别说明了单位是1010如果没有特别说明,茎叶图的单位都是如果没有特别说明,茎叶图的单位都是1 1 例例:由由右表数据可汇总饮料右表数据可汇总饮料类型和顾客性别类型和顾客性别的列联表的列联表:双变量数据的汇总双变量数据的汇总-列联表与散点图列联表与散点图 联列表联列表 续续例例:由由右表数据可绘制饮料右表数据可绘制饮料类型和顾客性别的复式条形

16、图类型和顾客性别的复式条形图:双分类变量数据的汇总双分类变量数据的汇总 联列表联列表“查格美食指南查格美食指南”共收集了洛杉矶地区共收集了洛杉矶地区300300家饭店的菜肴价格与质量等家饭店的菜肴价格与质量等级的数据。其中质量等级是一个分类变量,分为:良好、优秀和非常级的数据。其中质量等级是一个分类变量,分为:良好、优秀和非常好。菜肴价格是一个数值型变量,范围为好。菜肴价格是一个数值型变量,范围为10104949美元。美元。例子例子:可以得到的信息:可以得到的信息:质量等级为质量等级为“很好很好”,菜肴价格在,菜肴价格在“20202929”这一类的饭店数量最多,共这一类的饭店数量最多,共646

17、4家家质量等级为质量等级为“非常好非常好”,菜肴价格在,菜肴价格在“10101919”美元之间的饭店只有两家美元之间的饭店只有两家最右和最底行分别给出了质量等级和菜肴价格的频数分布最右和最底行分别给出了质量等级和菜肴价格的频数分布辛普森悖论辛普森悖论联列表常用来显示两个变量的相关性注意!可能得出与原有数据完全相反的结论辛普森悖论辛普森悖论例子例子在过去三年中,法官勒吉特和肯德尔判决的部分案件被提出上诉。上诉法庭对大多数上诉案件维持原来的判决,但也有部分判决被推翻。以两个变量:判决(维持或推翻)和法庭类型(民事庭或市政庭)为依据,对每位法官构建联列表。假设通过综合法庭类型数据将两个联列表合并。综

18、合后的表包含两个变量:判决(维持或推翻)和法官(勒吉特或肯德尔)。该表给出了两位法官的上诉案件被判决维持或推翻的数量:辛普森悖论辛普森悖论88%86%,88%86%,肯德尔肯德尔做的比较好做的比较好综合表综合表未综合表未综合表91%85%,91%85%,勒吉特勒吉特做的比较好做的比较好90%80%,90%80%,勒吉特勒吉特做的比较好做的比较好矛盾?矛盾?辛普森悖论分析分析对两位法官来说,上诉案件被推翻的比例在市政庭比民事庭要高;法官勒吉特审理的案件大多数的市政庭,因此综合后的数据偏向于法官肯德尔;对最初的联列表,法庭类型是一个隐藏的变量,且其效果不可忽视。启发启发根据未综合和综合的数据得出的

19、结论可能完全相反。需要审查是否存在可能影响结论的隐藏变量隐藏变量。散点图和趋势线散点图和趋势线定义定义散点图散点图(scatter plot)(scatter plot):是描述两个数值型变量间关系的一种图形趋势线趋势线(trendline)(trendline):是显示变量间关系密切程度的一条直线如下如下 的一组数据,你能分析人体的脂肪含量与年龄的一组数据,你能分析人体的脂肪含量与年龄 之间有怎样的关系吗?之间有怎样的关系吗? 从上表发现,对某个人不一定有此规律,但对很多个体放在一起,就体现出从上表发现,对某个人不一定有此规律,但对很多个体放在一起,就体现出“人人体脂肪随年龄增长而增加体脂肪

20、随年龄增长而增加”这这一规律一规律. .而表中各年龄对应的脂肪数是这个而表中各年龄对应的脂肪数是这个年龄人群年龄人群的样本平均数的样本平均数. .我们也可以对它们作统计图我们也可以对它们作统计图、表、表,对这两个变量有一个直观上的印,对这两个变量有一个直观上的印象和判断象和判断. . 下面我们以年龄为横轴,下面我们以年龄为横轴,脂肪含量为纵轴建立直脂肪含量为纵轴建立直角坐标系,作出各个点,角坐标系,作出各个点,称该图为称该图为散点图散点图。如图:如图:O20253035404550556065年龄年龄脂肪含量脂肪含量510152025303540从刚才的散点图发现:年龄越大,体内脂肪含量越高,

21、点的位从刚才的散点图发现:年龄越大,体内脂肪含量越高,点的位置散布在从左下角到右上角的区域。称它们成置散布在从左下角到右上角的区域。称它们成正相关正相关。但有的两个变量的相关,如下图所示:但有的两个变量的相关,如下图所示:如高原含氧量与海拔高度如高原含氧量与海拔高度的相关关系,海平面以上,的相关关系,海平面以上,海拔高度越高,含氧量越海拔高度越高,含氧量越少。少。 作出散点图发现,它们散作出散点图发现,它们散布在从左上角到右下角的区布在从左上角到右下角的区域内。又如汽车的载重和汽域内。又如汽车的载重和汽车每消耗车每消耗1升汽油所行使的升汽油所行使的平均路程,称它们成平均路程,称它们成负相关负相关.O42例子例子探究旧金山市一个音响设备商店的广告次数与销售额的关系。该商店在过去的3个月内有10次在周末播出了电视广告来推动商店的销售,商家向证实广告播出次数和商店在下一周的销售额之间是否存在着关联?散点图和趋势线散点图和趋势线根据上表中数据描绘出的散点图和趋势线如下根据上表中数据描绘出的散点图和趋势线如下可以得到的信息:可以得到的信息:广告次数和销售额之间存在着广告次数和销售额之间存在着正相关关系正相关关系,并非所有的点

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论