第三章统计学_第1页
第三章统计学_第2页
第三章统计学_第3页
第三章统计学_第4页
第三章统计学_第5页
已阅读5页,还剩122页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章统计整理PowerPoint统计学数据的整理与显示

(基本问题)要弄清所面对的数据类型不同类型的数据,采取不同的处理方式和方法对分类数据和顺序数据主要是作分类整理对数值型数据则主要是作分组整理适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据第3章统计数据的整理与显示3.1数据的计量与类型3.2数值型数据的整理与显示3.3品质数据的整理与显示3.4统计表第一节数据的计量与类型一、数据的类型二、四个测定层次的比较

三、不同类型数据的分析方法一、统计数据的类型数据的类型定类数据定序数据定距数据定比数据二、四个测定层次的比较

测定层次特征运算功能举例1、定类数据分类计数产业分类2、定序数据

分类、排序计数、排序企业等级在班级排名3、定距数据分类、排序有基本测量单位计数、排序、加减温度鞋码4、定比数据分类、排序有基本测量单位、有绝对零点计数、排序加减、乘除商品销售额收入课堂小练习请指出下列数据的类型1、学生到达教室的距离2、SAT(5分制)3、按照出生地所在省市所作的学生分类4、按照大学新生、大学二年级学生、三年级学生和四年级学生对学生的排序5、学生每周学习的小时数三、数据类型与统计方法数据类型与统计方法定类数据定序数据品质数据数量数据定距数据定比数据参数方法非参数方法3.2数值型数据的整理与显示

一、引言二、构造频数分布(分组)的步骤三、数值型数据的图形表示四、累积频数分布五、统计分组

一、引言

罗布是位于哥伦比亚的庞蒂亚克公司的企业主。罗布的父亲在1964年创建了这家企业,在30多年里他们专门销售庞蒂亚克产品。20世纪90年代初期,罗布父亲的健康状况变得不太乐观,罗布接管了更多处理企业日常运作问题的工作。与此同时,汽车业开始发生变革(商人们从一些制造商那里购买汽车),罗布面临着一些重大问题的决策。当另一个经营沃尔沃(Volvos)汽车、Saabs汽车和大众汽车(Volkswagens)的本地商人与罗布接洽有关收购自己企业的事情时,第一个重大的决策来临了。经过大量的分析和思考,罗布收购了那家企业。再往后,当地的吉普鹰企业陷入了困境,罗布也把它收购下来了。所以现在罗布的公司出售庞蒂亚克公司的全部系列产品(昂贵的沃尔沃汽车、Saabs汽车、大众汽车)、克莱斯勒产品以及流行的吉普系列。该公司雇用了83名员工,其中23名是全职销售人员。由于产品品种的多样化,汽车的售价也有很大变动。顶级的沃尔沃汽车的售价比庞蒂亚克AM级别的2倍还多。罗布想要使用一些图表和图形,以便每月都能从中找出售价趋向的焦点、售价的变动程度和每项产品售价的走势。在本章中,我们将对罗布或像他一样管理企业的人士提出具有实用价值的技术方法。某月该公司卖出了80辆车,价格如下:

庞蒂亚克公司某月车辆售价(单位:美元)201972037217454205912365124453142661502125683278721658720169328511625117047212852132421609256701254616873222512227725034215332444316889170041435717155166882065723613178951720320765227832366129277176421898121052227991279415263329251439914968173561844218722163311981716766176331796219845232852489626076294921589018740193742157122449253371764220613276551944214891178182323717445185561863921296原始数据:未经整理的数据。

根据数据统计研究的需要,将原始数据按照某种标准化分成不同的组别,分组后的数据称为分组数据。数据分组分组方法分组方法等距分组异距分组单变量值分组组距分组单变量值分组

(要点)1.将一个变量值作为一组2.适合于离散变量3.适合于变量值较少的情况

组距分组

(要点)将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况需要遵循“不重不漏”的原则以及“上组限不在内”原则可采用等距分组,也可采用不等距分组~~~~~二、构造频数分布(分组)的步骤频数分布:把一组数据分到互不包含的组里以显示各组中观察值的个数。第一步:确定全距(R)R=最大值-最小值=32925-12546=20379第二步:确定组数这一步的目标是用恰好足够的组来揭示数据分布的形状,太多或太少的组都不能揭示数据集的基本形状。例如:组数太少的一个例子:车辆售价(美元)车辆数目12000-210004821000-300003030000-390002总计80确定组数的例子人口按年龄分组0-8婴幼儿8-18少年儿童18-60中青年60以上老年学生按成绩分组60以下60-7070-8080-9090以上确定组数的一个法则:2的K次方法则:选择最小的K,使得K满足2k>n在本案例中,n=80,则最小K=7,所以可把这组数据分为7组。确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,组数一般为5

K15第三步确定组距

1.组距:上限与下限之差2.组距有等距与不等距之分3.等距式分组组距=全距/组数4.组距通常取10或100或1000的倍数5.能用等距分组的尽可能用等距分组在本案例中,组距=20379/7≈2911美元取1000的倍数,则组距为3000美元第四步确定各组的组限下限:一个组的最小值上限:一个组的最大值3.最小组的下限要小于或等于最小变量值,最大组的上限要大于或等于最大变量值,并且一般取10或100的倍数。第四步确定各组的组限在本案例中,Xmin=12546,Xmax=32925,则第一组的下限可取为12000,而最大组的上限则可取为33000。因此可选用的组如下:如把售价单位由美元变为千美元,则可简化为右图。12000-1500012-1515000-1800015-1818000-2100018-2121000-2400021-2424000-2700024-2727000-3000027-3030000-3300030-33第五步计算各组次数,编制频数分布数列表3-4某月庞蒂亚克公司汽车售价的频数分布售价(千美元)频数频率(%)12-1581015-182328.7518-211721.2521-241822.524-2781027-304530-3322.5总计801001.最小组无下限或最大组无上限的分组称为开口组2.相邻两组的组限重合,并遵循“上限不在内”原则3.组中值=(上限+下限)/2由前面频数分布可得到的信息:1.售价的变化范围大约是12000~33000美元。2.售价集中在15000~24000美元,总共58辆车或者所售车辆数量的72.5%处于这个范围。3.最密集的组是15000~18000美元这一组。这组的组中值是16500美元,因此我们说一般售价为16500美元。4.两辆车的售价在30000美元以上,而八辆车的售价低于150000美元。用EXCEL做频数分布1.频数分布函数(FREQUENCY)FREQUENCY(data-array,bins-array)data-array为用来编制频数分布的数据bins-array为频数的接收区间CTRL+SHIFT+ENTER就可到结果表3-4某月庞蒂亚克公司汽车售价的频数分布售价(千美元)频数频率(%)12-1581015-182328.7518-211721.2521-241822.524-2781027-3041030-3325总计80100去年第一季度,某公司销售部的11名成员挣得的佣金是(单位:美元):165014751510167015951760154014951590162515101.像1650美元和1475美元这样的数值称做什么?2.以1400~1500为第一组,1500~1600为第二组,以此类推,把以上数据整理成频数分布。3.你的频数分布表中右边一列数字称作什么?4.在频数分布的基础上,描述季度佣金的分布。三、数值型数据的图形表示

(直方图的制作)横轴表示各组,纵轴表示频数的一种图形。频数由直条的高度表示,并且直条之间相互紧邻。当纵轴用频率表示时,直方图下的总面积等于1分组数据—直方图

(直方图的绘制)频数(人)1512963105110115120125130135140日加工零件数(个)图3-5某车间工人日加工零件数的直方图我一眼就看出来了,大多数人的日加工零件数在120~125之间!用EXCEL做直方图

某月庞蒂亚克公司汽车售价的频数分布

插入-----图表三、数值型数据的图形表示

(折线图的制作)折线图也称频数多边形图(Frequencypolygon)是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交1512963105110115120125130135140日加工零件数(个)频数(人)折线图下的面积与直方图的面积相等!折线图的绘制图3-6某车间工人日加工零件数的折线图用EXCEL做折线图

某月庞蒂亚克公司汽车售价的频数分布

四、累积频数分布(累计频数折线图)

表3-5某月庞蒂亚克公司汽车售价的频数分布

售价(千美元)频数由小向大累积由大向小累积12~15888015~1823317218~2117484921~2418663224~278741427~30478630~332802合计80未分组数据—茎叶图

(stem-and-leafdisplay)用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶树叶上只保留最后一位数字对于n(20

n

300)个数据,茎叶图最大行数不超过

L=[10×lg

n]

6.茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息直方图适用于大批量数据,茎叶图适用于小批量数据未分组数据—茎叶图

(例题分析)某电脑公司销售量分布的茎叶图未分组数据—茎叶图

(扩展的茎叶图)未分组数据—箱线图

(boxplot)用于显示未分组的原始数据的分布由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成绘制方法首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分位数画出箱子,再将两个极值点与箱子相连接该箱线图也称为Median/Quart./Range箱线图

未分组数据—单批数据箱线图

(箱线图的构成)中位数4681012QUQLX最大值X最小值Median/Quart./Range箱线图未分组数据—单批数据箱线图

(例题分析)最小值141最大值237中位数182下四分位数170.25上四分位数197140150160170180190200210220230240某电脑公司销售量数据的Median/Quart./Range箱线图分布的形状与箱线图

对称分布QL中位数

QU左偏分布QL中位数

QU右偏分布QL

中位数

QU不同分布的箱线图未分组数据—多批数据箱线图

(例题分析)【例】

从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如右表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征11名学生各科的考试成绩数据课程名称学生编号1234567891011英语经济数学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177未分组数据—多批数据箱线图

(例题分析—Median/Quart./Range)8门课程考试成绩的Median/Quart./Range箱线图11名学生8门课程考试成绩的Median/Quart./Range箱线图min-max25%-75%medianvalue455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生11未分组数据—多批数据箱线图

(例题分析—Median/Quart./Range)时间序列数据—线图

(lineplot)表示时间序列数据趋势的图形时间一般绘在横轴,数据绘在纵轴图形的长宽比例大致为10:74.一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断时间序列数据—线图

(例题分析)【例】我国1991~2003年城乡居民家庭的人均收入数据如右表。试绘制线图¥

1991~2003年城乡居民家庭人均收入年份城镇居民农村居民19911992199319941995199619971998199920002001200220031700.62026.62577.43496.24283.04838.95160.35425.15854.06280.06859.07702.88472.2708.6784.0921.61221.01577.71926.12091.12162.02210.32253.42366.42475.62622.2时间序列数据—线图

(例题分析)两个变量间的关系—二维散点图

(2DScatterplots)展示两个变量之间的关系用横轴代表变量x,纵轴代表变量y,每组数据(xi

,yi)在坐标系中用一个点表示,n组数据在坐标系中形成的个点称为散点,由坐标及其散点形成的二维数据图温度/0C降雨量/mm产量/(kg/hm2)62522508403450105845001368575014110580016987500211208250两个变量间的关系—二维散点图

(2Dscatterplots)三个变量间的关系—气泡图

(bubblechart)显示三个变量之间的关系图中数据点的大小依赖于第三个变量也称为蜘蛛图(spiderchart)显示多个变量的图示方法在显示或对比各变量的数值总和时十分有用4.假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比5.可用于研究多个样本之间的相似程度多变量数据—雷达图

(radarchart)

设有n组样本S1,S2,…,Sn,每个样本测得P个变量X1,X2,…,XP,要绘制这P个变量的雷达图,其具体做法是多变量数据—雷达图

(雷达图的制作)先做一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,在将这P个点与圆心连线,得到P个辐射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图多变量数据—雷达图

(例题分析)【例3.10】2003年我国城乡居民家庭平均每人各项生活消费支出构成数据如表。试绘制雷达图今天的主食是面包2003年城乡居民家庭平均每人生活消费支出构成(%)项目城镇居民农村居民食品衣着家庭设备用品及服务医疗保健交通通讯娱乐教育文化服务居住杂项商品与服务37.129.796.307.3111.0814.3510.743.3045.595.674.205.968.3612.1315.872.21多变量数据—雷达图

(例题分析)数据类型及图示

(小结)数据类型品质数据数值型数据汇总表原始数据分组数据时序数据多元数据条形图饼图茎叶图箱线图直方图线图散点图气泡图雷达图环形图五、统计分组(一)、统计分组的概念

统计分组就是根据统计研究的目的,将统计总体按照一定的标志区分为若干个不同类型或性质的组成部分的一种统计方法。分组前分组后25%33%42%总体“分”,个体“合”结果“组内性质更近,组间差异更大”1.划分性质不同的各种类型,研究其特征和规律性

表1某地近几年农业总产值情况

单位:亿元(二)统计分组的作用2.分析总体中各个组成部分的构成情况

表2我国国内生产总值构成情况(%)3.可以揭示现象之间的依存关系

35018~2032016~1827014~1623012~1420010~12单位面积产量(kg)按耕作深度分组(厘米)表3单位面积产量与耕作程度的关系(三)分组的原则1.穷尽原则2.互斥原则问题:某商场的服装分为男装、女装、童装三类,是否符合互斥原则?(四)统计分组的种类标志人数(人)比重(%)按性别分组男性女性按企业性质分组国有企业独资企业其他企业按规模分组大型企业中型企业小型企业1.简单分组与复合分组简单分组对同一总体选择两个或两个以上标志进行重叠分组,就叫复合分组。多个复合分组组成的体系就是复合分组体系。国民收入使用额积累生产性积累农业轻工业重工业非生产性积累居民住宅文化服务设施消费居民消费社会集团消费复合分组2.品质标志分组和数量标志分组标志人数(人)比重(%)按性别分组男性女性按产值分组大型企业中型企业小型企业品质标志分组数量标志分组

(五)分组方法分组方法等距分组异距分组单变量值分组组距分组单变量值分组

1.将一个变量值作为一组2.适合于离散变量3.适合于变量值较少的情况

单变量值分组

表3-1

某高校新生年龄构成情况表新生年龄(岁)学生人数(人)171001835819420201082185222合计1083组距分组

将变量值的一个区间作为一组适合于变量值较多的情况必须遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组~~~~~等距分组表

表3-2某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)105~110110~115115~120120~125125~130130~135135~140358141064610162820128合计50100不等距距分组表表3-3某市工业企业职工人数分布表按企业职工人数分组工业企业单位数不足10人5761810-50人15523650-10073310100-500107028500-1000151571000-300077173000-50009035000-1000058310000以上302总计417904

分布数列

分布数列的种类上节小结单项式变量数列组距式变量数列等距分组异距分组品质分布数列变量分布数列第二节品质数据的整理与显示

(基本问题)对定类数据和定序数据主要是做分类整理对定距数据和定比数据则主要是做分组整理适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据定类数据的整理

(基本过程)

1.列出各类别

2.计算各类别的频数3.制作频数分布表4.用图形显示数据定类数据整理—频数分布表

(实例)【例3.1】为研究广告市场的状况,一家广告公司在某城市随机抽取200人就广告问题做了邮寄问卷调查,其中的一个问题是“您比较关心下列哪一类广告?”1.商品广告;2.服务广告;3.金融广告;4.房地产广告;5.招生招聘广告;6.其他广告。表3-6某城市居民关注广告类型的频数分布

广告类型人数(人)频率(%)商品广告服务广告金融广告房地产广告招生招聘广告其他广告1125191610256.025.54.58.05.01.0合计200100分类数据整理—频数分布表

(例题分析)【例】一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。右边就是记录的原始数据

用Excel制作频数分布表绿色健康饮品使用Excel计数函数(COUNTIF)

如果只需要计算某一类别的数据个数,可以使用Excel中的统计函数【COUNTIF】。在对话框【Range】后输入数据区域,在【Criteria】后输入数字、表达式、字符串等,计数单元格必须符合的条件,即可得出结果例如,我们要计算出可口可乐出现的频数,在【Range】后输入A1:A50(数据所在的区域),在【Criteria】后输入“可口可乐”,结果为15。如果数据区域是数值型数据,计算符合特定条件的数据个数,则可在【Criteria】后输入“>某一数值”、“<某一数值”、“=某一数值”,等等统计函数—COUNTIF定类数据的图示—条形图

(条形图的制作)1.条形图是用宽度相同的条形的高度或长短来表示数据变动的图形2.在表示定类数据的分布时,是用条形图的高度来表示各类别数据的频数或频率3.绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图定类数据的图示—条形图

(由Excel绘制的条形图)人数(人)5191610211204080120

商品广告

服务广告

金融广告

房地产广告

招生招聘广告

其他广告广告类型

图3-1某城市居民关注不同类型广告的人数分布直方图与条形图的区别条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的。直方图矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,其高度与宽度均有意义。直方图的各矩形通常是连续排列,条形图则是分开排列分类数据的图示—条形图

(例题分析)分类数据的图示—帕雷托图(Paretochart)按各类别数据出现的频数多少排序后绘制的柱形图主要用于展示分类数据的分布分类数据的图示—对比条形图

(side-by-sidebarchart)分类变量在不同时间或不同空间上有多个取值对比分类变量的取值在不同时间或不同空间上的差异或变化趋势电脑品牌一季度二季度联想256468IBM285397康柏247328戴尔563688分类数据的图示—对比条形图

(例题分析)定类数据的图示—圆形图

(圆形图的制作)也称饼图,是用圆形及园内扇形的面积来表示数值大小的图形主要用于表示总体中各组成部分所占的比重,对于研究结构性问题十分有用在绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形面积表示定类数据的图示—圆形图

(由Excel绘制的圆形图)

其他广告1.0%

房地产广告8.0%

商品广告56.0%

金融广告4.5%

服务广告25.5%

招生招聘广告5.8%图3-2某城市居民关注不同类型广告的人数构成图并没有说谎,是说谎者在画图。

BenjaminDisraeli定序数据的整理与显示定序数据的整理

(可计算的指标)1.累计频数:将各类别的频数逐级累加2.累计频率:将各类别的频率(百分比)逐级累加

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论