统计整理-统计学.ppt_第1页
统计整理-统计学.ppt_第2页
统计整理-统计学.ppt_第3页
统计整理-统计学.ppt_第4页
统计整理-统计学.ppt_第5页
已阅读5页,还剩122页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章统计整理,数据的整理与显示(基本问题),要弄清所面对的数据类型不同类型的数据,采取不同的处理方式和方法对分类数据和顺序数据主要是作分类整理对数值型数据则主要是作分组整理适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据,第3章统计数据的整理与显示,3.1数据的计量与类型3.2数值型数据的整理与显示3.3品质数据的整理与显示3.4统计表,第一节数据的计量与类型,一、数据的类型二、四个测定层次的比较三、不同类型数据的分析方法,一、统计数据的类型,二、四个测定层次的比较,课堂小练习,请指出下列数据的类型1、学生到达教室的距离2、SAT(5分制)3、按照出生地所在省市所作的学生分类4、按照大学新生、大学二年级学生、三年级学生和四年级学生对学生的排序5、学生每周学习的小时数,三、数据类型与统计方法,数据类型与统计方法,3.2数值型数据的整理与显示,一、引言二、构造频数分布(分组)的步骤三、数值型数据的图形表示四、累积频数分布五、统计分组,一、引言,罗布是位于哥伦比亚的庞蒂亚克公司的企业主。罗布的父亲在1964年创建了这家企业,在30多年里他们专门销售庞蒂亚克产品。20世纪90年代初期,罗布父亲的健康状况变得不太乐观,罗布接管了更多处理企业日常运作问题的工作。与此同时,汽车业开始发生变革(商人们从一些制造商那里购买汽车),罗布面临着一些重大问题的决策。当另一个经营沃尔沃(Volvos)汽车、Saabs汽车和大众汽车(Volkswagens)的本地商人与罗布接洽有关收购自己企业的事情时,第一个重大的决策来临了。经过大量的分析和思考,罗布收购了那家企业。再往后,当地的吉普鹰企业陷入了困境,罗布也把它收购下来了。,所以现在罗布的公司出售庞蒂亚克公司的全部系列产品(昂贵的沃尔沃汽车、Saabs汽车、大众汽车)、克莱斯勒产品以及流行的吉普系列。该公司雇用了83名员工,其中23名是全职销售人员。由于产品品种的多样化,汽车的售价也有很大变动。顶级的沃尔沃汽车的售价比庞蒂亚克AM级别的2倍还多。罗布想要使用一些图表和图形,以便每月都能从中找出售价趋向的焦点、售价的变动程度和每项产品售价的走势。在本章中,我们将对罗布或像他一样管理企业的人士提出具有实用价值的技术方法。,某月该公司卖出了80辆车,价格如下:,庞蒂亚克公司某月车辆售价(单位:美元)201972037217454205912365124453142661502125683278721658720169328511625117047212852132421609256701254616873222512227725034215332444316889170041435717155166882065723613178951720320765227832366129277176421898121052227991279415263329251439914968173561844218722163311981716766176331796219845232852489626076294921589018740193742157122449253371764220613276551944214891178182323717445185561863921296原始数据:未经整理的数据。,根据数据统计研究的需要,将原始数据按照某种标准化分成不同的组别,分组后的数据称为分组数据。,数据分组,分组方法,分组方法,单变量值分组(要点),1.将一个变量值作为一组2.适合于离散变量3.适合于变量值较少的情况,组距分组(要点),将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况需要遵循“不重不漏”的原则以及“上组限不在内”原则可采用等距分组,也可采用不等距分组,二、构造频数分布(分组)的步骤,频数分布:把一组数据分到互不包含的组里以显示各组中观察值的个数。第一步:确定全距(R)R=最大值最小值329251254620379,第二步:确定组数,这一步的目标是用恰好足够的组来揭示数据分布的形状,太多或太少的组都不能揭示数据集的基本形状。例如:组数太少的一个例子:车辆售价(美元)车辆数目12000210004821000300003030000390002总计80,确定组数的例子,人口按年龄分组08婴幼儿818少年儿童1860中青年60以上老年学生按成绩分组60以下60707080809090以上,确定组数的一个法则:,2的K次方法则:选择最小的K,使得K满足2kn在本案例中,n=80,则最小K=7,所以可把这组数据分为7组。,确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,组数一般为5K15,第三步确定组距,1.组距:上限与下限之差2.组距有等距与不等距之分3.等距式分组组距全距/组数4.组距通常取10或100或1000的倍数5.能用等距分组的尽可能用等距分组在本案例中,组距20379/72911美元取1000的倍数,则组距为3000美元,第四步确定各组的组限,下限:一个组的最小值上限:一个组的最大值3.最小组的下限要小于或等于最小变量值,最大组的上限要大于或等于最大变量值,并且一般取10或100的倍数。,第四步确定各组的组限,在本案例中,Xmin=12546,Xmax=32925,则第一组的下限可取为12000,而最大组的上限则可取为33000。因此可选用的组如下:如把售价单位由美元变为千美元,则可简化为右图。12000150001215150001800015181800021000182121000240002124240002700024272700030000273030000330003033,第五步计算各组次数,编制频数分布数列,表3-4某月庞蒂亚克公司汽车售价的频数分布,1.最小组无下限或最大组无上限的分组称为开口组2.相邻两组的组限重合,并遵循“上限不在内”原则3.组中值(上限下限)/2,由前面频数分布可得到的信息:,1.售价的变化范围大约是1200033000美元。2.售价集中在1500024000美元,总共58辆车或者所售车辆数量的72.5处于这个范围。3.最密集的组是1500018000美元这一组。这组的组中值是16500美元,因此我们说一般售价为16500美元。4.两辆车的售价在30000美元以上,而八辆车的售价低于150000美元。,用EXCEL做频数分布,1.频数分布函数(FREQUENCY)FREQUENCY(data-array,bins-array)data-array为用来编制频数分布的数据bins-array为频数的接收区间,CTRL+SHIFT+ENTER就可到结果,表3-4某月庞蒂亚克公司汽车售价的频数分布,去年第一季度,某公司销售部的11名成员挣得的佣金是(单位:美元):165014751510167015951760154014951590162515101.像1650美元和1475美元这样的数值称做什么?2.以14001500为第一组,15001600为第二组,以此类推,把以上数据整理成频数分布。3.你的频数分布表中右边一列数字称作什么?4.在频数分布的基础上,描述季度佣金的分布。,三、数值型数据的图形表示(直方图的制作),横轴表示各组,纵轴表示频数的一种图形。频数由直条的高度表示,并且直条之间相互紧邻。当纵轴用频率表示时,直方图下的总面积等于1,分组数据直方图(直方图的绘制),频数(人),15,12,9,6,3,日加工零件数(个),图3-5某车间工人日加工零件数的直方图,我一眼就看出来了,大多数人的日加工零件数在120125之间!,用EXCEL做直方图某月庞蒂亚克公司汽车售价的频数分布,插入-图表,三、数值型数据的图形表示(折线图的制作),折线图也称频数多边形图(Frequencypolygon)是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,15,12,9,6,3,105,110,115,120,125,130,135,140,日加工零件数(个),频数(人),折线图的绘制,图3-6某车间工人日加工零件数的折线图,用EXCEL做折线图某月庞蒂亚克公司汽车售价的频数分布,四、累积频数分布(累计频数折线图)表35某月庞蒂亚克公司汽车售价的频数分布,未分组数据茎叶图(stem-and-leafdisplay),用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶树叶上只保留最后一位数字对于n(20n300)个数据,茎叶图最大行数不超过L=10lgn6.茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息直方图适用于大批量数据,茎叶图适用于小批量数据,未分组数据茎叶图(例题分析),某电脑公司销售量分布的茎叶图,未分组数据茎叶图(扩展的茎叶图),未分组数据箱线图(boxplot),用于显示未分组的原始数据的分布由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成绘制方法首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分位数画出箱子,再将两个极值点与箱子相连接该箱线图也称为Median/Quart./Range箱线图,未分组数据单批数据箱线图(箱线图的构成),中位数,4,6,8,10,12,Median/Quart./Range箱线图,未分组数据单批数据箱线图(例题分析),分布的形状与箱线图,不同分布的箱线图,未分组数据多批数据箱线图(例题分析),【例】从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如右表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征,未分组数据多批数据箱线图(例题分析Median/Quart./Range),8门课程考试成绩的Median/Quart./Range箱线图,11名学生8门课程考试成绩的Median/Quart./Range箱线图,未分组数据多批数据箱线图(例题分析Median/Quart./Range),时间序列数据线图(lineplot),表示时间序列数据趋势的图形时间一般绘在横轴,数据绘在纵轴图形的长宽比例大致为10:74.一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断,时间序列数据线图(例题分析),【例】我国19912003年城乡居民家庭的人均收入数据如右表。试绘制线图,时间序列数据线图(例题分析),两个变量间的关系二维散点图(2DScatterplots),展示两个变量之间的关系用横轴代表变量x,纵轴代表变量y,每组数据(xi,yi)在坐标系中用一个点表示,n组数据在坐标系中形成的个点称为散点,由坐标及其散点形成的二维数据图,两个变量间的关系二维散点图(2Dscatterplots),三个变量间的关系气泡图(bubblechart),显示三个变量之间的关系图中数据点的大小依赖于第三个变量,也称为蜘蛛图(spiderchart)显示多个变量的图示方法在显示或对比各变量的数值总和时十分有用4.假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比5.可用于研究多个样本之间的相似程度,多变量数据雷达图(radarchart),设有n组样本S1,S2,,Sn,每个样本测得P个变量X1,X2,,XP,要绘制这P个变量的雷达图,其具体做法是,多变量数据雷达图(雷达图的制作),先做一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,在将这P个点与圆心连线,得到P个辐射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图,多变量数据雷达图(例题分析),【例3.10】2003年我国城乡居民家庭平均每人各项生活消费支出构成数据如表。试绘制雷达图,今天的主食是面包,多变量数据雷达图(例题分析),数据类型及图示(小结),五、统计分组,(一)、统计分组的概念,统计分组就是根据统计研究的目的,将统计总体按照一定的标志区分为若干个不同类型或性质的组成部分的一种统计方法。,分组前,分组后,25,33,42,1.划分性质不同的各种类型,研究其特征和规律性,表1某地近几年农业总产值情况单位:亿元,(二)统计分组的作用,.分析总体中各个组成部分的构成情况,表2我国国内生产总值构成情况(%),可以揭示现象之间的依存关系,(三)分组的原则,1.穷尽原则,2.互斥原则,问题:某商场的服装分为男装、女装、童装三类,是否符合互斥原则?,(四)统计分组的种类,简单分组与复合分组,简单分组,对同一总体选择两个或两个以上标志进行重叠分组,就叫复合分组。多个复合分组组成的体系就是复合分组体系。,国民收入使用额积累生产性积累农业轻工业重工业非生产性积累居民住宅文化服务设施消费居民消费社会集团消费,复合分组,2品质标志分组和数量标志分组,品质标志分组,数量标志分组,(五)分组方法,分组方法,单变量值分组,1.将一个变量值作为一组2.适合于离散变量3.适合于变量值较少的情况,单变量值分组表3-1某高校新生年龄构成情况表,组距分组,将变量值的一个区间作为一组适合于变量值较多的情况必须遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组,等距分组表,不等距距分组表,表33某市工业企业职工人数分布表,分布数列,分布数列的种类,上节小结,单项式变量数列,组距式变量数列,等距分组,异距分组,品质分布数列,变量分布数列,第二节品质数据的整理与显示(基本问题),对定类数据和定序数据主要是做分类整理对定距数据和定比数据则主要是做分组整理适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据,定类数据的整理(基本过程),1.列出各类别,3.制作频数分布表4.用图形显示数据,定类数据整理频数分布表(实例),【例3.1】为研究广告市场的状况,一家广告公司在某城市随机抽取200人就广告问题做了邮寄问卷调查,其中的一个问题是“您比较关心下列哪一类广告?”1商品广告;2服务广告;3金融广告;4房地产广告;5招生招聘广告;6其他广告。,分类数据整理频数分布表(例题分析),【例】一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。右边就是记录的原始数据,用Excel制作频数分布表,使用Excel计数函数(COUNTIF),如果只需要计算某一类别的数据个数,可以使用Excel中的统计函数【COUNTIF】。在对话框【Range】后输入数据区域,在【Criteria】后输入数字、表达式、字符串等,计数单元格必须符合的条件,即可得出结果例如,我们要计算出可口可乐出现的频数,在【Range】后输入A1:A50(数据所在的区域),在【

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论