




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一章 绪论第一节 统计与统计学第二节 统计学的分科第三节 统计学与其他学科的关系*第四节 统计学的产生与发展学习目标1. 理解统计与统计学的含义2.理解统计数据与统计学的关系3.区分描述统计与推断统计4.了解统计学与其他学科的关系*5. 了解统计学的产生与发展过程 第一节 统计与统计学统计与统计学的含义统计数据的规律与统计方法一. 统计与统计学的含义1.什么是统计2.什么是统计学3.统计学英文定义2.什么是统计学?数据搜集:例如,调查与试验数据整理:例如,分组 数据展示:例如, 图和表数据分析:例如,回归分析 统计学是一门收集、整理和分析数据的方法科学,其目的是探索数据的内在数量规律性,以达
2、到对客观事物的科学认识。具体包括以下几个方面:三、统计学的应用领域统计学经济学管理学医学工程学社会学一、统计学的分科框架描述统计推断统计统计学的分科理论统计应用统计二. 描述统计学和推断统计学统计方法描述统计推断统计参数估计假设检验1.描述统计(1)内容搜集数据整理数据展示数据(2) 目的描述数据特征找出数据的基本规律02550Q1Q2Q3Q4¥x = 30 s2 = 1052.推断统计(1)内容参数估计假设检验(2)目的对总体特征作出推断样本总体3.描述统计与推断统计的关系反映客观现象的数据总体内在的数量规律性推断统计(利用样本信息和概率论对总体的数量特征进行估计和检验等)概率论(包括分布理
3、论、大数定律和中心极限定理等)描述统计(统计数据的搜集、整理、显示和分析等)总体数据样本数据统计学探索现象数量规律性的过程三、理论统计与应用统计理论统计研究统计学的一般理论研究统计方法的数学原理应用统计研究统计学在各领域的具体应用一、统计学与数学的关系1.联系(1)统计学运用到大量的数学知识(2)数学为统计理论和统计方法的发展提供基础(3)不能将统计学等同于数学2.区别(1)数学研究的是抽象的数量规律,统计学则是研究具体的、实际现象的数量规律(2)数学研究的是没有量纲或单位的抽象的数,统计学研究的是有具体实物或计量单位的数据(3)统计学与数学研究中所使用的逻辑方法不同数学研究所使用的主要是的演
4、绎统计学则是演绎与归纳相结合,占主导地位的是归纳*第四节 统计学的产生与发展政治算术社会经济统计概率论数理统计一、统计学家介绍1.统计学家是科学家二、统计学发展的历史线索1. 一般认为,统计学产生于17世纪中叶2. 统计学的发展过程基本上沿着两条主线展开以“政治算术学派”为开端形成和发展起来的、以社会经济问题为主要研究对象的社会经济统计以概率论的研究为开端、并以概率论为基础形成和发展起来的、以方法和应用研究为主的数理统计3. 今天,社会经济统计和数理统计仍然在以各自不同的方式发展着三、政治算术社会经济统计1. 政治算术学派产生于17世纪中叶的英国,代表人物主要是威廉配第(William Pat
5、ty,16231687)和约翰格朗特(John Graunt,16201674)2. 17世纪中叶的政治算术学派可看作是统计学的开端3. 19世纪,沿着约翰格朗特所开创的人口统计以及沿着威廉配第所开创的经济统计有了进一步的发展4. 威廉配第为以后经济统计的发展开拓了道路;约翰格朗特为人口统计的发展开拓了道路5. 政治算术学派则为后来的社会经济统计的发展奠定了基础四、概率论数理统计1. 概率沦研究起源于意大利文艺复兴时代2. 概率论的真正历史是从17世纪中叶开始的3. 古典统计时期的概率论基本上是独立发展的,它与统计学(主要是指政治算术)没有太多的联系4. 从19世纪中叶到20世纪中叶,概率论的
6、进一步发展为数理统计学的形成和发展奠定了基础 5. 本世纪50年代以后,统计理论、方法和应用进入了一个全面发展的阶段第五节 统计学中的几个主要术语总体(Population)样本(Sample)参数(Parameter)统计量(Statistic)二、样本1. 样本:总体的一部分2. 样本的特性3. 样本的作用三、参数1. 参数:总体的数字特征表述2. 参数的特性3. 参数的作用第六节 几种常用的统计软件 (Software)典型的统计软件SASSPSSMINITABSTATISTICAExcelMINITABSTATISTICAExcelSASSPSS第二章 统计数据的搜集第一节 数据的计量
7、与类型 第二节 统计数据的搜集第三节 统计数据的整理第四节 统计图与统计表第一节 数据的计量与类型数据的计量尺度数据的类型和分析方法变量及其类型统计指标及其类型一、数据的计量尺度四种计量尺度四种计量尺度的比较(一)四种计量尺度数据的计量尺度定类尺度定序尺度定距尺度定比尺度1.定类尺度(1)计量层次最低(2)对事物进行平行的分类(3)各类别可以指定数字代码表示(4)使用时必须符合类别穷尽和互斥的要求(5)数据表现为“类别”(6)具有=或的数学特性2.定序尺度(1)对事物分类的同时给出各类别的顺序(2)比定类尺度精确(3)未测量出类别之间的准确差值(4)数据表现为“类别”,但有序(5)具有或的数学
8、特性3.定距尺度(1)对事物的准确测度(2)比定序尺度精确(3)数据表现为“数值”(4)没有绝对零点(5)具有 + 或 - 的数学特性4.定比尺度(1)对事物的准确测度(2)与定距尺度处于同一层次(3)数据表现为“数值”(4)有绝对零点(5)具有 或 的数学特性(二)四种计量尺度的比较计量尺度数学特性“”表示该尺度所具有的特性二、数据类型与统计方法数据类型与统计方法定类数据定序数据品质数据数量数据定距数据定比数据参数方法非参数方法三、变量及其类型变 量定序变量离散变量连续变量定类变量数字变量四、统计指标及其类型时期指标时点指标统计指标相对指标总量指标平均指标比例比率第二节 统计数据的搜集统计数
9、据的直接来源统计数据的间接来源一、统计数据的直接来源统计数据调查的方式统计数据调查的方法(搜集方法)(一)统计调查方式统计调查方式普查抽样调查统计报表重点调查典型调查1.普查(1)为特定目的专门组织的非经常性全面调查(2)通常是一次性或周期性的(3)一般需要规定统一的标准调查时间(4)数据的规范化程度较高(5)应用范围比较狭窄总体2.抽样调查(1)从总体中随机抽取一部分单位(样本)进行调查总体随机样本(4)具有经济性、时效性强、适应面广、准确性高等特点(2)目的是推断总体的未知数字特征(3)最常用的调查方式3.统计报表(1)统计调查方式之一(2)过去曾经是我国主要的数据收集方式(3)按照国家有
10、关法规的规定、自上而下地统一布置、自下而上地逐级提供基本统计数据(4)有各种各样的类型4.重点调查和典型调查 (2)典型调查从调查对象的全部单位中选择少数典型单位进行调查目的是描述和揭示事物的本质特征和规律调查结果不能用于推断总体(1)重点调查从调查对象的全部单位中选择少数重点单位进行调查调查结果不能用于推断总体(二)数据的搜集方法数据的搜集方法询问调查访问调查观察实验电话调查邮寄调查观察电脑辅助座谈会个别深访实验1.访问调查(1)调查者与被调查者通过面对面地交谈而获得资料(2)有标准式访问和非标准式访问标准式访问通常按事先设计好的问卷进行非标准式访问事先一般不制作问卷对不起,打扰了!2.邮寄
11、调查(1)也称邮寄问卷调查(2)是一种标准化调查(3)调查者与被调查者没有直接的语言交流,信息的传递依赖于问卷(4)通过某种方式将调查表或问卷送至某调查者手中,由被调查者填写,然后将问卷寄回指定收集点(5)问卷或表格的发放方式有邮寄、宣传媒介传送、专门场所分发三种3.电话调查(1)调查者利用电话与被调查者进行语言交流以获得信息(2)时效快、成本低(3)问题的数量不宜过多 您好!我是调查公司的调查员4.电脑辅助调查(1)又称电脑辅助电话调查(2)电脑与电话相结合完成调查的全过程(3)一般需借助专门的软件进行(4)硬件设备要求较高5.座谈会(1)也称集体访谈(2)将一组被调查者集中在调查现场,让他
12、们对调查的主题发表意见以获得资料(3)参加座谈会的人数不宜过多,一般为610人(4)侧重于定性研究6.个别深度访问(1)一次只有一名受访者参加、针对特殊问题的调查(2)适合于较隐秘的问题,如个人隐私问题;或较敏感的问题,如政治方面的问题(3)侧重于定性研究7.观察法(1)就调查对象的行动和意识,调查人员边观察边记录以收集所需信息(2)调查人员不是强行介入(3)能够在被调查者不察觉的情况下获得资料8.实验法(1)在设定的特殊实验场所、特殊状态下,对调查对象进行实验以获得所需资料(2)有室内实验法和市场实验法二、统计数据的间接来源1. 公开出版物: 中国统计年鉴、中国统计摘要、中国社会统计年鉴、中
13、国工业经济统计年鉴、中国农村统计年鉴、中国人口统计年鉴、中国市场统计年鉴、世界经济年鉴、国外经济统计资料、世界发展报告Internet 2. 网络中国统计年鉴2001中国人口统计年鉴中国市场统计年鉴世界发展报告世界经济年检工业普查数据中国统计出版社三、调查方案设计确定调查目的确定调查对象和调查单位设计调查项目和调查表方案设计中的其他内容调查方案设计的框架调查方案的内容调查目的调查对象调查单位调查项目和调查表其他1.调查目的(1)调查要达到的具体目标(2)回答“为什么调查?”(3)调查之前必须明确2.调查对象和调查单位(1)调查对象:调查研究的总体或调查范围(2)调查单位:需要对之进行调查的单位
14、。可以是调查对象的全部单位(全面调查),也可以是调查对象中的一部分单位(非全面调查)(3)回答“向谁调查?”调查对象调查单位?3.调查项目和调查表(1)调查项目:调查的具体内容(2)调查表:表现调查项目的表格或问卷(3)回答“调查什么?”Q1 Q2 Q3 Q4 4.方案设计中的其他问题(1)明确调查所采用的方法(2)确定调查资料的所属时间和调查工作的期限(3)调查的组织与实施细则*四、统计数据的质量统计数据的误差统计数据的质量要求误差来源登记性误差1.数据误差的来源代表性误差2.统计数据的误差(1)统计数据与客观现实之间的差距(2)有登记性误差和代表性误差两类 登记性误差:由于调查者或被调查者
15、的人为因素所造成的误差,理论上讲可以消除。 代表性误差:用样本数据进行推断时所产生的误差。通常无法消除,但事先可以进行控制和计算。3.统计数据的质量要求精 度:最低的抽样误差或随机误差准 确 性:最小的非抽样误差或偏差关 联 性:满足用户决策、管理和研究的需要及 时 性:在最短的时间里取得并公布数据一 致 性:保持时间序列的可比性最低成本:以最经济的方式取得数据第三节 统计数据的整理数据的预处理品质数据的整理与显示数值型数据的整理与显示一、数据的预处理数据的预处理概述数据的审核数据的筛选数据的排序(一)概述:数据的审核、筛选与排序数据的审核发现数据中的错误数据的筛选找出符合条件的数据数据排序发
16、现数据的基本特征升序和降序(二)数据的审核原始数据审核的内容原始数据审核的方法二手数据的审核1.原始数据的审核内容(1)完整性审核检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全(2) 准确性审核检查数据是否真实反映客观实际情况,内容是否符合实际检查数据是否有错误,计算是否正确等2.原始数据的审核方法(1)逻辑检查从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象主要用于对定类数据和定序数据的审核(2)计算检查检查调查表中的各项数据在计算结果和计算方法上有无错误主要用于对定距和定比数据的审核3.二手数据的审核(1)适用性审核弄清楚数据的来源、数据
17、的口径以及有关的背景材料确定这些数据是否符合自己分析研究的需要(2)时效性审核应尽可能使用最新的统计数据(3)确认是否必要做进一步的加工整理(三)数据的筛选对审核过程中发现的错误应尽可能予以纠正当发现数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选数据筛选的内容包括:将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔出(四)数据的排序(1)内容按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索排序有助于对数据检查纠错,以及为重新归类或分组等提供依据在某些场合,排序本身就是分析的
18、目的之一排序可借助于计算机完成(四)数据的排序(2)方法定类数据的排序字母型数据,排序有升序降序之分,但习惯上用升序汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分2. 定距和定比数据的排序递增排序:设一组数据为X1,X2,XN,递增排序后可表示为:X(1)X(2)X(2)X(N)二、品质数据的整理与显示定类数据的整理与显示定序数据的整理与显示(一)数据整理的基本问题要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的对定类数据和定序数据主要是做分类整理对定距数据和定比数据则主要是做分组整理适合于低层次数据的整理和显示方法也适合于高层
19、次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据(二)定类数据的整理基本过程可计算指标频率分布表(二)定类数据的整理(1)基本过程1. 列出各类别2. 计算各类别的频数3. 制作频数分布表4. 用图形显示数据(二)定类数据的整理 (2)可计算的指标1. 频 数:落在各类别中的数据个数2. 比 例:某一类别数据占全部数据的比值3. 百分比:将对比的基数作为100而计算的比值4. 比 率:不同类别数值的比值(二)定类数据整理(3)频数分布表(实例)【例1】为研究广告市场的状况,一家广告公司在某城市随机抽取200人就广告问题做了邮寄问卷调查,其中的一个问题是“您比较关心下列哪一类广
20、告?” 1商品广告;2服务广告;3金融广告;4房地产广告;5招生招聘广告;6其他广告。(三)定类数据的显示条形图园形图环形图(三)定类数据的图示(1)条形图条形图是用宽度相同的条形的高度或长短来表示数据变动的图形条形图有单式、复式等形式在表示定类数据的分布时,是用条形图的高度来表示各类别数据的频数或频率绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图(三)定类数据条形图的一个例子(由 Excel 绘制的条形图)人数(人)5191610211204080120 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告广告类型 图1 某城市居民关注不同类型广告的人数分布(
21、三)定类数据的图示(2)圆形图也称饼图,是用圆形及园内扇形的面积来表示数值大小的图形主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用在绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形面积表示,这些扇形的中心角度,是按各部分百分比占3600的相应比例确定的例如,关注服务广告的人数占总人数的百分比为25.5%,那么其扇形的中心角度就应为360025.5%91.80,其余类推(三)定类数据圆形图的一个例子(由 Excel 绘制的圆形图) 其他广告1.0% 房地产广告8.0% 商品广告56.0% 金融广告4.5% 服务广告25.5% 招生招聘广告5.8%图2 某城市居民关注不同
22、类型广告的人数构成(三)定类数据的图示(3)环形图环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示环形图与圆形图类似,但又有区别圆形图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环环形图可用于进行比较研究 环形图可用于展示定类和定序的数据(四)定序数据的整理与显示整理显示(四)定序数据的整理可计算的指标1. 累计频数:将各类别的频数逐级累加2. 累计频率:将各类别的频率(百分比)逐级累加注:定类数据一般不可以计算累计(四)定序数据频数分布表(例1 )【例2】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,
23、其中的一个问题是:“您对您家庭目前的住房状况是否满意? 1非常不满意;2不满意;3一般;4满意;5非常满意。 (四)定序数据频数分布表(例2 )(四)定序数据的图示累计频数分布图(由 Excel 绘制的累计频数分布图)243001322252700100200300400 非常不满意 不满意 一般 满意 非常满意累积户数(户)(a)向下累积27616830300750100200300400 非常不满意 不满意 一般 满意 非常满意累积户数(户)(b)向上累积图3 甲城市家庭对住房状况评价的累积频数分布(四)品质数据的图示环形图(由 Excel 绘制的环形图)8%36%31%15%7%33%2
24、6%21%13%10% 非常不满意 不满意 一般 满意 非常满意 图4 甲乙两城市家庭对住房状况的评价三、数值型数据的整理与显示数据的分组数值型数据的图示频数分布的类型(一)数值型数据整理的步骤确定组数整理的步骤确定组距计算频数编制表格(一)需整理的一个实例117 122 124 129 139 107 117 130 122 125108 131 125 117 122 133 126 122 118 108110 118 123 126 133 134 127 123 118 112112 134 127 123 119 113 120 123 127 135137 114 120 128
25、 124 115 139 128 124 121【例3】某生产车间50名工人日加工零件数如下(单位:个)。试采用单变量值对数据进行分组。 (二)数据分组分组的目的及作用分组的方法单变量分组组距分组(1)分组方法分组方法等距分组异距分组单变量值分组组距分组(2)单变量值分组1. 将一个变量值作为一组2. 适合于离散变量3. 适合于变量值较少的情况(3)单变量值分组的一个实例(4)组距分组将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况必须遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组 (5)组距分组的步骤确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分
26、组时,可以按 Sturges 提出的经验公式来确定组数K确定各组的组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 组距( 最大值 - 最小值) 组数 根据分组整理成频数分布表 (6)分组几个概念1. 下 限:一个组的最小值2. 上 限:一个组的最大值3. 组 距:上限与下限之差4. 组中值:下限与上限之间的中点值下限值+上限值2组中值(7)等距分组表上下组限重叠(8)等距分组表上下组限间断(9)等距分组表使用开口组(10)等距分组与不等距分组在表现频数分布上的差异等距分组各组频数的分布不受组距大小的影响可直接根据绝对频数来观察
27、频数分布的特征和规律不等距分组各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实际状况需要用频数密度(频数密度频数/组距)反映频数分布的实际状况(三)数值型数据的图示用Excel作图直方图折线图茎叶图箱线图线图雷达图以下图形均可由计算机绘制!ExcelSTATISTICA1.1直方图的制作用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram)直方图下的总面积等于11.2直方图的绘制频数(人)15129631051101151201
28、25130135140日加工零件数(个)直方图下的面积之和等于1图5 某车间工人日加工零件数的直方图我一眼就看出来了,大多数人的日加工零件数在120125之间!1.3直方图与条形图的区别条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义直方图的各矩形通常是连续排列,条形图则是分开排列2.1折线图的制作折线图也称频数多边形图(Frequency polygon)是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个
29、终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的1512963105110115120125130135140日加工零件数(个)频数(人)折线图下的面积与直方图的面积相等!2.2折线图的绘制图6 某车间工人日加工零件数的折线图3.1未分组数据茎叶图的制作用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶对于n(20n300)个数据,茎叶图最大行数不超过 L = 10
30、log 10 n 5. 茎叶图类似于横置的直方图,但又有区别直方图可大体上看出一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息树茎树叶7880223477788890012222333344466777889013344579910111213数据个数3132410茎叶图类似横置的直方图3.2茎叶图的一个例子图7 某车间工人日加工零件数的茎叶图3.3扩展的茎叶图树茎树叶10s10.11*11t11f11s11.12*12t12f12s12.13*12t13f13s13.78 802 2 34 57 7 78 8 8 90 0 1
31、2 2 2 2 3 3 3 34 4 4 5 56 6 7 7 78 8 90 13 34 4 579 9树茎树叶10*10.11*11.12*12.13*13.7 8 80 2 2 3 45 7 7 7 8 8 8 90 0 1 2 2 2 2 3 3 3 3 4 4 45 5 6 6 7 7 7 8 8 90 1 3 3 4 4 5 7 9 9图8 图3.7扩展后的茎叶图4.1未分组数据箱线图的制作用于显示未分组的原始数据或分组数据的分布箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成其绘制方法是:首先找出一组数据的5个特征值,即最大值、最小值、中位数Me 和两个四分位数(
32、下四分位数QL和上四分位数QU)连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接 4.2单批数据箱线图中位数4681012QUQLX最大值X最小值图9 简单箱线图4.3单批数据箱线图实例最小值107最大值139中位数123下四分位数117.75上四分位数128105 110 115 120 125 130 135 140图10 50名工人日加工零件数的箱线图4.4分布的形状与箱线图 对称分布QL中位数 QU左偏分布QL中位数 QU右偏分布QL 中位数 QU图11 不同分布的箱线图4.5多批数据箱线图实例【例4】 从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进
33、行调查,所得结果如表3-8。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征4.6多批数据箱线图例子课程分数图12 8门课程考试成绩的箱线图图13 11名学生8门课程考试成绩的箱线图Min-Max25%-75%Median value455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生114.7多批数据箱线图例子学生成绩5.1 时间序列数据线图的制作1. 时间一般绘在横轴,指标数据绘在纵轴2. 图形的长宽比例要适当,其长宽比例大致为10:73. 一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折
34、断的符号将纵轴折断5.2线图一个实例【例5】已知19911998年我国城乡居民家庭的人均收入数据如表3-11。试绘制线图¥ 5.3实例的线图图形020004000600019911992199319941995199619971998城镇居民农村居民收入 (元) 图14 城乡居民家庭人均收入雷达图(Radar Chart)是显示多个变量的常用图示方法在显示或对比各变量的数值总和时十分有用假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比可用于研究多个样本之间的相似程度6.1多变量数据雷达图 设有n组样本S1,S2,Sn,每个样本测得P个变量X1,X2,Xp,要绘制这P个变量的
35、雷达图,其具体做法是6.2雷达图的制作 先做一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,在将这P个点与圆心连线,得到P个幅射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示 再将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图6.3雷达图的一个实例1【例6】1997年我国城乡居民家庭平均每人各项生活消费支出数据如表3-12。试绘制雷达图。今天的主食是面包0500100015002000 食品 衣着 家庭设备用 品及服务 医疗保健 交通通讯 娱乐教育 文化服务 居住 杂项商品 与服务城镇居民农村居民 图1
36、5 1997年城镇居民家庭消费支出 (元)6.4由 Excel 绘制例1的雷达图6.5多变量数据雷达图例子2【例7】为研究某条河流的污染程度,环保局分别在上游、中游和下游设立取样点,每个取样点化验水中的五项污染指标,所得数据如表3-13。将各指标用雷达图表示出来,并分析该河流的主要污染源。 6.6由 Excel 绘制的对数坐标雷达图0.11101001000指标1指标2指标3指标4指标5上游中游下游图16 河流污染指标雷达图 7.1数据类型及图示总结数据类型与显示数值型数据品质数据分组数据总计表茎叶图条形图圆形图环形图直方图箱线图折线图原始数据时序数据线图雷达图多元数据7.2频数分布的类型总结
37、对称分布右偏分布左偏分布正J型分布反J型分布U型分布图17 几种常见的频数分布第四节 统计表统计表的构成统计表的设计一、统计表的结构行标题表头列标题数字资料附加要合理安排统计表的结构总标题内容应满足3W要求数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明表中的上下两条横线一般用粗线,其他线用细线通常情况下,统计表的左右两边不封口表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一对于没有数字的表格单元,一般用“”表示必要时可在表的下方加上注释二、统计表设计的一般要求 第三章 数据分布特征的描述第一节 分布集中趋势的测度 第二节 分布离散程度的
38、测度第三节 分布偏态与峰度的测度第一节 数据分布特征概述一、图示1.集中趋势 (位置)2.离中趋势 (分散程度)3.偏态和峰度(形状)二、数据分布特征的测度数据的特征和测度分布的形状集中趋势离散程度众 数中位数均 值离散系数方差和标准差峰 度四分位差异众比率偏 态 第二节 集中趋势的测度定类数据:众数定序数据:中位数和分位数定距和定比数据:均值众数、中位数和均值的比较一、 集中趋势概述(Central tendency)一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据一般水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,
39、高层次数据的集中趋势测度值并不适用于低层次的测量数据选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定 二、众数众数的概念众数的特性定类数据众数的计算定序数据众数的计算数值型分组数据众数的计算(一)众数的概念1. 集中趋势的测度值之一2. 出现次数最多的变量值3. 不受极端值的影响4. 可能没有众数或有几个众数5. 主要用于定类数据,也可用于定序数据和数值型数据(二) 众数的特性无众数情形原始数据: 10 5 9 12 6 8单众数情形原始数据: 6 5 9 8 5 5多众数情形原始数据: 25 28 28 36 42 42(三)定类数据的众数一个例子【例1】根据下表1中的数
40、据,计算众数解:这里的变量为“广告类型”,这是个定类变量,不同类型的广告就是变量值。我们看到,在所调查的200人当中,关注商品广告的人数最多,为112人,占总被调查人数的56%,因此众数为“商品广告”这一类别,即 Mo商品广告(四)定序数据的众数一个例子【例2】根据表2中的数据,计算众数解:这里的数据为定序数据。变量为“回答类别”。甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即 Mo不满意(五)数值型分组数据的众数的计算1. 众数的值与相邻两组频数的分布有关4. 该公式假定众数组的频数在众数组内均匀分布2. 相邻两组的频数相等时,众数组的组中值即为众数Mo3.
41、 相邻两组的频数不相等时,众数采用下列近似公式计算MoMo(六)数值型数据众数计算的例子【例3】根据表3中的数据,计算50名工人日加工零件数的众数三、中位数中位数的概念中位数位置的确定(一)中位数的概念1. 集中趋势的测度值之一2. 排序后处于中间位置上的值Me50%50%不受极端值的影响主要用于定序数据,也可用数值型数据,但不能用于定类数据各变量值与中位数的离差绝对值之和最小,即(二)中位数位置的确定未分组数据:组距分组数据:(三)未分组数据中位数计算公式(四)中位数计算的例子1.定序数据【例4】根据表4中的数据,计算甲城市家庭对住房满意状况评价的中位数解:中位数的位置为: 300/2150
42、从累计频数看,中位数的在“一般”这一组别中。因此 Me一般2.未分组数据(奇数个数据)原始数据: 24 22 21 26 20排 序: 20 21 22 24 26位 置: 1 2 3 4 5中位数 223.未分组数据(偶数个数据)原始数据: 10 5 9 12 6 8排 序: 5 6 8 9 10 12位 置: 1 2 3 4 5 6位置N+126+123.5中位数8 + 928.5根据位置公式确定中位数所在的组采用下列近似公式计算:3. 该公式假定中位数组的频数在该组内均匀分布(五)数值型分组数据中位数计算公式(六)数值型分组数据中位数的例子【例5】根据表5中的数据,计算50 名工人日加工
43、零件数的中位数四、分位数(一)概念1. 集中趋势的测度值之一2. 排序后处于25%和75%位置上的值3. 不受极端值的影响4. 主要用于定序数据,也可用于数值型数据,但不能用于定类数据QLQMQU25%25%25%25%(二)四分位数位置的确定未分组数据:组距分组数据:下四分位数(QL)位置 =N+14上四分位数(QU)位置 =3(N+1)4下四分位数(QL)位置 =N4上四分位数(QL)位置 =3N4(三)四分位数的计算1.定序数据【例6】根据表6中的数据,计算甲城市家庭对住房满意状况评价的四分位数解:下四分位数(QL)的位置为: QL位置(300)/475 上四分位数(QL)的位置为: Q
44、U位置(3300)/4225从累计频数看, QL在“不满意”这一组别中; QU在“一般”这一组别中。因此 QL 不满意 QU 一般2.未分组数据(奇数个数据)原始数据: 23 21 30 32 28 25 26排 序: 21 23 25 26 28 30 32位 置: 1 2 3 4 5 6 7 N+1QL= 237+1QL位置 =4=4= 2QU位置 =3(N+1)43(7+1)4 = 6QU = 303.未分组数据(偶数个数据) 原始数据: 23 21 30 28 25 26排 序: 21 23 25 26 28 30位 置: 1 2 3 4 5 6QL= 21+0.75(23-21) =
45、 22. 5QL位置 =N+14=6+14= 1.75QU位置 =3(N+1)43(6+1)4= 5.25QU = 28+0.25(30-28) = 28.54.数值型分组数据的计算公式上四分位数: 下四分位数: 5.数值型分组数据计算示例QL位置50/412.5QU位置350/437.5【例7】根据表7中的数据,计算50 名工人日加工零件数的四分位数五、均值算术平均数均值的概念均值的计算均值的性质(一)均值的概念1. 集中趋势的测度值之一2. 最常用的测度值3. 一组数据的均衡点所在4. 易受极端值的影响5. 用于数值型数据,不能用于定类数据和定序数据(二)均值的计算公式设一组数据为:X1
46、,X2 , ,XN 简单均值的计算公式为设分组后的数据为:X1 ,X2 , ,XK 相应的频数为: F1 , F2, ,FK加权均值的计算公式为1.简单均值的例子原始数据:105913682.加权均值的例子【例8】根据表8中的数据,计算50 名工人日加工零件数的均值3.权数对均值的影响一个例子 例9甲乙两组各有10名学生,他们的考试成绩及其分布数据如下甲组: 考试成绩(X ): 0 20 100 人数分布(F ):1 1 8乙组: 考试成绩(X ): 0 20 100 人数分布(F ):8 1 1X甲01+201+1008n10i=1Xi 82(分)X乙08+201+1001n10i=1Xi
47、12(分)(三)均值的数学性质1.各变量值与均值的离差之和等于零 2. 各变量值与均值的离差平方和最小六、调和平均数(一)概念及计算公式1. 集中趋势的测度值之一2. 均值的另一种表现形式3. 易受极端值的影响4. 用于定比数据5. 不能用于定类数据和定序数据6. 计算公式为原来只是计算时使用了不同的数据!(二)调和平均数的一个例子【例10】某蔬菜批发市场三种蔬菜的日成交数据如表9,计算三种蔬菜该日的平均批发价格七、几何平均数(一)概念及计算公式1. 集中趋势的测度值之一2. N 个变量值乘积的 N 次方根3. 适用于特殊的数据4. 主要用于计算平均发展速度5. 计算公式为6. 可看作是均值的
48、一种变形(二)几何平均数的一个例子【例11】一位投资者持有一种股票,1996年、1997年、1998年和1999年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。平均收益率103.84%-1=3.84%八、众数、中位数和均值的比较(一)关系对称分布 均值= 中位数= 众数左偏分布均值 中位数 众数右偏分布众数 中位数 均值(二)众数、中位数和均值的适用场合第三节 离散程度的测度定类数据:异众比率定序数据:四分位差定距和定比数据:方差及标准差等相对离散程度:离散系数一、离中趋势概述数据分布的另一个重要特征离中趋势的各测度值是对数据离散程度所作的描述反映各变
49、量值远离其中心值的程度,因此也称为离中趋势从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值二、异众比率(一)概念及计算公式1. 离散程度的测度值之一2. 非众数组的频数占总频数的比率3. 计算公式为4. 用于衡量众数的代表性(二)异众比率的一个例子【例12】根据表10中数据,计算异众比率解: 在所调查的200人当中,关注非商品广告的人数占44%,异众比率还是比较大。因此,用“商品广告”来反映城市居民对广告关注的一般趋势,其代表性不是很好 Vr = 200 - 112200 = 1 - 112 200 = 0.44 = 44%三、四分位差(一)概念及计算公式1. 离
50、散程度的测度值之一2. 也称为内距或四分间距3. 上四分位数与下四分位数之差 QD = QU - QL4. 反映了中间50%数据的离散程度5. 不受极端值的影响6. 用于衡量中位数的代表性(二)四分位差的一个例子【例13】根据表11中的数据,计算甲城市家庭对住房满意状况评价的四分位差解:设非常不满意为1,不满意为2, 一般为3, 满意为 4, 非常满意为5 已知 QL = 不满意 = 2, QU = 一般 = 3四分位差: QD = QU = QL = 3 2 = 1四、极差1. 一组数据的最大值与最小值之差2. 离散程度的最简单测度值3. 易受极端值影响4. 未考虑数据的分布78910789
51、10未分组数据 R = max(Xi) - min(Xi).=组距分组数据 R 最高组上限 - 最低组下限 5. 计算公式为五、平均差(一)概念及计算公式1. 离散程度的测度值之一2. 各变量值与其均值离差绝对值的平均数3. 能全面反映一组数据的离散程度4. 数学性质较差,实际中应用较少 5. 计算公式为未分组数据组距分组数据(二)平均差的一个例子【例14】根据表12中的数据,计算工人日加工零件数的平均差六、方差和标准差(一)概念1. 离散程度的测度值之一2. 最常用的测度值3. 反映了数据的分布 反映了各变量值与均值的平均差异 根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称
52、为样本方差或标准差(样本方差在第五章中讲授)4 6 8 10 12X = 8.3(二)总体方差和标准差的计算公式未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式(三)总体标准差计算的一个例子【例15】根据表13中的数据,计算工人日加工零件数的标准差(四)方差数学性质各变量值对均值的方差小于对任意值的方差,具体表述为:设X0为不等于X 的任意数,D2为对X0的方差,则(五)标准化值1. 也称标准分数2. 给出某一个值在一组数据中的相对位置3. 用于对变量的标准化处理4. 计算公式为七、离散系数(一)概念和计算公式1. 标准差与其相应的均值之比2. 消除了数据水平
53、高低和计量单位的影响3. 测度了数据的相对离散程度4. 用于对不同组别数据离散程度的比较5. 计算公式为(二)离散系数计算的一个例子【例16】某管理局抽查了所属的8家企业,其产品销售数据如表14。试比较产品销售额与销售利润的离散程度S1=309.19(万元)X1=536.25(万元)X2=32.5215(万元)S2=23.09(万元)结论: 计算结果表明,V1 0为右偏分布4. 偏态系数 0为左偏分布5. 计算公式为三、峰度的概念与测度1. 数据分布扁平程度的测度2. 峰度系数=3扁平程度适中3. 峰度系数3为尖峰分布5. 计算公式为四、偏态与峰度计算实例【例17】已知1997年我国农村居民家
54、庭按纯收入分组的有关数据如表15。试计算偏态与峰度系数户数比重(%)252015105农村居民家庭村收入数据的直方图1.从直方图上观察偏态与峰度按纯收入分组(元)100050015002000250030003500400045005000结论:1. 为右偏分布 2. 峰度适中2.偏态与峰度系数的计算过程3.偏态系数计算结果根据数据计算得将计算结果代入偏态系数公式,得结论:偏态系数为正值,而且数值较大,说明农村居民家庭纯收入的分布为右偏分布,即收入较少的家庭占据多数,而收入较高的家庭则占少数,而且偏斜的程度较大 4.峰度系数的计算结果将计算结果代入峰度系数公式, 得 结论:由于=3.43,说明
55、我国农村居民家庭纯收入的分布为尖峰分布,说明低收入家庭占有较大的比重 5.由Excel输出的描述统计量第四章 概率与概率分布第一节 概率基础第二节 随机变量及其分布第一节 概率基础随机事件及其概率概率的性质与运算法则一、随机事件的几个基本概念(一)试 验在相同条件下,对事物或现象所进行的观察例如:掷一枚骰子,观察其出现的点数试验具有以下特点可以在相同的条件下重复进行每次试验的可能结果可能不止一个,但试验的所有可能结果在试验之前是确切知道的在试验结束之前,不能确定该次试验的确切结果(二)事件的概念事件:随机试验的每一个可能结果(任何样本点集合)例如:掷一枚骰子出现的点数为3随机事件:每次试验可能
56、出现也可能不出现的事件例如:掷一枚骰子可能出现的点数必然事件:每次试验一定出现的事件,用表示例如:掷一枚骰子出现的点数小于7不可能事件:每次试验一定不出现的事件,用表示例如:掷一枚骰子出现的点数大于6(三)事件与样本空间基本事件一个不可能再分的随机事件例如:掷一枚骰子出现的点数样本空间一个试验中所有基本事件的集合,用表示例如:在掷枚骰子的试验中,1,2,3,4,5,6在投掷硬币的试验中,正面,反面(四)事件的关系和运算1.事件的包含ABB A 若事件A发生必然导致事件B发生, 则称事件B包含事件A,或事件A包含于事件B,记作或 A B或 B A2.事件的并或和 事件A和事件B中至少有一个发生的
57、事件称为事件A与事件B 的并。它是由属于事件A或事件B的所有的样本点组成的集合,记为AB或A+BBAAB3.事件的交或积ABAB 事件A与事件B同时发生的事件称为事件A与事件B的交,它是由属于事件A也属于事件B的所有公共样本点所组成的集合,记为BA 或AB4.互斥事件(不相容事件)ABA 与 B互不相容事件A与事件B中,若有一个发生,另一个必定不发生, 则称事件A与事件B是互斥的,否则称两个事件是相容的。显然,事件A与事件B互斥的充分必要条件是事件A与事件B没有公共的样本点5.事件的逆(互补)A A一个事件B与事件A互斥,且它与事件A的并是整个样本空间,则称事件B是事件A的逆事件。它是由样本空
58、间中所有不属于事件A的样本点所组成的集合,记为A6.事件的差(减法)A - BAB事件A发生但事件B不发生的事件称为事件A与事件B的差,它是由属于事件A而不属于事件B的那些样本点构成的集合,记为A-B 7.事件的性质 设A、B、C为三个事件,则有交换律:AB=BA AB=BA2. 结合律:A(BC)=(AB)C A(BC) =(AB) C3. 分配律:A(BC)=(AB)(AC) A(BC)=(AB)(AC)二、事件的概率(一)事件概率概述事件A的概率是对事件A在试验中出现的可能性大小的一种度量表示事件A出现可能性大小的数值事件A的概率表示为P(A)概率的定义有:古典定义、统计定义和主观概率定
59、义(二)概率的古典定义如果某一随机试验的结果有限,而且各个结果在每次试验中出现的可能性相同,则事件A发生的概率为该事件所包含的基本事件个数 m 与样本空间中所包含的基本事件个数 n 的比值,记为(三)概率的统计定义在相同条件下进行n次随机试验,事件A出现 m 次,则比值 m/n 称为事件A发生的频率。随着n的增大,该频率围绕某一常数P上下摆动,且波动的幅度逐渐减小,取向于稳定,这个频率的稳定值即为事件A的概率,记为1.一个例子例如,投掷一枚硬币,出现正面和反面的频率,随着投掷次数 n 的增大,出现正面和反面的频率,稳定在1/2左右试验的次数正面 /试验次数1.000.000.250.500.7
60、50255075100125(四)主观概率定义对一些无法重复的试验,确定其结果的概率只能根据以往的经验人为确定概率是一个决策者对某事件是否发生,根据个人掌握的信息对该事件发生可能性的判断三、概率的性质与运算法则(一)概率的性质(公理)非负性对任意事件A,有 0 P 1规范性必然事件的概率为1;不可能事件的概率为0。即P ( ) = 1; P ( ) = 0可加性若A与B互斥,则P ( AB ) = P ( A ) + P ( B )推广到多个两两互斥事件A1,A2,An,有 P ( A1A2 An) = P ( A1 ) + P (A2 ) + + P (An )(二)概率的加法法则1.不相容
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030年中国PCB药水行业发展动向分析及市场发展规模预测研究报告
- 2025至2031年中国立式三槽行业投资前景及策略咨询研究报告
- 广东省高州市九校联考2024年毕业升学考试模拟卷数学卷含解析
- 2025年项目安全培训考试试题(培优A卷)
- 2025年企业主要负责人安全培训考试试题(可下载)
- 2025年新进厂员工安全培训考试试题带答案(轻巧夺冠)
- 25年公司厂级员工安全培训考试试题及答案 完整
- 2024-2025工厂安全培训考试试题答案完整
- 2024-2025厂里安全培训考试试题(突破训练)
- 2025班组三级安全培训考试试题【网校专用】
- MAM860螺杆式空压机控制器
- 研究思路图模板
- BowTie模型简介与应用
- 中国风武术太极拳主题PPT模板
- 项目积分制绩效管理办法优秀资料
- 大商业结构拆改加固专项施工方案(44页)
- 苏州园林的艺术特色之拙政园讲解
- 给排水专业ppt课件
- Y-Y2系列电机绕组标准数据汇总
- 陡岭河四级水电站安全生产管理目标管理规定
- 工程机械租赁服务方案及保障措施 (1)
评论
0/150
提交评论