【统计学复习提纲】_第1页
【统计学复习提纲】_第2页
【统计学复习提纲】_第3页
【统计学复习提纲】_第4页
【统计学复习提纲】_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、20132014学年度第二学期统计学复习提纲第一章:绪论1、统计的含义和特点一、统计的含义:统计最基本的含义是人们对客观事物的数量表现、数量关系和数量变化进行描述和分析的一种计量活动。在不同的场合,统计一词有统计工作、统计资料、统计科学三种含义。二、统计的研究对象:统计的研究对象是统计工作的规律,即搜集、整理和分析统计数据的方法,是一门方法论科学。(P11)三、统计的特点(P4):(1)数量性(最基本特点) (2)具体性 (3)综合性(或总体性)。2、统计学的基本概念:总体、总体单位、总体的特征,总体的分类。标志、变异与变量,连续型变量与离散型变量联系和区别,指标与标志一、总体:总体是在某种共

2、性的基础上由许多个别事物结合起来的整体。 总体单位:构成总体的个别事物。(P13)他们不是一成不变的,在一定的条件下可以相互转化。确定总体是为了确定调查研究的对象和范围,确定总体单位是为确定调查登记项目的承担者。二、总体的特征(P13):(1) 同质性; (2)大量性; (3)差异性。三、总体的分类(P13):(1) 有限总体;(2)无限总体。四、标志:指说明总体单位特征的名称,由标志名称标志值构成。标志的分类(P15):(1) 品质标志、数量标志;(2)不变标志、可变标志(包括变异和变量)。五、变量:变量就是可变的数量标志。(P15) 变异:总体单位之间的这些品质和数量上的差异,即可变标志在

3、总体各单位之间变现出来的差异。变量和统计数据分类有对应关系。六、连续型变量与离散型变量数值变量可分为离散变量与连续变量。凡是变量值只能以整数出现的变量就叫离散变量,变量值可以无限分割的变量就是连续变量。七、指标:是说明总体数量特征的概念。由指标名称+指标值组成。标志和指标的区别和联系(1)区别:指标说明总体的特征;而标志说明总体单位的特征指标只反映总体的数量特征;标志既可以反映总体单位的数量特征,也可以反映总体单位的品质特征(2) 联系:指标的数值是由总体各单位的数量标志的标志值汇总而得到的8、 指标体系以共同的研究目的为纽带而相互联系的一系列统计指标成为指标体系。3、补充:统计数据统计数据是

4、指对现象或事物进行测量的结果。按照测量尺度的差异,可以将统计数据进行分类:分类数据,顺序数据和数值型数据。分类数据和顺序数据说明的都是事物的品质(属性)特征,通常用文字来表述,其结果均表现为类别,可以通称为定性数据或品质数据。数值型数据说明事物或现象的数量特征,用数值来表现,因此可称为定量数据或数量数据。按照收集方法的不同,可以分为观测数据和实验数据。按照时间状况的不同,可以分为截面数据和时间序列数据。4、补充:参数与统计量、样本参数(parameter):用来描述总体特征的概括性数字度量;例如总体平均数 ;总体标准差;总体比例。统计量(statistic):用来描述样本特征的概括性数字度量,

5、它是样本的函数。例如样本平均数;样本标准差;样本比例。样本(sample):从总体中抽取一部分个体的集合。样本容量(sample size):构成样本的个体的数目,也称为样本量,通常用n表示。第二章:统计调查1、统计调查的含义及其在统计工作中的地位2、统计调查的基本原则统计调查是指根据既定目的,有组织、有计划地搜集统计资料的过程。它是统计工作的第一阶段,基础环节。统计调查的基本原则是真实、及时和合适。3、统计调查的组织形式有哪些。(红色字体)什么是随机抽样;什么是非随机抽样。(蓝色字体)非随机抽样的类型(粉红色字体)(普查:含义、优缺点,适用场合;随机抽样调查:含义以及具体的抽样方法 (简单随

6、机、分层抽样、整群抽样、系统抽样、多阶段抽样)及适用场合 ;非随机抽样:含义以及具体的抽样方法(重点抽样、典型抽样、任意抽样、配额抽样)及适用场合)1、 普查:是指为搜集某种社会经济现象在某时某地的情况而专门组织的一次性全面调查。特点:涉及面广、工作量大、时间性强、耗费较多、组织工作复杂。适用范围:限于重大全局性问题,提供基本的全面统计基础资料,如人口普查、经济普查等。2、 随机抽样调查:是指按随机原则从总体中抽取部分单位进行调查,并借以推断和认识总体的一种统计方法。特点:最科学的非全面调查。(1)简单随机抽样(纯随机抽样):是不对总体做任何加工整理,按照随机原则直接从总体N个单位中抽取n个单

7、位作为样本进行调查的抽样方式。它是最基本也是最简单的抽样组织方式,分为重复和不重复抽样两种情况。特点:简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其他辅助信息以提高估计的效率(2)类型抽样(分层抽样或分类抽样):是将总体单位先按一定标志分组,然后在各组中随机抽取样本的抽样组织方式。类型抽样是应用于总体内各单位在被研究标志上有明显差别的抽样。主要原则是:分组时应使组内差异尽可能小,使组间差异尽可能大。优点:保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以

8、对总体参数进行估计,也可以对各层的目标量进行估计(3)等距抽样(机械抽样或系统抽样):是先将总体各单位按有关标志或无关标志进行排列,再按照固定的顺序和间隔来抽选样本单位的一种抽样组织形式。等距抽样是不重复抽样,通常可以保证被抽取的单位在总体中均匀分布,缩小各单位之间的差异程度,提高样本的代表性。优点:操作简便,可提高估计的精度缺点:对估计量方差的估计比较困难(4)整群抽样:是先将总体各单位划分成若干群,再以群为单位从中随机地抽取出若干群来,对被抽中群的所有单位进行调查的一种抽样组织形式。特点:抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施它的精度比起简单随机

9、抽样来要低一些。(5)多级抽样(多阶段抽样):他把抽取样本单位分为n个步骤进行,即先从总体中抽取一级单位,然后再从抽中的一级单位中抽取二级单位,直到抽取最终单位。特点:具有整群抽样的优点,保证样本相对集中,节约调查费用需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开在大规模的抽样调查中,经常被采用的方法三、非随机抽样调查:是指调查者有意识地或随意而非随机地从总体中抽取部分单位进行调查的统计方法。特点:一般不用于推算总体指标。(1)重点抽样,是指只对总体中为数不多但影响颇大的重点单位进行研究的一种非全面调查。特点:以较少的人力、物力和财力,几时地掌握总体的

10、基本情况及其发展变化的基本趋势。(2)典型抽样,是指根据对调查对象的初步了解,有意识地从中挑选具有代表性的单位进行研究的一种非全面调查。要注意典型性。作用:“解剖麻雀”,推论一般,指导全局,促进统计研究的深化。(3) 任意抽样(方便抽样、随意抽样)是指调查者随意抽取调查单位进行调查的一种方法。常用于市场调查和民意调查,例如柜台顾客调查、街头路边拦截访问等等。特点:不能保证每个单位都有相同中选机会。(与随机抽样相区分)(4) 配额抽样,是在总体作若干种分类和样本总容量既定的轻狂下,按配额从总体各部分抽取调查单位进行调查的方法。例如:为研究暨大本科生学习状况,拟从暨大本科生中抽取500人,指定从2

11、006级春季班中抽取30人,男生18人,女生12人;类似地,给其他各个班级指定抽选的额定人数。此即配额抽样。四、定期统计报表:是指按国家统一规定的指标体系、表格形式、报送程序和报送时间,定期地自下向上地向国家和上级主管部门报送统计资料的一种统计调查形式。(与抽样无关)4、统计调查方案的内容(调查对象、调查单位和报告单位)关于统计调查目的、对象、内容、方法、步骤、时间、经费和组织领导等的工作计划,即是统计调查方案。它是指导统计调查工作的纲领性文件。调查对象和调查单位对应统计调查中的总体和总体单位,调查对象是由调查单位组成的整体,调查单位是调查项目的承担者。例如,要了解某地区国有企业工业设备的状况

12、,那么调查对象就是“某地区国有企业工业设备”,调查单位就是该地区国有企业的每一台工业设备。报告单位又叫填报单位,指按照要求负责填报调查结果的单位,只能是机构或者个人。调查单位既包括机构、个人,也包括物。二者有时重合,有时候不同。5、调查误差:含义与分类;产生原因;防止和减少调查误差的方法一、调查误差的含义:是指调查所得的统计数字与调查对象的实际数量之间的差异。二、调查误差的种类:(1)非代表性误差(工作误差):由于调查工作中的失误造成的误差。(人为误差,理论上可以消除)(2)代表性误差:以部分推断总体时必然存在的误差。(无法消除,但可以进行控制和计算)随机抽样中的名称是抽样误差。三、非代表性误

13、差的产生原因1 调查方案规定不妥而产生的设计误差;2 调查过程记录不准转抄有误产生的登记误差;3 计量工具不准,数据折算汇总有误产生的误差;4 因(被)调查者弄虚作假造成的误差。5 无论全面调查还是抽样调查中都会出现,都是人为的误差,可以避免和减少。四、防止或者减少统计误差的办法(1)要正确周密地制定统计调查方案(2)健全原始记录,完善统计台账(3)加强对统计人员的培训,提高统计人员的素质(4)要加强对统计调查资料的审核(5)要科学地抽取样本和选择典型(6)加强统计司法,严惩弄虚作假行为6、调查项目和调查表调查项目是指作为调查内容规定下来的有关调查单位的特征(标志)。例如某位学生的性别、年龄、

14、身高、体重、某课程分数等等;调查表:合理有序排列调查项目的表格。单一表,只能填写一个调查单位的调查表;一览表,可以同时填写若干调查单位的调查表。第三章:统计整理1、统计整理的含义以及意义,统计整理的程序和过程。统计分组的概念、统计分组的种类含义:根据统计研究的目的和要求,对统计所得的各项资料进行审核、科学分组和汇总的工作过程。整理的资料也包括历史资料。意义:是整个统计工作的中间环节,是数据收集(统计调查)过程的继续和深化,又是统计分析的基础。统计整理的程序:审核分组汇总制表与绘图 。1 对数据进行全面审核、筛选和排序;2 根据研究目的和要求,讲各指标进行分类分组;3 在分类分组的基础上,进行汇

15、总,得到各种指标;4 编制统计表,绘制统计图,将资料简洁系统地进行展示。一、统计整理的审核:(1)审核资料的完整性和及时性。(2)审核资料的准确性。(3)历史资料的审查。(4)资料审查后的订正。二、统计整理的分组:(1)统计分组:指根据社会经济现象的特点和统计研究的目的要求,按某种重要标志把总体分成若干部分的科学分类。分组原则:组内尽量相似,组间尽量差异。统计分组的关键:选择分组标志;划分各组界限。(2)统计分组的作用:划分社会现象的不同类型揭示社会经济现象的内部结构分析社会现象间的依存关系(3)统计分组的种类:按分组的作用或目的不同:类型分组、结构分组和分析分组。按分组标志的多少和分组形式:

16、简单分组、复合分组和并列分组。按分组标志性质:品质分组和数量分组。(4)统计分组的标志选择:分组标志:是指将总体划分为性质不同的组的标准或依据。分组标志选择的要求:要符合统计研究的目的和要求必须选择最主要的标志作为分组依据要考虑社会经济现象所处的具体历史条件三、统计整理的汇总:(1)概念:将统计资料归并到各组中去,并计算各组和总体的合计数的工作过程。(2)作用:将各个调查单位的情况,汇总成总体情况,使我们能看到全体,进而揭示总体在多方面的数量特征。四、统计整理的制表:(1)要合理安排统计表的结构。(2)总标题应该简要反映表的基本内容,还要指出资料所属时间和地点。(3)数据计量单位相同时,可放在

17、表的右上角标明,不同时应放在每个指标后或单列出一列标明。(4)表中的上下两条横线一般用粗线,其他线用细线。(5)通常情况下,统计表的左右两边不封口。6)表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一。7)对于没有数字的表格单元,一般用“”表示8)必要时可在表的下方加上注释2、统计分组:组数与组距、数值型数据的统计分组:等距分组与异距分组,组限与组中值计算,开口组的组距计算等一、组数:即将总体分为几组。(1)品质分组的组数由两个因素决定:事物本身的特点和统计研究的任务(2)数量分组的组数由两个因素决定:全距=最大标志值最小标志值组距=各组最大标志值(上限)各组最小标志值

18、(下限)=全距组数二、组距:各组的最大标志值(上限)与最小标志值(下限)之差。三、组限:是指每组两端的数值,其中每组的起点数值(最小值)称为下限,最点数值(最大值)称为上限。四、组中值:是各组组距的中点值,代表组内各标志值的一般水平,具有平均数性质(但不是平均数)。五、计算:【例题】(1)重合式:指相邻两组中,前一组的上限和后一组的下限数值重合。一般用于连续型变量。组距=上限下限组中值=(上限下限)2=下限组距/2=上限组距/2 (2)不重合式:指前一组的上限与后一组的下限,两值紧密相连而不相重复。一般用于离散型变量。组距=下组下限本组下限=本组上限前组上限组中值 =(本组下限下一组下限) 2

19、=本组下限组距/2=下组下限组距/2 组数、组距确定的斯特杰斯经验公式 其中n为组数,N为总体单位数,d为祖居,R为全距。分组形式:一、单项式分组:(1)适合于离散变量(2)将一个变量值作为一组(3)适合于变量值变动幅度较小的情况二、组距式分组:1、适合于连续变量和变动幅度较大的离散变量2、适合于变量值较多的情况3、将变量值的一个区间作为一组必须遵循“不重不漏”的原则4、可采用等距分组,也可采用不等距分组等距分组:标志变量在各组保持相等组距。在分组标志变化比较均匀的情况下适合用等距分组。不等距分组:标志变量在各组中的组距不相同。标志值急剧增长或下降时适合用不等距分组。3、统计表的含义 、结构及

20、其种类统计表,是指集中而有序地显示统计资料的表格。它是表现统计数据和累计统计资料的基本手段。统计表的结构由表头(表号、总标题和表中单位),行标题,列标题,数字资料和表外附加5个部分构成。统计表按照用途的不同可以分为调查表、汇总表和分析表。按照主词的分组情况不同可以分为简单表,分组表和复合表。4. 统计图的含义及其类型统计图是具体展示统计资料的图形。它主要分为两大类:分布图和形象图。一、分布图分布图展现了统计资料的次数分布和类型特征。常见的分布图有直方图、折线图、曲线图和累计曲线图。二、形象图形象图主要展现统计资料描述的数量、速度和结构特征。常见的图有物形图、饼形图、柱形图和标示图。三、数据类型

21、划分(1) 分类数据分类数据可以用比例,比率,百分比等统计量描述,他们适用的统计图有条形图,柱形图,帕累托图和饼图。(2) 顺序数据顺序数据还可以使用累计频数和累计频率图、环形图。(3) 数值型数据数值数据还可以使用直方图、折线图等方式。【例题】5、分布数列及其种类;一、分布数列(次数分布或次数分配):指反映总体单位在各组分布状况的一系列数字。分布数列组成要素:(1)组的名称;(2)各组次数(频数)或频率二、分布数列的种类:(1)按分组标志的不同:品质数列,是指按品质标志分组所形成的分布数列,它由各组名称和各组单位数构成。变量数列,是指按数量标志分组所形成的分布数列,由变量和次数两个要素组成。

22、(2)按分组形式不同:单项式数列,是指各组都由一个具体的变量值(单项)来表示的数列。组距式数列,是指各组都由两个变量值界定的变量区间(组距)来表示数列,又分为等距数列和不等距数列。(3)按次数分布的特征不同:钟形分布数列,数列中愈靠近变量值中点分布次数愈多,愈远离变量值中点分布次数愈少。又分为对称分布、右偏分布(图1)和左偏分布(图2)。口诀:右偏左倚,左偏右倚。J形分布数列。(图3是正J型,图4是负J型)U形分布数列(图5)。 第四章:总量指标和相对指标1、总量指标的含义。总量指标的分类:总体总量与标志总量;时期指标与时点指标。;一、总量指标(绝对指标):是反映社会经济现象在一定时间、地点条

23、件下所达到的总规模、总水平或工作总量的综合指标。、二、总量指标的种类:(1)按其反映总体内容不同:总体总量,即总体单位数,是由每个总体单位加总而得到的。标志总量,是指总体各单位某一数量标志的总和。(2)按其反映时间状态的不同:时期指标(时期数),是指反映社会经济现象在一段时间内所达到的总规模、总水平或工作总量。时点指标(时点数),是指反映社会经济现象在某一时点(时刻)所达到的数量状态。(3)按采用的计量单位不同:实物指标,是指以实物单位计量的总量指标,即以事物的物理属性或自然属性作为计量单位的指标。价值指标,是指以货币为计量单位的总量指标。劳动量指标,是指以劳动量单位计量的总量指标。补充:时期

24、指标与时点指标的比较:时期指标的特点(1)时期指标数值连续统计(2)不同时期的时期指标数值可以累计相加(3)时期指标数值大小与统计期限长短有关时点指标的特点1) 时点指标的数值间断统计 2) 不同时期的时点的指标数值不能累计相加3) 时点指标的数值大小与其时间间隔长短无直接相关2、相对指标的概念;相对指标的表现形式;相对指标的种类及各自最基本的计算公式;一、相对指标:两个有联系的统计指标进行对比的比值,用以反映现象的发展程度、结构、强度、普遍程度或比例关系。表现形式:单名数和复名数无名数:如成数、比例、倍数、百分数、千分数。没有计量单位。有名数:如密度、强度等复合单位的相对数(克/立方米、元/

25、人)。二、相对指标的种类:(1)计划完成相对数:现象在某一段时间内的实际完成数与计划完成数之比。作用:考核、反映计划完成的程度(进度)。产量、产值增长百分数:计划完成相对数=(100%+实际增长%)/(100%+计划增长%)100%产品成本降低百分数:计划完成相对数=(100%-实际降低%)/(100%-计划规定降低%)100%(2)结构相对数:总体中某部分数值与该总体数值对比的比值。作用:反映总体内部构成情况的综合指标。分子分母不能互换!特点:必须与统计分组相结合;分子的数值是分母数值的一部分;总体中各部分比重之和等于1或100;表现形式为无名数(百分数、千分数或 成数)。(3)比例相对数:

26、同一总体内某一部分数值与另一部分数值对比的比值。作用:反映总体各部分间的内在联系与比例关系。(同一总体不同部分比较)特点:对比的分子分母属于同一总体;分子分母可以互换(与结构相对数的区别);比例相对数的数值,一般用百分数或几比几的形式表示。(4)比较相对数:同一时间的同类指标在不同空间对比的比值。作用:反映同类现象在不同空间的数量差异或不平衡程度,发现先进与后进。特点:分子分母的数值分别属于不同的总体;分子分母是同类指标;分子分母可以互换。(5)动态相对数:某一社会经济现象在不同时期两个数值对比的比率,又称发展速度或指数。作用:反映事物发展变化的方向与程度。其中:报告期又称计算期,是研究或计算

27、时期。基期是作为比较基础的时期。6)强度相对指标:两个性质不同但有一定联系的总量指标之间的对比。作用: 反映事物存在的密度、普遍程度、运动强度、负担强度 ; 反映经济效益的高低。特点:强度相对数一般采用有名数(复名数)为计量单位,即由分子分母原有的计量单位构成。有的强度相对指标分子分母可以互换,有正指标和逆指标,正指标的比值的大小与其反映的强度、密度和普遍程度成正比,而逆指标正好相反。第五章:平均指标1、平均指标意义与特点、平均指标概念和作用、平均指标的种类一、平均指标:同质总体某一标志在一定时间、地点、条件下所达到的一般水平,是总体的代表值,它描述分布数列的集中趋势。特点:同质性、代表性和抽

28、象性。作用:可以比较同类现象在不同单位、不同地区间的平均水平;可以比较同类现象在不同时期的平均水平;可用于研究事物之间的依存关系;利用平均数还可以进行推算和预测。二、平均指标的种类:(1)数值平均数:算术平均数、调和平均数和几何平均数。(2)位置平均数:众数和中位数。2、算术平均数、基本计算公式、简单算术平均数的计算、加权算术平均数的计算、根据单项数列计算、根据组距数列计算一、算术平均数:算术平均数=同一总体的标志总量/同一总体的总体总量(1)简单算术平均数:(2)加权算术平均数:(3)交替标志平均数:以1作为具有某种属性的单位标志值,以0作为不具有某种属性的单位标志值。利用加权算术平均数可得

29、。算术平均数的数学性质(1)算术平均数与总体单位数的乘积,等于各单位标志值的总和。(2)各单位标志值与算术平均数离差之和等于0。(3)各单位标志值与算术平均数离差平方之和为最小。(4)对各单位标志值加或减一个任意数a,则算术平均数也要增加或者减少该数a。(5)对各单位标志值乘以或除以一个任意数b,则算术平均数也要乘以或除以该数b。3、调和平均数、加权调和平均数的计算;几何平均数、简单几何平均数的计算、加权几何平均数的计算一、调和平均数(倒数平均数)(1)简单调和平均数:是标志值倒数的算数平均数的倒数。 (2)加权调和平均数:是指各单位标志值倒数的加权算术平均数的倒数。(3)由相对数或平均数计算

30、平均数:(P110)二、几何平均数:几何平均法是n个变量连乘积的n次根。一般适用于各变量值之间存在环比关系的事物。(1)简单几何平均数:(2)加权几何平均数:(3)注意:变量数列中任何一个变量值不能为0,一个为0,则几何平均数为0。用环比指数计算的几何平均易受最初水平和最末水平的影响。几何平均法主要用于动态平均数的计算。4、众数与中位数、掌握单项数值数列的众数和中位数的含义一、众数:总体中出现次数最多的变量值,通常以符号M0表示。优点:不受极端值的影响。可能没有众数或有几个众数。(1)由组距数列计算众数:第1步确定众数所在的组,第2步通过公式计算众数值。下限公式:M0=L+1/(1+2)i上限

31、公式:M0=U-2/(1+2)i(2)通过绘图来求众数:第一步画相邻三组次数分布直方图,第二步连接相邻两组次数差的对角线,第三步以对角线的交点向X轴垂线,它与X轴的交点即为众数。二、中位数:总体各单位标志值按大小排序后,处于中间位置上的标志值,通常以符号Me表示。优点:不受极端值的影响。(1)未分组数据:中位数位置=(N+1)/2(2)组距分组数据:中位数位置=N/23、算术平均数、众数与中位数的关系,会通过这个关系来判断数据的分布形态(1)算术平均数、众数和中位数的关系:左偏分布均值 中位数 众数对称分布 均值= 中位数= 众数右偏分布众数 中位数 均值(2)算术平均数、调和平均数和几何平均

32、数的关系:HGx4、变异度指标的概念、作用和种类;变异度指标(标志变动度指标):是综合反映总体各单位标志值及其分布的差异程度的指标。作用:(1)衡量平均数代表性的重要尺度。变异度指标值越大,平均数的代表性越低;反之亦然。(2)衡量现象变动的稳定性和均衡程度。(3)计算抽样误差和确定样本量的依据。变异度指标的种类:(1)全距、四分位差(2)平均差、标准差、方差、离散系数(3)偏度、峰度2、掌握各种变异度指标的含义和计算(若考计算,数据都很少,计算过程非常简单):全距、标准差和方差,变异系数的含义、种类及计算一、全距(极差):是指总体各单位标志值中最大值与最小值之差,一般以R表示。二、四分位差:是

33、指四分位数中间两个分位数之差,一般以Q表示。优缺点:计算简单,意义清楚,反映现象的差异程度较粗略和不全面,实用价值甚小。三、平均差:是指总体各单位标志值对其算术平均数的离差绝对值的算术平均数,一般以A.D.表示。未分组数据(不加权): 组距分组数据(加权):优缺点:能全面反映一组数据的离散程度。由于采用绝对值运算,数学性质较差,实际中应用较少。四、标准差(均方差):是总体各单位标志值对算术平均数的离差的平方的算术平均数的平方根。一般以表示。方差:标准差的平方。一般以2表示。优点:反映了各单位标志值与算术平均数的平均差异;且计算简单,易于数学处理。计算公式:(1)总体方差和标准差:未分组数据 组

34、距分组数据(2)样本方差和标准差:未分组数据 组距分组数据五、变异系数(离散系数或标志变动度系数):是指各种变异度指标与其算术平均数对比得到的相对数,包括平均差系数和标准差系数。平均差系数:平均差与算术平均数的比值。标准差系数:标准差与算术平均数的比值。3、了解偏度和峰度的判断准则一、偏度:反映总体次数分布偏侧方向和程度的指标。偏态系数:是偏度与总体标准差之比,反映分布列的相对偏斜程度。偏态系数=0为对称分布;偏态系数 0为右偏分布;偏态系数0,右偏;0,右偏;0,左偏。二、峰度:是指统计学中描述对称分布曲线峰顶尖峭程度的指标。峰度系数:以四阶中心动差为基础,计算相对数指标。峰度系数=3扁平程

35、度适中;偏态系数3为尖峰分布(尖顶峰)。分组型数据峰度求法如下:补充:偏度与峰度的简捷计算。m1=M1-M1=0m2=M2-M12m3=M3-3M2M1+2M13m4=M4-4M3M1+6M2M12-3M14补充:间接法。变量值较大且为等距数列的情况。(1)先对变量x作线性变化,令,a为中间组的组中值,b为的最大公约数。(2)求y的k阶原点动差。(3)由y的k阶原点动差推算y的k阶中心动差。(4)由y的中心动差推算x的中心动差。公式为:第六章: 概率与概率分布1、概率基本性质与基本运算,会计算不同随机事件的概率一、随机现象以及样本空间在相同条件下重复试验得到的结果未必相同,这种现象叫做随机现象

36、。在随机试验中,样本空间中每一个特定的试验结果,即每一个基本结果称为随机试验的基本事件或样本点,用表示;而由试验中所有基本结果的集合称为基本事件空间或样本空间,记为二、概率模型古典概型:()结果为有限个;()每个结果出现的可能性是相同的试验概率:根据统计试验整理而来的后验概率和统计概率。优点:不受古典概率的两个特点的限制,容易理解。缺点:试验不能无限制的进行下去。主观概率三、概率的基本性质性质1(非负性) 0P(A)1性质2(规范性) 必然事件概率为1,不可能事件概率为0。P()1 P()1性质3(可列可加性) 若A1,A2,An,两两互斥,则性质4(加法公式) 设A,B为任意两个随机事件,则

37、P(AB)P(A)P(B)P(AB)性质5(对立事件) 设A为任意随机事件,则P()1P(A)性质6 (包含事件) 设A,B为两个任意的随机事件,若AB,则P(BA)P(B)P(A)四、条件概率在事件B已经发生的条件下事件A发生的概率,称为已知事件B时事件A的条件概率,记为P(A|B) 。其计算公式为概率的乘法公式:P(AB)P(A)P(B|A) 全概率公式:对任一事件B,有上式称之为全概率公式贝叶斯公式:设A1,A2,An是某一随机试验的一个完备事件组,对任意事件B(P(B)0),在事件B已发生的条件下事件Ai发生的概率为(逆概率公式) 2、概率分布:常见的离散型分布及其期望和方差(两点分布

38、、二项分布、泊松分布和超几何分布);常见的连续型分布及其期望方差(正态分布与标准正态分布)一、随机变量在条件S下,随机试验的每一个可能的结果都用一个实数XX()来表示,且实数X满足:()X是由唯一确定()对于任意给定的实数x,事件Xx都是有概率的,则称X为一随机变量二、离散型随机变量(1)离散型随机变量的性质非负性: 规范性:(2)几种常见的离散型随机变量的概率分布 01分布设随机变量X的分布为 P(X1)p, P(X0)1p (0p1),则称X服从参数为p的01分布,记为XB(1,p) 二项分布设随机变量X的分布为 (k0,1,2,n;0p1,q1p),则称X服从参数为n、p的二项分布,记为

39、XB(n,p) 泊松(Poisson)分布设随机变量X的分布为则称X服从参数为的泊松分布,记为XP() 超几何分布设随机变量X 则称X服从参数为n,M,N的超几何分布,记为XH(n,M,N)分布名称符号均值方差01分布B(1,p)pp(1p)二项分布B(n,p)npnp(1p)泊松分布P(l)ll超几何分布H(n,M,N)(3)几种常见的连续型随机变量的概率分布 均匀分布设随机变量X的分布密度函数为 ,则称X服从参数为a,b的均匀分布,记为XU(a,b)。其均值EX=,方差DX=。 指数分布设随机变量X的分布密度函数为 则称X服从参数为的指数分布,记为XE()其均值EX=,方差DX=。 正态分

40、布设随机变量X的分布密度函数为 ,其中,为常数且0,则称X服从参数为,2的正态分布,记为XN(,2)性质1、图形是关于x=对称的钟形曲线,且峰值在x= 处2、均值和标准差一旦确定,分布的具体形式也惟一确定,不同参数正态分布构成一个完整的“正态分布族” 3、均值可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的“陡峭”或“扁平”程度。越大,正态曲线扁平;越小,正态曲线越陡峭4、当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交5、正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1 特别地,称0,21的正态分

41、布为标准正态分布,其密度函数为其分布函数记为,且。标准正态分布的使用(1)将一个一般的转换为标准正态分布(2)计算概率时 ,查标准正态概率分布表(3)对于负的 x ,可由F (-x)-1=F (x)得到(4)对于标准正态分布,即XN(0,1),有,。(5)对于一般正态分布,即XN(m , s),有3、大数定律、中心极限定理一、大数定理切比雪夫大数定律 设随机变量X1,X2,相互独立,均具有有限方差,且被同一常数C所界:D(Xi)C(i1,2,),则对于任意的正数e,有特殊情形:若X1,X2,具有相同的数学期望E(Xi)m,则上式成为 切比雪夫大数定律指出,n个相互独立,且具有有限的相同的数学期

42、望与方差的随机变量,当n很大时,它们的算术平均以很大的概率接近它们的数学期望伯努利大数定律 设m是n次独立试验中事件A发生的次数,p是事件A在每次试验中发生的概率,则对于任意的正数e,有伯努利大数定律说明,当试验次数n很大时,事件A发生的频率与概率有较大差别的可能性很小,即这就以严格的数学形式描述了频率的稳定性辛钦大数定律 设X1,X2,Xn,是相互独立同分布的随机变量序列,且E(Xn)m,则对于任意的正数e有二、中心极限定理中心极限定理:设Xn为随机变量列,并且, 令若对于x(,)一致地有则称Xn服从中心极限定理列维林德伯格定理 设随机变量X1,X2,相互独立,服从同一分布,且具有相同的数学

43、期望和方差:E(Xk)m,D(Xk)s20(k1,2,),则随机变量成立时,此定理也称为独立同分布的中心极限定理棣莫弗拉普拉斯定理:设随机变量X1,X2,均为具有参数n,p(0p1)的二项分布,则对于任意实数x,有第七章:抽样调查与参数估计1、抽样调查的概念及特点;总体、样本;总体指标(参数)与样本指标(统计量);样本量和样本可能数目;重复抽样与不重复抽样;一、抽样调查的概念以及特点抽样调查有广义和狭义之分。广义来看,它是指从研究总体中按照一定的原则抽取部分单位作为样本,进行观察研究以认识总体的一种统计调查方法。分为概率抽样和非概率抽样。非概率抽样:指从总体中有意识地抽取部分单位作为样本的方法

44、。如典型抽样、定额抽样、便利抽样、重点抽样。狭义抽样调查:即概率抽样,从总体中按照随机原则抽取部分单位作为样本,用样本的结果去推断总体参数的调查方法。也称为随机抽样。本讲内容主要讲概率抽样。特点:(1)抽样调查是一种非全面调查。(2)抽样调查完全是按照随机的原则来抽取调查单位的。(3)抽样调查是用总体中部分单位的指标去推测总体指标的数值。(4)抽样调查的误差可以事先计算并且加以控制。二、总体和样本;总体指标和样本指标(1)总体:所要认识的研究对象全体,它是由所研究范围内具有某种共同性质的全体单位所组成的集合体。一般用N来表示总体的单位数。(2)样本:从总体中随机抽取出来,作为代表这一总体的那部

45、分单位组成的集合体。一般用n表示样本单位数。(3)总体指标(参数):根据总体各单位的标志值或标志属性计算的综合指标。其是惟一确定的。例如总体平均数 ;总体标准差;总体比例。(4)样本指标(统计量):根据样本各单位标志值或标志属性计算的综合指标。例如样本平均数;样本标准差;样本比例。三、样本量和样本等可能数(1)样本量n:一个样本中所包含的单位数,也称作样本容量。在抽样调查中,样本容量越大,抽样误差就越少,但是所花费的成本也就越大。一般来说,n大于30就可以成为大样本,n小于30就成为小样本。(2)样本可能数目:不同的抽样方式和方法从总体中可能抽取的样本的个数,也称样本可能个数。在抽样设计中,样

46、本可能数目的多少与抽样方式(重复或者不重复)、取样要求(考虑顺序否)密切相关。四、重复抽样和不重复抽样(1)重复抽样(放回抽样):同一单位有多次重复被抽中的机会,并且每次抽样之前总体单位数目始终不变,每个单位抽中或抽不中的机会在各次都是相同的。可以看作是进行n次抽取可以看成是进行n次相互独立的试验。(2)不重复抽样(不放回抽样):同一单位只有一次被抽中的机会,并且总体单位数目随着样本单位数目抽取的次数的增多而愈变愈少。每个单位抽中或抽不中的机会在各次是不同的。修正系数为2、抽样分布:样本统计量的概率分布;样本均值、样本比例、样本方差的抽样分布;一、抽样分布的概念抽样分布是对样本统计量的概率分布

47、。它是研究样本分布和总体分布的桥梁,提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据。样本统计量的概率分布提供了样本统计量的稳定的信息,构成了推断总体参数的基础。二、样本均值的抽样分布(1)重复抽样情况下样本均值的抽样分布概念:在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布,它是推断总体均值的理论基础。样本均值的期望 样本均值的抽样平均误差样本均值的标准正态分布:(2)不重复抽样下样本均值的抽样分布样本均值的期望 样本均值的抽样平均误差在同等条件下,不重复抽样的抽样平均误差总是小于重复抽样的抽样平均误差。三、样本比例的抽样分布(1)重

48、复抽样情况下样本比例的抽样分布样本比例的期望 样本比例的抽样平均误差(1)不重复抽样情况下样本比例的抽样分布样本比例的期望 样本比例的抽样平均误差四、样本方差的抽样分布(不是重点)(1)样本方差是总体方差的无偏估计量 (2)比值服从自由度为n-1的卡方分布 3、参数估计的一般问题:估计量估计值;点估计和区间估计;估计量优良的标准;一、参数估计的一般问题参数估计是指用样本估计量来估计总体参数的一种方法。(1)估计量估计量是指用来估计总体参数的统计量的名称,如样本均值、样本成数和样本方差。(2)估计值估计值是指用来估计总体参数时计算出来的具体的数值。二、点估计和区间估计(1)点估计:用样本统计量的

49、某个取值直接估计总体的估计值。(2)区间估计:用样本统计量得到总体参数估计的区间范围。置信度:总体参数落在区间的概率,也称为置信水平。置信区间:在一定概率下某总体参数的区间范围。三、估计量的优良标准(1)无偏性:是指样本指标估计总体指标时,要求样本指标所有可能取值的平均数等于估计总体指标的属性。证明是无偏估计量:样本平均数x是总体平均数X的无偏估计量。样本方差Sn2是总体方差2的有偏估计量。样本方差S2n-1是总体方差2的无偏估计量。(2)有效性:是指用样本指标估计总体指标时,要求样本方差为最小的属性。(3)一致性:是指用样本指标估计总体指标时,要求当样本单位数逐渐增大时,样本指标逐渐趋于总体

50、指标的属性。4、总体均值、总体比例和总体方差的区间估计;一、置信区间与置信度设总体X含有一个待估的未知参数q 如果我们从样本x1,x2,xn出发,找出两个统计量q 1q 1(x1,x2,xn)与q 2q 2(x1,x2,xn)(q 1q 2),使得区间q 1,q 2以1a (0a 1)的概率包含这个待估参数q ,即Pq 1q q 21a ,那么称区间q 1,q 2为q 的置信区间,1a 为该区间的置信度(或置信水平)二、总体均值(1)总体方差已知。总体均值的区间为(2)非正态分布总体且大样本(n30)、正态分布且大样本。总体均值的区间为(3)正态总体,小样本。总体均值的区间为总体分布样本量方差

51、已知方差未知正态总体大样本(n=30)小样本(n=30)三、总体比例总体比例的区间为四、总体方差总体方差的区间为4、影响置信区间宽度的因素分析;必要样本量的计算;抽样极限误差与抽样平均误差的含义以及二者之间的区别与联系;一、影响置信区间宽度的因素分析(1)总体数据的离散程度,用来测度(2)样本容量(3)置信水平 (1 -),影响 z 的大小二、必要样本量的计算根据抽样极限误差的定义,我们可以得到在重复条件下,最小样本量为:,在不重复的条件下,最小样本量为三、抽样误差:实际误差,抽样极限误差与抽样平均误差。误差:由样本得到的估计值与被估计的总体未知参数之差,或样本指标数值与总体指标数值之间的差数

52、。抽样误差(随机误差):按随机原则抽样时,由于随机抽样的偶然因素而引起的抽样指标和全及指标之间的绝对离差。其不包括登记误差和系统性误差。(1)抽样实际误差:是指在一次抽样中由随机因素引起的样本指标与总体指标之间的离差。(2)抽样平均误差:是指样本平均数(或样本成数)的标准差。它反映了所有抽样结果所得的样本指标值与总体指标值的平均误差。实际计算公式如下:(未知的时候可以用s代替)(总体比例同理) 重复抽样: 不重复抽样(3)抽样极限误差(置信区间):抽样机线误差是指样本统计量和总体参数之间的可能误差范围。记作E或者。计算公式为四、样本容量n与总体方差、边际误差E、可靠性系数Z或t之间的关系为与总体方差成正比与边际误差E(抽样极限误差)的平方成反比与可靠性系数Z成正比5、关于总体均值和总体比例的区间估计计算置

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论