第7章 统计抽样技术.ppt_第1页
第7章 统计抽样技术.ppt_第2页
第7章 统计抽样技术.ppt_第3页
第7章 统计抽样技术.ppt_第4页
第7章 统计抽样技术.ppt_第5页
已阅读5页,还剩94页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、,统计学原理(第七讲),统 计 抽 样 技 术,教学目的与要求: 统计抽样技术是抽样调查的继续,它提供了一套利用抽样资料来估计总体数量特征的方法。通过本章的学习,要求: 1、理解统计抽样的含义与特点; 2、理解抽样误差及其影响因素; 3、重点掌握抽样平均误差的含义及其 计算; 4、重点掌握抽样极限误差的含义、计 算及区间估计 5、了解抽样的组织形式,掌握必要样 本数目的含义及其计算 6、能结合实际资料进行抽样估计。,本 章 主 要 内 容:,统计抽样的含义与特点,抽样误差及其影响因素,抽样估计的方法,抽样的组织设计,一、抽样推断的概念和特点,概 念,统计抽样是抽样调查和抽样推断的总称,是按随机

2、原则从总体中抽取部分单位进行调查,并根据这部分单位的调查资料推算总体数量特征的一种统计分析方法。,特 点,由部分推断整体。,按随机原则抽取样本单位。,运用了概率估计的方法。,抽样误差可以事先计算并加以控制。,第一节 统计抽样的意义,二、统计抽样的作用,1、能够解决全面调查无法或难以解决的问题,2、可以补充和修订全面调查的结果,3、可以在短期内取得时效性强的资料,4、可以应用于生产过程中产品质量的检查和 控制,三、统计抽样的基本概念,(一)全及总体 和 样本总体,全及总体:,简称总体,指所要认识的研究对象全体,又叫母体。总体单位总数用“N”表示。,总体样本:,简称样本。是从全及总体中随机抽取出来

3、的那部分单位组成的集合体,又叫子体。样本单位总数用“n”表示。,(二)全及指标(参数)和样本指标(统计量),参 数,反映总体数量特征的全及指标,参数,研究总体中 的数量标志,总体平均数,总体标准差,研究总体中 的品质标志,总体成数,成数方差,(只有两种表现),是非标志,(未分组资料),(分组资料),(分组资料),成数平均数,统 计 量,根据样本总体计算的综合指标。,研究数 量标志,样本平均数,样本标准差,研究品 质标志,样本成数,成数标准差,(分组资料),(分组资料),成数平均数,注: 1、全及总体是唯一确定的,所以根据全及总 体计算的全及指标也是唯一确定的,但它 是未知的。 2、样本总体是不

4、确定的,所以根据样本总体 计算的样本指标是不确定的,它是样本的 函数,是个随机变量,但它是已知的。,(三)样本容量和样本个数,样本容量:,一个样本包含的单位数。用 “n”表示。 一般要求 n 30(大样本),样本个数:,从一个全及总体中可能抽取的样本的总 体的个数,注:1、社会经济统计中的抽样调查多属于大样本 调查;,2、本章的计算和分析都是建立在大样本的理 论基础上.,注:可能抽取的样本个数与样本容量及抽样方法 等因素有关。,(四)重复抽样和不重复抽样,重复抽样:,又称回置抽样。,可能组成的样本数目:,不重复抽样:,又称不回置抽样。,可能组成的样本数目: N(N-1)(N-2)(N-n+1)

5、,(考虑样本单位的前后顺序),(考虑样本单位的前后顺序),例如:从A、B、C、D四个单位中,抽出两个单位构成一个样本,问可能组成的样本数目是多少?,重复抽样,A,A,AC,AD,B,A,BB,BC,BD,AB,C,A,CB,CC,CD,D,A,DB,DC,DD,= 42 =16 (个样本),不重复抽样,N(N-1)(N-2).,43 = 12(个样本),注:根据概率论,在相同样本容量的要求下,同一个总体的重复抽样的样本个数总是大于不重复抽样的样本个数,第二节 抽 样 误 差,一、抽样误差的意义,抽样误差:是指在遵循随机原则的前提下,抽样 指标和全及指标之间的差别或离差。 区别:登记误差 系统误

6、差,误差:客观现象的统计资料与客观现象真值之间 的差别,1、概 念,2、影响抽样误差大小的因素,1)、总体各单位标志值的差异程度,2)、样本的单位数,3)、抽样方法,4)、抽样调查的组织形式,二、抽样平均误差,抽样平均误差:是指所有可能的样本指标与总体指标之间离差平方的算术平均数的平方根。 即抽样平均数或抽样成数的标准差,反映了抽样指标与总体指标的平均误差程度。,实际抽样误差:从一个总体中抽取多个样本, 每个样本指标与总体指标之间的离差。,无法测算,假设总体包含1、2、3、4、5,五个数字。则:总体平均数为,现在,采用重复抽样从中抽出两个,组成一个样本。可能组成的样本数目:25个。,如:,多数

7、样本指标与总体指标都有误差,误差有大、有小,有正、有负,抽样平均误差就是将所有的误差综合起来,再求其平均数,所以抽样平均误差是反映抽样误差一般水平的指标。,抽 样 平 均 误 差 的 计 算 公 式,抽样平均数 的平均误差,抽样成数 平均误差,(以上两个公式实际上就是第四章讲的标准差。但反映的是样本指标与总体指标的平均离差程度),实际上,利用上述两个公式是计算不出抽样平均误差的。,想一想,为什么?,1、抽样平均数的抽样平均误差的计算方法 (根据数理统计理论推出),1)重复抽样:,此公式说明,抽样平均误差与总体标准差成正比,与样本容量成反比。(当总体标准差未知时,可 用样本标准差或过去总体的同类

8、资料代替),通过例题可说明以下几点:,样本平均数的平均数等于总体平均数。,抽样平均数的标准差仅为总体标准差的,可通过调整样本单位数来控制抽样平均误差。,2)采用不重复抽样:,公式表明:抽样平均误差不仅与总体变异程度、 样本容量有关,而且与总体单位数的多少有关。,近似公式:,例73(p162),结论:1、样本指标的平均数等于总体平均数; 2、抽样平均误差实质是所有可能样本指标 之间的标准差。,抽样成数的抽样平均误差的计算方法,1)采用重复抽样:,2)采用不重复抽样:,例 题:7-4,已知:,某厂生产某型号的电子管,根据过去的情况,产品一级品率为60,现从10000件电子管中抽取100件进行检验,

9、求一级品率的抽样平均误差。,计算结果表明:不重复抽样的平均误差小于重复抽样,但是“N”的数值越大,则两种方法计算的抽样平均误差就越接近。,三、抽 样 极 限 误 差,1、抽样极限误差含义:,指在进行抽样估计时,根据所研究对象的变动程度和分析任务的要求,所确定的样本指标与总体指标之间可允许的最大误差范围。,2、计算方法:,它等于样本指标可允许变动的上限或下限与总体指标之差的绝对值。,抽样平均数极限误差:,抽样成数极限误差:,平均数置信区间:,成数置信区间:,3、抽样误差的概率度,抽样极限误差通常用抽样平均误差为标准来衡量,把抽样极限误差除以抽样平均误差,表示抽样极限误差是抽样平均误差的倍数,它是

10、测量抽样估计可靠程度的一个参数,称为概率度,通常用t表示。,公式表示:,4、抽样估计的置信度(和概率度有一一对应的函数关系),1、抽样估计置信度:是表明抽样指标和总体指标的误 差,不超过一定范围的概率保证程度。 2、抽样估计的概率保证程度:是指抽样误差不超过一 定范围的概率大小,用字母F(t)表示。 当t=1时,F(t)=68.27% 当t=2时, F(t)=95.45% 当t=3时, F(t)=99.73%,理论已经证明,在大样本的情况下,抽样平均数的分布接近于正态分布,分布特点是:抽样平均数以总体平均数为中心,两边完全对称分布,即抽样平均数的正误差与负误差的可能性是完全相等的。且抽样平均数

11、愈接近总体平均数,出现的可能性愈大,概率愈大;反之,抽样平均数愈离开总体平均数,出现的可能性愈小,概率愈小,趋于0。(见下图),正 态 概 率 分 布 图,由此可知,误差范围愈大,抽样估计的置信度愈高,但抽样估计的精确度愈低;反之,误差范围愈小,则抽样估计的置信度愈低,但抽样估计的精确度愈高。即可靠性和精确度是一对矛盾,例 题 75:,设样本粮食平均亩产量 ,又知抽样 平均误差 ,求总体粮食平均亩产量 之间的估计置信度。,查正态概率表,当t=2时,置信度为95.45, 即总体亩产量在475525千克之间的概率保证 程度为95.45。,第三节 抽样估计的方法,一、总体参数的点估计,总体参数优良估

12、计的标准,无偏性,一致性,有效性,二、总体参数的区间估计,区间估计三要素,估计值,抽样误差范围,抽样估计的置信度,精确度,可靠度,三、总体参数区间估计的方法,(一)根据给定的抽样误差范围,求概率保证程度 (可靠度),分析步骤:,1、抽取样本,计算抽样指标(抽样 平均误差);,2、根据给定的极限误差范围,求出 概率度;,3、查表求出概率F(t)即置信度.,例 题 78:,某城市随机抽取400户居民进行家计调查,得每户年耐用品的消费支出的标准差为200元,试确定该市居民年平均每户耐用品的消费支出在930.4969.6元之间的概率保证程度。,已知:,查正态概率表,得置信度为95,(二)根据给定的概率

13、F(t),推算抽样极限误差并计 算出总体参数的可能范围,分 析 步 骤:,1、抽取样本,计算样本指标。,2、根据给定的F(t)查表求得概率度 t 。,3、根据概率度和抽样平均误差计算极限误差。,4、计算被估计值的上、下限,对总体参数作出 区间估计。,某进出口公司出口一种名茶,规定每包重量不低于150克,现在不重复抽样的方法抽取其中的1进行检验,其抽查结果见下表。,例 题 77,要求以99.73的概率估计这批茶叶 平均每包的重量范围,以便确定该批 茶叶是否达到重量规格的要求,例题77解题过程:,1、计算抽样平均误差,2、计算抽样极限误差,3、计算总体平均数的置信区间,平均每包重量区间为:150.

14、30 0.26克即150.04150.56克,由F(t)=99.73%,查正态概率表的t=3,例 题 79:,某企业生产一批食品罐头工60000桶,随机不重复抽查300桶发现,其中有6桶不合格,试以95.45的可靠性估计这批罐头合格品率的可能范围,已知:N=60000,n=300,1、计算样本成数:,2、计算抽样平均误差:,t=2,所以这批罐头合格品率可能范围是98 1.6,抽样方案是统计调查方案的一种形式,是统 计抽样工作的实施计划,其基本结构与一般的统 计调查方案相同。,第四节 抽样方案的设计,一、抽样框的编制(解决如何根据目标总体抽选 被调查单位),抽样框是指由现象总体的所有单位组成的

15、一个框架,是实施抽样推断的基础条件之一.,特点:1、范围与被抽样的总体一致 2、不一定是目标总体基本单位 3、包括全部总体单位,不重复、不遗漏,三种基本形式: 1、名录抽样框:按总体中所有单位排 列而成的抽样框。 2、区域抽样框:按自然地理位置排列而成的抽样框 3、时间抽样框:将一个较长的时间过程划分为若干个小的时间单位所形成的抽样框,具体表现形式主要为包括总体全部单位的名 册、地图等,抽样框在抽样调查中处于基础地位,是抽样调查必不可少的部分,抽 样框是否全面对推断总体具有较大影响。对于抽样调查来说,样本的代表 性如何,抽样调查最终推算的估计值 真实性如何,首先取决于抽样框的质量。,二、抽取样

16、本单位的方法(按随机原则),2、随机数表法(适用于总体单位数很大的 总体),将总体编号,通常按自然数的顺序编排即1, 2,3,,N,并编制N个与总体对应的号签。然 后将号签摇匀,重复或不重复抽样,从中随机 抽取n个号签,则与之对应的单位组成样本。,通常利用随机数表来确定样本单位。,随机数表:用计算机、随机数字机等方法编制。,1、抽签法(适用于总体单位数较少的总体),1、简单随机抽样(纯随机抽样) 对全及总体不经过任何排队或分类,按照随机原 则从N个单位总体中抽取n个样本单位的抽样方式。,三、抽样的组织形式,特点:1、最基本的抽样组织形式 2、适用于均匀分布的总体,1)概念:类型抽样也叫分层抽样

17、,它是运用统计 分组法,把全及总体按主要标志划分为几个类型 组,然后在各组中再按随机原则抽取样本单位的 组织形式。 方法:设总体由N个单位构成,分为K组,满足 然后从每组 单位中抽取 单位构成样本容量为 的样本,使 2)分类 等比例类型抽样、不等比例类型抽样,等比例类型抽样,2、类型抽样(又称分层抽样,优点:),3)抽样平均误差的计算(以抽样平均数为例),重复抽样,第i组样本的抽样平均数:,全样本的抽样平均数:,第i组内方差:,平均组内方差:,不重复抽样,例711 某地区共有农村居民3920户,分为粮食作物专业 户、经济作物专业户和养殖专业户三种类型,用不重 复抽样按5的等比例抽取样本户,调查

18、其平均收 入,所计算的有关指标见表(p171),求样本平均收入 和抽样平均误差,并以95.45的概率估计该地区所 有居民平均收入的区间范围。,全样本平均数:,平均组内方差:,抽样平均误差:,1)概念:等距抽样又称机械抽样,它先将总 体单位按一定标志排列起来,而后按固定顺 序和一定距离来抽取样本单位的抽样方式。 特点:样本代表性较高,抽样误差较小。 2)分类 根据排队依据的标志不同 无关标志排队 有关标志排队 按样本单位抽选的方法不同,分为随机起 点等距抽样、半距起点等距抽样和对称等 距抽样。,3、等距抽样(又称机械抽样),3)抽样方法: 设总体由N个单位构成,现在需要抽取个容量n的 样本: (

19、1)按某一标志对总体单位排队 (2)将N分为n个相等部分,即 (3)从第一部分 个单位中随机抽取 第 个单位,而在第二部分中抽取第 个单位,在第三部分中抽取第 个单位, ,在第 个部分中抽取第 个 单位,则共抽取 个单位构成样本。,注:1、第一个单位确定后,其余各个单位也随之 确定,一般第一个单位定在半距处,即 处,4)抽样平均误差计算 (1)如果总体是按无关标志排队,抽样平均 误差可采用简单随机不重复抽样公式去 近似计算; (2)如果总体是按有关标志排队,则可用等 比例类型抽样的公式去近似计算。 注:不论按什么标志排队,都要注意避免抽样 间隔与现象本身的周期性节奏相重合。,1) 概念:将总体

20、各单位划分成许多群,然后从其中随 机抽取部分群,对中选群的所有单位进行全面调查 的抽样组织形式。,4、整群抽样,2)方法:假设将总体全部单位N划分为R群,每群包 括的单位数相等,即均为M,则有N=RM,现从总体 R群中随机抽取r群组成样本,并对中选r群的所有 M个单位进行调查。,第 群样本平均数:,全样本平均数:,群间方差:,抽样平均误差:,整群抽样都采 用不重复抽样,整群抽样的抽样 平均误差仅取决 于各群间方差,3)抽样平均误差的计算(以抽样平均数为例),例712:拟调查某县农户家禽饲养情况, 从该县100个村中随机抽取10个村,对中选村 所有农户的家禽饲养情况进行调查,测得平均 每户饲养家

21、禽35只,各村的平均数的方差为16 只。试以95.45的概率估计全县平均每户家 禽的饲养只数。,已知:,则,抽样平均误差为:,极限误差为:,则以95.45的概率估计全县平均每户家禽饲养只 数在32.637.4只范围内。,1)概念: 如果抽出的样本单位直接就是总体单位,则叫 单阶段抽样,如: 简单随机抽样、类型抽样、 等距抽样等。,如果将总体进行多层次分组,然后依次在各层 中随机抽组,直到抽取总体单位,称为多阶段 抽样,如整群抽样就是第二阶段抽样比为100 的一种特殊的两阶段抽样。,5、多阶段抽样,2)适用于当总体单位很多,分布广泛,又几 乎不可能从总体中直接抽取总体单位时,四、样本单位数的计算

22、方法:,通过抽样极限误差公式计算必要的样本单位数,重复抽样:,不重复抽样:,抽样平均数,极限误差,必要样本 单位数,同理:成数必要样本数分别为,(重复),(不重复),1、总体各单位标志值的差异程度,2、抽样极限误差的大小,3、抽样估计的置信度,4、抽样方法和抽样组织形式,影响必要样本单位数的因素,例7-13: 某城市组织职工家庭生活抽样调查,已知以往职工家 庭平均每人每月生活费收入的标准差为11.5元,要求 把握程度为0.9545,允许误差为1元,问需要抽多少 户进行调查?,已知:,则:,根据公式,在重复抽样条件下,,样本平均数的单位数为:,样本成数的单位数为:,例715 某市开展职工家计调查

23、,根据历史资料该市职 工家庭平均每人每年收入的标准差为250元,而家 庭消费的恩格尔系数为65,现在用重复抽样的方 法,要求在95.45的概率保证下,平均收入的极 限误差不超过20元,恩格尔系数的极限误差不超过 4%,求必要的样本单位数。,本章作业,一判断题 1、从全部总体单位中按照随机原则抽取部分单位组成样本,只可能组成一个样本。( ),2、 在抽样推断中,全及指标值是确定的、唯一的,而样本指标值是一个随机变量。( ),3、抽样成数的特点是:样本成数越大,则抽样平均误差越大。( ),4、 抽样平均误差总是小于抽样极限误差。( ),5、在其它条件不变的情况下,提高抽样估计的可靠程度,则降低了抽

24、样估计的精确程度。( ),6、从全部总体单位中抽取部分单位构成样本,在样本变量相同的情况下,重复抽样构成的样本个数大于不重复抽样构成的样本个数。( ),7、抽样平均误差反映抽样误差的一般水平,每次抽样的误差可能大于抽样平均误差,也可能小于抽样平均误差。( ),8、在抽样推断中,抽样误差的概率度越大,则抽样极限误差就越大于抽样平均误差。( ),9、抽样估计的优良标准有三个: 无偏性、可靠性和一致性。( ),10、样本单位数的多少与总体各单位标志值的变异程度成反比,与抽样极限误差范围的大小成正比。( ),11、抽样推断的目的是,通过对部分单位的调查,来取得样本的各项指标。( ),12、用来测量估计

25、可靠程度的指标是抽样误差的概率度。 ( ),13、总体参数区间估计必须具备三个要素即:估计值、抽样误差范围和抽样误差的概率度。( ),二单项选择题部分 1:抽样平均误差是( A )。 A、抽增指标的标准差 B、总体参数的标准差 C、样本变量的函数 D、总体变量的函数,2、抽样调查所必须遵循的基本原则是( B )。 A、准确性原则 B、随机性原则 C、可靠性原则 D、灵活性原则,3、在简单随机重复抽样条件下,当抽样平均误差缩小为原来的1/2时,则样本单位数为原来的( C )。 A、2倍 B、3倍 C、4倍 D、1/4倍,4、按随机原则直接从总体N个单位中抽取n个单位作为样本,这种抽样组织形式是(

26、 A )。 A、简单随机抽样 B、类型抽样 C、等距抽样 D、整群抽样,5、事先将总体各单位按某一标志排列,然后依排列顺序和按相同的间隔来抽选调查单位的抽样称为( C ) A、简单随机抽样 B、类型抽样 C、等距抽样 D、整群抽样,6、在一定的抽样平均误差条件下( A )。 A、扩大极限误差范围,可以提高推断的可靠程度 B、扩大极限误差范围,会降低推断的可靠程度 C、缩小极限误差范围,可以提高推断的可靠程度 D、缩小极限误差范围,不改变推断的可靠程度,8、反映样本指标与总体指标之间的平均误差程度的指标是( C )。 A、平均数离差 B、概率度 C、抽样平均误差 D、抽样极限误差,9、以抽样指标

27、估计总体指标要求抽样指标值的平均数等于被估计的总体指标值本身,这一标准称为( A )。 A、无偏性 B、一致性 C、有效性 D、准确性,10、在其它条件不变的情况下,提高估计的概率保证程度,其估计的精确程度( B )。 A、随之扩大 B、随之缩小 C、保持不变 D、无法确定,11、对某种连续生产的产品进行质量检验,要求每隔一小时抽出10分钟的产品进行检验,这种抽查方式是( D)。 A、简单随机抽样 B、类型抽样 C、等距抽样 D、整群抽样,12、抽样误差是指(C )。 A、调查中所产生的登记性误差 B、调查中所产生的系统性误差 C、随机的代表性误差 D、计算过程中产生的误差,14、为了了解某工

28、厂职工家庭收支情况,按该厂职工名册依次每50人抽取1 人,对其家庭进行调查,这种调查属于(B )。 A、简单随机抽样 B、等距抽样 C、类型抽样 D、整群抽样,15、抽样极限误差和抽样平均误差的数值之间的关系为( A )。 A、抽样极限误差可以大于或小于抽样平均误差 B、抽样极限误差一定大于抽样平均误差 C、抽样极限误差一定小于抽样平均误差 D、抽样极限误差一定等于抽样平均误差,三多项选择题 1、抽样推断的特点是( ) 、由推算认识总体的一种认识方法 、按随机原则抽取样板单位 、运用概率估计的方法 、可以计算,但不能控制抽样误差 、可以计算并控制抽样误差,2、抽样估计中的抽样误差( ) 、是不可避免要产生的 、是可以通过改进调查方式来消除的 、是可以事先计算出来的 、只能在调查结束后才能计算的 、其大小是可能控制的,3、从总体中抽取样本单位的具体方法有( ) 、简单随机抽样 、重复抽样 、不重复抽样 、等距抽样 、非概率抽样,4、抽样推断中,样本容量的多少取决于( ) 、总体标准差的大小 、允许误差的大小 、抽样估计的把握程度 、总体参数的大小 、抽样方法和组织形式,5、总体参数区间估计必须具备的三个要素是 () 、样本单位数 、样本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论