版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、统 计 学,第八章 抽样推断分析法,第一节 抽样方法概述 第二节 概率与概率分布 第三节 抽样分布 第四节 抽样估计的方法与应用 第五节 抽样推断误差的控制,第一节 抽样方法概述,一、抽样的概念和特点 抽样 根据随机原则从总体中抽取一部分单位作为样本,并根据样本数量特征对总体数量特征做出具有一定可靠程度的估计与推断。 特点 按随机原则抽取样本单位 用部分信息推断总体数量特征 抽样推断具有一定的概率保证程度 抽样误差可以事先计算并控制,抽样的应用 对不可能进行全面调查的社会现象 对不必要进行全面调查的社会现象 对普查资料进行必要的修正,二、有关抽样的几个基本概念 样本 从总体抽取出的、用以代表和
2、推断总体的部分单位的集合体。 注意 1样本的单位必须取自总体; 2由一个总体可以抽取许多样本; 3样本的抽取必须排除主观因素的影响,以确保其客观性与代表性。,样本容量和样本个数 样本容量:一个样本中所包含的个体单位数,一般用n表示。 样本个数:一个抽样方案中所有的可能被抽取的样本的总数量,即可能的样本个数 。,第二节 概率与概率分布,一、样本空间及简单随机抽样方式 试验 从总体中随机抽取一个单位并把结果记录下来称为一次试验。 样本(点) 连续n次试验的结果构成一个样本(点)。 样本空间 以全部样本点为元素组成的集合称为样本空间。,简单随机抽样的两种方式,重复抽样,每次从N个单位的总体中随机抽取
3、1个单位,登记后放回总体参加下一次的抽取,连续进行n次。,1、n个单位的样本由n次连续试验构成。 2、每次试验的结果相互独立。 3、每次试验都在相同条件下进行,每个单位被选中的机会(概率)在各次是相同的。,特点:,简单随机抽样的两种方式,不重复抽样,每次从N个单位的总体中随机抽取1个单位,登记后不放回原总体,下次从总体中余下的单位里抽取,连续进行n次。,1、n个单位的样本由n次连续试验构成,由于每次抽出后不放回,所以相当于从总体中同时抽取n个样本单位。 2、每次试验的结果不独立。 3、每抽一次总体的单位数少一个,每个单位被选中的机会(概率)在各次是不等的。,特点:,简单随机抽样的样本个数,重复
4、抽样,如果考虑顺序,可能的样本个数是 。,不重复抽样,如果考虑顺序,可能的样本个数为 ; 如果不考虑顺序,可能的样本个数为 。,二、事件及其概率,事件,样本空间中满足给定性质的样本点组成事件。,对应样本空间中一个样本点的事件,是不可再分事件(基本事件)。,由若干个简单事件结合成的事件。,必然事件,不可能事件,每次实验中必定发生,是样本空间本身。,在任何实验中都不发生,是空集。,实验中发生该事件的可能性大小。,若样本空间中各样本点出现的可能性大小相同,可用样本空间中属于该事件的样本点个数与样本空间中全部样本点个数之比来计算。,事件发生的概率,推论 设 表示A的对立事件,则: P( )=1-P(A
5、),简单事件概率,复合事件的概率是简单事件的概率通过代数运算得到的。,两种常用的复合事件的概率,互不相容事件的和的概率,A、B互不相容表示AB=,若事件A与事件B互不相容,则:P(A+B)=P(A)+P(B)。,概率的加法定理:几个互不相容事件中至少一个发生的概率等于这几个事件各自发生的概率之和。,两种常用的复合事件的概率,互相独立事件的积的概率,概率的乘法定理:几个互相独立事件同时发生的概率等于这几个事件各自发生的概率之积。,随机变量,三、离散型随机变量的概率分布,概率分布表,将离散型随机变量的所有可能取值及相应的概率按顺序列成表。,(i=1,2, ),离散型随机变量的概率分布也可以用等式表
6、述为:,离散型随机变量的概率分布的性质:,(i=1,2, );,例:连续抛两次硬币,正面向上的次数的概率分布为:,四、连续型随机变量的概率分布,连续型随机变量的概率分布只能用概率分布函数来表示。,其中f(x)是分布函数F(x)的导数,称为密度函数。,连续型随机变量的密度函数的性质:,1、f(x)0 2、 3、,f(x),五、随机变量的数量特征,常用的有:数学期望、方差,离散型随机变量的数学期望,(一)随机变量的数学期望,连续型随机变量的数学期望,数学期望的两个重要性质:,连续型随机变量的方差,(二)随机变量的方差,离散型随机变量的方差,方差的两个重要性质:,六、正态分布 最重要的连续型随机变量
7、分布,正态分布的密度函数,称随机变量X服从均值为,方差为2 的正态分布,记为XN(, 2 )。,f(x),正态分布的密度函数曲线,是该分布的中心,是标准差,反映分布的离散程度,越大,分布曲线越平缓,离散程度越大;越小,分布曲线越陡峭,分布越集中。,正态分布的分布函数,利用正态分布函数可计算正态分布随机变量X落在任意区间的概率:,对于不同的和2都要计算上述积分很麻烦。,标准正态分布,=0,=1的正态分布称为标准正态分布,相应的随机变量称为标准正态随机变量,用Z表示,即ZN(0,1) 。,标准正态分布的密度函数,标准正态分布的分布函数,书中把z在03.49的取值及其相应的概率编成正态分布面积表,通
8、过查表可求出Z落在任意区间的概率。,正态分布函数的标准化,设XN(, 2 ),令Z=,即:ZN(0,1) 。,把一般正态分布化成标准正态分布后,通过查正态分布概率表即可求出一般正态分布随机变量落在任意区间的概率。,例1:设XN(,2 ),求X落在区间(-a,+a )的概率。,解:令Z= ,,X落在区间(-a,+a ),等价于Z落在区间 。,查正态分布表可得其概率为 ,,此即为X落在区间(-a,+a )的概率。,例2:设部队战士的身高服从正态分布XN(175,42 ),军服厂要制100000套军服,问身高在171179的应制多少套?,解:令Z= ,,X落在区间(171,179 )等价于Z落在区间
9、(-1,1 )。,查正态分布表可得1-21-F(1)=0.6827,,所以军服厂应制68270套身高在171179的军服。,第三节 抽样分布,一、基本概念,总体参数,总体分布的数量特征,根据总体各单位标志值计算得到。也成总体指标。,样本统计量,根据样本各单位标志值计算,是用来估计总体参数的随机变量。也称样本指标,抽样分布,样本统计量的概率分布。,本节主要讨论简单随机抽样的抽样分布。,二、重复抽样分布,样本平均数的分布,例:某组有5个工人,他们的单位工时工资分别是4、6、8、10、12元,现用重复抽样方式从5个工人中抽出2人,求样本平均工时工资的抽样分布。,解:先计算总体工时工资的平均数和方差:
10、,样本工时平均工资 (单位:元),样本工时平均工资分布,计算样本平均工时工资的平均数和标准差:,从理论上推导样本平均数的分布:,结论:在重复抽样的情况下,,样本成数的分布,成数是0,1分布的变量的平均数,设总体成数为,结论:在重复抽样的情况下,,具有某种标志表现的 单位数所占的成数,是非标志的平均数(成数),例:某产品的一级品率为80%,现采用重复抽样方式从中抽取100件,求样本一级品率的抽样平均误差。 解:样本一级品率的抽样平均误差为:,三、不重复抽样分布,样本平均数的分布,例:某班组有5个工人,他们的单位工时工资分别是4、6、8、10、12元,现用不重复抽样方式从5个工人中抽出2人,求样本
11、平均工时工资的抽样分布。,解:先计算总体工时工资的平均数和方差:,样本工时平均工资 (单位:元),样本工时平均工资分布,计算样本平均工时工资的平均数和标准差:,结论:在不重复抽样的情况下,,注意:当N较大时, ,这个系数称为不重复抽样的修正系数,当N远大于n时,修正系数近似于1,即可用重复抽样的误差公式代替不重复抽样的误差公式。,样本成数的分布,结论:在不重复抽样的情况下,,注意:当总体成数P未知时,可用样本成数p 代替。,例:要估计某地区10000名适龄儿童的入学率,现采用不重复抽样方式从中抽取400名儿童, 检查有320名儿童入学,求样本入学率的抽样平均误差。 解:样本入学率的抽样平均误差
12、为:,正态分布的再生定理:,从服从正态分布的总体中抽出一个容量是n 的样本,则样本平均数 也服从正态分布。如果总体的平均数是 ,标准差是 ,则样本平均数所服从的正态分布的中心仍是 ,标准差是抽样平均误差 。,四、正态分布的再生定理与中心极限定理,如果总体变量X的期望和方差有限:分别为 和 。那么从该总体中所抽取的容量是n 的样本,当n趋于无穷大时,样本平均数 近似服从均值为 ,标准差为 的正态分布。,中心极限定理,中心极限定理应用于成数:,从任一总体成数为P,方差为P(1-P)的(0,1)分布总体中,抽取容量为n 的样本,其样本成数p的分布随着n的增大而趋近于正态分布 。,注意:一般认为,样本
13、单位数不少于30的样本为大样本 ,抽样分布就接近于正态分布。,例1:某高校考生入学成绩平均分为550分,标准差为250分。从考生中随机抽100名,问这100名考生平均成绩在540580分之间的概率。,解:这100名考生平均成绩 近似服从,即:这100名考生平均成绩在540580分之间的概率为54.04%。,例2:某县粮食平均亩产为760公斤,标准差为380公斤。从中随机抽400亩,求样本平均亩产在800公斤以上的概率。,解:样本平均亩产 近似服从,即:样本平均亩产在800公斤以上的概率为1.785%。,例3:某厂零件加工的不合格品率为6%,现从加工件中随机抽取36件,求样本不合格品率在4%以下
14、的概率。 解:总体成数为P=6%,方差为P(1-P)=0.0564,样本不合格品率p近似服从,即:样本不合格品率在4%以下的概率为30.9%。,第四节 抽样估计的方法与应用,一、总体参数估计概述,总体参数估计,用样本统计量来估计总体参数,有点估计和区间估计两种。,科学的抽样估计方法应具备的三个基本条件:,二、总体参数的点估计,点估计,直接以样本统计量的取值作为相应总体参数的估计值,又称定值估计。,优点:,能提供总体参数的具体估计值,可作为决策的数量依据。,缺点:,不能提供估计的准确度和可靠性信息。,常用估计量:样本均值估计总体均值,样本成数估计总体 成数,样本方差估计总体方差。,例:要估计某地
15、区10000名适龄儿童的入学率,现采用简单随机抽样方式从中抽取400名儿童, 检查有320名儿童入学,求总体入学率的点估计。 解:总体入学率的点估计为:,评价估计量优良性的三个标准:,1、无偏性:,样本统计量的期望值等于被估计的总体参数。,设 表示总体的待估参数, 是估计 的样本统计量,无偏估计指的是 满足:,如:由于 ,所以样本平均数是总体平均数的无偏估计量。,2、一致性:,当样本的单位数充分大时,样本统计量也充分靠近总体参数。,所以样本平均数是总体平均数的一致估计量。,如:,3、有效性:,作为优良估计量,其方差应比其它无偏估计量的方差小。,如:,设 和 都是总体参数 的无偏估计量,如果 ,
16、则说明估计量 比 更有效。,总体方差的估计:,以样本方差 作为总体方差 的估计量。,原因:,重复抽样的情况下,样本方差 是总体方差的无偏估计量。,证明如下:,注意:,虽然样本方差 是总体方差的无偏估计量,但样本标准差 并不是总体标准差 的无偏估计量,只是总体标准差的渐近无偏估计量。,证明如下:,三、总体参数的区间估计,区间估计,根据给定的置信度要求,指出总体参数被估计的上限和下限。,方法:,对总体被估计参数 ,找出样本的两个估计量 和 ,要求满足: 式中(01)是区间估计的显著性水平, 1-称为置信度 。,特点:,能提供估计的准确度和可靠性信息。,总体平均数的估计,1、总体方差已知时:,根据中
17、心极限定理,如果总体服从正态分布,则样本平均数 ;如果总体正态性不成立,但是样本容量n充分大时,近似地也有 。因此,如果已知置信度,就进行区间估计。,令 ,则 则 , 等价于 则 所以,置信区间为 此时,记 ,称为极限误差,已知置信度1-的区间估计步骤:,抽取样本,计算样本平均数 ,根据总体方差计算抽样平均误差 ; 根据给定的置信度1-(即 ),查表求 ; 根据 和 求抽样极限误差,并据此得出估计区间 。,反过来,若先给出极限误差 ,等价于给出 置信区间 ,那么如何求置信 度? 通过临界值 查表即可求得此概率,即置信度,已知允许极限误差的区间估计步骤:,抽取样本,计算样本平均数 ,根据总体方差
18、计算抽样平均误差 ; 根据已知的允许极限误差,求出估计区间 ; 根据 和 求 ,再根据 值查表求出 ,可得置信度 ,(即 )。,设以样本平均数 估计总体平均数 ,表示极限误差, 1-表示置信度,当 服从正态分布 时, 有,置信度与允许极限误差的关系:,称,例:某乡水稻20000亩,亩产标准差为72.6公斤,随机抽400亩,平均亩产为645公斤, (1)试以95%的概率保证程度估计该乡平均亩产量和总产量; (2)给定极限误差7.2公斤,试对该乡亩产量和总产量进行区间估计。,解:样本平均亩产 , 抽样平均误差,(1)由1-=0.95 ( =0.975) ,查表得,, 根据 和 求抽样极限误差:,据
19、此可得出亩产量的估计区间(637.94, 652.06)公斤。,因此总产量的估计区间为(1275.8,1304.2)万公斤。,(2)根据 =7.2 和 求 : 查表得 ,置信度为 0.9544 。,因此,以95.44%的概率保证程度估计该乡亩产量的估计区间为(637.8,652.2)公斤,总产量的估计区间为(1275.6,1304.4)万公斤。,总体平均数的估计,2、总体方差未知时:, 如果总体服从正态分布,则可用样本的标准差s代替总体标准差。这时的统计量为:,t 服从的不是标准正态分布,而是自由度为n-1的t-分布。,估计时要查t-分布表(自由度为n-1 ,双侧值),例1:设钢珠的直径服从正
20、态分布,现从一批钢珠中随机抽出9个,测量它们的直径,并求得其样本的平均值是31.06毫米,样本标准差是0.25毫米。试以95%的概率保证,估计钢珠直径的置信区间。,解:依题意有:,由1-=0.95,查自由度为8的 t-分布表得:,据此可得出置信度为95%的钢珠直径的估计区间为(30.868,31.252)毫米。,总体平均数的估计, 总体分布未知,样本容量30,则可用样本的标准差s代替总体标准差。这时的统计量为:,z近似服从标准正态分布,估计时要查z-分布表,置信区间为,例2:灯具厂要估计一批灯泡的平均寿命。现随机地抽取50只灯泡进行测试,其平均寿命是1600小时,样本方差是2500小时平方。试
21、给出这批灯泡平均寿命95%的置信度区间估计。,解:由于n大于30,是大样本,依题意有:,由1-=0.95,查正态分布表得:,据此可得出置信度为95%的灯泡平均寿命的估计区间为(1586.14,1613.86)小时 。,总体成数的估计,设总体成数是P,样本成数是p,则当样本容量充分大时, p近似服从 。,记,, 则有,总体成数的估计,已知置信度1-的区间估计步骤:,抽取样本,计算样本成数p,以 p代替总体成数P计算推算抽样平均误差 ; 根据给定的置信度1-(即F( )=1-/2),查表求 ; 根据 和 求抽样极限误差 并据此得出总体成数的估计区间,例1:在一项广告活动调查中,随机调查400人有240人能记起广告语,求能记起广告语比率的置信度95%的估计区间。,解:样本成数p=60%,抽样平均误差为,由1-=0.95 (F( )=0.975) , 查表得 =1.96,根据 和 求抽样极限误差,据此得出总体成数的估计区间(55.2%,64.8%)。,总体成数的估计,抽取样本,计算样本成数p,以 p代替总体成数P计算抽样平均误差 ; 根据已知的允许极限误差 ,求出估计区间 ; 根据 和 求
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 玻璃厂浮法工艺规范
- 2025-2026学年人教版六年级语文下册全册易错题(带答案)
- 梯架、托盘和槽盒安装检验批质量验收记录
- 2026滨城幼儿面试题目及答案
- 2026编外岗位面试题目及答案
- 卫生院抢救车药品登记交接表
- 2025年运动耳机蓝牙延迟与节奏训练同步性
- 2026版全球起重车产业供需贸易概况及重点国别出口分析报告(智研咨询)
- 2026年卫星物联网通信教育信息化应用
- 小学二年级下册品德与生活家庭生活知识点巩固试卷
- 个人抵押借款简易合同示例
- 《东巴常用字典》东巴文-字典
- 医院临床医学带教老师培训
- DB31-T 283-2023 户外广告设施设置技术规范
- 《综合单价计算》课件
- 拇外翻课件完整版本
- 光伏发电工程施工技术方案
- 排水沟盖板施工方案
- 铜绿假单胞菌实验活动风险评估报
- 2024年春巴中市七年级语文期末考试卷(附答案解析)
- DB31T 1497-2024 无人机喷洒防治林业有害生物技术规程
评论
0/150
提交评论