




已阅读5页,还剩62页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第六章抽样与总体参数的估计,统计推断是统计学研究的重要内容。抽样是进行统计统计推断的基础工作。参数估计是统计推断的重要内容之一。6.1抽样与抽样分布6.2参数的估计方法6.3总体均值和总体比例的区间估计6.4两个总体均值及两个总体比例之差的估计6.5正态总体方差及两个正态总体方差比的区间估计6.6相关系数的区间估计,6.1抽样与抽样分布,6.1.1总体、个体和样本总体(Population)-要研究的事物或现象的总体。个体(Itemunit)-组成总体的每个元素(成员)。总体容量(Populationsize)-一个总体中所含个体的数量。样本(Sample)-从总体中抽取的部分个体。样本容量(Samplesize)-样本中所含个体的数量。抽样(Sampling)-为推断总体的某些重要特征,需要从总体中按一定抽样技术抽取若干个体的过程。统计量(Statistic)-由样本构造,用来估计总体参数的函数。统计量是样本的函数,只依赖于样本;统计量不含任何参数。样本均值、样本方差等都是统计量。,6.1.2抽样方法抽样设计与全面调查相比有如下特点:(1)节省人力及费用;(2)节省时间,提高调查研究的时效性;(3)保证研究结果的准确性。抽样方法分为两类:概率抽样和非概率抽样1、概率抽样根据已知的概率选取被调查者;最理想、最科学的抽样方法;能保证样本数据对总体的代表性;能有效控制抽样误差,将其限制在一定范围内;缺点是:相对非概率抽样,花费较大。概率抽样的几种形式:,(1)简单随机抽样(Simplerandomsampling)完全随机地选取样本,要求有一个完美的抽样框或有总体中每一个个体的详尽名单。可以采取抽签或随机数字表的办法实现。(2)分层抽样(Reducedsampling)先将总体分成不同的“层”,然后,在每一“层”内进行简单随机抽样。可防止简单随机抽样造成的样本构成与总体构成不成比例的现象。(3)整群抽样(ClusterSampling)在整群抽样中,总体首先被分成称作群的独立的元素组,总体中的每一元素属于且仅属于某一群。抽取一个以群为元素的简单随机样本,样本中的所有元素组成样本。在理想状态下,每一群是整个总体小范围内的代表。(4)系统抽样(Systematicsampling)又称等距抽样。从前k个元素中随机选一个,然后在样本框中每隔一定距离抽取一个。,2、非概率抽样不是完全按随机原则选取样本。(1)方便抽样(Conveniencesampling)由调查人员自由、方便地选择被调查者的非随机选样。(2)判断抽样(Judgementsampling)通过某些条件过滤选择某些被调查者参与调查的判断抽样法。,建议使用概率抽样方法:简单随机抽样、分层抽样、整群抽样或系统抽样。从所估总体特征与样本结果的接近程度上讲,公式可用于估计抽样结果的“优良性”。而用方便抽样和判断抽样方法不能对该“优良性”进行估计。因而,当解释由非概率抽样方法得到的结果时,要特别小心。,6.1.3样本均值的分布与中心极限定理1、样本均值X分布的含义采用随机抽样的方法,从总体中抽取大小为n的一个样本,计算出它的平均值X1,然后将这些个体放回总体去,再抽取n个个体,又可以计算出平均值X2,再将n个个体放回去,再抽取n个个体,如此可以计算出无限个X,这些样本均值X所有可能值的概率分布叫均值X的抽样分布.,设X1,X2,Xn为某总体中抽取的随机样本,X1,X2,Xn为相互独立,且与总体有相同分布的随机变量.(1)当总体为正态分布N(,2)时,X的抽样分布仍为正态分布,当越来越大时,X的离散程度越来越小,即用X估计越准确。,(2)当总体的分布不是正态分布时,只要样本容量足够大时,样本均值的分布总是近似正态分布,此时要求总体方差2有限。假定总体均值为,方差为2,中心极限定理(CentralLimittheorem):设从均值为,方差为2(有限)的任意一个总体中抽取大小为的样本,当充分大时(n30),样本均值X的抽样分布近似服从均值为,方差为2/的正态分布。,x,什么叫充分大呢?总体偏离正态越远,则要求就越大。在实际应用中常要求30。,例6.1从一个均值=8,=0.6的总体中随机选取容量为25的样本。假定该总体不是很偏的,求:(1)样本均值小于7.9的近似概率;(2)超过7.9的近似概率;(3)在总体均值=8附近0.1范围内的概率.,解:根据中心极限定理,在总体不很偏的情况下,(1),(2),(3),例6.2某厂声称生产的电池=54个月,=6个月的寿命分布。某消费团体为检验该厂的说法是否准确,购买了50个该厂生产的电池进行试验。(1)若厂商声称是正确的,描述50个电池寿命的抽样分布;(2)若厂商声称是正确的,则50个样品组成的样本的平均寿命不超过52个月的概率是多少?,解:=54,=6,,小概率事件,如果真观察到50个电池平均寿命低于52个月,则有理由怀疑厂方说法的正确性。,例6.3某电梯承受的最大拉力为1000千克,可乘坐13人。已知人群的平均体重为60千克,标准差为14千克,且服从正态分布。问电梯发生事故的概率是多少?,解:=60,=14,13则,该电梯发生事故的概率为0.000007,6.1.4样本方差的分布样本方差的分布较复杂,它与总体分布有关。在这里只研究当总体为正态分布时,样本方差的分布。(1)样本方差的分布设X1,X2,,Xn为来自正态分布N(,2)的样本,则从数学上可以推导出正态总体下样本方差S2的分布为:,(未分组数据),(组距分组数据),(2)卡方分布设X1,X2,,Xn为来自正态分布N(0,1)的一个样本,为自由度为n的卡方分布,自由度n是相互独立的正态变量的个数.,卡方分布的特点:1)卡方分布是一个正偏态分布。随自由度n的不同,其分布曲线的形状不同,n小,分布偏斜;n很大,接近于正态分布。当自由度df=n+时,卡方分布即为正态分布。2)值都是正值;3)k个分布的和也是分布,即是服从自由度df=df1+df2+dfk的分布。表明分布具有可加性。4),0,卡方分布表给出了卡方变量在不同自由度下的临界值.,当n很大时,近似服从,实用上,n45时,Up为正态分布的p分位数。,6.1.5两个方差比的分布设来自正态总体的一个样本;来自正态总体的一个样本,且Xi(i=1,2,n1)与Yi(i=1,2,n2)相互独立,则,F(n1-1,n2-1)为第一自由度(分子自由度)为n1-1,为第二自由度(分母自由度)为n2-1的F分布。,F分布的定义,F分布的特点:(1)F分布形态是正偏态分布,形式随n1,n2不同而不同,随df1,df2的增加而渐趋正态分布;(2)F为两个方差比率,所以为正值;(3)当df1=1,df2任意时,F值与自由度为df2的t值的平方相等,即F(1,df2)=t2(df2)(4),F分布是统计学家费歇尔(R.A.Fisher)于1924年首先发现的。F分布在假设检验、区间估计、方差分析、回归分析及试验设计等数理统计领域有重要的作用。,6.1.6T统计量的分布设X1,X2,,Xn是来自正态总体N(,2)的一个样本,称,为T统计量,它服从自由度为n-1,的t分布,即Tt(n-1),意义:当正态总体方差2已知时,样本平均数的分布为正态分布XN(,2/n);当总体方差2未知时,用S2作为2的估计值,当样本容量小于30时,分布不接近正态分布,而是自由度为n-1的t分布,n30时接近正态分布,n趋向于无穷时,它是正态分布。,t分布的特点:(1)对称。左侧为负,右侧为正,均值为0;(2)-30时,t分布为接近正态分布,方差1,n-145时,t分布与正态分布没有多大差异在小样本n30时,t分布具有重要作用。,6.2参数估计方法6.2.1点估计(Pointestimate)当总体参数不清楚时,用一个特定值,一般常用样本统计量进行估计,叫点估计。设为总体X的待估计参数,一般用样本X1,X2,Xn构造一个统计量来估计,则称为的估计量,对于样本的一组数据x1,x2,xn,估计量的值(x1,x2,xn)称为的估计值。如用样本平均数估计总体参数,用样本标准差估计总体标准差,一个好的估计量应具备下列特性:(1)一致性(Consistency)当样本容量无限增大时,估计值越来越接近所估计的总体参数.(2)无偏性(Unbiasedness)估计值的平均值与真值一致.(3)有效性(Effectiveness)当总体参数的无偏估计不只一个统计量时,无偏估计变异最小者有效性高,变异大者有效性低.(4)充分性指一个容量为n的样本统计量,是否充分地反映了全部n个数据所反映总体的信息.,6.2.2区间估计(Intervalestimate)点估计总是以误差存在为前提,而不能提供正确估计的概率。没有解决参数估计的精确度和可靠性问题。而区间估计可以弥补这一不足之处。区间估计就是用一个区间去估计未知参数,它不具体指出总体参数等于什么,但能指出总体的未知参数落入某一区间的概率有多大。,设x1,x2,xn是来自密度f(x,)的样本,对于给定的,01,如能找到两个统计量1(x1,x2,xn)和2(x1,x2,xn),使得P1(x1,x2,xn)5,nq5),可将二项分布变换为正态分布,总体比例p的置信区间:,例6.10在整个流动原因的研究中,从某企业抽取200人流动人员的样本,有140人说离开的原因是不能与管理人员融洽相处,求由于该原因离开的真正比例的95%的置信区间。,6.3.3样本容量的确定确定n十分重要,n过大,增加费用,n过小误差增大。n的确定依赖于多大置信度(可靠性),什么样的精度(多宽的区间)。1、估计时n的确定正态总体或非正态总体但大样本时,置信区间为,(用样本均值估计时允许的最大绝对误差),样本容量n,总体方差2,允许误差,可靠性系数Z/2的关系:(1)总体方差越大,需要的样本容量越大;反之亦然;(2)允许误差越大,需要的样本容量越小,反之亦然;(3)可靠性系数越大,需要的样本容量越大,反之亦然.例6.11要使95%置信区间的允许误差为5,应选取多大的样本容量?假定总体的标准差为25.例6.12一家广告公司想估计某类商店去年所花的平均广告费有多少。经验表明,总体方差约为1800000。如置信度取95,并要使估计值处在总体平均值附近500元的范围内,这家广告公司应取多大的样本?,2、估计总体比例时,样本容量的确定估计总体比例时,允许的最大绝对误差为,例6.13一家市场调研公司想估计某地区有彩色电视机的家庭所占的比例。该公司希望对p的估计误差不超过0.05,要求的可靠程度为95%,应取多大容量的样本?例6.14一项调查中,总体比率的计划值为0.35,则当允许的最大绝对误差为0.05时,在求其95%置信区间时应采用多大的样本容量。,6.4两个总体均值及两个总体比例之差的估计6.4.1两个总体均值之差的估计1、两总体方差已知条件:1)两总体均服从正态分布或分布未知但为大样本;2)两个样本独立,1-2在1-置信度水平下的置信区间为:,例6.15一个银行负责人想知道储户存入两家银行的钱数。他从两家银行各抽取了一个25个储户组成的随机样本,样本平均值如下:银行A:4500元;银行B:3250元。设已知两个总体服从方差分别为2500和3600的正态分布。试求:AB的区间估计:(1)置信度95%;(2)置信度99%.,2、两总体方差未知(1)两个总体为正态分布,且12222将两个样本联合起来估计2,联合统计量为,估计量的标准误为:,置信区间为:,例6.16为了比较两位银行职员为新顾客办理个人结算帐目的平均时间长度,分别给两位职员随机安排了10位顾客,并记录了为每位顾客办理帐单所需的时间(单位:分钟),相应的样本均值和方差为:,假定每位职员办理帐单所需时间均服从正态分布,且方差相等,试求两位职员办理帐单的服务时间之差的95%的区间估计。,解:根据题意,两总体服从正态分布且方差相等,未知。12的置信区间为:,所求区间估计为:,(2)两个总体均服从正态分布且用S12估计12,用S22估计22,的估计为这时,不服从t(n1+n2-2)而服从t(f),若f不是整数,则取与f最接近的整数作为自由度的取值。,12的置信度为(1)的近似区间估计为:,例6.17上例中若假定两个总体的方差不等。求两个均值之差的区间估计。解:,则t0.05/2(18)=2.1009,从而所求两均值之差的95的近似区间估计为:,即,(3)如果两个总体不服从正态分布,且方差不等,当n1、n2很大时,将S1和S2作为1和2的估计值,置信区间为:,6.4.2两个总体比例之差的区间估计设两个总体的比例分别为p1和p2,为了估计p1-p2,分别从两个总体中各随机抽取容量为n1和n2的两个随机样本。并计算两个样本中的比例当n1和n2两者都很大时,而且总体比例不太接近0或1时,的抽样分布服从正态分布,,从而p1-p2的置信区间为:,用代替p1和p2,例6.18某饮料公司对其所做的报纸广告在两个城市的效果进行了比较,它们从两个城市中分别随机地调查了1000个成年人,其中看过该广告的比例分别为0.18和0.14,试求两城市成年人中看过该广告的比例之差的95%的置信区间。,解:由于样本容量都为1000,属于大样本容量,,置信区间为:,即,故以95的把握估计两城市成年人中看过该广告的比例差在0.79%7.21%之间。,6.5正态总体方差及两正态总体方差之比的区间估计6.5.1正态总体方差的区间估计X1,X2,.,Xn来自均值,2均未知,则2的点估计量为S2,且,2的置信区间为:,的置信区间为:,当30时,S近似服从N(,2/(2()),的近似估计区间为:,例6.19对某种金属的10个样品所组成的一个随机样本作抗拉强度试验。从试验数据算出的方差为4,试求2的95置信区间,构造这一区间时用了什么假定?的置信区间又如何?,解:设该金属的抗拉强度服从正态分布,在2的95的置信区间为:,式中,10,10.95,/2=0.025,S2=4,从而该区间为:(10-1)4/19.0,(10-1)4/2.7,即1.89,13.33,的95%的置信区间为1.891/2,13.331/2,即1.38,3.65,6.5.2两个正态总体方差比的区间估计当两个总体为正态分布时,当时,例6.20某一特定工序生产的一批化工产品中的杂质含量的变异依赖于操作过程处理的时间长度。某生产商拥有两条生产线,为了在降低产品中杂质平均数量的同时降低杂质的变异,对第二条生产线进行了很小的调整,研究这种调整是否确能达到目的。为此从两条生产线生产的两批产品中各随机抽取了25个样品,它们的均值和方差为:,根据所给信息确定两总体方差比12/22的90%的置信区间。,解:假定两条生产线上生产的产品中的杂质数量服从正态分布,则置信度为90%的12/22的置信区间为:,所求区间为:,即:,6.6相关系数的区间估计6.6.1积差相关系数的区间估计1、积差相关系数的抽样分布,-1,0,1,=0,=0.5,=0.7,当0时,r的分布呈不同程度的正偏态;0时,只有n500时渐近正态分布,标准误为:,当=0时r的分布服从自由度为n-2的t分布,标准误为:,费舍(Fisher)的Z分布:0时,只有n500时渐近正态分布,条件非常严格,应用受到很大限制。在一般情况下,将r值转换为Z值(n不受条件限制),这些Z值渐近服从正态分布,标准误为:,2、积差相关系数的区间估计(1)当总体相关系数为0时,样本相关系数的分布为自由度是n-2的t分布,置信区间为:,(2)当总体相关系数不为0时,1)如果n500,可用下式计算置信区间:,2)利用费舍Z函数分布无论样本容量大小,还是总体相关是否为0,Z函数的分布近似正态分布,具体步骤如下:a.用公式计算:Zr=ln(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 辽宁省大连市甘井子区渤海高中2026届高三化学第一学期期末调研试题含解析
- 宿舍达人活动汇报
- 校医院护理技术规范
- 江西省广昌一中2026届高一化学第一学期期中综合测试试题含解析
- 新技术集成实施方案
- 西方文明总体战略讲解
- 药厂实习汇报总结
- 少先队讲解员比赛
- 血液科化疗药物临床应用与管理
- 术中获得性压力性损伤预防
- 药品研发项目管理制度
- 2025年度LNG船运分析报告
- 利用过程状态和设备参数预测电解铜箔产品质量的技术
- 一例支气管哮喘患者的护理个案
- 抢险物资规章管理制度
- 热控检修规程(2018修订版)
- 大疆无人机租赁合同协议
- GB/T 45455-2025成型模带头导套和带头定位导套
- 简述pdca工作法试题及答案
- T-JSQX 0013-2024 电动汽车变充一体充电设备技术规范
- 北京地铁桥隧结构运维监测技术应用
评论
0/150
提交评论