版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
抽样推断1抽样误差2Contents目录假设检验3抽样估计4你不必吃完整一头牛,才知道它的肉是咬不动的。
SamelJohnson子情境一抽样推断
抽样推断按照随机原则从总体中抽取一部分单位进行调查,用调查所得的指标数值来推断总体的指标数值。
抽样推断的特点抽样推断是运用概率的方法抽取部分单位要遵循随机原则;抽样误差可以计算,并且可以控制。
抽样推断的作用不可能或者没必要收集总体资料检查带有消耗性或破坏性;对全面调查进行评价或修正;对工业生产过程进行质量控制可以对总体的某种假设进行检验抽样推断的概念就是总体,指所要认识的研究对象全体。全及总体又称子样,从总体中随机抽取,作为代表这一总体的那部分单位组成的集合体。
样本
总体参数指被估计的总体指标,又被称为全及指标。一个总体的指标值是确定的、唯一的,所以称为参数。总体平均数总体标准差总体方差设总体中N个总体单位某项标志的标志值分别为X1,X2,X3,…,XN
,其中具有某种属性的有N1
个单位,不具有某种属性的有N0
个单位,则总体成数总体成数标准差总体成数方差
样本指标指根据样本单位的标志值计算的用以估计和推断相应总体指标的综合指标,又被称为估计量或统计量样本平均数样本标准差样本方差设总体中n个总体单位某项标志的标志值分别为x1,x2,x3,…,xn
,其中具有某种属性的有n1
个单位,不具有某种属性的有n0
个单位,则样本成数样本成数标准差样本成数方差一个样本所包含的单位数。样本单位数大于30个的样本称为大样本,小于30个的样本称为小样本。样本容量又称样本可能数目。是指从一个总体中可能抽取的样本个数。样本个数简单随机抽样AB类型抽样C等距抽样E多阶段抽样组织形式D整群抽样抽样调查的组织形式简单随机抽样也称纯随机抽样。它是依据总体的原始状态直接从总体中随机抽取样本单位组成样本总体的抽样方法。包括:直接抽选法、抽签法和随机数表法。适用于总体单位数不多的均匀总体类型抽样又称分层抽样。它是对总体中的所有个体单位先按照某一标志划类型(分组),然后再从各类中随机抽取一部分单位,共同组成样本。适用于个体单位标志值差异比较大,以及个体单位数目较多的情况.组内标志差异尽可能小等距抽样是把总体各单位按某一标志进行排队,然后依固定的顺序和间隔抽出样本单位的方法。也称机械抽样或系统抽样。按标志排队可以是无关标志,也可以是要研究的有关标志随机性体现在第一个样本单位选择上整群抽样整群抽样:是对总体中所有个体单位“先分群后抽样”的方法。然后对抽取的群进行全面调查适用于对各群内部的单位变异较大,而群间差异较小的总体。群内差异尽可能大,抽取的群尽可能的多误差最大多阶段抽样多阶段抽样:是把抽取样本单位的过程分为两个或更多阶段进行调查范围很大,总体单位太多误差最小各种抽样误差大小比较整群抽样>简单随机抽样>类型抽样>多阶段抽样抽取样本单位的方法(1)重复抽样:指在总体中每次抽取一个单位,经观察记录后又放回原总体参加下一次抽选。(2)不重复抽样:指被抽取的单位观测记录后不再放回到总体中去的一种抽样方法。也称回置抽样。从N个单位中每次抽取1个,抽取后将其号码记下,再放回,一直抽取n个单位组成一个样本。重复抽样也称不回置抽样。从N个单位中每次抽取1个,抽取后不放回,一直抽取n个单位组成一个样本。不重复抽样假设总体有A、B、C、D、E,现在随机重复抽取3个单位,求样本个数?假如非重复抽取,样本个数又是多少呢?重复抽样:样本个数=53=5*5*5=125非重复抽样样本个数=5*4*3=60子情境二抽样误差在1936年美国大选中,民主党候选人罗斯福对战共和党候选人阿尔夫·兰登。《文学文摘》此前准确预测过5次总统选举结果。1936年大选,《文学文摘》当年邮寄出1000万份问卷,回收230万份,样本数量很大。情境引入经过分析后,他们预测共和党候选人阿尔夫·兰登会战胜罗斯福当选总统。结果却是罗斯福获得了压倒性的胜利——在48个州中胜出46个,普选票也拿到了60%多。《文学文摘》遭到羞辱,但这次的惨败使他们不久就宣告破产了原来,《文学文摘》是按照电话号码本选出的这1000万调查对象,但在当年的美国,能装得起电话的往往都是较富裕阶层、持保守立场的共和党选民,而支持罗斯福的广大工人群体基本被排除在调查范围之外,由此在样本上造成了显著偏差。但另一家刚成立了一年的民调公司盖洛普,只用了5万样本,得出了完全相反的结果。其采用的办法就是分层随机抽样。分层随机抽样,可以避免对样本来源集中于某一群体,能够更客观地反映全体投票者的倾向。1948年美国大选,盖洛普和多数民调机构预测,杜威会击败杜鲁门。结果是杜鲁门胜了。处在内战困境中的蒋介石政府大概也是被这些民调带沟里了,结果决定支持杜威。杜鲁门当选后,对国民政府非常冷淡,不愿意给蒋介石财政支持。美国民调影响了中国政治进程?
2000年小布什对战戈尔,盖洛普的民调产生过大幅波动,最终结果也不符。而2012年奥巴马对战罗姆尼时,也出现了同样的失误,罗姆尼的支持率甚至比其他民调公司的更高,被媒体反复引用,结果罗姆尼输了。
抽样误差的概念抽样误差是指抽样指标数值与被估计全及指标数值之差。
系统误差:没有遵守随机原则。代表性误差:随机误差:遵守随机原则。
抽样实际误差:就是指随机误差,是抽样调查固有的,是一种代表性误差登记性误差:登记,汇总,计算,过录中产生的误差抽样误差抽样误差产生的原因平均误差:是指所有可能出现的样本指标数值与总体指标数值的平均离差的平方的算术平均数,也可以说是所有样本指标的标准差。抽样平均数的平均误差抽样成数的平均误差然而,实际上P和我们不知道,我们运用中心极限定理来求抽样平均误差重复抽样非重复抽样抽样平均数的平均误差的计算重复抽样非重复抽样抽样成数的平均误差的计算有5个工人的日产量分别为(单位:件)6,8,10,12,14,分别用重复抽样和非重复抽样的方法,从中随机抽取3个工人的日产量,根据一般水平法来估计这5个工人的一般水平,则抽样平均误差是多少?从欣欣牛奶厂生产的10000件产品中,随机抽取1%进行检验结果发现其中有10件产品有缺陷,试计算产品合格率的抽样平均误差。抽样平均误差抽样方法研究指标某灯泡厂生产一批灯泡共10000只,随机抽选100只进行试验,其中有90只是合格的,平均使用寿命为5000小时,总体标准差为500小时,试用重复抽样方法计算平均使用时间和产品合格率的抽样平均误差。抽样误差影响因素样本单位数的多少。抽样单位数越多,抽样误差越小。总体各单位标志的变异程度。总体标志变异程度越大,抽样误差越大。抽样调查组织方式。多阶段抽样的抽样误差最小。抽样方法不同。对于抽样方法,不重复抽样的抽样误差要小。抽样极限误差是指总体指标和抽样指标之间误差的最大的那个误差。1、抽样平均数的抽样极限误差2、抽样成数的抽样极限误差抽样极限误差抽样误差的概率度抽样极限误差与抽样平均误差的比值被称为概率度,用t来表示。抽样极限误差与抽样误差的比值能反映区间的宽窄,标志着概率保证程度F(t)的高低在标准正态分布条件下,概率保证程度F(t)是概率度t的函数,t值一定,F(t)也随之确定,t越大,F(t)也越大,其值一一对应其中t是概率度一定概率保证程度条件下抽样极限误差tF(t)10.68271.960.9520.954530.9973某企业对某批电子元件进行检验,随机抽取100只,测得平均使用时间为500小时,标准差为50小时,合格数为90只。(1)求该批产品平均使用时间和产品合格率的抽样平均误差(2)如果概率保证程度F(t)=95.45%,求该批产品平均使用时间和产品合格率的抽样极限误差子情境三假设检验假设检验的基本原理在总体的分布函数完全未知或只知其形式、但不知其参数的情况下,为了推断总体的某些性质,提出某些关于总体的假设.假设检验就是根据样本对所提出的假设作出判断:是接受,还是拒绝.例如,提出总体服从泊松分布的假设;如何利用样本值对一个具体的假设进行检验?通常借助于直观分析和理论分析相结合的做法,其基本原理就是人们在实际问题中经常采用的所谓小概率原理:“一个小概率事件在一次试验中几乎是不可能发生的”.下面结合实例来说明假设检验的基本思想.假设检验问题是统计推断的另一类重要问题.实例
某车间用一台包装机包装葡萄糖,包得的袋装糖重是一个随机变量,它服从正态分布.当机器正常时,其均值为0.5公斤,标准差为0.015公斤.某日开工后为检验包装机是否正常,随机地抽取它所包装的糖9袋,称得净重为(公斤):0.4970.5060.5180.5240.4980.5110.5200.5150.512,问机器是否正常?分析:由长期实践可知,标准差较稳定,问题:根据样本值判断提出两个对立假设再利用已知样本作出判断是接受假设H0(拒绝假设H1),还是拒绝假设H0(接受假设H1).如果作出的判断是接受H0,即认为机器工作是正常的,否则,认为是不正常的.由于要检验的假设涉及总体均值,故可借助于样本均值来判断.于是可以选定一个适当的正数k,由标准正态分布分位点的定义得于是拒绝假设H0,认为包装机工作不正常.假设检验过程如下:以上所采取的检验法是符合小概率原理的.1.原假设与备择假设假设检验问题通常叙述为:假设检验的相关概念2.拒绝域与临界点如在前面实例中,为拒绝域,拒绝域拒绝原假设H0,则称区域当检验统计量取某个区域中的值时,我们的边界点称为临界点.3.两类错误及记号假设检验是根据样本的信息并依据小概率原理,作出接受还是拒绝H0的判断。由于样本具有随机性,因而假设检验所作出的结论有可能是错误的.这种错误有两类:(1)当原假设H0为真,观察值却落入拒绝域,而作出了拒绝H0的判断,称做第一类错误,又叫弃真错误.犯第一类错误的概率是显著性水平(2)当原假设H0不真,而观察值却落入接受域,而作出了接受H0的判断,称做第二类错误,又叫取伪错误.当样本容量n一定时,若减少犯第一类错误的概率,则犯第二类错误的概率往往增大.若要使犯两类错误的概率都减小,除非增加样本容量.犯第二类错误的概率记为假设检验的一般步骤单个正态总体均值与方差的检验对于给定的检验水平由标准正态分布分位数定义知,其中
为统计量U的观测值。这种利用U统计量来检验的方法称为U检验法。因此,检验的拒绝域为
例1某切割机在正常工作时,切割每段金属棒的平均长度为10.5cm,标准差是0.15cm,今从一批产品中随机的抽取15段进行测量,其结果如下:假定切割的长度X服从正态分布,且标准差没有变化,试问该机工作是否正常?解查表得又是的无偏估计,故用替换又知,由t分布分位数的定义知在实际中,正态总体的方差常为未知,所以我们常用t
检验法来检验关于正态总体均值的检验问题.上述利用t
统计量得出的检验法称为t检验法.如果在例1中只假定切割的长度服从正态分布,问该机切割的金属棒的平均长度有无显著变化?解查表得例2要检验假设:又知,是的无偏估计,指它们的和集拒绝域为:解例3某厂生产的某种型号的电池,其寿命长期以来服从方差=5000(小时2)的正态分布,现有一批这种电池,从它生产情况来看,寿命的波动性有所变化.现随机的取26只电池,测出其寿命的样本方差=9200(小时2).问根据这一数据能否推断这批电池的寿命的波动性较以往的有显著的变化?拒绝域为:可认为这批电池的寿命的波动性较以往的有显著的变化.子情境四抽样估计第二次世界大战期间,盟军很想知道德军总共制造了多少辆坦克。德国人长于逻辑思维而乏于机变,在给坦克编号时非常刻板,他们把坦克从1开始按序编号。战争之中,盟军缴获了一些德军坦克,并记录下了他们的生产编号。我们如何运用这些坦克编号来估计德军生产坦克的总数?抽样估计就是根据样本的实际资料计算的样本指标对总体指标作出数量上的判断和估计抽样估计抽样估计抽样估计方法点估计区间估计抽样估计方法点估计1、平均数的点估计2、成数的点估计参数点估计简便、易行、原理直观,但是如果误差较大,点估计就失去了意义。适合于抽样误差较小,或者即使误差很大也不妨碍对问题的认识和判断区间估计区间估计就是以一定的概率把握程度对总体参数可能落入的的一个数值范围进行估计。区间估计包含两个方面的内容:概率把握程度(置信度)和区间范围(置信区间)区间估计1、平均数的区间范围2、成数的区间范围这便是总体的估计区间,也称为置信区间。置信度约束下的区间估计(1)根据置信度求取概率度t(2)根据所给资料计算(3)根据概率度t和抽样平均误差计算抽样极限误差(4)根据抽样指标数值和抽样极限误差构造置信区间。某企业对某批电子元件进行检验,随机抽取100只,测得平均耐用时间为500小时,标准差为50小时,合格数为90只,要求以95.45%的概率保证程度,对该批产品的平均耐用时间与合格率做出区间估计。已知一个工厂有近万名工人,现在重复抽100名工人进行检查,测得总产量为300件,标准差为10件。试求:(1)100名工人的平均劳动生产率为多少件/人?(2)以95%的概率保证程度估计工人平均劳动生产率。(3)现要求最大误差不超过2件,估计工人平均劳动生产率。
允许误差约束下的区间估计(1)根据有关资料,计算抽样平均误差(2)根据允许误差和抽样平均误差计算临界值t(3)根据临界值,查表求置信度F(t)(4)根据抽样指标数值和抽样极限误差构造置信区间从全校近万名学生中,随机抽取100名学生,测得其平均身高为160厘米。根据以往经验学生身高的标准差为3厘米,现要求以最大不超过0.6厘米的允许误差,来推断全体学生的平均身高。已知一个工厂有近万名工人,现在重复抽100名工人进行检查,测得总产量为300件,标准差为10件。试求:(1)100名工人的平均劳动生产率为多少件/人?(2)以95%的概率保证程度估计工人平均劳动生产率。(3)现要求最大误差不超过2件,估计工人平均劳动生产率。
样本容量调查误差调查费用小样本容量节省费用但调查误差大大样本容量调查精度高但费用较大找出在规定误差范围内的最小样本容量找出在限定费用范围内的最大样本容量确定样本容量的意义确定方法⑴重复抽样条件下:通常的做法是先确定置信度,然后限定抽样极限误差。或S通常未知。一般按以下方法确定其估计值:①过去的经验数据;②试验调查样本的S。计算结果通常向上进位推断总体平均数所需的样本容量⑵不重复抽样条件下:确定方法推断总体平均数所需的样本容量【例】某食品厂要检验本月生产的10000袋某产品的重量,根据上月资料,这种产品每袋重量的标准差为25克。要求在95.45﹪的概率保证程度下,平均每袋重量的误差不超过5克,应抽查多少袋产
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论