第四章 统计推断_第1页
第四章 统计推断_第2页
第四章 统计推断_第3页
第四章 统计推断_第4页
第四章 统计推断_第5页
已阅读5页,还剩129页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计推断(statistical inference)第四章课前复习课前复习l 什么是抽样分布什么是抽样分布?l样本平均数的抽样分布特点?样本平均数的抽样分布特点?本章内容本章内容第一节第一节第二节第二节第三节第三节第五节第五节第四节第四节假设检验的原理与方法假设检验的原理与方法样本平均数的假设检验样本平均数的假设检验样本频率的假设检验样本频率的假设检验参数的点估计与区间估计参数的点估计与区间估计方差的同质性检验方差的同质性检验本章要点本章要点了解假设检验的意义。了解假设检验的意义。掌握假设检验基本原理和基本步骤。掌握假设检验基本原理和基本步骤。了解显著水平与两种类型的错误。了解显著水平与两种

2、类型的错误。掌握几种常用的掌握几种常用的 t 检验方法。检验方法。统计推断由一个样由一个样本或一系本或一系列样本所列样本所得的结果得的结果来推断总来推断总体的特征体的特征假设检验假设检验参数估计参数估计统计推断:统计推断:是根据样本和假定模型对总体作出的以概率形是根据样本和假定模型对总体作出的以概率形式表述的推断式表述的推断。第一节第一节 假设检验的基本原理与方法假设检验的基本原理与方法常见假设检验常见假设检验第一节第一节 假设检验的基本原理与方法假设检验的基本原理与方法一、假设检验的基本原理一、假设检验的基本原理 某种猪场场长对客户称该场种猪在某种猪场场长对客户称该场种猪在 100Kg 体重

3、时的平均背膘厚为体重时的平均背膘厚为 9mm (注意背膘厚是越(注意背膘厚是越薄越好)。薄越好)。有有 4 种可能性:种可能性:场长是诚实的,确实该场种猪的平均背膘厚大约为场长是诚实的,确实该场种猪的平均背膘厚大约为 9 mm。场长并不确切知道该场种猪的平均背膘厚是多少,场长并不确切知道该场种猪的平均背膘厚是多少, 9 mm 只是他的一个估计,实际的平均背膘厚或低于或高只是他的一个估计,实际的平均背膘厚或低于或高于于 9 mm。场长是一个比较谨慎的人,平均背膘厚为场长是一个比较谨慎的人,平均背膘厚为 9 mm是一个是一个保守的说法,实际的平均背膘厚应低于保守的说法,实际的平均背膘厚应低于 9

4、mm。1. 场长是一个喜好吹嘘的人,平均背膘厚为场长是一个喜好吹嘘的人,平均背膘厚为 9 mm是一个是一个夸大的说法,实际的平均背膘厚应高于夸大的说法,实际的平均背膘厚应高于 9 mm。有有3 种对立假设:种对立假设:99与99与99与如何进行检验如何进行检验 一个直接的想法是:从这个场随机抽取一批猪,测定一个直接的想法是:从这个场随机抽取一批猪,测定它们的它们的100Kg 体重时的背膘厚(样本平均数)与体重时的背膘厚(样本平均数)与 9 mm进行比进行比较。较。 如何确定这个临界值?这不能凭主观想像,而利如何确定这个临界值?这不能凭主观想像,而利用统计学知识,根据样本信息(统计量)和对总体的

5、用统计学知识,根据样本信息(统计量)和对总体的了解(如总体服从何种分布等)来确定。这就是假设了解(如总体服从何种分布等)来确定。这就是假设检验的主要任务。检验的主要任务。提出对立假设;提出对立假设;2. 在该假设成立的前提条件下,计算样本的某个统计在该假设成立的前提条件下,计算样本的某个统计量的取值和它出现的可能性大小;量的取值和它出现的可能性大小;3. 根据小概率事件原理对该假设是否成立进行判断。根据小概率事件原理对该假设是否成立进行判断。假设检验的基本思路假设检验的基本思路 是指发生概率很小(假设为是指发生概率很小(假设为 )的事件在一次试验或)的事件在一次试验或观察中是不应该发生的,即认

6、为小概率事件是观察中是不应该发生的,即认为小概率事件是“实际不实际不可能事件可能事件”,如果实际它发生了,则认为它不是一个小,如果实际它发生了,则认为它不是一个小概率事件。概率事件。小概率原理:二、假设检验的基本步骤二、假设检验的基本步骤 从该场随机抽取从该场随机抽取10头种猪,测定种猪在头种猪,测定种猪在 100Kg 体重时的背体重时的背膘厚,结果为这膘厚,结果为这10头猪的平均背膘厚为头猪的平均背膘厚为 8.7mm。已知该场猪的。已知该场猪的背膘厚服从正态分布,总体方差为背膘厚服从正态分布,总体方差为2223 . 0mm1 1、提出假设、提出假设零假设(无效假设零假设(无效假设 null

7、hypothesis ),), 记作记作H0备择假设或对应假设备择假设或对应假设 (alternative hypothesis) , 记作记作HA9:; 9:AOHH2 2、构造并计算检验统计量、构造并计算检验统计量 检验统计量(检验统计量(test statistic)是利用所获得的样本所构造)是利用所获得的样本所构造的,用来检验原假设能否成立的统计量,它是一种特殊的统的,用来检验原假设能否成立的统计量,它是一种特殊的统计量,必须满足两个条件:一是它要利用原假设所提供的信计量,必须满足两个条件:一是它要利用原假设所提供的信息;二是它的抽样分布已知。息;二是它的抽样分布已知。对于本例,已知背

8、膘厚服从正态分布对于本例,已知背膘厚服从正态分布 和和 ,可构造统计量,可构造统计量2223 . 0mm),(2Nx nxnxu/3 . 09/1623. 310/3 . 097 . 8u3 3、选定显著水平,确定临界值(否定域)。、选定显著水平,确定临界值(否定域)。临界值:双尾检验临界值:双尾检验u0.05=1.96否定区否定区00.950.0250.025左尾右尾接受区-u u 双尾检验双尾检验(two-sided test)P (u -u /2 ) = P(u u /2 ) = 0.0253 3、选定显著水平,确定临界值(否定域)。、选定显著水平,确定临界值(否定域)。显著水平:用来确

9、定否定或接受无效假设的概率标准显著水平:用来确定否定或接受无效假设的概率标准叫显著水平(叫显著水平( )。)。显著水平*极显著水平* 统计学中,一般认为概率小于统计学中,一般认为概率小于0.05或或0.01的事件为的事件为小概率事件小概率事件,所以在小概率原理基础上建立的假设检验所以在小概率原理基础上建立的假设检验也常取也常取 =0.05和和 =0.01两个显著水平两个显著水平 。P 0假设:否定区H0 : 0 HA : 30时,可用样本方差s2来代替 总体方差2 ,仍用u检验法例:例:生产某种纺织品,要求棉花纤维长度平均为生产某种纺织品,要求棉花纤维长度平均为30mm以上,以上,现有一棉花品

10、种,以现有一棉花品种,以n=400进行抽查,测得其纤维平均长度为进行抽查,测得其纤维平均长度为30.2mm,标准差为,标准差为2.5mm,问该棉花品种的纤维长度是否符合纺织品的生产要求?问该棉花品种的纤维长度是否符合纺织品的生产要求?()这是一个样本平均数的假设检验,因总体()这是一个样本平均数的假设检验,因总体2未知未知, n=400 30,可用,可用s2代替代替2进行进行u检验;检验;()棉花纤维只有()棉花纤维只有30mm才符合纺织品的生产要求,因才符合纺织品的生产要求,因 此进行单尾检验。此进行单尾检验。()假设()假设H0: 0=30(cm),即该棉花品种纤维长度达不到纺织品生产的要

11、求。即该棉花品种纤维长度达不到纺织品生产的要求。 HA:0125. 04005 . 2nssx6 .1125.00 .302 .30 xsxu(2)计算统计量)计算统计量(3)确定否定区域,并作统计推断)确定否定区域,并作统计推断选取显著水平选取显著水平0.05 0.950.051.64否定区接受区右尾检验临界值方法临界值方法:是指在预先指定的显著水平是指在预先指定的显著水平后后,通过比较检验统计通过比较检验统计量与临界值从而判断检验结果的方法。量与临界值从而判断检验结果的方法。接受接受H0,否定,否定HA;认为该棉花品种纤维长度不符合纺织品生产;认为该棉花品种纤维长度不符合纺织品生产的要求。

12、的要求。6.1u64.105.0u检验检验P-值值: 它是由它是由H0成立时的检验统计量出现的末端或成立时的检验统计量出现的末端或更末端处的概率值。更末端处的概率值。0548.0)6.1(up3、总体方差2未知,且n30时,可用样本方差s2来代替 总体方差2 ,采用df = n-1的t检验法例:例:某鱼塘水中的含氧量,多年平均为某鱼塘水中的含氧量,多年平均为4.5(mg/L),该鱼塘设,该鱼塘设10个点采集水样,测定含氧量为:个点采集水样,测定含氧量为:4.33,4.62,3.89,4.14,4.78,4.64,4.52,4.55,4.48,4.26(mg/L)试检验该次抽样测定的水中含氧量与

13、多年平均值有无显著差别。试检验该次抽样测定的水中含氧量与多年平均值有无显著差别。()这是一个样本平均数的假设检验,因总体()这是一个样本平均数的假设检验,因总体2未知未知,n=10 或或0.05,在,在0.05显著水平上,接受显著水平上,接受H0,否定,否定HA;认为该次抽样所测结果与多年平均值无显著差别,属;认为该次抽样所测结果与多年平均值无显著差别,属于随机误差。于随机误差。267.01)(22nnxxs94.011xnsxt084.0nssx421. 4nxx(2)计算统计量)计算统计量(3)确定否定区域,并作统计推断)确定否定区域,并作统计推断选取显著水平选取显著水平0.05 二、两个

14、样本平均数的差异显著性检验二、两个样本平均数的差异显著性检验两个样本平均数的差异显著性检验:两个样本平均数的差异显著性检验:因试验设计不同,一般可分为两种情况:因试验设计不同,一般可分为两种情况:成组设计成组设计: 成组成组对设计资料的一般形式见表对设计资料的一般形式见表:处理观测值xij样本含量ni平均数 总体平均数1x11 x12 n1=x1j/ n12x21 x22 n2=x2j/ n2x11nx1x1对设计资料的一般形式对设计资料的一般形式(一)成组设计平均数的差异显著性检(一)成组设计平均数的差异显著性检验验1、已知,两个平均数间差异显著性检验-U检验(1 1)假定从两个正态总体或近

15、似正态总体中,独立地抽)假定从两个正态总体或近似正态总体中,独立地抽取含量分别为取含量分别为n n1 1和和n n2 2的随机样本。的随机样本。(2 2)(3 3)显著性水平)显著性水平 0.05 0.01 1(4 4)检验统计量)检验统计量(5 5)相应于)相应于2 2中各备择假设之中各备择假设之H H0 0 的拒绝域的拒绝域(6 6)得出结论并给予解释)得出结论并给予解释例例:某杂交黑麦从播种到开花的天数的标准差为:某杂交黑麦从播种到开花的天数的标准差为6.9dA法:调查法:调查400株,平均天数为株,平均天数为69.5dB法:调查法:调查200株,平均天数为株,平均天数为70.3d()这

16、是两个样本(成组数据)平均数比较的假设检()这是两个样本(成组数据)平均数比较的假设检验,验,1 12 2=2 22 2=(6.9d)=(6.9d)2 2, ,样本为大样本,用样本为大样本,用u u检验。检验。()因事先不知()因事先不知A、B两方法得到的天数孰高孰低,用两方法得到的天数孰高孰低,用双尾检验。双尾检验。试比较两种调查方法所得黑麦从播种到开花天数有无显著差别。试比较两种调查方法所得黑麦从播种到开花天数有无显著差别。()假设()假设H0:1 2,即认为两种方法所得天数相同。,即认为两种方法所得天数相同。HA: 1 2在在0.05显著水平上,接受显著水平上,接受H0,否定,否定HA;

17、认为两种方法所得黑麦从播种到开花天数没有显著差别。认为两种方法所得黑麦从播种到开花天数没有显著差别。598.0112121nnxx338.1598.03.705.692121 xxxxuu 0.05(2)计算统计量)计算统计量(3)确定否定区域,并作统计推断)确定否定区域,并作统计推断选取显著水平选取显著水平0.05 例例:用高蛋白和低蛋白两种饲料饲养一月龄大白鼠,在三个:用高蛋白和低蛋白两种饲料饲养一月龄大白鼠,在三个月时,测定两组大白鼠的增重月时,测定两组大白鼠的增重(g)高蛋白组:高蛋白组:134,146,106,119,124,161,107,83,113,129,97,123低蛋白组

18、:低蛋白组:70,118,101,85,107,132,94分析分析()这是两个样本平均数的检验,()这是两个样本平均数的检验,12和和22未知,且未知,且为小样本,用为小样本,用t检验。检验。()事先不知两种饲料饲养大白鼠增重量孰高孰低,()事先不知两种饲料饲养大白鼠增重量孰高孰低,用双尾检验。用双尾检验。试问两种饲料饲养的大白鼠增重量是否有差别?试问两种饲料饲养的大白鼠增重量是否有差别?2、两个总体方差12 和22未知,且两个样本都是小样本,即n130且n20.05916. 12121xxsxxtdf=(ndf=(n1 1-1)+(n-1)+(n2 2-1)=17-1)=17(2)1222

19、,n1=n2=n ) 1() 1() 1() 1(212221212nnnsnsseSe22 221221nsnsseexx21)()(2121xxsxxtdf=n-1df=n-1平均数差数的标准误平均数差数的标准误nssexx2221当当n1=n2=n时时例例:两个小麦品种千粒重:两个小麦品种千粒重(g)调查结果调查结果品种甲:品种甲:50,47,42,43,39,51,43,38,44,37品种乙:品种乙:36,38,37,38,36,39,37,35,33,37检验两品种的千粒重有无差异。检验两品种的千粒重有无差异。82. 7933. 2933.222221ssF18. 3)9 , 9(

20、05. 0F05.0FF 两样本方差不相等。两样本方差不相等。第一步 F 检验)(4 .431gx 221)(933.22gs )(6 .362gx 222)(933.2gs101n102n分析分析()()12和和22未知,且不相等,都小样未知,且不相等,都小样本,且本,且n1=n2 ,用用df=n-1的的t检验。检验。()事先不知道两个品种千粒重孰高孰低,()事先不知道两个品种千粒重孰高孰低, 故而用双尾检验。故而用双尾检验。第二步 t 检验()假设()假设(2)水平)水平(3)检验)检验H0:1 2,即认为两品种千粒重无显著差异。,即认为两品种千粒重无显著差异。HA: 1 2选取显著水平选

21、取显著水平0.05 933.12) 1() 1() 1() 1(212221212nnnsnsse608.1221221nsnsseexx229. 42121xxsxxt(4)推断)推断在在0.05显著水平上,否定显著水平上,否定H0,接受,接受HA;认为两品种千粒重存在明显差异,即品种甲认为两品种千粒重存在明显差异,即品种甲的千粒重显著高于品种乙。的千粒重显著高于品种乙。t 0.05(9) =2.262P0.05229. 42121xxsxxtdf=n-1df=n-19 93 1222,n1 n2,采用近似地,采用近似地t检验,即检验,即 Aspin-Welch检验法。检验法。2221212

22、1nsnssxx1)1 (112212nRnRdf222121121222211nsnsnssssRxxx2121xxdfsxxt检验两品种小麦蛋白质含量是否有显著差异?检验两品种小麦蛋白质含量是否有显著差异?分析分析n1 n2 ,用近似的,用近似的t分布,使用双尾检验。分布,使用双尾检验。测定农大测定农大193的蛋白质含量()的蛋白质含量()5次,次,x2=11.7,s22=0.135测定东方红测定东方红3号的蛋白质含量()号的蛋白质含量()10次,次,x1=14.3,s12=1.62101.122221ssF00. 6)4, 9(05. 0F05.0FF ()假设()假设(2)水平)水平(

23、3)检验)检验H0:12=22=2 HA: 12 22(4)推断)推断 两样本方差有显著不同。两样本方差有显著不同。选取显著水平选取显著水平0.05 例:例:第一步 F 检验()假设()假设(2)水平)水平(3)检验)检验H0:12,即两品种蛋白质含量没有显著差别。,即两品种蛋白质含量没有显著差别。HA: 1 2选取显著水平选取显著水平0.01 435.022212121nsnssxx977.52121xxdfsxxt第二步 近似t 检验(4)推断)推断在在0.01显著水平上,否定显著水平上,否定H0,接受,接受HA;认为两品种蛋白质含量有极显著差异,东方红认为两品种蛋白质含量有极显著差异,东

24、方红3号小麦蛋白质含量极显著的高于农大号小麦蛋白质含量极显著的高于农大193。t 0.01(12) = 3.056P t 0.01(7) 7181 ndf8n 6500d 73700002d发芽发芽不发芽不发芽存活存活死亡死亡结实结实不结实不结实红花红花白花白花合格合格不合格不合格当当 np 或或 nq5由二项式由二项式 (p+q)n 展开式直接检验展开式直接检验xnxxnqpCxP)(概率函数概率函数 Cnxpxqn-x P(x) P(0) C50p0q5 0.00001 P(1) C51p1q4 0.00045 P(2) C52p2q3 0.0081 P(3) C53p3q2 0.0729

25、 P(4) C54p4q1 0.32805 P(5) C55p5q0 0.59049孵化小鸡的概率表孵化小鸡的概率表(p= 0.90 q=0.10)P(0)或或P(1)或或P(2) 0.05,差异不显著。,差异不显著。当当 np 和和 nq 30正态分布正态分布当当 5np 或或 nq 30,不需连续性矫正,则,不需连续性矫正,则u值为:值为:npqnppnnpqppppup/pppcnnppnnppnppu5.05.05.0)(2、当、当 5np 或或 nq30时,需要进行连续性矫正,时,需要进行连续性矫正,uc值为:值为:如果如果np30,因,因0p1,所以,所以np时取时取“”; 30

26、,无需连续矫正,用,无需连续矫正,用u检验;检验;()假设()假设(2)水平)水平(3)检验)检验(4)推断)推断H0:p=0.85即用种衣剂浸种后的发芽率仍为即用种衣剂浸种后的发芽率仍为0.85; HA:p0.85选取显著水平选取显著水平0.05 89. 0500445nxpu 1.96,P 5 ,但,但需要进行连续矫正,需要进行连续矫正, 由于由于n 30,用,用u检验;检验;78.0nxp04. 0/npqp375. 05 . 0pcnppu二、两个样本频率二、两个样本频率的假设检验的假设检验1 p2 p一般假定两个样本的方差是相等的,即一般假定两个样本的方差是相等的,即2221pp22

27、211121nqpnqpsppH0: p1 = p2= p,q1=q2=q)11(2121nnpqspp111nxp 222nxp 2121212211nnxxnnpnpnppq1nqpspp221当当n1= n2=n时时 在总体在总体p1和和p2未知,假定未知,假定 条件下,可用两条件下,可用两样本频率的加权平均值样本频率的加权平均值 作为对作为对p1和和p2的估计,即:的估计,即:2221ppp111pnx 222pnx )11(2121nnqpspp1、当、当 np 和和 nq 30,不需连续性矫正,用,不需连续性矫正,用u检验:检验:212121)()(ppsppppu在在H0: p1

28、 = p2下,下,2121ppsppu212121215 . 05 . 0)()(ppcsnnppppu2、当、当 5 np 或或 nq 30 ,用用u检验:检验:在在H0: p1 = p2下,下,2121215 . 05 . 0ppcsnnppu212121215 . 05 . 0)()(ppcsnnppppt2、当、当 5 np 或或 nq 30,需进行连续性矫正,需进行连续性矫正, 如果如果n 30 ,无需连续矫正,用,无需连续矫正,用u检验;检验;()假设()假设(2)水平)水平(3)检验)检验H0: p1=p2即两块麦田锈病发病率没有显著差异。即两块麦田锈病发病率没有显著差异。 HA

29、: p1 p2选取显著水平选取显著水平0.01 905. 0378342111nxp790. 0396313222nxp846.03963783133422121nnxxp154.01pq026. 0)11(2121nnqpspp在在0.01显著水平上,否定显著水平上,否定H0,接受,接受HA;认为两块麦田锈病发病率有极显著差异,即地认为两块麦田锈病发病率有极显著差异,即地势对小麦锈病的发生有极显著影响作用,低洼势对小麦锈病的发生有极显著影响作用,低洼地小麦锈病的发病率极显著高于高坡地。地小麦锈病的发病率极显著高于高坡地。(4)推断)推断u2.58,P0.01423. 42121 ppsppu

30、例例:某鱼场发生了药物中毒,:某鱼场发生了药物中毒,检验甲、乙两池发生药物中毒以后,鱼的死亡率检验甲、乙两池发生药物中毒以后,鱼的死亡率是否有显著性差异。是否有显著性差异。抽查甲池中的抽查甲池中的2929尾鱼,有尾鱼,有2020尾死亡尾死亡抽查乙池中的抽查乙池中的2828尾鱼,有尾鱼,有2121尾死亡尾死亡(3)事先不知两池鱼的死亡率孰高孰低,用双尾检验。)事先不知两池鱼的死亡率孰高孰低,用双尾检验。(1)2个样本频率的假设检验;个样本频率的假设检验;(2) 5 np 和和 nq 30 ,需进行连续矫正,需进行连续矫正, 因因n130,n230,用,用t检验;检验;()假设()假设(2)水平)

31、水平(3)检验)检验H0: p1=p2即甲乙两池鱼的死亡率没有显著差异即甲乙两池鱼的死亡率没有显著差异 HA: p1 p2选取显著水平选取显著水平0.05 690. 02920111nxp750. 02821222nxp719. 0282921202121nnxxp281. 01pq119. 0)11(2121nnqpsppdf=29+28-2=55在在0.05显著水平上,接受显著水平上,接受H0,否定,否定HA;认为发生药物中毒后,甲、乙两鱼池鱼的死亡率认为发生药物中毒后,甲、乙两鱼池鱼的死亡率没有显著差异。没有显著差异。(4)推断)推断209. 05 . 05 . 0212121ppcsn

32、npptt 0.05(55) = 2.004, t c t 0.05(55) 第五节方差的同质性检验所谓方差的同质性,就是指各个总体的所谓方差的同质性,就是指各个总体的方差是相同的。方差是相同的。方差的同质性检验就是要从各样本的方方差的同质性检验就是要从各样本的方差来推断其总体方差是否相同差来推断其总体方差是否相同一、一个样本方差的同质性检验我们知道从标准正态总体中抽我们知道从标准正态总体中抽取取k个独立个独立u2之和为之和为2,即,即2222)(1)(xx当用样本平均数当用样本平均数 估计估计时,则有:时,则有:x222)(1xx1)(2nxxs1)(2nxxss1(2nxxs)由样本方差由

33、样本方差 上式中上式中,分子表示样本的离散程度分子表示样本的离散程度,分母表示总分母表示总体方差体方差,其其 服从自由度为服从自由度为n-1的的 分布分布.22222) 1(sn得得例题例题 已知某农田受到重金属的污染,经抽样测定其铅浓度为已知某农田受到重金属的污染,经抽样测定其铅浓度为4.2,4.5,3.6,4.7,4.0,3.8,3.7,4.2gg-1,样本方差为,样本方差为0.150( gg-1)2,试检验受到污染的农田铅浓度的方差是否,试检验受到污染的农田铅浓度的方差是否与正常农田铅浓度的方差与正常农田铅浓度的方差0.065 ( gg-1)2相同。相同。此题为一个样本方差与总体方差的同

34、质性检验此题为一个样本方差与总体方差的同质性检验()假设()假设(2)水平)水平选取显著水平选取显著水平0.05 H0: 20.065,即受到污染的农田,即受到污染的农田铅浓度的方差与正常农田铅浓度的铅浓度的方差与正常农田铅浓度的方差相同。方差相同。HA: 20.065(3)检验)检验15.16065. 0150. 0) 18() 1(222sn查附表,当查附表,当df8-17时,时,205. 02295. 0205. 0,17. 2,07.14现实得(4)推断)推断否定否定H0,接受接受A,即样本方差与总体方差是,即样本方差与总体方差是不同质的,认为受到污染的农田铅浓度的方不同质的,认为受到

35、污染的农田铅浓度的方差与正常农田铅浓度的方差差与正常农田铅浓度的方差0.065 ( gg-1)2有显著差异有显著差异二、两个样本方差的同质性检验二、两个样本方差的同质性检验假设两个样本容量分别为假设两个样本容量分别为n1和和n2,方差分别,方差分别为为s12和和s22,总体方差分别为,总体方差分别为12和和22,当检,当检验验12和和22是否同质时,可用检验法。是否同质时,可用检验法。当两样本总体均服从正态分布,且两样本当两样本总体均服从正态分布,且两样本的抽样是随机的和独立的,其值等与两的抽样是随机的和独立的,其值等与两样本方差样本方差s12和和s22之比。之比。且否从且否从df1n1-1,

36、df2n2-1的的F分布。当分布。当FF时,否定时,否定0: 1222,即认为两样本的方差是不同质的。,即认为两样本的方差是不同质的。2221ssF 例题检验例例题检验例4.7中两个小麦品种千粒重的方中两个小麦品种千粒重的方差是否同质。差是否同质。该题中,该题中,s1222.933,s222.933,n1=n2=10()假设()假设H0:12 22,HA: 12 22(2)水平)水平选取显著水平选取显著水平0.05 (3)检验(4)推断否定否定H0,接受,接受HA,即认为两小麦,即认为两小麦品种千粒重的方差不是同质的品种千粒重的方差不是同质的819. 7933. 2933.222221ssF样

37、本样本1X1样本样本2X2总体总体11 总体总体221、提出假设、提出假设无效假设无效假设H0: 1=2 ,两个平均数的差值,两个平均数的差值 是随是随机误差所引起的;机误差所引起的;21xx 备择假设备择假设HA: 1=2 ,两个平均数的差值,两个平均数的差值 除随除随机误差外机误差外 还包含其真实的差异,即由处理引起的;还包含其真实的差异,即由处理引起的;21xx 2、确定显著水平:、确定显著水平:0.05或或0.013、检验统计量、检验统计量(1)样本平均数差数的平均数样本平均数差数的平均数 = 总体平均数的差数总体平均数的差数.212121xxxx两个样本平均数的差数两个样本平均数的差

38、数21xx (2)样本平均数差数的方差样本平均数差数的方差 = 两样本平均数方差之和两样本平均数方差之和.2222212122121xxxxnn22212121nnxx样本平均数差数的标准误样本平均数差数的标准误222121221nnxx)11(212221nnxxnxx2221221nxx2222112=22= n1=n2=n 12=22= n1=n2=n 4、作出推断,并解释、作出推断,并解释.uu tt 或或uu tt 或或第一节:参数的点估计与区间估计第一节:参数的点估计与区间估计一、点估计与区间估计的原理一、点估计与区间估计的原理三、两个总体平均数差数的点估计与区间估计三、两个总体平

39、均数差数的点估计与区间估计二、总体平均数的点估计与区间估计二、总体平均数的点估计与区间估计四、总体频率、两个总体频率差数的点估计与区间估计四、总体频率、两个总体频率差数的点估计与区间估计参数估计:是用样本统计量对总体参数所做的估计。参数估计:是用样本统计量对总体参数所做的估计。一、一、参数点估计与区间估计的原理参数点估计与区间估计的原理1、点估计、点估计 要对某个总体做出估计,一个最简便的方法是以要对某个总体做出估计,一个最简便的方法是以某个样本统计量(估计量)作为该参数的一个估计某个样本统计量(估计量)作为该参数的一个估计值,这样的估计叫点估计。值,这样的估计叫点估计。 为了估计同一个参数,

40、可以用若干的估计量来进行。为了估计同一个参数,可以用若干的估计量来进行。 例如:例如: 总体平均数总体平均数 可由样本可由样本算术平均数、中位数、众数来估计;算术平均数、中位数、众数来估计; 总体方差总体方差 2可由样本方差可由样本方差S 2来估计。来估计。 现在的问题是,哪个是最好的估计量?现在的问题是,哪个是最好的估计量? 一般来说,一个好的估计量应满足以下一般来说,一个好的估计量应满足以下3个条件:个条件:无偏性、有效性和相容性。无偏性、有效性和相容性。 x22 s样本平均数和样本方差都是无偏估计量。样本平均数和样本方差都是无偏估计量。 无偏性:无偏性:如果样本统计量的数学期望等于相应的

41、如果样本统计量的数学期望等于相应的总体参数,则该统计量称为无偏估计量。它的意义在总体参数,则该统计量称为无偏估计量。它的意义在于,如果重复多次独立地从该总体抽样,每次抽样所于,如果重复多次独立地从该总体抽样,每次抽样所得估计量都有相应的估计值,虽然各估计值都可能会得估计量都有相应的估计值,虽然各估计值都可能会偏离参数的真值,但这些估计值的平均数是接近真值。偏离参数的真值,但这些估计值的平均数是接近真值。 有效性有效性:如果一个样本统计量的方差小于另一个样本统:如果一个样本统计量的方差小于另一个样本统计量的方差,则前一个样本统计量称为更有效的估计量。计量的方差,则前一个样本统计量称为更有效的估计

42、量。 例如,从一个正态总体中抽取含量为例如,从一个正态总体中抽取含量为n n的样本,样本平均的样本,样本平均数的方差为:数的方差为: nx22 当当n充分大时,中位数充分大时,中位数Md的方差为:的方差为: nm222 中位数的方差比平均数的方差大中位数的方差比平均数的方差大/2倍,因此倍,因此样本平均数是样本平均数是的有效估计量。的有效估计量。 相容性相容性:若样本统计量的取值任意接近于总体参数值的:若样本统计量的取值任意接近于总体参数值的概率,随样本含量概率,随样本含量n的无限增加而趋于的无限增加而趋于1,则称该样本统计,则称该样本统计量为总体参数的相容估计量。量为总体参数的相容估计量。

43、例如,样本平均数的方差例如,样本平均数的方差 =2/n, ,当当n时时, , 0,这时,样本平均数,这时,样本平均数 的唯一可能取值为的唯一可能取值为。所以样本平均。所以样本平均数是总体平均数数是总体平均数的相容估计量。数理统计学也已证明,样的相容估计量。数理统计学也已证明,样本方差本方差s s2 2是总体方差是总体方差 2 2的相容估计量。的相容估计量。 x2 xx2 区间估计是以一定的置信度对参数真值的可能取值范围区间估计是以一定的置信度对参数真值的可能取值范围进行估计。进行估计。 设对于参数设对于参数 ,如果用样本,如果用样本X1,X2,Xn。构造两个统。构造两个统计量,计量, = g1

44、 ( X1,X2,Xn )和)和 = g2( X1,X2,Xn ),且),且( ),由它们得到一个随机区间,由它们得到一个随机区间( ),使),使122121,1)(21p10 式中:区间(式中:区间( )称为置信区间,)称为置信区间, 和和 分别称为置信下分别称为置信下限和上限;限和上限; 叫做置信度或置信水平。一般取叫做置信度或置信水平。一般取 。21,12105. 001. 0或2、参数区间估计的原理、参数区间估计的原理置信区间的意义:重复样本含量置信区间的意义:重复样本含量n的所有随机样本,从而构的所有随机样本,从而构建的所有置信区间中,建的所有置信区间中, 的区间含有未知参数的区间含

45、有未知参数 。也就。也就是说,如果从总体中进行是说,如果从总体中进行100次随机抽样,分别构造区间次随机抽样,分别构造区间( ),则可以期望有(),则可以期望有( )100次这个区间会包次这个区间会包含参数。含参数。121,1 下面以对正态总体平均数下面以对正态总体平均数 的区间估计为例说明区间估的区间估计为例说明区间估计的方法。计的方法。 设有正态总体设有正态总体N(,2),未知,由该总体抽取含量为未知,由该总体抽取含量为n的随机样本,其平均数为的随机样本,其平均数为 x ,方差为,方差为S 2,对,对进行区间估计。进行区间估计。 例题:测得某批例题:测得某批25个小麦样本的平均蛋白质含量个

46、小麦样本的平均蛋白质含量x =14.5%,已知=2.50%,试进行,试进行95%和和99%置信度下的置信度下的蛋白质含量的区间估计和点估计。蛋白质含量的区间估计和点估计。1)(uxuPx1)(xxuxuP已知总体方差已知总体方差2或未知总体方差且大样本时:或未知总体方差且大样本时:表示所有的样本均值,约表示所有的样本均值,约95%是落在是落在 。也就是随机变量样本平均也就是随机变量样本平均的在一定概率下的取值范的在一定概率下的取值范围。围。)96. 1,96. 1(xx95. 0)96. 196. 1(xxxP95. 0)96. 196. 1(xxxxP 以以95%的可信区间为例,意味着在同一

47、总体中作的可信区间为例,意味着在同一总体中作100次重次重复抽样,可得复抽样,可得100个可信区间,平均有个可信区间,平均有95个可信区间包含总个可信区间包含总体均数(估计正确),只有体均数(估计正确),只有5个可信区间不包含总体均数个可信区间不包含总体均数(估计不正确),或对于某一个区间而言,它包含总体均数(估计不正确),或对于某一个区间而言,它包含总体均数的可能性为的可能性为95%,而不包含总体均数的可能性仅为,而不包含总体均数的可能性仅为5%。因。因此在实际应用中,以这种方法估计总体均数犯错误的概率仅此在实际应用中,以这种方法估计总体均数犯错误的概率仅为为5%。1)(xxuxuxP1)(

48、xxuxuP),(21xxuxLuxL 具有已知总体方差或未知总体方差且大样本时,用样本平均具有已知总体方差或未知总体方差且大样本时,用样本平均数数 x 对总体平均数对总体平均数的置信度为的置信度为P=1-的的区间估计区间估计。总体平均数的点估计总体平均数的点估计L为为xuxL 例题:测得某批例题:测得某批25个小麦样本的平均蛋白质含量个小麦样本的平均蛋白质含量x =14.5%,已知=2.50%,试进行,试进行95%和和99%置信度下的置信度下的蛋白质含量的区间估计和点估计。蛋白质含量的区间估计和点估计。50. 02550. 2nx(%)52.1350. 096. 15 .141xuxL(%)

49、48.1550. 096. 15 .142xuxL98. 05 .1450. 096. 15 .14xuxL蛋白质含量的点估计为:蛋白质含量的点估计为:95%置信度下的蛋白质含量的区间估计置信度下的蛋白质含量的区间估计注意,注意,99%的区间(的区间( 13.21,15.79 )比)比95%的区间的区间( 13.5215.48 )要宽。)要宽。(%)21.1350. 058. 25 .141xuxL(%)79.1550. 058. 25 .142xuxL29. 15 .1450. 058. 25 .14xuxL蛋白质含量的点估计为:蛋白质含量的点估计为:99%置信度下的蛋白质含量的区间估计置信

50、度下的蛋白质含量的区间估计置信区间具有两个要素:置信区间具有两个要素: 准确度(准确度(accuracy):即可信区间包含的概率的大小,):即可信区间包含的概率的大小,一般而言概率越大越好。一般而言概率越大越好。 精密度(精密度(precision):反映区间的长度,区间的长度越):反映区间的长度,区间的长度越窄,估计的精密度越好,反之越差。窄,估计的精密度越好,反之越差。xuxL 例题例题 从某渔场收对虾的总体中,随机取从某渔场收对虾的总体中,随机取20尾对虾,测的尾对虾,测的平均体长平均体长x120mm,标准差是,标准差是15mm,试估计置信度为,试估计置信度为99的对虾总体平均数的对虾总

51、体平均数 具有未知总体方差且小样本时,用样本平均数具有未知总体方差且小样本时,用样本平均数 x 对总对总体平均数体平均数的置信度为的置信度为P=1-的的区间估计区间估计。用样本平均数用样本平均数 x 对总体平均数对总体平均数的置信度为的置信度为P=1-的的点估计点估计。),(21xxstxLstxLxstxL本例中,由于总体方差本例中,由于总体方差2 2未知,需用未知,需用s s2 2估计估计2,当当df 20119时,时,t0.012.861。具体计算如下。具体计算如下354.32015nssx于是对虾体长的区间估计为于是对虾体长的区间估计为)(6 .129354. 3861. 21202m

52、mstxLx)(4 .110354. 3861. 21201mmstxLx对虾体长的点估计为:对虾体长的点估计为:)( 6 . 9120354. 3861. 2120mmstxLx三、两个总体平均数差数三、两个总体平均数差数 1 1-2 2的区间估计与点估计的区间估计与点估计例题例题 用高蛋白和低蛋白两种饲料饲养一月用高蛋白和低蛋白两种饲料饲养一月龄大白鼠,在三个月时,测定两组大白鼠龄大白鼠,在三个月时,测定两组大白鼠的增重重量(的增重重量(g),两组的数据分别为:),两组的数据分别为: 高蛋白组:高蛋白组:134,146,106,119,124,161,107,83,113,129,97,1

53、23 低蛋白组:低蛋白组:70,118,101,85,107,132,94 试进行置信度为试进行置信度为95时两种蛋白饲料饲养时两种蛋白饲料饲养的大白鼠增重的差数区间估计和点估计。的大白鼠增重的差数区间估计和点估计。当两个样本为小样本,总体方差当两个样本为小样本,总体方差12和和22未知,当两总体未知,当两总体方差相等,即方差相等,即12 22 2时,可由两样本方差时,可由两样本方差s12和和s22估计总估计总体方差体方差12和和22,在置信度为在置信度为P1- 下,两总体平均数差数下,两总体平均数差数 1 1- - 2 2的区间估计为:的区间估计为:2121)( ,2121xxxxstxxs

54、txx两个总体平均数差数两个总体平均数差数 1 1-2 2的点估计为:的点估计为:2121xxstxxL005.1021 xxsgxgx00.101,17.12021110.2,1705.0tdf其置信度为其置信度为95时两种蛋白饲料饲养的时两种蛋白饲料饲养的大白鼠增重的差数区间估计为:大白鼠增重的差数区间估计为:)(94.1005.10110.2)00.10117.120(2121gstxxLxx)(284.40005.10110.2)00.10117.120(2121gstxxLxx已算得已算得两种蛋白质饲料饲养的大白鼠增重的差数点估计为:两种蛋白质饲料饲养的大白鼠增重的差数点估计为:)(

55、11.2117.19005.10110.2)00.10117.120(2121gstxxLxx说明两种蛋白饲料饲养下大白鼠增重的差数说明两种蛋白饲料饲养下大白鼠增重的差数有有95的把握落在的把握落在-1.94g40.284g的区间里。的区间里。当两个总体方差当两个总体方差1 12 2和和2 22 2为已知,或总体方差为已知,或总体方差12和和22未知但为大样本时,在置信度为未知但为大样本时,在置信度为P1- 下,两个总体平均数下,两个总体平均数差数差数1 1- -2 2的区间估计为:的区间估计为:2121)( ,2121xxxxuxxuxx2121xxuxxL两个总体平均数差数两个总体平均数差

56、数 1 1-2 2的点估计为的点估计为当两个样本为小样本,总体方差当两个样本为小样本,总体方差12和和22未知,且两总体方差未知,且两总体方差不相等,即不相等,即12 22时,可由两样本方差时,可由两样本方差s12和和s22对总体方差对总体方差12和和22的估计而算出的的估计而算出的t值,已不是自由度值,已不是自由度dfn1+n2-2的的t分布,而是近似分布,而是近似的服从自由度的服从自由度df 的的t分布,分布,在置信度为在置信度为P1-下,两总体平均数差下,两总体平均数差数数 1 1-2 2的区间估计为:的区间估计为:2121)(21)(21)( ,xxdfxxdfstxxstxx两个总体平均数差数两个总体平均数差数1-2的点估计为:的点估计为:21,21xxdfstxxL当两样本未成对资料时,在置信度为当两样本未成对资料时,在置

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论