第四章 统计推断ppt课件_第1页
第四章 统计推断ppt课件_第2页
第四章 统计推断ppt课件_第3页
第四章 统计推断ppt课件_第4页
第四章 统计推断ppt课件_第5页
已阅读5页,还剩120页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.,统计推断(statisticalinference),.,统计推断,由一个样本或一糸列样本所得的结果来推断总体的特征,假设检验,参数估计,.,第一节,第二节,第三节,第四节,第五节,假设检验的原理与方法,样本平均数的假设检验,样本频率的假设检验,参数的区间估计与点估计,方差的同质性检验,.,第一节,假设检验的原理与方法,.,一概念:假设检验(hypothesistest)又称显著性检验(significancetest),就是根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际原理,经过一定的计算,作出在一定概率意义上应该接受的那种假设的推断。,第一节假设检验,.,小概率原理,概率很小的事件在一次抽样试验中实际是几乎不可能发生的。,=0.05/0.01,如果假设一些条件,并在假设的条件下能够准确地算出事件出现的概率为很小,则在假设条件下的n次独立重复试验中,事件A将按预定的概率发生,而在一次试验中则几乎不可能发生。,.,假设检验,参数检验,非参数检验,平均数的检验,频率的检验,方差的检验,秩和检验,符号检验,游程检验,秩相关检验,.,统计假设测验的基本思想设某地区的当地小麦品种一般667m2产300kg,即当地品种这个总体的平均数为0=300(kg),并从多年种植结果获得其方差2=(75)2kg。若从这一总体中随机抽取n个个体构成样本,则样本观察值可表示为:yi=0+i(i=1,2,n),现有某新品种通过25个小区的试验,计算其样本平均产量为每667m2为330kg。新品种的样本观察值可表示为:xi=+i(i=1,2,n)式中为新品种的总体平均数。新品种与地方品种的差异(品种效应)用表示,则0,.,代入上式得:xi=0+i(i=1,2,n)对xi求平均数,并将式子稍作变形得:,0=+,为表型效应,在本例中,,.,由于处理效应0无法计算,统计推断只能从第(2)种可能性出发,即假设处理效应不存在,试验表型效应全为试验误差。,(1)处理效应与误差效应;,(2)全为试验误差。,可知表型效应的构成有二种可能性,然后再计算该假设出现的概率,最后依概率的大小判断假设是否成立,从而推断处理效应是否存在(反证法)。这就是统计假设测验的基本思想。,.,二、假设检验的步骤,治疗前01262240,N(126,240),治疗后n6x136未知那么0?即克矽平对治疗矽肺是否有效?,例:设矽肺病患者的血红蛋白含量具平均数0126(mg/L),2240(mg/L)2的正态分布。现用克矽平对6位矽肺病患者进行治疗,治疗后化验测得其平均血红蛋白含量x=136(mg/L)。,.,1、提出假设,无效假设/零假设/检验假设,备择假设/对应假设,0,0,误差效应,处理效应,H0,HA,.,例:克矽平治疗矽肺病是否能提高血红蛋白含量?,检验治疗后的总体平均数是否还是治疗前的126(mg/L)?,本例中零假设是指治疗后的血红蛋白平均数仍和治疗前一样,二者来自同一总体,接受零假设则表示克矽平没有疗效。,而相对立的备择假设表示拒绝H0,治疗后的血红蛋白平均数和治疗前的平均数来自不同总体,即克矽平有疗效。,H0:=0=126(mg/L),HA:0,.,2、确定显著水平,0.05,显著水平*,极显著水平*,能否定H0的人为规定的概率标准称为显著水平,记作。,统计学中,一般认为概率小于0.05或0.01的事件为小概率事件,所以在小概率原理基础上建立的假设检验也常取=0.05和=0.01两个显著水平。,P1.96,.,4、作出推断结论:是否接受假设,P,P0.05所以接受H0,从而得出结论:使用克矽平治疗前后血红蛋白含量未发现有显著差异,其差值10应归于误差所致。,.,0.95,0.025,0.025,u1.96,u2.58,P(u)0.05,P(u)0.01,差异达显著水平,差异达极显著水平,.,0.025,临界值:+ux,u,三、双尾检验与单尾检验,.,0,P(-2.58x0,假设:,否定区,H0:0HA:1.96,否定H0,接受HA;,认为新育苗方法一月龄体长与常规方法有显著差异。,P30时,可用样本方差s2来代替总体方差2,仍用u检验法,总体(0),s2,2,.,例:生产某种纺织品,要求棉花纤维长度平均为30mm以上,现有一棉花品种,以n=400进行抽查,测得其纤维平均长度为30.2mm,标准差为2.5mm,,问该棉花品种的纤维长度是否符合纺织品的生产要求?,分析,()这是一个样本平均数的假设检验,因总体2未知,n=40030,可用s2代替2进行u检验;,()棉花纤维只有30mm才符合纺织品的生产要求,因此进行单尾检验。,.,()假设,(2)水平,(3)检验,(4)推断,H0:0=30(cm),即该棉花品种纤维长度达不到纺织品生产的要求。HA:0,选取显著水平0.05,u0.05,.,3、总体方差2未知,且n30且n230时,用u检验法。,例:某杂交黑麦从播种到开花的天数的标准差为6.9d,A法:调查400株,平均天数为69.5d,B法:调查200株,平均天数为70.3d,差异?,分析,()这是两个样本(成组数据)平均数比较的假设检验,12=22=(6.9d)2,样本为大样本,用u检验。,()因事先不知A、B两方法得到的天数孰高孰低,用双尾检验。,试比较两种调查方法所得黑麦从播种到开花天数有无显著差别。,.,()假设,(2)水平,(3)检验,(4)推断,H0:12,即认为两种方法所得天数相同。HA:12,选取显著水平0.05,在0.05显著水平上,接受H0,否定HA;,认为两种方法所得黑麦从播种到开花天数没有显著差别。,.,例:为了比较“42-67XRRIM603”和“42-67XPB86”两个橡胶品种的割胶产量,两品种分别随机抽样55株和107株进行割胶,平均产量分别为95.4ml/株和77.6ml株,割胶产量的方差分别为936.36(ml/株)2和800.89(ml/株)2,分析,()这是两个样本(成组数据)平均数比较的假设检验,12和22未知,n130且n230,用u检验。,()因事先不知两品种产量孰高孰低,用双尾检验。,试检验两个橡胶品种在割胶产量上是否有显著差别。,.,()假设,(2)水平,(3)检验,(4)推断,H0:12,即认为两品种割胶产量没有显著差别。HA:12,选取显著水平0.01,在0.01显著水平上,否定H0,接受HA;,两个橡胶品种的割胶产量存在极显著的差别,“42-67XRRIM603”割胶产量极显著高于“42-67XPB86”。,.,2、两个总体方差12和22未知,且两个样本都是小样本,即n1t0.01(7),已知,.,第三节,样本频率的假设检验,.,二项分布,频率分布,二项成数,目标性状,.,频率的假设检验,当np或nq30,中心极限定理,正态分布(u检验),近似,.,频率的假设检验,当5np或nq30,不需连续性矫正,则u值为:,在二项分布中,事件A发生的频率x/n称为二项成数,即百分数或频率。则频率的平均数和标准误分别为:(见P33),.,2、当5np或nq1.96,P30,不需连续性矫正,用u检验:,在H0:p1=p2下,,2、当530,用u检验:,在H0:p1=p2下,,.,2、当5np或nq2.58,P0.01,.,一、参数区间估计与点估计的原理,三、两个总体平均数差数的区间估计与点估计,二、总体平均数的区间估计与点估计,四、总体频率、两个总体频率差数的区间估计与点估计,参数的区间估计与点估计是建立在一定理论基础上的一种方法。,由中心极限定理和大数定律,只要抽样为大样本,不论其总体是否为正态分布,其样本平均数都近似服从正态分布N(,2/n)。,0,0.95(接受区),0.025,0.025,临界值,接受区,u:正态分布下置信度P=1-时的u临界值,1-:置信水平,知道x,但不知道,1-置信区间、置信距,参数的区间估计也可用于假设检验。,对参数所进行的假设如果落在该区间之外,就说明这个假设与真实情况有本质的不同,因而就否定零假设,接受备择假设。,置信区间是在一定置信度P=1-下总体参数的所在范围,故对参数所进行的假设如果落在该区间内,就说明这个假设与真实情况没有不同,因而就可以接受零假设。,无论区间估计还是点估计,都与概率显著水平的大小联系在一起。,越小,则相应的置信区间就越大,也就是说用样本平均数对总体平均数估计的可靠程度越高,但这时估计的精度就降低了。,在实际应用中,应合理选取概率显著水平的大小,不能认为取值越小越好。,.,二、总体平均数的区间估计和点估计,当为大样本时,不论总体方差2为已知或未知,可以利用样本平均数x和总体方差2作出置信度为P1-的总体平均数的区间估计为:,.,其置信区间的下限L1和上限L2为,总体平均数的点估计L为,.,当样本为小样本且总体方差2未知时,2需由样本方差s2来估计,于是置信度为P1-的总体平均数的置信区间可估计为,.,其置信区间的下限L1和上限L2为:,总体平均数的点估计L为:,t为正态分布下置信度P1时的t临界值,.,例4.14测得某批25个小麦样本的平均蛋白质含量14.5,已知2.50,试进行95置信度下的蛋白质含量的区间估计和点估计。分析:本例为已知,置信度P1-=0.95,u0.05=1.96。,.,蛋白质含量的点估计为:,说明小麦蛋白质含量有95的把握落在13.5215.48的区间里。,.,三、两个总体平均数差数1-2的区间估计与点估计,当两个总体方差12和22为已知,或总体方差12和22未知但为大样本时,在置信度为P1-下,两个总体平均数差数1-2的区间估计为:,.,两个总体平均数差数1-2的点估计为,其置信区间的下限1和上限L2为:,.,当两个样本为小样本,总体方差12和22未知,当两总体方差相等,即12222时,可由两样本方差s12和s22估计总体方差12和22,在置信度为P1-下,两总体平均数差数1-2的区间估计为:,.,两个总体平均数差数1-2的点估计为:,其置信区间的下限1和上限L2为:,.,当两个样本为小样本,总体方差12和22未知,且两总体方差不相等,即1222时,可由两样本方差s12和s22对总体方差12和22的估计而算出的t值,已不是自由度dfn1+n2-2的t分布,而是近似的服从自由度df的t分布,在置信度为P1-下,两总体平均数差数1-2的区间估计为:,.,其置信区间的下限1和上限L2为:,.,两个总体平均数差数1-2的点估计为:,上面三式中,t,df为置信度为P=1-时自由度为df的t临界值。,.,当两样本为成对资料时,在置信度为P1-时,两总体平均数差数1-2的置信区间可估计为:,其置信区间的下限1和上限L2为:,.,两个总体平均数差数1-2的点估计为:,.,四、总体频率p、两总体频率差数p1-p2的区间估计和点估计,在置信度1-下,对一个总体频率P的区间估计为:,.,总体频率p的点估计L为:,其置信区间的下限1和上限L2为:,.,当样本容量较小或者np、nq小于30时,对总体频率p进行的区间估计和点估计,需要做连续性校正,其校正公式为:,总体频率p的点估计为:,.,在进行两个总体频率p1-p2的区间估计和点估计时,一般应明确两个频率有显著差异才有意义。,在置信度为P1-下,两总体频率差数p1-p2的区间估计为,.,其置信区间的下限1和上限L2为:,两总体频率差数p1-p2的点估计L为:,.,第五节

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论