




已阅读5页,还剩72页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第六章 假设检验与方差分析,第一节 假设检验的基本原理,第二节 总体均值的假设检验,第三节 总体比例的假设检验,第四节 单因子方差分析,第五节 双因子方差分析,第六节 Excel在假设检验与方差 分析中的应用,第一节 假设检验的基本原理,一 什么是假设检验,二 原假设与备择假设,三 检验统计量,四 显著性水平、P-值与临界值,五 双侧检验和单侧检验,六 假设检验的两类错误,七 关于假设检验结论的理解,一、什么是假设检验,先举一个例子 : 例6-1:假定咖啡的分袋包装生产线的装袋重量服从正态分布N(,2)。生产线按每袋净重150克的技术标准控制操作。现从生产线抽取简单随机样本n=100袋,测得其平均重量为 =149.8克,样本标准差S=0.872克。问该生产线的装袋净重的期望值是否为150克(即问生产线是否处于控制状态)?,所谓假设检验,就是事先对总体的参数或总体分布形式做出一个假设,然后利用抽取的样本信息来判断这个假设(原假设)是否合理,即判断总体的真实情况与原假设是否存在显著的系统性差异,所以假设检验又被称为显著性检验。 一个完整的假设检验过程,包括以下几个步骤: (1)提出假设; (2)构造适当的检验统计量,并根据样本计 算统计量的具体数值; (3)规定显著性水平,建立检验规则; (4)做出判断。,二、原假设与备择假设,原假设一般用H0表示,通常是设定总体参数等于某值,或服从某个分布函数等;备择假设是与原假设互相排斥的假设,原假设与备择假设不可能同时成立。所谓假设检验问题实质上就是要判断H0是否正确,若拒绝原假设H0 ,则意味着接受备择假设H1 。 如在例6-1中,我们可以提出两个假设:假设平均袋装咖啡重量与所要控制的标准没有显著差异,记为H0: = 150;假设平均袋装咖啡重量与所要控制的标准有显著差异,记为H1: 150。,三、检验统计量,所谓检验统计量,就是根据所抽取的样本计算的用于检验原假设是否成立的随机变量。 检验统计量中应当含有所要检验的总体参数,以便在“总体参数等于某数值”的假定下研究样本统计量的观测结果。 检验统计量还应该在“H0成立”的前提下有已知的分布,从而便于计算出现某种特定的观测结果的概率。,例6-2,构造例6-1的检验统计量,并计算相应的样本观测值。,四、显著性水平、P-值与临界值,小概率事件在单独一次的试验中基本上不会发生,可以不予考虑。 在假设检验中,我们做出判断时所依据的逻辑是:如果在原假设正确的前提下,检验统计量的样本观测值的出现属于小概率事件,那么可以认为原假设不可信,从而否定它,转而接受备择假设。 至于小概率的标准是多大?这要根据实际问题而定。假设检验中,称这一标准为显著性水平,用来表示,在应用中,通常取 =0.01, =0.05。一般来说,犯第一类错误可能造成的损失越大, 的取值应当越小。 对假设检验问题做出判断可依据两种规则:一是P-值规则;二是临界值规则。,(一)P-值规则 所谓P-值,实际上是检验统计量超过(大于或小于)具体样本观测值的概率。如果P-值小于所给定的显著性水平,则认为原假设不太可能成立;如果P-值大于所给定的标准,则认为没有充分的证据否定原假设。,例6-3,假定 =0.05,根据例6-2的结果,计算该问题的P-值,并做出判断。 解:查标准正态概率表,当z=2.29时,阴影面积为0.9890,尾部面积为10.9890=0.011,由对称性可知,当z= 2.29时,左侧面积为0.011。 0.011/2=0.025 0.011这个数字意味着,假若我们反复抽取n=100的样本,在100个样本中仅有可能出现一个使检验统计量等于或小于2.29的样本。该事件发生的概率小于给定的显著性水平,所以,可以判断=150的假定是错误的,也就是说,根据观测的样本,有理由表明总体的与150克的差异是显著存在的。,(二)临界值规则 假设检验中,还有另外一种做出结论的方法:根据所提出的显著性水平标准(它是概率密度曲线的尾部面积)查表得到相应的检验统计量的数值,称作临界值,直接用检验统计量的观测值与临界值作比较,观测值落在临界值所划定的尾部(称之为拒绝域)内,便拒绝原假设;观测值落在临界值所划定的尾部之外(称之为不能拒绝域)的范围内,则认为拒绝原假设的证据不足。这种做出检验结论的方法,我们称之为临界值规则。,显然,P-值规则和临界值规则是等价的。在做检验的时候,只用其中一个规则即可。 P-值规则较之临界值规则具有更明显的优点。这主要是:第一,它更加简捷;第二,在值规则的检验结论中,对于犯第一类错误的概率的表述更加精确。 推荐使用P-值规则。,例6-4,假定=0.05,根据例6-2的结果,用临界值规则做出判断。 解:查表得到,临界值z0.025= 1.96。由于 z= 2.29 1.96,即,检验统计量的观测值落在临界值所划定的左侧(即落在拒绝域),因而拒绝=150克的原假设。上面的检验结果意味着,由样本数据得到的观测值的差异提醒我们:装袋生产线的生产过程已经偏离了控制状态,正在向装袋重量低于技术标准的状态倾斜。,五、双侧检验和单侧检验,图6-1 双侧、单侧检验的拒绝域分配,六、假设检验的两类错误,显著性检验中的第一类错误是指:原假设事实上正确,可是检验统计量的观测值却落入拒绝域,因而否定了本来正确的假设。这是弃真的错误。发生第一类错误的概率在双侧检验时是两个尾部的拒绝域面积之和;在单侧检验时是单侧拒绝域的面积。 显著性检验中的第二类错误是指:原假设事实上不正确,而检验统计量的观测值却落入了不能拒绝域,因而没有否定本来不正确的原假设,这是取伪的错误。发生第二类错误的概率是把来自=1(10)的总体的样本值代入检验统计量所得结果落入接受域的概率。,根据不同的检验问题,对于和大小的选择有不同的考虑。例如,在例6-1中,如果检验者站在卖方的立场上,他较为关心的是不要犯第一类错误,即不要发生产品本来合格却被错误地拒收这样的事情,这时, 要较小。反之,如果检验者站在买者的立场上,他关心的是不要把本来不合格的产品误当作合格品收下,也就是说,最好不要犯第二类错误,因此, 要较小。,在样本容量n不变的条件下,犯两类错误的概率常常呈现反向的变化,要使和都同时减小,除非增加样本的容量。为此,统计学家奈曼与皮尔逊提出了一个原则,即在控制犯第一类错误的概率情况下,尽量使犯第二类错误的概率小。在实际问题中,我们往往把要否定的陈述作为原假设,而把拟采纳的陈述本身作为备择假设,只对犯第一类错误的概率加以限制,而不考虑犯第二类错误的概率 。,七、关于假设检验结论的理解,这就是说,在假设检验中,相对而言,当原假设被拒绝时,我们能够以较大的把握肯定备择假设的成立。而当原假设未被拒绝时,我们并不能认为原假设确实成立。,第二节 总体均值的假设检验,一 单个总体均值的检验,二 双总体均值是否相等的检验,一、单个总体均值的检验,(一)总体为正态分布,总体方差已知 来自总体的样本为(x1, x2, , xn)。对于假设: H0: = 0,在H0成立的前提下,有检验统计量,(二)总体分布未知,总体方差已知,大样本 来自总体的样本为(x1, x2, , xn)。对于假设: H0: = 0,在H0成立的前提下,如果样本足够大(n30),近似地有检验统计量,(三)总体为正态分布,总体方差未知 来自总体的样本为(x1, x2, , xn)。对于假设: H0: = 0,在H0成立的前提下,有检验统计量 若自由度(n-1)30,该t统计量近似服从标准正态分布。,(四)总体分布未知,总体方差未知,大样本 来自总体的样本为(x1, x2, , xn)。对于假设: H0: = 0,在H0成立的前提下,如果总体偏斜适度,且样本足够大,近似地有检验统计量,例6-5,某厂采用自动包装机分装产品,假定每包产品的重量服从正态分布,每包标准重量为1000克,某日随机抽查9包,测得样本平均重量为986克,样本标准差是24克。试问在=0.05的显著性水平上,能否认为这天自动包装机工作正常? 解: 第一步:确定原假设与备择假设。 H0: = 1000, H1: 1000 第二步:构造出检验统计量,计算检验统计量的观测值。由于总体标准差未知,用样本标准差代替,相应检验统计量是t-统计量。,第三步:确定显著性水平,确定拒绝域 =0.05,查t-分布表(自由度n-1=8),得临界值是t0.025(8)=2.306,拒绝域是 2.306 。 第四步:判断。 由于 2.306,检验统计量的样本观测值落入接受域,所以不能拒绝。样本数据没有充分说明这天的自动包装机工作不正常。,二、双总体均值是否相等的检验,(一)两个正态总体,方差相等(但未知),为检验两个总体均值是否相等,我们提出原假设H0:1 = 2 。可以证明,在原假设成立的条件下,以下检验统计量服从自由度为n1+n2-2的t-分布。即 当n1+n2-2 30时,上述检验统计量近似服从标准正态分布。,(二)两个正态总体,方差不相等(也未知) 这时,使用检验统计量,(三)两个非正态总体,样本量足够大,那么,只要n1和n2都足够大,在原假设H0:1 = 2成立的条件下,以下检验统计量近似服从标准正态分布。,例6-6,某工厂为了比较两种装配方法的效率,分别组织了两组员工,每组9人,一组采用新的装配方法,另外一组采用旧的装配方法。假设两组员工设备的装配时间均服从正态分布,两总体的方差相等但未知。现有18个员工的设备装配时间见表6-2,根据这些数据,是否有理由认为新的装配方法更节约时间?(显著性水平0.05),解:原假设与备择假设如下: H0:旧 - 新 0 H1:旧 - 新 0 该题属于两个正态总体,方差相等(但未知)的情况。因此,可利用下式计算检验统计量。,查表可知,显著性水平为0.05、自由度为16的单侧临界值为1.7459。t 统计量的样本观测值2.33971.7459,因此应拒绝原假设,即认为新的装配方法更节约时间。,第三节 总体比例的假设检验,一 单个总体比例的假设检验,二 两个总体的比例是否相等的检验,一、单个总体比例的假设检验,例6-7,一项调查结果声称,某市小学生每月零花钱达到200元的比例为40%,某科研机构为了检验这个调查是否可靠,随机抽选了100名小学生,发现有47人每月零花钱达到200元,调查结果能否证实早先调查40%的看法?(=0.05) 解:由条件充分大,可以利用正态近似的公式进行计算。H0: = 40% H0: 40% 确定拒绝域临界值z0.025=1.96,Zz0.025,故不能拒绝,调查结果还不能推翻40%比重这个看法。,二、两个总体的比例是否相等的 检验,第四节 单因子方差分析,一 问题的提出,二 方差分析的检验统计量,三 关于方差分析的两点说明,一、问题的提出,例6-8:已知在一组给定的条件下饲养小鸡所增加的体重服从正态分布。某养鸡场欲检验四种饲料配方对小鸡增重的影响是否不相同(假定已经经过检验表明不同饲料配方下的小鸡增重方差相等)。为此,他们对四组初始条件完全相同的小鸡,在完全相同的其他饲养条件下,分别使用四种不同的饲料配方进行喂养。所得到的增重数据如表6-3。,对于类似本例的问题,一般地,把随机变量分组的数目记作m,我们可建立下列假设:,二、方差分析的检验统计量,开展方差分析需要先建立样本数据的方差分析恒等式 SST = SSR + SSE 式中,总变差平方和 组间变差平方和 组内变差平方和,以上三式中的样本平均数定义为: 总样本平均数 各组样本平均数 ni是各组样本观测值的个数,n为所有样本观测值的个数,m是分组数目。,可以证明,在原假设成立的条件下,下面的检验统计量服从分子自由度为m1,分母自由度为nm的F分布。即,上式的分子MSR为组间方差,MSE为组内方差。F值越大,越说明总的方差波动中,组间方差是主要部分,有利于拒绝原假设接受备选假设;反之,F值越小,越说明随机方差是主要的方差来源,有利于接受原假设。 因此,检验规则为:根据提出的显著性水平,把拒绝域放在分子自由度为m1 ,分母自由度为nm的F分布的右侧,当P-值小于 ,或是检验统计量的样本值大于临界值(落在拒绝域)时拒绝原假设。,例6-9,利用表6-3中的数据进行单因子方差分析(显著水平为 =0.05)。 解: (1)建立假设 H0: 1= 2= 3= 4 H1: 1 , 2 , 3 , 4 不完全相同 (2)计算离差平方和,(3)构造统计量并计算检验统计量的样本值,(4)确定检验规则,做出检验结论 P-值规则:根据算得的检验统计量的样本值(F值)算出P-值=0.411573(见表6-4)。由于P-值=0.411573显著水平标准 = 0.05,所以不能拒绝H0,即没有得到足以表明四种配方的饲料下小鸡增重水平有差异的显著证据。 临界值规则:根据给定的显著水平 = 0.05 ,查表得临界值为F0.05(3,17)=3.20。因F=1.063.20,检验统计量的样本值落入接受域,所以不能拒绝H0,即没有得到足以表明四种配方的饲料下小鸡增重水平有差异的显著证据。,三、关于方差分析的两点说明,(一)方差分析中变量的类型 方差分析中的因变量是数量型变量。自变量可以是品质型变量,也可以是数量型变量。当自变量是数量型变量的时候,也要对其作统计分组设计,也就是将它按品质型变量来处理。 (二)总体的正态性和同方差 方差分析适用于多个正态总体Yi(i=1,2,m)均值的比较,且要求它们具有相同的方差。不过在实际应用中,即使对于正态性和同方差性都存在很大背离的数据,方差分析仍不失为一种提供有用的近似信息的技术。,第五节 双因子方差分析,一 问题的提出,二 有交互作用的双因子方差分析,一、问题的提出,方差分析中的“因子”,也称因素。它是一个独立的变量(自变量)。在上一节的例子中,我们要分析饲料是否为影响增重产生差异的原因,所以饲料是因子。该例中所考察的因子只有“饲料”一个,而其他因子如鸡的品种,饲养条件等保持不变,我们称这种方差分析为单因子方差分析。如果要同时考察饲料和鸡的品种两个因子对小鸡的增重是否有影响,则称之为双因子方差分析。,在这里要注意,不能把A的r个处理和B的c个处理看成“随机样本”。现在的rc个处理是rc个总体,即Ai和Bj的每一种搭配形成的组格都是一个总体(随机变量Yij)。对一个组格总体的nij个观测yij1,yij2,yijnij 才是随机样本。 我们把Ai与Bj的搭配所形成的组格总体即随机变量Yij的期望值记作 ij,于是可以写出与表6-5(样本)相应的总体期望值表如表6-6。,一般的双因子方差分析的任务是: 检查因子A对变量Y是否显著地有影响;也就是要检查因子A的各种处理对Y的作用是否显著地有差别;或者说,也就是要检查各个 i .是否显著地不相等。 检查因子B对的变量Y是否显著地有影响;也就是要检查因子B的各种处理对Y的作用是否显著地有差别;或者说,也就是要检查各个 . j是否显著地不相等。 检查因子A和因子B的交互作用对变量Y是否显著地有影响;也就是要检查因子A的r种处理与因子B的c种处理的各种搭配下的交互作用对Y的作用是否显著地有差别。如果事先已经得知因子A 和因子B相互独立并无交互作用。则不必对此项进行检验。此时的方差分析称为无交互作用的双因子方差分析。,相应地可以建立以下三个原假设: 备择假设是上述原假设所列全相等的各项“不全相等”。,二、有交互作用的双因子方差 分析,样本数据的方差分析恒等式: SST=SSA+SSB+SSAB+SSE 式中, SST是总离差平方和, SSA 是A因子处理间的离差平方和, SSB 是B因子处理间的离差平方和, SSAB 是AB交互作用处理间的离差平方和, SSE 是组格内离差平方和。,以上式中的各种样本平均数定义为: 总样本平均数 组格样本平均数 A因子各组处理样本平均数 B因子各组处理样本平均数 式中,r是A因子处理的种类,c是B因子处理的种类, nij 是第ij个组格总体所包含的样本观测值个数。,将各种总离差平方和分别除以各自的自由度,可得到相应于各离差平方和来源的方差。即,分别针对前面给出的三个原假设可建立下列检验统计量 (1)针对H01: (2)针对H02: (3)针对H03:,例6-10,为了分析光照因素A与噪音因素B对工人生产有无影响,光照效应与噪音效应有交互作用,在此两因素不同的水平组合下做试验,结果如表6-7(表中数据为产量,单位:件),解:设定以下三对假设: H01:光照因素A对产量没有显著影响; H11 :光照因素A对产量有显著影响。 H02 :噪音因素B对产量没有显著影响; H12 :噪音因素B对产量有显著影响。 H03 :光照效应与噪音效应没有交互作用; H13 :光照效应与噪音效应有交互作用。,将表6-7的数据输入Excel,进行“有重复双因素分析”。Excel输出的方差分析表如下:,从上表可知: FA=0.46296 F0.05(2,24)=3.40283,拒绝H02 ,有充分证据说明噪音对产量有显著影响; FAB=7.09259F0.05(6,24)=2.50819,拒绝H03,有充分证据说明光照与噪音存在交互作用并由此对产量产生显著影响。,第六节 Excel在假设检验与方差分析 中的应用,一 假设检验,二 方差分析,一、假设检验,【例6-11】使用例6-1的数据进行假设检验( =0.05,双侧检验)。 解:操作步骤如下。 (1)构造工作表,见图6-2。图中方框内为计算所得数据,方框外为原始输入数据。 (2)计算
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年网络安全行业网络安全技术应用前景探讨报告
- 2025年电子科技产业5G技术应用前景研究报告
- 2025年生态环境保护产业发展现状及前景分析报告
- 2025年环保科技行业清洁能源技术前景研究报告
- 2025年家居建材行业绿色建材市场前景预测报告
- 2025年虚拟现实娱乐行业创新应用与市场前景研究报告
- 国家事业单位招聘2025中国地质博物馆招聘应届毕业生拟聘用人员笔试历年参考题库附带答案详解
- 四川省2025年四川安岳县引进急需紧缺专业人才(68人)笔试历年参考题库附带答案详解
- 吉安市2025江西吉安市吉州区社会保险中心招聘就业见习人员3人笔试历年参考题库附带答案详解
- 保定市2025河北定州事业单位选聘工作人员143名笔试历年参考题库附带答案详解
- 使用吹风机课件
- 安检流程课件
- 中国未来50年产业发展趋势白皮书(第四期)
- 2025年财会类资产评估师资产评估基础-资产评估基础参考题库含答案解析(5卷)
- 公安宣传打击黄赌毒课件
- 风光制氢醇一体化项目可行性分析报告(参考模板)
- 2025 河北省一级建造师《港口与航道工程实务》试题 (押题) 带答案解析
- 药品追溯管理培训试题(附答案)
- 梓潼县财政投资评审中心公开招聘一级造价工程师笔试备考试题及答案解析
- 2025年医院心理测试题范文(附答案)
- 羽毛球讲解课件
评论
0/150
提交评论