概率论与数理统计方差分析与回归分析.doc_第1页
概率论与数理统计方差分析与回归分析.doc_第2页
概率论与数理统计方差分析与回归分析.doc_第3页
概率论与数理统计方差分析与回归分析.doc_第4页
概率论与数理统计方差分析与回归分析.doc_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章 方差分析与回归分析第一节 单因素试验的方差分析在科学试验、生产实践和社会生活中,影响一个事件的因素往往很多。例如,在工业生产中,产品的质量往往受到原材料、设备、技术及员工素质等因素的影响;又如,在工作中,影响个人收入的因素也是多方面的,除了学历、专业、工作时间、性别等方面外,还受到个人能力、经历及机遇等偶然因素的影响. 虽然在这众多因素中,每一个因素的改变都可能影响最终的结果,但有些因素影响较大,有些因素影响较小. 故在实际问题中,就有必要找出对事件最终结果有显著影响的那些因素. 方差分析就是根据试验的结果进行分析,通过建立数学模型,鉴别各个因素影响效应的一种有效方法.内容分布图示 引言 基本概念 例1 例2 假设前提 方差分析的任务 偏差平方和及其分解 和的统计特性 检验方法 例3 例4 习题8-1 返回内容要点:一、基本概念在方差分析中,我们将要考察的对象的某种特征称为试验指标. 影响试验指标的条件称为因素. 因素可分为两类,一类是人们可以控制的(如上例的原材料、设备、学历、专业等因素);另一类人们无法控制的(如上例中员工素质与机遇等因素). 今后,我们所讨论的因素都是指可控制因素。因素所处的状态,称为该因素的水平. 如果在一项试验中只有一个因素在改变,则称为单因素试验;如果多于一个因素在改变,则称为多因素试验. 为方便起见,今后用大写字母等表示因素,用大写字母加下标表示该因素的水平,如等.二、假设前提设单因素A具有r个水平,分别记为在每个水平下,要考察的指标可以看成一个总体,故有个总体,并假设:(1) 每个总体均服从正态分布;(2) 每个总体的方差相同;(3) 从每个总体中抽取的样本相互独立.那么,要比较各个总体的均值是否一致,就是要检验各个总体的均值是否相等,设第个总体的均值为,则假设检验为 备择假设为 通常备择假设可以不写.在水平下,进行次独立试验,得到试验数据为记数据的总个数为n =由假设有 (和未知),即有故可视为随机误差.记=,从而得到如下数学模型: (1)方差分析的任务:1) 检验该模型中r个总体的均值是否相等;2) 作出未知参数, 的估计.为了更仔细地描述数据,常在方差分析中引入总平均和效应的概念. 称各均值的加权平均为总平均. 其中n= 再引入表示在水平下总体的均值与总平均的差异,称其为因子的第个水平的效应. 易见,效应间有如下关系式:利用上述记号,前述数学模型可改写为 (2)而前述检验假设则等价于:三、偏差平方和及其分解 为了使造成各之间的差异的大小能定量表示出来,我们先引入:记在水平下数据和记为: ,其样本均值为=因素A下的所有水平的样本总均值为=,为了通过分析对比产生样本, ,之间差异性的原因,从而确定因素A的影响是否显著,我们引入偏差平方和来度量各个体间的差异程度: (3)能反映全部试验数据之间的差异,又称为总偏差平方和.如果成立,则个总体间无显著差异,也就是说因素对指标没有显著影响,所有的可以认为来自同一个总体,各个间的差异只是由随机因素引起的。若不成立,则在总偏差中,除随机因素引起的差异外,还包括由因素的不同水平的作用而产生的差异,如果不同水平作用产生的差异比随机因素引起的差异大的多,就认为因素对指标有显著影响,否则,认为无显著影响. 为此,可将总偏差中的这两种差异分开,然后进行比较。记 (4)其中 反映在每个水平下的样本均值与样本总均值的差异,它是由因素A取不同水平引起的,称为组间(偏差)平方和,也称为因素A的偏差平方和.表示在水平下样本值与该水平下的样本均值之间的差异,它是由随机误差引起的,称为误差(偏差)平方和,也称为组内(偏差)平方和.等式称为平方和分解式. 事实上 =+根据和的定义知,所以=四、与的统计特性 如果成立,则所有的都服从正态分布,且相互独立,由第五章第三节的定理,可以证明:1) 2) ,且 所以为的无不偏估计.3) ,且,因此为的无偏估计.4) 相互独立.五、检验方法 如果组间差异比组内差异大的多,即说明因素的各水平间有显著差异,个总体不能认为是同一个正态总体,应认为不成立,此时,比值有偏大的趋势. 为此,选用统计量=在为真时,有F = F对给定的检验水平,查的值,由样本观察值计算,从而计算出统计量F的观察值. 由于不真时,值偏大,导致F值偏大. 因此,1) 若F时,拒绝,表示因素A的各水平下的效应有显著差异;2) 若F时,则接受,表示因素A的各水平下的效应无显著差异.实际分析中,常采用如下简便算法和记号:, =, =, =为表达的方便和直观,将上面的分析过程和结果制成一个表格,称这个表为单因素方差分析表:表8-1B单因素方差分析表例题选讲:例1 (讲义例1) 设有三台机器, 用来生产规格相同的铝合金薄板.取样, 测量薄板的厚度精确至千分之一厘米. 得结果如下表所示.表8-1A 铝合金板的厚度机器机器机器0.2360.2570.2580.2380.2530.2640.2480.2550.2590.2450.2540.2670.2430.2610.262这里, 试验的指标是薄板的厚度, 机器为因素, 不同的三台机器就是这个因素的三个不同的水平. 如果假定除机器这一因素外, 材料的规格、操作人员的水平等其它条件都相同,这就是单因素试验. 试验的目的是为了考察各台机器所生产的薄板的厚度有无显著的差异, 即考察机器这一因素对厚度有无显著的影响. 如果厚度有显著差异, 就表明机器这一因素对厚度的影响是显著的.例2 (讲义例2) 某食品公司对一种食品设计了四种新包装. 为了考察哪种包装最受欢迎, 选了十个有近似相同销售量的商店作试验, 其中两种包装各指定两个商店销售, 另两种包装各指定三个商店销售. 在试验期中各商店的货架排放位置、空间都尽量一致, 营业员的促销方法也基本相同. 观察在一定时期的销售量, 数据如表7.1.1所示:表7.1.1 销售量包装商店商店数123121821412133191721324302在本例中, 我们要比较的是四种包装的销售量是否一致, 为此把包装类型看成是一个因子, 记为因子A, 它有四种不同的包装, 就看成是因子A的四个水平, 记为.一般将第种包装在第个商店的销售量记为 (在本例中,).由于商店间的差异已被控制在最小的范围内, 因此一种包装在不同商店里的销售量被看作为一种包装的若干次重复观察, 所以可以把一种包装看作一个总体. 为比较四种包装的销售量是否相同, 相当于要比较的四个总体的均值是否一致. 简化起见,需要给出若干假定,把所要回答的问题归结为下个统计问题, 然后设法解决它.例3 (讲义例3) 在例1 中,检验假设() 不全相等.例4 (讲义例4) 在例2 中,检验假设() 不全相等.第二节 双因素试验的方差分析 在许多实际问题中,往往要同时考虑两个因素对试验指标的影响. 例如,要同时考虑工人的技术和机器对产品质量是否有显著影响. 这里涉及到工人的技术和机器这样两个因素. 多因素方差分析与单因素方差分析的基本思想是一致的,不同之处就在于各因素不但对试验指标起作用,而且各因素不同水平的搭配也对试验指标起作用. 统计学上把多因素不同水平的搭配对试验指标的影响称为交互作用. 交互作用的效应只有在有重复的试验中才能分析出来.对于双因素试验的方差分析,我们分为无重复和等重复试验两种情况来讨论. 对无重复试验只需要检验两个因素对试验结果有无显著影响;而对等重复试验还要考察两个因素的交互作用对试验结果有无显著影响.内容分布图示 引言 无重复试验双因素方差分析 例1 例2 等重复试验双因素方差分析 数学模型 数学模型的改进 偏差平方和及其分解 偏差平方和的统计特征 检验方法 例3 例4 内容小结 习题8-2 返回内容要点:一、 无重复试验双因素方差分析设因素A,B作用于试验指标。因素A有r个水平A,A,A,因素B有s个水平B,B,B. 对因素A,B的每一个水平的一对组合(A,B),(i=1,2,r,j=1,2,s)只进行一次实验,得到 个试验结果,列于下表中表8-2-1 因素B试验结果因素A X1. 假设前提与单因素方差分析的假设前提相同,仍假设:1) ,未知,2) 每个总体的方差相同;3) 各相互独立,那么,要比较同一因素的各个总体的均值是否一致,就是要检验各个总体的均值是否相等,故检验假设为: 备择假设为 由假设有 (和未知),记=,即有故可视为随机误差. 从而得到如下数学模型引入记号:=,=,i=1,2,r, =,j=1,2,s,=,i=1,2,r,=,j=1,2,s,易见,. 称为总平均,称为水平A的效应,称为水平B的效应. 且 =+.于是上述模型进一步可写成检验假设: 若(或)成立,则认为因素的影响不显著,否则影响显著。2. 偏差平方和及其分解类似于单因素方差分析,需要将总偏差平方和进行分解. 记将总偏差平方和进行分解:S=由于在的展式中三个交叉项的乘积都等于零,故有,其中,S=我们称S为误差平方和;分别称S,S为因素A、因素B的偏差平方和.类似地,可以证明当、成立时,有1) 分别服从自由度依次为的分布;2) 相互独立.3. 检验方法当为真时,可以证明F=取显著性水平为,得假设的拒绝域为F=类似地,当为真时,可以证明F=取显著性水平为,得假设的拒绝域为F=实际分析中,常采用如下简便算法和记号:记 T=T=, T=, 则 S=,S=,S=,S=S-S-S.可得如下方差分析表: 表8-2-2无重复试验双因素方差分析表二、无重复试验双因素方差分析设因素A,B作用于试验指标. 因素A有r个水平A,A,A,因素B有s个水平B,B,B. 对因素A,B的每一个水平的一对组合(A,B),(i=1,2,r,j=1,2,s)只进行次实验(称为等重复实验),得到个试验结果(.1 假设前提1) ,未知,2) 每个总体的方差相同;3) 各相互独立,.由假设有 (和未知),记=,即有 故可视为随机误差. 从而得到如下数学模型类似地,引入记号:,易见,.仍称为总平均,称为水平A的效应,称为水平B的效应. 这样可以将表示成 =+ +(),其中(),称为水平A和水平B的交互效应, 这是由A与B搭配联合起作用而引起的。易见 ,j=1,2,s,从而前述数学模型可改写为其中,及都是未知参数.假设检验为 :(1) (2) (3) 与无重复试验的情况类似,此类问题的检验方法也是建立在偏差平方和的分解上的。2. 偏差平方和及其分解引入记号:=,=,i=1,2,r,j=1,2,s,=,i=1,2,r,=,j=1,2,s。称总偏差平方和(称为总变差)为S=。上式可分解为 S=S+S+S+S其中 S=,S=st,S= rt, S= t同样,我们仍S称为误差平方和,S,S分别称为因素A、因素B的偏差平方和,S称为A,B交互偏差平方和.类似地,可以证明当、成立时,有1) 分别服从自由度依次为 的分布,2) 相互独立。3. 检验方法当为真时,可以证明F=取显著性水平为,得假设的拒绝域为F= 类似地,当为真时,可以证明F=取显著性水平为,得假设的拒绝域为F= 类似地,当为真时,可以证明F=取显著性水平为,得假设的拒绝域为F= 实际分析中,常采用如下简便算法和记号: T=T=, i=1,2,r,j=1,2,s,T=,i=1,2,r,T=,j=1,2,s.则 S=,S=,S=,S=,S =可得如下方差分析表: 表8-2-5有重复试验双因素方差分析表 例题选讲:无重复试验双因素方差分析例1 (讲义例1) 设四名工人操作机器各一天, 其日产量如表8.7所示, 问不同机器或不同工人对日产量是否有显著影响()?表8-2-3 工人日产量机器504747535354575852424148例2 下面给出了在某5个不同地点,不同时间空气中的颗粒状物(以mg/m计)的含量的数据:因素(地点)12345因素A时间1995年10月76678156513311996年1月82699659703761996年5月68596754422901996年8月63566458372782892513082272001275试在水平下检验. 在不同时间的颗粒状物含量的均值有无显著差异. 等重复试验双因素方差分析例3 (讲义例2) 在某种金属材料的生产过程中, 对热处理温度(因素B)与时间(因素A)各取两个水平, 产品强度的测定结果(相对值)如表9.12所示. 在同一条件下每个实验重复两次. 设各水平搭配下强度的总体服从正态分布且方差相同. 各样本独立. 问热处理温度, 时间以及这两者的交互作用对产品强度是否有显著的影响 (取)? 表826 38.038.647.044.8168.445.043.842.440.8172165.4175340.4例4 为了保证某零件镀铬的质量, 需重点考察通电方法和液温的影响. 通电方法选取三个水平:(现行方法), (改进方案一), (改进方案二); 液温选取两个水平:(现行温度), (增加10); 每个水平组合进行两次试验, 所得结果如表(指标值以大为好). 问通电方法、液温和它们的交互作用对该质量指标有无显著影响(? 因素B指标值因素A 第三节 一元线性回归在客观世界中, 普遍存在着变量之间的关系.数学的一个重要作用就是从数量上来揭示、表达和分析这些关系。而变量之间关系, 一般可分为确定的和非确定的两类. 确定性关系可用函数关系表示, 而非确定性关系则不然.例如, 人的身高和体重的关系、人的血压和年龄的关系、某产品的广告投入与销售额间的关系等, 它们之间是有关联的,但是它们之间的关系又不能用普通函数来表示。我们称这类非确定性关系为相关关系。具有相关关系的变量虽然不具有确定的函数关系,但是可以借助函数关系来表示它们之间的统计规律,这种近似地表示它们之间的相关关系的函数被称为回归函数。回归分析是研究两个或两个以上变量相关关系的一种重要的统计方法。在实际中最简单的情形是由两个变量组成的关系。考虑用下列模型表示. 但是,由于两个变量之间不存在确定的函数关系,因此必须把随机波动考虑进去,故引入模型如下 其中是随机变量,是普通变量,是随机变量(称为随机误差)。回归分析就是根据已得的试验结果以及以往的经验来建立统计模型,并研究变量间的相关关系,建立起变量之间关系的近似表达式,即经验公式,并由此对相应的变量进行预测和控制等。本节主要介绍一元线性回归模型估计、检验以及相应的预测和控制等问题。内容分布图示 引言 引例 一元线性回归模型 最小二乘估计 例1 例2 最小二乘估计的性质 回归方程的检验假设 总偏差平方和的分解 回归方程的检验方法 例3 例4 预测问题 例5 控制问题 可化一元线性回归的情形 例6 内容小结 课堂练习 习题8-3 返回内容要点:一、引例为了研究某一化学反应过程中温度对产品得率的影响. 测得数据如下: 试研究这些数据所蕴藏的规律性.二、一元线性回归模型一般地,当随机变量与普通变量之间有线性关系时, 可设, (1)其中为待定系数。设是取自总体的一组样本,而是该样本的观察值,在样本和它的观察值中的是取定的不完全相同的数值,而样本中的在试验前为随机变量,在试验或观测后是具体的数值,一次抽样的结果可以取得对数据,则有 , (2)其中相互独立。在线性模型中,由假设知 (3)回归分析就是根据样本观察值寻求的估计.对于给定值, 取 (4)作为的估计,方程(4)称为关于的线性回归方程或经验公式,其图像称为回归直线,称为回归系数.三、最小二乘估计对样本的一组观察值,对每个, 由线性回归方程(4)可以确定一回归值,这个回归值与实际观察值之差刻画了与回归直线的偏离度. 一个自然的想法就是: 对所有,若与的偏离越小, 则认为直线与所有试验点拟和得越好.令 上式表示所有观察值与回归直线的偏离平方和, 刻划了所有观察值与回归直线的偏离度。所谓最小二乘法就是寻求的估计,使 利用微分的方法,求关于的偏导数, 并令其为零, 得 整理得,称此为正规方程组,解正规方程组得 (5)其中, 若记, ,则 或叫做的最小二乘估计. 而为关于的一元经验回归方程.四、最小二乘估计的性质定理1 若为的最小二乘估计,则分别是的无偏估计, 且 , 五、回归方程的显著性检验前面关于线性回归方程的讨论是在线性假设, 下进行的. 这个线性回归方程是否有实用价值, 首先要根据有关专业知识和实践来判断,其次还要根据实际观察得到的数据运用假设检验的方法来判断.由线性回归模型,可知,当时,就认为与之间不存在线性回归关系,故需检验如下假设: .为了检验假设, 先分析对样本观察值的差异,它可以用总的偏差平方和来度量, 记为 ,由正规方程组, 有=.令 , , 则有上式称为总偏差平方和分解公式. 称为回归平方和,它由普通变量的变化引起的,它的大小(在与误差相比下)反映了普遍变量的重要程度; 称为剩余平方和,它是由试验误差以及其它未加控制因素引起的,它的大小反映了试验误差及其它因素对试验结果的影响.关于和,有下面的性质:定理2 在线性模型假设下, 当成立时, 与相互独立, 且对的检验有三种本质相同的检验方法: 检验法;检验法;相关系数检验法.在介绍这些检验方法之前, 先给出,的计算方法.1.检验法由定理1, 若令 则由定理2知,为的无偏估计, =且与相互独立. 故取检验统计量,由给定的显著性水平,查表得,根据试验数据计算的值, 当时,拒绝,这时回归效应显著; 当时,接受,此时回归效果不显著.2.检验法由定理2, 当为真时, 取统计量由给定显著性水平, 查表得, 根据试验数据计算的值, 若时, 拒绝, 表明回归效果显著;若时, 接受,此时回归效果不显著.3. 相关系数检验法由第四章知,相关系数的大小可以表示两个随机变量线性关系的密切程度. 对于线性回归中的变量与,其样本的相关系数为,它反映了普通变量与随机变量之间的线性相关程度. 故取检验统计量 对给定的显著性水平, 查相关系数表得 根据试验数据计算的值, 当时, 拒绝,表明回归效果显著; 当时, 接受, 表明回归效果不显著.六、预测问题在回归问题中,若回归方程经检验效果显著, 这时回归值与实际值就拟合较好, 因而可以利用它对因变量的新观察值进行点预测或区间预测.对于给定的,由回归方程可得到回归值称为在的预测值. 的测试值与预测值之差称为预测误差.在实际问题中, 预测的真正意义就是在一定的显著性水平下, 寻找一个正数,使得实际观察值以的概率落入区间内, 即,由定理1知, ,又因与相互独立, 且所以,故对给定的显著性水平,求得故得的置信度为的预测区间为.易见,的预测区间长度为对给定,越靠近样本均值越小,预测区间长度小,效果越好。当很大, 并且较接近时, 有, 则预测区间近似为七、控制问题控制问题是预测问题的反问题,所考虑的问题是:如果要求将控制在某一定范围内, 问应控制在什么范围?这里我们仅对很大的情形给出控制方法,对一般的情形,也可类似地进行讨论。对给出的和置信度, 令 (1)解得 (2)当时, 控制范围为当时, 控制范围为 如图8-3-3.实际应用中, 由(1)式知, 要实现控制, 必须要求区间的长度大于, 否则控制区间不存在.特别, 当时, , 故(2)近似为八、可化为一元线性回归的情形前面讨论了一元线性回归问题, 但在实际应用中, 有时会遇到更复杂的回归问题, 但其中有些情形, 可通过适当的变量替换化为一元线性回归问题来处理. 1. + (1)其中是与无关的未知参数.令则可化为下列一元线性回归模型:2. , (2)其中是与无关的未知参数.在两边取对数得令则(2)可转化为下列一元线性回归模型:3. (3)其中是与无关的未知参数.在两边取对数得令则(2)可转化为下列一元线性回归模型:4. (4)其中是与无关的未知参数.是的已知函数,令则(3)可转化为注: 其它,如双曲线和型曲线函数等亦可通过适当的变量替换转化为一元线性模型来处理. 若在原模型下, 对于有样本就相当于在新模型下有样本因而就能利用一元线性回归的方法进行估计、检验和预测,在得到关于的回归方程后,再将原变量代回,就得到关于的回归方程,它的图形是一条曲线,也称为曲线回归方程。例题选讲:一元线性回归模型例1 ( 讲义例1) 求引例中产品得率Y关于温度x的回归方程.例2 (讲义例2) 对某地区生产同一产品的8个不同规模的乡镇企业进行生产费用调查, 得产量x(万件)和生产费用Y (万元)的数据如下:试据此建立Y关于x的回归方程.回归方程的显著性检验例3 (讲义例3) 以家庭为单位, 某种商品年需求量与该商品价格之间的一组调查数据如下表:(1) 求经验回归方程;(2) 检验线性关系的显著性(, 采用检验法).回归方程的检验假设例4 (讲义例4) 对本章第一节中例2的线性回归作显著检验( 预测问题例5 (讲义例5) 某建材实验室做陶粒混凝土实验室中, 考察每混凝土的水泥用量(kg)对混凝土抗压强度(kg/)的影响, 测得下列数据.(1) 求经验回归方程;(2) 检验一元线性回归的显著性();(3) 设 求的预测值及置信度为0.95的预测区间.可化为一元线性回归的情形例6 (讲义例6) 电容器充电达某电压值时为时间的计算原点, 此后电容器串联一电阻放电, 测定各时刻的电压u, 测量结果如下:若u与t的关系为 其中未知,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论