数理统计与随机过程ch.ppt_第1页
数理统计与随机过程ch.ppt_第2页
数理统计与随机过程ch.ppt_第3页
数理统计与随机过程ch.ppt_第4页
数理统计与随机过程ch.ppt_第5页
已阅读5页,还剩101页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,数理统计与随机过程 第九章,主讲教师:程维虎教授,北京工业大学应用数理学院,第九章 方差分析及回归分析,9.1 单因素试验的方差分析,在科学试验和生产实践中,影响事物的因素往往很多。例如:在化工生产中,原料成分、原料剂量、催化剂、反应温度、压力、溶液浓度、反应时间、机器设备及操作员水平等因素,每个因素的改变都有可能影响产品的数量和质量。有些因素影响大些,有些较小。为使生产过程得以稳定,确保优质、高产,就必要找出对产品质量有显著影响的那些因素。为此,需要进行试验及设计。方差分析就是根据试验的结果进行分析,鉴别各试验因素对试验结果影响大小的统计方法。,9.1.1 单因素试验的方差分析 I. 基本概念 1. 试验指标 在试验中,需要考察的指标。 2. 因素 影响试验指标的条件。因素又分成可控因素和不 可控因素两类。例如,反应温度、原料剂量、溶液浓 度、反应时间等都是可控因素;而测量误差、气候条 件等都是不可控因素。 3. 水平 因素所处的状态。,如试验中仅有一个因素发生改变,而其他因素(有的话)不发生改变,称这样的试验为单因素试验;如试验中有多个因素发生改变,就称试验为多因素试验。 特别地,称只有两个因素发生改变,而其他因素(有的话)不发生改变的试验为两因素试验或双因素试验。,II. 举例,例1:用三台机器生产规格相同的铝合金薄板。测量薄板的厚度 (精确到千分之一厘米) 如下表所示。在这里, 试验指标是薄板厚度;机器为因素;三台机器就是因素的三个水平。如果假定除机器因素外,其他因素都相同,则试验为单因素试验。,试验目的是为了考察各台机器生产的铝合金薄板的厚度是否有显著差异,即因素的不同水平是否对试验目标有显著不同的影响。,例2:随机选取的、用于计算器的四种类型的电路的响应时间如下表所示 (单位是毫秒)。试验指标是电路的响应时间;考虑的因素是电路类型;四种电路就是四个水平。试验目的:考察电路类型对响应时间有无显著影响。,例3:一火箭使用四种燃料,三种推进器做射程试验。每种燃料与每种推进器的组合下发射火箭两次,射程 试验数据由下表给出。试验指标:射程;因素:推进器 (三个水平)、 燃料 (四个水平);目的:考察推进器和燃料这两个因素对射程是否有显著影响。,III. 问题讨论,本节仅讨论单因素试验问题。例1中,在因素的每个水平下进行独立试验,其结果是一个随机变量。 表中的数据看成是来自三个不同总体 (每个水平对应于一个总体) 的样本值。,将各个总体的均值依次记为1,2与3。按题意需检验假设 H0: 1=2=3 , H1: 1,2与3不全相等。 若假设每个总体均为正态变量,且方差相等,但参数未知。那么,这是一个检验具有相同方差的多个正态总体均值是否相等的问题。方差分析法就是解决这类问题的一种统计方法。,单因素试验的方差分析,设因素A 有s 个水平:A1, A2, , As,在水平Aj ( j =1, 2, , s)下,进行 nj ( nj 2) 次独立试验,得 到如下标的结果。,假定水平Aj ( j=1, 2, , s )下的样本 来自具有方差2,均值为j 的正态总体, j和2未 知,且不同水平Aj下的样本相互独立。,方差分析的任务, 检验 s 个总体 的均值 是否相等,即检验假设 作出未知参数 的估计。 若记 的加权平均为,引入 表示总体平均值与 总平均的差异,称为水平Aj 的效应。此时,,模型 (1.1)可改写成,假设(1.2)等价于假设,9.1.2 平方和的分解,引入总偏差平方和,是数据的总平均。ST 反应了全部数据之间的差异。因此,又称其为总变差。,其中,记水平 Aj下的样本均值为,上式的第三项为,则有,SE 称为误差平方和,SA称为效应平方和。(1.8)式称 作总变差平方和分解式,简称平方和分解式。,于是,有 ST=SE+SA , (1.8),其中,9.1.3 SE与SA的统计特性,为导出检验问题(1.2) 的检验统计量,首先来讨论SE与SA 的特性。先将SE写成,由于不同总体的样本相互独立,又知(1.11)式中各加项也相互独立,根据2分布的可加性,得,进一步,可以证明:,特别地,H0为真时,有,9.1.4 假设检验问题的拒绝域,由(1.14)式,知:当H0为真时,SA /(s-1)是2的无偏估计,而当H1为真时, 此时,所以,当H0不真时, (1.16)式的分子SA /(s-1)的取值较2有偏大的趋势。故,检验问题的拒绝域应有,的形式。,根据(1.16)式,可得到检验问题(1, 2)的拒绝域为,其中为给定的显著性水平,Fs-1,n-s()是参数为 (s-1, n-s)的F分布的上分位点。,单因素方差分析表如下:,在实际中,可按以下简便公式计算ST, SA和SE。,则有,例4: 在例1中就是检验假设 (=0.05),解:在这里, s=3, n1=n2=n3=5, n=15, 按(1.20)式计算,得到 ST =0.00124533, SA=0.00105333, SE = 0.000192 及如下方差分析表:,判断:因 F2, 12 ()=3.8932.92, 故在水平0.05下拒绝H0,即认为各台机器生产的薄板厚度有显著差异。,9.1.5 未知参数的估计,由(1.13)式,知: 是2的无偏估计; 再由(1.1), (1.6)及(1.7)式,知: 故 分别为和j 的无偏估计。 若拒绝H0 ,就意味着,效应1,2,s不全 为零。由于j=j-, j=1, 2, , s, 知: 是j 的无偏估计。,由于,例5:求例4中未知参数2 ,j 与j 的点估计及均值差的置信水平为0.95的置信区间。,解:经计算,由tn-s (/2)=t12(0.025)=2.1788及(1.21)式,得 1 2 , 1 3 与2 3 的置信水平为0.95的置信区间分别为:,例6: 在例2中,四类电路的响应时间的总体均为正态分布,且各总体的方差相同,但参数未知。设各样本相互独立。取检验水平=0.05,检验各类电路的响应时间是否有显著差异。,解: 分别以1, 2, 3, 4 记类型i, , , 四种电路的响应时间总体均值。我们需要检验: H0 : 1 =2 =3 =4, H1 : 1, 2, 3, 4不全相等. 现在,n=18, s=4, n1 = n2 = n3 =5, n4 =3,,因为F 3,14(0.05)=3.343.76,故在水平0.05下拒 绝H0,即认为各类型电路的响应时间有显著差异。,将上述数据填入下表:,9.2.1 双因素等重复试验的方差分析,设两个因素A 和 B 作用于试验指标。A有r 个水平A1, A2, , Ar,B有s个水平B1, B2, , Bs。 现对A , B的各水平组合(Ai, Bj ),i=1, 2, , r ,j=1, 2, , s 都作t (t2)次试验(称等重复试验), 得如下试验结果:,9.2 双因素试验的方差分析,并假设: ijk(ij , 2), i =1,2,r, j =1,2,s, k=1,2,t,各ijk独立。,这里,ij 与 2 为参数, 未知。,于是,模型可写成:,引入记号:,易见,,称 为总平均,i 为水平Ai 的效应,j为水平Bj 的效应。这样可将ij 表示成,记,此时,称 ij 为水平Ai 和水平Bj 的交互效应,这是由Ai 和Bj 搭配起来联合起作用而引起的。易见,这样,(2.1) 式可写成,与单因素情况类似,对这些问题的检验方法也是建立在平方和的分解上。先引入以下记号:,再引入总偏差平方和(称为总变差),可将 ST 写成:,即得平方和的分解式:,其中,称SE为误差平方和,SA与SB分别为因素、因素的效应平方和,SAB为与交互效应平方和。,可以证明:ST,SE,SA,SB,SAB 的自由度依次为 rst -1, rs(t -1), r -1, s -1,(r -1)(s-1),且有,上述结果可汇总成下列的方差分析表:,记,例1: 在上节例3中,假设符合双因素方差分析模型所需的条件。试在水平0.05下,检验不同燃料(因素A)、不同推进器(因素B)下射程是否有显著差异?交互作用是否显著? 解: 现在 r =4,s=3,t =2。需检验假设H01, H02, H03, (见(2.6) (2.8) )。首先计算T, Tij ., Ti, T.j .,表中括号内的数是Tij. 。然后按(2.22)式计算下列各式:,得方差分析表如下:,由于 F3,12 (0.05)=3.49FA, F2,12 (0.05)=3.89FB,所以,在水平 = 0.05下,拒绝原假设H01与H02,即认为不同燃料或不同推进器下的射程有显著差异。也就是说,燃料和推进器这两个因素对射程的影响都是显著的。,又,F6,12(0.05)=3.00 FAB 。故拒绝H03。值得注意的是, F6,12 (0.001)=8.38 也远远小于 FAB =14.9,故交互作用的效应是高度显著的。从表9.10可看出,A4与B1或A3与B2的搭配都使火箭射程较之其他水平的搭配要远得多。实际中, 我们选最优的搭配方式来实施。,例2:在某种金属材料生产过程中,对热处理温度(因素B)与时间(因素A)各取两个水平,产品强度的测定结果(相对值)如表9.12所示。在同一条件下每个实验重复两次。设各水平搭配下强度的总体服从正态分布且方差相同。各样本独立。问热处理温度、时间以及这两者的交互作用对产品强度是否有显著的影响(取 =0.05)?,解:按题意需检验假设(2.6) (2.8),作计算如下.,得方差分析表如表9.13.,由于F1,4(0.05)=7.71,所以认为时间对强度的影响不显著, 而温度的影响显著, 交互作用的影响也显著。,9.2.2 双因素无重复试验的方差分析,在以上讨论中,我们考虑了双因素试验中两个因素间的交互作用。为检验交互作用的效应是否显著。对两因素的每一组合(Ai, Bj)至少要做2次试验。 这是因为在模型(2.5)中,若k=1, ij+ij 总以结合在一起的形式出现,这样就不能将交互作用与误差分离出来。如果在处理实际问题时,我们知道不存在交互作用,或已知交互作用对试验的指标影响很小,就可以不考虑交互作用。此时,即使 k =1,也能对因素A、B的效应进行分析。 现设对两个因素的每一组合(Ai, Bj)只做一次试验,所得结果如下。,或写成,沿用 9.2.1中的记号,注意到现在假设“不存在 交互作用”。此时,ij=0,i=1, 2, , r,j =1, 2,s。故,由(2.4)式知 , (2.23)式可写成,这就是现在要研究的方差分析模型。,对这个模型,所要检验的假设有如下两个:,与在9.2.1中的讨论相同,得方差分析表。,表9.15中的平方和可按下述式子来计算:,其中,例3: 下面给出了在某5个不同地点、不同时间空气中的颗粒状物(以mg/m3计)的含量的数据:,设本题符合模型(2.24)式中的条件。试在水平 =0.05下检验: 1).在不同时间下颗粒状物含量的均值有无显著差异; 2).在不同地点下颗粒状物含量的均值有无显著差异。,解: 按题意需检验假设(2.25), (2.26)。 , 的值已算出载于上表。现在 r=4,s=5。由(2.27)得到:,方差分析表如下:,由于F3,12(0.05)=3.4910.72,,F4,12(0.05)=3.2613.24,得: 拒绝H01及H02,即,认为不同时间下颗粒状物含量的均值有显著差异;也认为不同地点下颗粒状物含量的均值有显著差异。 即,认为时间和地点对颗粒物的含量影响均为显著。,9.3 一元线性回归,本节内容提纲, 一元线性回归的概念和数学模型 a、b 的估计 2的估计 线性假设的显著性检验 系数 b 的置信区间 回归函数 (x)=a+bx 的点估计和置信区间 Y 的观测值的点预测和预测区间,客观世界中变量之间的关系包括: 确定性关系:变量之间的关系能用函数来表达; 非确定性关系:相关关系。 回归分析是研究相关关系的数学工具。可帮助 人们从一个变量的取值去估计另一个变量的值。 9.3.1 一元线性回归 设随机变量Y (因变量)与x (自变量)之间有某种 相关关系,且对每个固定的x, Y 都有确定的分布。,如:身高 x =165cm 的成年男性的体重Y 是一个随机变量, 有其分布; 某路口上午 6:30 7:30的车流量Y是一个随机变量,也有它的分布。, 预测问题:在给定的置信度下,估计出 x 取某一定 值x0时,随机变量 Y 的取值情况; 控制问题:在给定的置信度下,控制自变量 x 的取 值范围,使 Y 在给定的范围内取值。,若Y 的数学期望存在,且为 x 的函数,记为 (x),则称 (x)为Y 关于 x 的回归函数,简称回归。,若 (x)为x 的线性函数,就称 (x) 为线性回归;若 (x) 为 x 的多项式,就称 (x) 为多项式回归, 。,回归分析的任务是:根据试验数据,估计 (x) 的形式, 并将其用于预测或控制问题, 或两者兼有。,对于 x,取一组不完全相同的值 x1, x2, , xn, 设Y1, Y2, , Yn 分别为 x 在 x1, x2, , xn 处的观测结 果,称 (x1, Y1), (x2, Y2), , (xn , Yn ) 为一个样本。 相应的取值为样本值,记成: (x1, y1 ), (x2, y2), , (xn , yn ) (3.1),从散点图可粗略地看出 (x) 的形式。,我们要解决的问题是:如何利用样本值(3.1)来估计 关于 x 的回归函数 (x)。为此,首先要推测 (x)的形式。在一些实际问题中,可根据专业知识,了解 (x)的形式。否则,要将每对观测值(x, y)点绘在平面直角坐标系中,得到 与 x 关系的散点图。,从散点图可看出: (x) 近似为 x 的线性函数, 即近似地有 (x) = a+bx。此时估计 (x) 的问题称为一元线性回归问题。,例1:为研究某一化学反应过程中温度 x (单位: C )对产品得率 Y (%) 的影响,测得数据如表:,对于某个区间内固定的 x,设 Y N(a+b x, 2), 其中 a, b 和2是未知的,但都不依赖于 x 的参数。 记 = Y-(a+b x),则 Y= a+b x +, N(0, 2 ) . (3.2) 称上式为一元线性回归模型,b 为回归系数。,(3.2) 式表明:因变量Y 由两部分组成:一部分是 x 的线性函数 (x)= a+bx,称为 x 的线性回归函数;一部分是 N(0, 2 ),称为随机误差。,9.3.2 a、b的估计,取 n 个不全相同的 x1,x2,xn作独立试验,得样本 (x1, Y1),(x2, Y2),(xn, Yn ), 由(3.2)式, Yi= a+bxi + i , i N(0, 2);各i独立. (3.3) 于是,Yi N(a+bxi , 2), i=1, 2, , n。 Y1,Y2,Yn的联合概率密度为,利用极大似然估计法估计未知参数 a 和 b。,于是,“求L的最大值”问题就变成了“求Q的最小值” 问题 (问题变简单了!)。,令,称该方程组为正规方程组。,由于x1,x2,xn不全相同,故,正规方程组的系数行列式,得如下方程组:,故,正规方程组(3.7)有唯一解:,为计算上的方便, 引入如下记号:,(3.11),这样,a, b的估计值可写成,例2 (续例1):测得温度 x 对产品得率Y 的数据如下:,求Y 关于 x 的线性回归方程。,解:现在 n=10, 为求回归方程,需计算下列表中的数据。,回归直线方程为,根据上表可以计算,于是,,9.3.3 2的估计,由 Y=a+bx+, N(0, 2 ),即 =Y- ( a+bx); 得到 EY (a+bx)2 = E(2)=D(2)+E()2= 2. 这表示 2越小, 以回归函数 (x)=a+bx 作为Y 的近似 所导致的均方误差就越小。这样,利用回归函数来 估计Y就越有效。,然而 2未知,需要用样本来估计。为此,引入残差平方和的概念。,Qe是经验回归函数 (x)=ax+b 在 xi 处的函数值 与处的观察值 yi 的偏差的平方和。 为计算Qe,我们将其分解如下:,由(3.8)式知,b, a的估计量为,若记,服从如下分布:,这样,就得到了 2 的无偏估计量,注:在计算 a, b和 2 的估计 时,先要计算三个量:Sxx, SxY 和 SYY。计算过程见如下例3。,例3 (续例2):求 2 的无偏估计。 解:根据上页的表,可以得到,9.3.4 线性假设的显著性检验,在上述讨论中,我们假定 Y 关于 x 的回归 (x) 具有 a+bx 的形式。在处理实际问题时, (x)是否为 x 的线性函数,首先要根据有关专业知识判断和实践 来判断;其次, 要根据实际观察到的数据,用假设检 验的方法来判断。,这就是说,求得的线性回归方程是否有实用价值,只有通过假设检验才能确定。,若线性模型(3.2)符合实际,即 Y= a+bx + , N(0, 2 ) 成立,则 b 不为零。因为若b=0,则 (x)=a+ 就不 再依赖于 x 。,因此,我们需要检验假设 H0 :b=0, H1 :b0. (3.19),可以证明:,又由(3.17)和(3.18)式, 知,当 H0为真时,b=0,此时,即得 H0 的拒绝域为:,几点说明: 1. 在H0:b=0被拒绝时,认为回归效果是显著的;否则,认为回归效果是不显著的; 2. 回归效果不显著的原因可能是: 影响Y 取值的,除 x 和随机误差外,可能还有其他因素; E(Y )与 x 的关系可能不是线性的; Y 与 x 可能不存在关系。 因此,需要进一步地分析原因,进行处理。,例4 (续例2): 取 =0.05,检验回归模型是否显著。 解:由例2、例3,知,9.3.5 系数b的置信区间 在回归效果显著时,还要对系数 b 做区间估计。事实上,根据 (3.22) 式,知 b 的置信水平为1- 的置信区间是 根据数据,知 b 的置信系数为0.95的置信区间是:,9.3.6 回归函数 (x0)=a+bx0的点估计和置信区间,设 x0 是自变量 x 的某个指定值。由(3.9)式,可以 用经验回归函数 在 x0的函数值,作为回归函数 (x0)=a+bx0的点估计。,考虑相应的估计量,知此估计量是无偏的。,下面求 (x0)= a+bx0 的区间估计。,由本章附录三, 知,再由(3.21)式的,知,即,由此可以得到 (x0)=a+bx0的置信水平为1- 的置信区间为:,该置信区间的长度是 x0 函数,随 的增加而增加,当 时最短。,或,9.3.7 Y 的观察值的点预测和预测区间,若我们对指定点 x=x0 处因变量Y 的观测值 Y0 感兴趣,然而在 x=x0 处并未对 Y 进行观测,或无法观察。这时,经验回归函数的一个重要应用是: 可利用它对因变量 Y 的观察值Y0进行点预测和区间预测。,若 Y0 是在 x=x0 处对Y 的观测结果,由(3.2)式知道其满足 Y0= a+bx0 + 0, 0 N(0, 2). (3.30),我们用 Y 在 x0 处的经验回归函数值,作为Y0= a+bx0 + 0 的点预测。,由于 Y 0是将要做的一次独立试验的结果,因此, 它与已经得到的结果 Y1,Y2,Yn相互独立。由(3.15) 式,知 是 Y1, Y2, ,Yn 的线性组合。所以, 是Y1, Y2, ,Yn的线性组合。故,Y0 与 相互独立。 由此,得,故,Y0的置信系数为1- 的预测区间为:,再由(3.21), (3.31)式, 得,或,区间的长度是 x0 的函数,随 的增加而增加。, Y0 =a+bx0 +0 的置信系数为1- 的预测区间为:,比较(3.29) 与 (3.32) 后发现:, (x0)=a+bx0的置信水平为1- 的置信区间为:,后者比前者宽。,这也符合常理。因为后者是Y0 的预测区间,Y0 中多含了未知项 0 。多估计了未知项,区间自然地需加宽。,例5 (续例2):(1) 求回归函数在 x=125 处的值 (125)的 置信水平为0.95的置信区间;(2) 求Y 在 x=125 处观察 值Y0 的置信水平为0.95的预测区间。 解:由前面的例,知,查表,得 tn-2(/2)。于是,,(1) 回归函数在 x=125 处的值 (125)的置信水平为0.95 的置信区间为:57.640.84= 56.80, 58.48; (2) Y 在 x=125 处观察值Y0的置信水平为0.95的预测区

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论