《概率论与数理统计》第八章讲义讲解课件

上传人：东*** IP属地：江苏上传时间：2020-02-24 格式：PPT 页数：120 大小：2.60MB 积分：15 举报 版权申诉

已阅读5页，还剩115页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第八章方差分析与回归分析 8 1方差分析 8 2多重比较 8 3方差齐性分析 8 4一元线性回归 8 5一元非线性回归 8 1方差分析AnalysisofVariance ANOVA 方差分析 AnalysisofVariance 简称ANOVA 又称变异数分析或 F检验是R A Fisher发明的用于两个及两个以上样本均数差别的显著性检验在对均值进行假设检验时一般有两种参数检验方法即t检验与方差分析 t检验仅用在单因素两水平设计包括配对设计和成组设计和单组设计给出一组数据和一个标准值的资料的定量资料的均值检验场合而方差分析用在单因素k水平设计 k 3 和多因素设计的定量资料的均值检验场合 8 1 1问题的提出实际工作中我们经常碰到多个正态总体均值的比较问题处理这类问题通常采用所谓的方差分析方法方差分析的统计测试能够说明几组数据的平均值是否相等因此得到两组的t测试在做多组双变量t测试的时候错误的几率会越来越大因此方差分析只在二到四组平均值的时候比较有效例8 1 1在饲料养鸡增肥的研究中某研究所提出三种饲料配方 A1是以鱼粉为主的饲料 A2是以槐树粉为主的饲料 A3是以苜蓿粉为主的饲料为比较三种饲料的效果特选24只相似的雏鸡随机均分为三组每组各喂一种饲料 60天后观察它们的重量试验结果如下表所示表8 1 1鸡饲料试验数据本例中我们要比较的是三种饲料对鸡的增肥作用是否相同为此把饲料称为因子 factor 记为A 三种不同的配方称为因子A的三个水平记为A1 A2 A3 使用配方Ai下第j只鸡60天后的重量用yij表示 i 1 2 3 j 1 2 8 我们的目的是比较三种饲料配方下鸡的平均重量是否相等为此需要做一些基本假定把所研究的问题归结为一个统计问题然后用方差分析的方法进行解决 8 1 2单因子方差分析的统计模型在例8 1 1中我们只考察了一个因子称其为单因子试验通常在单因子试验中记因子为A 设其有r个水平记为A1 A2 Ar 在每一水平下考察的指标可以看成一个总体现有r个水平故有r个总体假定每一总体均为正态总体记为N i i2 i 1 2 r 各总体的方差相同 12 22 r2 2 从每一总体中抽取的样本是相互独立的即所有的试验结果yij都相互独立我们要比较各水平下的均值是否相同即要对如下的一个假设进行检验 H0 1 2 r 8 1 1 备择假设为H1 1 2 r不全相等在不会引起误解的情况下 H1通常可省略不写如果H0成立因子A的r个水平均值相同称因子A的r个水平间没有显著差异简称因子A不显著反之当H0不成立时因子A的r个水平均值不全相同这时称因子A的不同水平间有显著差异简称因子A显著为对假设 8 1 1 进行检验需要从每一水平下的总体抽取样本设从第i个水平下的总体获得m个试验结果记yij表示第i个总体的第j次重复试验结果共得如下n r m个试验结果 yij i 1 2 r j 1 2 m 其中r为水平数 m为重复数 i为水平编号 j为重复编号在水平Ai下的试验结果yij与该水平下的指标均值 i一般总是有差距的记 ij yij i ij称为随机误差于是有yij i ij 8 1 2 8 1 2 式称为试验结果yij的数据结构式单因子方差分析的统计模型 8 1 3 总均值与效应称诸 i的平均为总均值称第i水平下的均值 i与总均值的差 ai i 为Ai的水平效应模型 8 1 3 可以改写为 8 1 8 假设 8 1 1 可改写为H0 a1 a2 ar 0 8 1 9 why 8 1 3平方和分解一试验数据通常在单因子方差分析中可将试验数据列成如下页表格形式表8 1 2中的最后二列的和与平均的含义如下表8 1 2单因子方差分析试验数据数据间是有差异的数据yij与总平均间的偏差可用yij 表示它可分解为二个偏差之和 8 1 10 记二组内偏差与组间偏差由于 8 1 11 所以yij 仅反映组内数据与组内平均的随机误差称为组内偏差而 8 1 12 除了反映随机误差外还反映了第i个水平的效应称为组间偏差在统计学中把k个数据y1 y2 yk分别对其均值 y1 yk k的偏差平方和称为k个数据的偏差平方和它常用来度量若干个数据分散的程度三偏差平方和及其自由度在构成偏差平方和Q的k个偏差y1 yk 间有一个恒等式这说明在Q中独立的偏差只有k 1个在统计学中把平方和中独立偏差个数称为该平方和的自由度常记为f 如Q的自由度为fQ k 1 自由度是偏差平方和的一个重要参数各yij间总的差异大小可用总偏差平方和表示其自由度为fT n 1 四总平方和分解公式仅由随机误差引起的数据间的差异可以用组内偏差平方和表示也称为误差偏差平方和其自由度为fe n r 由于组间差异除了随机误差外还反映了效应间的差异故由效应不同引起的数据差异可用组间偏差平方和表示也称为因子A的偏差平方和其自由度为fA r 1 定理8 1 1在上述符号下总平方和ST可以分解为因子平方和SA与误差平方和Se之和其自由度也有相应分解公式具体为 ST SA Se fT fA fe 8 1 16 8 1 16 式通常称为总平方和分解式偏差平方和Q的大小与自由度有关为了便于在偏差平方和间进行比较统计上引入了均方和的概念它定义为MS Q fQ 其意为平均每个自由度上有多少平方和它比较好地度量了一组数据的离散程度如今要对因子平方和SA与误差平方和Se之间进行比较用其均方和MSA SA fA MSe Se fe进行比较更为合理故可用作为检验H0的统计量 8 1 4检验方法定理8 1 2在单因子方差分析模型 8 1 8 及前述符号下有 1 Se 2 2 n r 从而E Se n r 2 进一步若H0成立则有SA 2 2 r 1 2 SA与Se独立由定理8 1 2 若H0成立则检验统计量F服从自由度为fA和fe的F分布因此拒绝域为W F F1 fA fe 通常将上述计算过程列成一张表格称为方差分析表表8 1 3单因子方差分析表对给定的可作如下判断若F F1 fA fe 则说明因子A不显著该检验的p值也可利用统计软件求出若以Y记服从F fA fe 的随机变量则检验的p值为p P Y F 如果F F1 fA fe 则认为因子A显著常用的各偏差平方和的计算公式如下 8 1 19 一般可将计算过程列表进行例8 1 2采用例8 1 1的数据将原始数据减去1000 列表给出计算过程表8 1 4例8 1 2的计算表利用 8 1 19 可算得各偏差平方和为把上述诸平方和及其自由度填入方差分析表表8 1 5例8 1 2的方差分析表若取 0 05 则F0 95 2 21 3 47 由于F 3 5948 3 47 故认为因子A 饲料是显著的即三种饲料对鸡的增肥作用有明显的差别 8 1 5参数估计在检验结果为显著时我们可进一步求出总均值各主效应ai和误差方差 2的估计一点估计由模型 8 1 8 知诸yij相互独立且yij N ai 2 因此可使用极大似然方法求出一般平均各主效应ai和误差方差 2的估计由极大似然估计的不变性各水平均值 i的极大似然估计为由于不是 2的无偏估计可修偏由于可给出Ai的水平均值 i的1 的置信区间为其中二置信区间例8 1 3继续例8 1 2 此处我们给出诸水平均值的估计因子A的三个水平均值的估计分别为从点估计来看水平2 以槐树粉为主的饲料是最优的误差方差的无偏估计为利用 8 1 23 可以给出诸水平均值的置信区间此处若取 0 05 则t1 2 fe t0 95 21 2 0796 于是三个水平均值的0 95置信区间分别为在单因子试验的数据分析中可得到如下三个结果因子是否显著试验的误差方差 2的估计诸水平均值 i的点估计与区间估计在因子A显著时通常只需对较优的水平均值作参数估计在因子A不显著场合参数估计无需进行 8 1 6重复数不等情形单因子方差分析并不要求每个水平下重复试验次数全相等在重复数不等场合的方差分析与重复数相等情况下的方差分析极为相似只在几处略有差别数据设从第i个水平下的总体获得mi个试验结果记为yi1 yi2 yim i 1 2 r 统计模型为 8 1 24 总均值诸 i的加权平均所有试验结果的均值的平均 8 1 25 称为总均值或一般平均效应约束条件各平方和的计算 SA的计算公式略有不同例8 1 4某食品公司对一种食品设计了四种新包装为考察哪种包装最受顾客欢迎选了10个地段繁华程度相似规模相近的商店做试验其中二种包装各指定两个商店销售另二个包装各指定三个商店销售在试验期内各店货架排放的位置空间都相同营业员的促销方法也基本相同经过一段时间记录其销售量数据列于表8 1 6左半边其相应的计算结果列于右侧表8 1 6销售量数据及计算表由此可求得各类偏差平方和如下方差分析表如表8 1 8所示若取 0 01 查表得F0 01 3 6 9 78 由于F 11 22 9 78 故我们可认为各水平间有显著差异表8 1 7例8 1 4的方差分析表由于因子显著我们还可以给出诸水平均值的估计因子A的四个水平均值的估计分别为由此可见第四种包装方式效果最好误差方差的无偏估计为进一步利用 8 1 23 也可以给出诸水平均值的置信区间只是在这里要用不同的mi代替那里相同的m 此处若取 0 05 则t1 2 fe t0 95 6 2 4469 于是效果较好的第三和第四个水平均值的0 95置信区间分别为 8 2多重比较 8 2 1效应差的置信区间如果方差分析的结果因子A显著则等于说有充分理由认为因子A各水平的效应不全相同但这并不是说它们中一定没有相同的就指定的一对水平Ai与Aj 我们可通过求 i j的区间估计来进行比较由于故由此给出 i j的置信水平为1 的置信区间为 8 2 1 其中是 2的无偏估计这里的置信区间与第六章中的两样本的t区间基本一致区别在于这里 2的估计使用了全部样本而不仅仅是两个水平Ai Aj下的观测值例8 2 1继续例8 1 2 fe 21 取 0 05 则t1 2 fe t0 975 21 2 0796 于是可算出各个置信区间为可见第一个区间在0的左边所以我们可以概率95 断言认为 1小于 2 其它二个区间包含0点虽然从点估计角度看水平均值估计有差别但这种差异在0 05水平上是不显著的 8 2 2多重比较问题对每一组 i j 8 2 1 给出的区间的置信水平都是1 但对多个这样的区间要求其同时成立其联合置信水平就不再是1 了譬如设E1 Ek是k个随机事件且有P Ei 1 i 1 k 则其同时发生的概率这说明它们同时发生的概率可能比1 小很多为了使它们同时发生的概率不低于1 一个办法是把每个事件发生的概率提高到1 k 这将导致每个置信区间过长联合置信区间的精度很差一般人们不采用这种方法在方差分析中如果经过F检验拒绝原假设表明因子A是显著的即r个水平对应的水平均值不全相等此时我们还需要进一步确认哪些水平均值间是确有差异的哪些水平均值间无显著差异同时比较任意两个水平均值间有无明显差异的问题称为多重比较多重比较即要以显著性水平同时检验如下r r 1 2个假设 8 2 2 直观地看当H0ij成立时不应过大因此关于假设 8 2 2 的拒绝域应有如下形式诸临界值应在 8 2 2 成立时由P W 确定下面分重复数相等和不等分别介绍临界值的确定 8 2 3重复数相等场合的T法在重复数相等时由对称性自然可以要求诸cij相等记为c 记则由给定条件不难有于是当 8 2 2 成立时 1 r 可推出其中称为t化极差统计量其分布可由随机模拟方法得到于是其中q1 r fe 表示q r fe 的1 分位数其值在附表8中给出重复数相同时多重比较可总结如下对给定的的显著性水平查多重比较的分位数q r fe 表计算比较诸与c的大小若则认为水平Ai与水平Aj间有显著差异反之则认为水平Ai与水平Aj间无明显差别这一方法最早由Turkey提出因此称为T法例8 2 2继续例8 1 2 若取 0 05 则查表知q1 0 05 3 21 3 57 而所以认为 1与 2有显著差别认为 1与 3无显著差别认为 2与 3有显著差别这说明 1与 3之间无显著差别而它们与 2之间都有显著差异 8 2 4重复数不等场合的S法在重复数不等时若假设 8 2 2 成立则或从而可以要求在此要求下可推出可以证明从而亦即例8 2 3在例8 1 4中我们指出包装方式对食品销量有明显的影响此处r 4 fe 6 若取 0 05 则F0 95 3 6 4 76 注意到m1 m4 2 m2 m3 3 故由于这说明A1 A2 A3间无显著差异 A1 A2与A4有显著差异但A4与A3的差异却尚未达到显著水平综合上述包装A4销售量最佳 8 3方差齐性检验Testforhomogeneityofvariance 在进行方差分析时要求r个方差相等这称为方差齐性理论研究表明当正态性假定不满足时对F检验影响较小即F检验对正态性的偏离具有一定的稳健性而F检验对方差齐性的偏离较为敏感所以r个方差的齐性检验就显得十分必要所谓方差齐性检验是对如下一对假设作出检验 8 3 1 很多统计学家提出了一些很好的检验方法这里介绍几个最常用的检验它们是 Hartley检验仅适用于样本量相等的场合 Bartlett检验可用于样本量相等或不等的场合但是每个样本量不得低于5 修正的Bartlett检验在样本量较小或较大相等或不等场合均可使用 8 3 1Hartley检验当各水平下试验重复次数相等时即m1 m2 mr m Hartley提出检验方差相等的检验统计量 8 3 2 这个统计量的分布无明显的表达式但在诸方差相等条件下可通过随机模拟方法获得H分布的分位数该分布依赖于水平数r和样本方差的自由度f m 1 因此该分布可记为H r f 其分位数表列于附表10上直观上看当H0成立即诸方差相等 12 22 r2 时 H的值应接近于1 当H的值较大时诸方差间的差异就大 H愈大诸方差间的差异就愈大这时应拒绝 8 3 1 中的H0 由此可知对给定的显著性水平检验H0的拒绝域为W HH1 r f 8 3 3 其中H1 r f 为H分布的1 分位数例8 3 1有四种不同牌号的铁锈防护剂简称防锈剂现要比较其防锈能力数据见表8 3 1 这是一个重复次数相等的单因子试验我们考虑用方差分析方法对之进行比较分析为此首先要进行方差齐性检验本例中四个样本方差可由表8 3 1中诸Qi求出即由此可得统计量H的值在 0 05时由附表10查得H0 95 4 9 6 31 由于H 6 31 所以应该保留原假设H0 即认为四个总体方差间无显著差异 8 3 2Bartlett检验在单因子方差分析中有r个样本设第i个样本方差为由于几何平均数总不会超过算术平均数故有GMSe MSe 其中等号成立当且仅当诸si2彼此相等若诸si2间的差异愈大则此两个平均值相差也愈大由此可见在比值GMSe MSe较大时就意味着诸样本方差差异较大从而检验 8 3 1 表示的一对假设的拒绝域应是W lnGMSe MSe d 8 3 4 Bartlett证明了检验的拒绝域为W B 1 2 r 1 8 3 8 考虑到这里 2分布是近似分布在诸样本量mi均不小于5时使用上述检验是适当的例8 3 2为研究各产地的绿茶的叶酸含量是否有显著差异特选四个产地绿茶其中A1制作了7个样品 A2制作了5个样品 A3与A4各制作了6个样品共有24个样品按随机次序测试其叶酸含量测试结果如表8 3 3所示为能进行方差分析首先要进行方差齐性检验从表8 3 3中数据可求得s12 2 14 s22 2 83 s32 2 41 s42 1 12 再从表8 3 4上查得MSe 2 09 由 8 3 6 可求得再由 8 3 7 还可求得Bartlett检验统计量的值对给定的显著性水平 0 05 查表知 0 952 4 1 7 815 由于B 7 815 故应保留原假设H0 即可认为诸水平下的方差间无显著差异 8 3 3修正的Bartlett检验针对样本量低于5时不能使用Bartlett检验的缺点 Box提出修正的Bartlett检验统计量 8 3 9 其中B与C如 8 3 7 与 8 3 6 所示且在原假设H0 12 22 r2成立下 Box还证明了统计量的近似分布是F分布F f1 f2 对给定的显著性水平该检验的拒绝域为 8 3 10 其中f2的值可能不是整数这时可通过对F分布的分位数表施行内插法得到分位数例8 3 3对例8 3 2中的绿茶叶酸含量的数据我们用修正的Bartlett检验再一次对等方差性作出检验在例8 3 2中已求得 C 1 0856 B 0 970 还可求得对给定的显著性水平 0 05 在F分布的分位数表上可查得F0 95 3 682 4 F0 95 3 2 60由于 2 60 故保留原假设H0 即认为四个水平下的方差间无显著差异 8 4一元线性回归UnaryLinearRegressionModel 8 4 1变量间的两类关系十九世纪英国生物学家兼统计学家高尔顿研究发现其中x表示父亲身高 y表示成年儿子的身高单位英寸 1英寸 2 54厘米这表明子代的平均高度有向中心回归的意思使得一段时间内人的身高相对稳定之后回归分析的思想渗透到了数理统计的其它分支中回归分析便是研究变量间相关关系的一门学科它通过对客观事物中变量的大量观察或试验获得的数据去寻找隐藏在数据背后的相关关系给出它们的表达形式回归函数的估计变量间的相关关系不能用完全确切的函数形式表示但在平均意义下有一定的定量关系表达式寻找这种定量关系表达式就是回归分析的主要任务回归分析处理的是变量与变量间的关系变量间常见的关系有两类确定性关系与相关关系 8 4 2一元线性回归模型设y与x间有相关关系称x为自变量预报变量 y为因变量响应变量在知道x取值后 y有一个分布p y x 我们关心的是y的均值E Y x 8 4 1 这便是y关于x的理论回归函数条件期望也就是我们要寻找的相关关系的表达式通常相关关系可用下式表示y f x 其中是随机误差一般假设 N 0 2 例8 4 1合金的强度y 107Pa 与合金中碳的含量x 有关为研究两个变量间的关系首先是收集数据我们把收集到的数据记为 xi yi i 1 2 n 本例中我们收集到12组数据列于表8 4 1中进行回归分析首先是回归函数形式的选择当只有一个自变量时通常可采用画散点图的方法进行选择表8 4 1合金钢强度y与碳含量x的数据为找出两个量间存在的回归函数的形式可以画一张图把每一对数 xi yi 看成直角坐标系中的一个点在图上画出n个点称这张图为散点图见图8 4 1 从散点图我们发现12个点基本在一条直线附近这说明两个变量之间有一个线性相关关系这个相关关系可以表示为y 0 1x 8 4 2 这便是y关于x的一元线性回归的数据结构式通常假定E 0 Var 2 8 4 3 在对未知参数作区间估计或假设检验时还需要假定误差服从正态分布即y N 0 1x 2 8 4 4 由于 0 1均未知需要我们从收集到的数据 xi yi i 1 2 n 出发进行估计在收集数据时我们一般要求观察独立地进行即假定y1 y2 yn 相互独立综合上述诸项假定我们可以给出最简单常用的一元线性回归的数学模型 8 4 5 由数据 xi yi i 1 2 n 可以获得 0 1的估计称 8 4 6 为y关于x的经验回归函数简称为回归方程其图形称为回归直线给定x x0后称为回归值在不同场合也称其为拟合值预测值 8 4 3回归系数的最小二乘估计一般采用最小二乘方法估计模型 8 4 5 中的 0 1 令应该满足称这样得到的称为 0 1的最小二乘估计记为LSE LeastSquareEstimate 最小二乘估计可以通过求偏导数并命其为0而得到 8 4 7 这组方程称为正规方程组经过整理可得 8 4 8 解 8 4 8 可得 8 4 9 这就是参数的最小二乘估计其中表8 4 2例8 4 2的计算表由此给出回归方程为例8 4 2使用例8 4 1种合金钢强度和碳含量数据我们可求得回归方程见下表定理8 4 1在模型 8 4 5 下有 1 2 3 对给定的x0 关于最小二乘估计的一些性质罗列在如下定理之中定理8 4 1说明分别是 0 1的无偏估计是E y0 0 1x0的无偏估计除外与是相关的要提高的估计精度即降低它们的方差就要求n大 lxx大即要求x1 x2 xn较分散 8 4 4回归方程的显著性检验在使用回归方程作进一步的分析以前首先应对回归方程是否有意义进行判断如果 1 0 那么不管x如何变化 E y 不随x的变化作线性变化那么这时求得的一元线性回归方程就没有意义称回归方程不显著如果 1 0 E y 随x的变化作线性变化称回归方程是显著的综上对回归方程是否有意义作判断就是要作如下的显著性检验 H0 1 0vsH1 1 0拒绝H0表示回归方程是显著的一 F检验采用方差分析的思想我们从数据出发研究各yi不同的原因数据总的波动用总偏差平方和表示引起各yi不同的原因主要有两个因素其一是H0可能不真 E y 随x的变化而变化从而在每一个x的观测值处的回归值不同其波动用回归平方和表示其二是其它一切因素包括随机误差 x对E y 的非线性影响等这可用残差平方和表示且有如下平方和分解式 ST SR Se 8 4 13 在一元线性回归中有三种等价的检验方法下面分别加以介绍定理8 4 2设yi i 1xi i 其中 i n相互独立且E i 0 Var yi 2 i 1 n 沿用上面的记号有 8 4 14 8 4 15 这说明是 2的无偏估计关于SR和Se所含有的成分可由如下定理说明进一步有关SR和Se的分布有如下定理定理8 4 3设y1 y2 yn相互独立且yi N i 1xi 2 i 1 n 则在上述记号下有 1 Se 2 2 n 2 2 若H0成立则有SR 2 2 1 3 SR与Se 独立或与Se 独立如同方差分析那样我们可以考虑采用F比作为检验统计量在 1 0时 F F 1 n 2 其中fR 1 fe n 2 对于给定的显著性水平拒绝域为F F1 1 n 2 整个检验也可列成一张方差分析表例8 4 3在合金钢强度的例8 4 2中我们已求出了回归方程这里我们考虑关于回归方程的显著性检验经计算有若取 0 01 则F0 99 1 10 10 F 因此在显著性水平0 01下回归方程是显著的二 t检验对H0 1 0的检验也可基于t分布进行由于因此在H0为真时有其中它可用来检验假设H0 对给定的显著性水平拒绝域为由于称为的标准误即的标准差的估计注意到t2 F 因此 t检验与F检验是等同的以例8 4 2中数据为例可以计算得到若取 0 01 则由于13 5991 3 1693 因此在显著性水平0 01下回归方程是显著的三相关系数检验一元线性回归方程是反映两个随机变量x与y间的线性相关关系它的显著性检验还可通过对二维总体相关系数的检验进行它的一对假设是H0 0vsH1 0 8 4 18 所用的检验统计量为样本相关系数 8 4 19 拒绝域为W r c 其中临界值c应是H0 0成立下 r 的分布的1 分位数故记为c r1 n 2 由样本相关系数的定义可以得到r与F统计量之间的关系这表明 r 是F的严格单调增函数故可以从F分布的1 分位数F1 1 n 2 得到 r 的1 分位数为譬如对 0 01 n 12 F0 99 1 10 10 04 于是为实际使用方便人们已对r1 n 2 编制了专门的表见附表9 以例8 4 2中数据为例可以计算得到若取 0 01 查附表9知r0 99 10 0 708 由于0 9728 0 708 因此在显著性水平0 01下回归方程是显著的在一元线性回归场合三种检验方法是等价的在相同的显著性水平下要么都拒绝原假设要么都接受原假设不会产生矛盾 F检验可以很容易推广到多元回归分析场合而其他二个则否所以 F检验是最常用的关于回归方程显著性检验的检验方法 Theend 8 4 5估计与预测当回归方程经过检验是显著的后可用来做估计和预测这是二个不同的问题 1 当x x0时寻求均值E y0 0 1x0的点估计与区间估计注意这里E y0 是常量是估计问题 2 当x x0时 y0的观察值在什么范围内由于y0是随机变量为此只能求一个区间使y0落在这一区间的概率为1 即要求使称区间为y0的概率为1 的预测区间这是预测问题一 E y0 的估计在x x0时其对应的因变量y0是一个随机变量有一个分布我们经常需要对该分布的均值给出估计由于E y0 0 1x0 一个直观的估计应为我们习惯上将上述估计记为注意这里表示的是E y0 的估计而不表示y0的估计因为y0是随机变量它是没有估计的由于分别是 0 1的无偏估计因此也是E y0 的无偏估计为得到E y0 的区间估计我们需要知道的分布由定理8 4 1 又由定理8 4 3知 Se 2 2 n 2 且与相互独立故于是E y0 的1 的置信区间 CI 是 8 4 20 其中 8 4 21 二 y0的预测区间实用中往往更关心x x0时对应的因变量y0的取值范围 y0的最可能取值为于是我们可以使用以为中心的一个区间作为y0的取值范围经推导的表达式为 8 4 23 上述预测区间 PI 与E y0 的置信区间的差别就在于根号里多个1 预测区间的长度2 与样本量n x的偏差平方和lxx x0到的距离有关当时预测精度可能变得很差在这种情况下的预测称作外推需要特别小心另外若x1 x2 xn较为集中时那么lxx就较小也会导致预测精度的降低因此在收集数据时要使x1 x2 xn尽量分散这对提高精度有利当n较大时如n 30 t分布可以用正态分布近似进一步若x0与相差不大时可以近似取为例8 4 4在例8 4 2中如果x0 0 16 则得预测值为若取 0 05 则t0 975 10 2 2281 又应用 8 4 21 故x0 0 16对应因变量y0的均值E y0 的0 95置信区间为 49 4328 1 0480 49 4328 1 0480 48 3488 50 5168 应用 8 4 23 从而y0的概率为0 95的预测区间为E y0 的0 95置信区间比y0的概率为0 95的预测区间窄很多这是因为随机变量的均值相对于随机变量本身而言要更容易估计出来 8 5一元非线性回归例8 5 1

人人文库> 全部分类> 教育资料 > 幼儿教育

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《概率论与数理统计》第八章讲义讲解课件

文档简介

温馨提示

最新文档

评论

《概率论与数理统计》第八章讲义讲解课件

文档简介

温馨提示

最新文档

评论

相关文档