实验数据分析方法_6

上传人：n*** IP属地：河南上传时间：2020-04-06 格式：PPT 页数：66 大小：864KB 积分：15 举报 版权申诉

已阅读5页，还剩61页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

实验数据分析方法 Chap 6 1 第二部分实验数据的统计分析第五章误差理论与最小二乘法第六章回归分析第七章多变量分析第八章功率谱与周期分析实验数据分析方法基本理论具体实例上机实习课后实验数据分析方法 Chap 6 2 第六章回归分析回归分析是处理变量与变量之间统计相关关系的一种数理统计方法在观测天文学中它是最基本的被频繁使用的统计工具变量间的统计相关关系是指变量间的关系是非确定性的例如某一天的气温与气压的关系星系中氢含量与色指数光度的关系太阳耀斑与黑子相对数某波段太阳射电辐射流量等因素的关系等造成变量间关系的不确定性的原因通常有两个方面一是在影响一个量的众多因素中有些是属于人们尚未认识或掌握的另一个原因是与所用仪器的精度或观测条件有关的观测误差及其它随机因素的影响但人们也发现只要对这种存在不确定性关系的变量进行大量观测或实验就可能会找到它们蕴藏的内在规律也就是说在一定条件下从统计的意义上来说它们又可能存在某种确定的关系通常把变量之间这种不完全确定的关系称为统计相关关系实验数据分析方法 Chap 6 3 虽然统计相关关系和函数关系变量间的关系完全是确定的是两种不同类型的变量关系但它们之间也不是一成不变的一方面在理论上有函数关系的几个变量由于观测误差的影响每次测得变量的数值之间并不是准确的满足这种函数关系造成某种不确定性另一方面当人们对事物的规律性了解得更加深入时相关关系又可能转化为函数关系事实上自然科学中的许多定理公式正是通过对研究对象的大量观测数据的分析处理通过总结和提高得到的回归分析就是利用大量的观测数据来确定变量间的相关关系的一种数学方法在观测天文学中回归分析常被用来定量描述某一研究对象两个特征量之间的显式关系校准和量化对宇宙大尺度结构研究极其重要的宇宙距离尺度在激光测月的资料处理中回归分析也起了很重要的作用实验数据分析方法 Chap 6 4 总的来说回归分析所要解决的主要问题是 1 从一组数据出发确定这些变量之间的数学表达式回归方程或经验公式 2 对回归方程的可信程度进行统计检验 3 进行因素分析例如从对共同影响一个变量的许多变量因素中找出哪些是重要因素哪些是次要因素实验数据分析方法 Chap 6 5 在许多情况下两个变量之间的相关关系呈线性关系它是统计相关关系中最简单的一种也是天文上实际问题中最常见的情况我们的目的则是要找出能描述这两个变量之间的线性相关关系的定量表达式对于两个大致成线性关系的变量y和x 通常用如下的回归模型来描述它们之间的线性相关关系 6 1一元线性回归 6 1 1一元线性回归模型及参数估计式中 x称为自变量或预测变量 y为因变量 0 为待定的模型参数是随机误差项它表示除自变量x以外的随机因素对因变量y影响的总和实验数据分析方法 Chap 6 6 设由观测得到y x的N组数据 yk xk k 1 N 代人上式得对误差项 k 规定E k 0 2 k 2 当k j时 k与 j不相关即协方差cov k j 0 鉴于对随机误差项 k的上述规定不难得知因变量yk是随机变量它们都来自均值E yk 0 xk 方差为 2的概率分布且任何两个观测值之间是互不相关的上面我们对 k的分布没有作任何规定无论 k具有什么样的分布函数我们都可以使用最小二乘法求得参数 0 的估计值但是在进行区间估计和检验时需要对 k的分布函数的形式作出假设通常的假设是误差项 k N 0 2 即 k服从均值为0 方差为 2的正态分布因为误差项通常代表模型中略去的许多因素的影响这些因素在一定范围内影响因变量取值并且随机的变化依中心极限定理它们近似服从正态分布实验数据分析方法 Chap 6 7 当假设误差项 k为正态分布时上述模型被称为正态误差回归模型下图给出了正态误差回归模型的图示对于形如前式的模型回归分析的任务是找到回归参数 0 的好的估计量从而得到一条最能描述y和x关系的回归直线见上图中的直线它的方程可表为式中b0 b为参数 0 的估计值 yk为y的回归值实验数据分析方法 Chap 6 8 下面我们利用最小二乘准则给出b0 b的计算公式由最小二乘原理 b0 b应该是满足残差平方和最小的解记则利用Q min可得正规方程组解之可得实验数据分析方法 Chap 6 9 其中在给定参数估计值b b0后可得到相应的回归方程或回归函数为由于yk是均值为方差为 2的随机变量对上述正规方程组及其解的形式稍加改变并利用概率统计知识可以得到这表明回归参数的最小二乘估计是无偏估计它们的方差和随机变量的方差 2 观测数据的个数N及自变量的取值范围的大小有关在相同 2的条件下观测次数越多自变量取值范围越大估计值的方差就越小实验数据分析方法 Chap 6 10 在前一小节中我们在两个变量大致成线性关系的假定下利用最小二乘法得到了描述这两个变量相关关系的回归直线方程就这种数学方法本身而言可以不加任何条件的约束对任一组数据 xk yk k 1 N 都可由回归方程组求出一组b0 b 从而得到一条回归直线但并非对每一组数据配的回归直线都有实际意义例如对平面上分布完全杂乱无章的散点所配的直线就毫无意义因此通常在求得直线回归方程以后必须进行检验判别所配直线是否有实际意义如果检验结果回归方程是显著的则表明所配回归直线揭示了因变量y与自变量x之间有较强的线性相关性如果检验结果回归方程不显著则表明所配回归直线没有实际意义衡量回归效果好坏的标准 6 1 2回归方程的显著性检验在回归分析中通常把因变量y看作为随机变量并称某一次观测的实际观测值yk与它的平均值的差为离差 N次观测的离差平方和称为总平方和用lyy表示即实验数据分析方法 Chap 6 11 将总平方和进行分解有上式右边第一项是观测值与回归值之差的平方和也就是残差平方和有时也称它为剩余平方和用Q表示 Q又可表为它是除了x对y的线性影响之外的一切因素包括x对y的非线性影响对y值变化的影响上式右边第二项是回归值与平均值之差的平方和我们称它为回归平方和并记为U 可以看出回归平方和U是由于x的变化而引起的因此U反映了在y的总的变化中由于x和y的线性关系而引起的y的变化部分这样我们就把引起因变量y变化的两方面原因从数量上分开了实验数据分析方法 Chap 6 12 即从回归平方和U和剩余平方和Q的意义很易说明回归效果的好坏取决于U和Q的大小下面我们从假设检验的角度来给出衡量回归效果好坏或判别回归方程显著与否的标准一 F检验法假设检验必须要给出原假设在讨论两个变量之间是否有线性关系时主要就是要检验模型中模型参数是否为零如果 0 则两个变量之间无线性关系因此我们把 0 作为检验的原假设H0 有了原假设后就要构造一个统计量这个统计量必须满足三个条件 1 能用样本值计算得到 2 和原假设有关 3 已知这个统计量的分布根据这三个条件统计量应该从反映y变化的回归平方和及剩余平方和中去找利用正交线性变换可以证明总平方和回归平方和剩余平方和都是变量 2 且有实验数据分析方法 Chap 6 13 并且当 O成立时回归平方和与剩余平方和是相互独立的故构成如下的统计量因总平方和lyy的自由度F总 FU FQ 所以统计量F是服从第一自由度为l 第二自由度为N 2的F分布确定了统计量F的分布以后对给定的显著水平 0 01 0 05 0 1 由F分布表查出置信限F 1 N 2 这意味着p F F 1 N 2 1 而F F 1 N 2 是否定域因此如果由样本算出的统计量F F 1 N 2 说明原假设H0不成立我们则称回归直线方程是显著的且对于F F0 01 1 N 2 的情况属于高度显著对F F0 05 1 N 2 的情况称为在0 05水平上显著对F F0 1 1 N 2 的情况是在0 1水平上显著当F F 1 N 2 时则称回归方程在水平上不显著表明所求得回归直线没有实际意义这种检验方法就称为F检验法在统计学中也通常把上面的检验过程称为方差分析实验数据分析方法 Chap 6 14 F检验的步骤可归纳如下 1 建立原假设H0 0 2 确定统计量确定其分布 3 给定显著水平由分布表查得置信限 F 1 N 2 4 由样本计算统计量F 5 作出显著性判断若F F 1 N 2 则回归方程显著若F F 1 N 2 则回归方程不显著例试利用40个B型旋涡星系SD的氢含量 MH MT 色指数 B V 0的资料求出它们之间的回归关系并检验回归结果是否显著见书P125 实验数据分析方法 Chap 6 15 回归平方和U反映了在y的总变化中由于x与y的线性关系而引起的部分因此可以用U在总平方和lyy中所占的比例大小来衡量回归效果好坏通常用r2表示比值U lyy 并称为x与y的相关系数二相关系数检验法由r的定义可知r l 当r的绝对值较大时说明y与x的线性相关较密切 r的绝对值较小时说明y与x的线性相关程度较弱这时散点离回归直线较分散当r 1时所有的点都在回归直线上表示y与x完全线性相关而当r 0时则表示y与x毫无线性关系下图显示了不同线性相关系数散点的分布情况实验数据分析方法 Chap 6 16 实验数据分析方法 Chap 6 17 从上面的讨论看出相关系数r可用来衡量两变量之间线性相关的密切程度但在一个具体问题中 r应大到什么程度才能认为它们之间确实存在线性相关关系方可用一条回归直线来表示这需要规定一个指标作为鉴定回归方程是否有效的标准当实际计算的相关系数r达到或超过该指标时就认为r显著为此应建立相关系数的显著性检验方法并列出在各个显著水平下由相关系数的概率分布计算得到的相关系数检验表表中是显著水平 N为观测数据个数对于某一和N 可在表中查得相应的相关系数r达到显著的最小值r 如由观测数据算出的r r 则认为相关系数在水平上显著这时就认为对x和y所配的回归直线有意义反之若相关系数不显著对x和y所配的回归直线就没有实际意义例如样本个数N 30 对 0 05由N 2 28 查得r 0 36l 若由样本算得r 0 361 则说明它在 0 05的水平上显著但若r 0 463 r0 01 则说明它在 0 0l水平上不显著越小显著程度越高可以证明相关系数显著性检验和回归方程F检验是完全等价的实验数据分析方法 Chap 6 18 实验数据分析方法 Chap 6 19 对回归方程的显著性检验实际上是对回归模型的检验在这一小节中我们进一步对回归系数及回归值的精度进行讨论即给出它们的置信区间这对了解利用回归方程进行预测的精度很有实际意义 6 1 3回归系数和回归值的估计精度一回归系数的置信区间由回归系数的估计值b的计算公式在 k为正态分布的假定下我们可以得到故有利用参数的区间估计的基本原理可得的区间估计为实验数据分析方法 Chap 6 20 或说估计量b的精度为这里N 为正态分布位数由正态分布表查得 2为误差项的方差一般情况下 2是未知的常使用它的无偏估计量剩余均方差来代替即这时有相应的区间估计为在得到回归方程以后对于任一给定的自变量xi 回归值就是实际值的估值但由于参数估值b0 b是随机变量因此因变量yi的估值是有误差的下面我们推出这个估计值的精度公式进而讨论利用回归方程进行预测的问题 1 2 1 2 yy yy 二回归值的置信区间实验数据分析方法 Chap 6 21 定义残差 i为实际值yi与回归值之差有及实验数据分析方法 Chap 6 22 若用代替 i 用x代替xi 则这表明回归值对实际值的偏离和随机误差项的方差 2 观测数据量及观测点x与x的偏离有关 N越大 x越靠近x 相应残差的方差就越小由于 y均属于正态分布所以也属正态分布由前式可得于是对于给定的显著水平利用概率统计知识可得式中实验数据分析方法 Chap 6 23 则得y的置信区间或置信带为根据正态分布理论 y将以99 7 概率落在区间 3 N内 95 4 概率落在区间 2 N内 68 3 概率落在区间 N内 y的置信带的示意图实验数据分析方法 Chap 6 24 由上图不难看出对于某一自变量x0 因变量的取值是以为中心对称分布的分布的范围由 N的大小决定由于一般情况 2是未知的若用它的无偏估计代替则得回归的误差为当N较大且x靠近时有这时估计值的误差仅由剩余均方差决定故而通常将剩余的均方差Sy2作为衡量回归方程精度的指标预测问题与回归方程的误差问题是密切联系的对观测数据以外的任一给定的自变量xo 相应的因变量可由回归方程得到根据回归方程的误差范围可知是预测的最佳值而回归方程的误差范围也就是预测值的误差范围 N愈大且靠近自变量的平均值附近时预测的精度就愈高这说明回归方程的适用范围一般仅局限于原来观测数据范围即适用于用来进行所缺数据的补插而超出这个范围时预测精度就较差实验数据分析方法 Chap 6 25 一元回归模型有以下几个基本假定 1 变量间真正的关系是线性的 2 因变量y是随机变量 x是自变量并不包含误差 3 随机误差项为零均值同方差 4 因变量观测值是相互独立的当这些假定中的任一个不满足时所得回归方程就不是严格有效的 6 1 4一元线性回归及其在天文上的应用控制是预测的逆问题要求因变量y在某区间 y1 y2 内取值时则应把自变量x控制在什么范围内也就是要求相应的 x1 x2 使x1 x x2时相应的y至少以1 的置信水平落在区间 y1 y2 内实验数据分析方法 Chap 6 26 例如在哈勃图中一个星系样本可能具有精度为 0 1的星等测量误差和精度为 0 001的红移测量误差但不同星系本身的光度和非哈勃运动可能导致大于星等测量不确定度一个量级的弥散又如观测数据也具有各种各样的特性有的可能是正态分布有的则非正态有的又是异方差的离散的程度有的只依赖于一个变量有的则依赖于两个甚至多个变量另外回归分析的目的也不总是相同有的是需要最佳的斜率估计而有的则是利用回归方程进行预测鉴于上述这些情况对具有线性统计相关关系的两个变量总用基于因变量y的残差平方和最小的一元回归方法得到回归结果并不是最佳的反之有时甚至是错误的在实际应用中由于多种原因这些假定不一定都满足观测天文学中最常见的是 x通常也是观测量它是有误差的因此两个变量所处的位置是对称的不能明确指定哪个是因变量哪个是自变量另外数据的内禀离散和观测误差相比占了很大的比例亦即我们在前面提到过的除了观测误差之外两个变量间关系本身的不确定性较突出实验数据分析方法 Chap 6 27 正因为如此在19世纪就已问世的线性回归方法的统计研究在目前仍十分活跃除了提出一些非最小二乘线性回归如稳健回归和对于多变量问题的贝叶斯回归外还提出了好几种最小二乘线性回归方法 90年代初期美国天文学家Isobe Feigelson等对双变量数据提出了五种线性回归方法普通最小二乘回归 OLS Y X X对Y的回归 OLS X Y 正交回归 orthogonalregression 简记为OR 简化主轴回归 reducedmajor axisregression 简记为RMA 和回归平分线并讨论了它们的特性及在观测天文学特别是在宇宙距离尺度研究中的应用实验数据分析方法 Chap 6 28 a OLS Y X 观测点和回归直线上同一x的y的差 b 逆回归OLS X Y 观测点和回归直线上相应点x值之差即点到回归线的水平距离 c 正交回归线OR 观测点到回归线的垂直距离即d 简化主轴回归RMA 观测点对回归线在垂直水平两个方向测量的距离实验数据分析方法 Chap 6 29 利用观测点到回归直线距离的极小化原理和估计理论经过复杂的推导可以得到各种方法的斜率 j及其方差var j 的估计见书下面我们首先给出把五种回归方法应用到一个实际的天文例子中即椭圆星系中恒星的速度弥散和其光学光度之间的关系 L n Faber Jackson关系研究这个问题的目的是从的测量值估计星系的光度亦即到星系的距离比较n的经验测量值和从椭圆星系形成模型预测的值下图示出L和的测量数据及利用五种回归方法的系数公式得到的5根回归线计算的斜率是 OLS L 2 4 0 4 OLS L 5 4 0 8 OLS平分线 3 4 0 4 RMA 3 6 0 4和OR 5 2 0 8 这个结果表明关于距离和星系形成模型的结论明显依赖于所采用的回归方法而五种回归线之间的离差大于任何一种估计的方差实验数据分析方法 Chap 6 30 1 OLS Y X 2 OLS X Y 3 OLS平分线点虚线 4 OR 虚线 5 RMA 点线实验数据分析方法 Chap 6 31 为了说明各种回归方法的特性和它们的适用性可以利用模拟试验即对具有均值为零且有不同的标准偏差 x y和不同的相关系数模拟出二维正态分布的数据点然后应用五种回归方法得到各自的回归系数及相应的方差试验结果表明五种方法给出的回归系数相互间是不同的它们并不是同一量的不同估计只有在 1这个特殊情况下所有五种回归的斜率才是相同的对于 0 当 x y时有 3 4 5 1 另外模拟试验表明正交回归斜率的不确定度比其它方法要大故一般情况它只能用于无量纲变量间的拟合又如对观测值取对数的情况简化主轴回归的斜率和相关系数无关因此在讨论X和Y的基本关系时使用这种方法是无助的模拟结果还指出对于足够大的N 观测点和相关系数所有方法斜率方差正确反映了斜率系数的弥散但对于小的N和得到的方差估计都偏小实验数据分析方法 Chap 6 32 根据最近几年一些天文学家和其它领域的科学家对这五种回归的应用研究可以得到如下几点结论 1 如果观测数据的散布基本上是由于测量过程造成的并且测量误差已知那么一般采用前面介绍的常规的一元线性回归而这里介绍的五种回归方法主要是针对数据点的散布是由未知的变化引起的情况 2 一般来说人们可以先对给定数据点拟合所有五条回归线如果各条线之间的差异并不大于任何一条回归线的误差那么回归方法的选择就不会严重影响结果在这种情况下通常使用OLS Y X 回归因为它简单明了 3 如果我们研究的问题是这样的情况即两个变量中一个变量明显是因变量另一个是原因变量那么亦应利用OLS Y X 这里X是原因变量如果我们的问题是从另一个变量的测量值来预测一个变量的值则也应使用OLS Y X 回归这里Y是被预测的变量后一种情况在宇宙距离尺度应用中普遍存在因为天文学家常常需要从一些已知距离的样本中产生的一条线性回归线来预测另外某一天体的距离 4 如果研究目的是了解变量间的基本关系那么处理对称变量的三种回归方法 OLS平分线 OR方法和RMA方法都可以使用但普遍认为OLS平分线方法是值得推荐的实验数据分析方法 Chap 6 33 在许多实际问题中两个变量之间的关系并不是线性相关关系而是某种曲线相关关系例如大多数新星在亮度下降阶段光度和时间的关系恒星的光谱型和光度的关系即恒星赫罗图这时选择适当的曲线来表征它们之间的关系比直线更符合实际情况或者说能得到更好的回归效果曲线回归分析包括三个内容一是确定曲线回归方程的类型二是确定曲线回归方程中的参数三是回归效果的检验 6 1 5曲线回归分析一曲线回归类型的确定实验数据分析方法 Chap 6 34 为了确定两个变量之间的曲线关系类型常采用两种方法一种方法是利用观测数据的散点图根据散点图的分布形状和特点对比各种函数形式已知的标准曲线的图形把与散点图分布最接近的标准曲线作为观测数据所属的回归方程的类型实验数据分析方法 Chap 6 35 另一种方法是采用多项式回归有时观测数据的散点图呈现的趋势较为复杂难以用一条已知合适的曲线类型去拟合它们这时可用自变量x的m次多项式作为描述变量y和x关系的回归模型即多项式回归因此多项式可用来拟合相当广泛的一类曲线其中二次多项式即二次曲线回归是最常用的一种类型在多项式回归中多项式次数m的选择也是一个很重要的问题但在实际应用中往往并不能确知m等于多少通常是采用统计检验的方法关于两个变量间的曲线回归类型的确定有一点需要说明的是所确定的类型均可通过变量代换转化为一元线性回归来处理实验数据分析方法 Chap 6 36 曲线回归类型确定以后可采用变量变换的方法将曲线模型转化一元线性回归模型然后利用前面介绍过的解一元线性回归的方法求解得到一元线性回归参数最后再进行变量的逆变换得到曲线回归参数以及曲线回归值例如对y和x关系确定的曲线类型为作变量代换则上面的曲线类型可转化为直线关系引进随机误差项得到一元线性回归模型二回归参数的确定利用一元线性回归分析由N组观测值 xk yk 可以解得回归参数的估计值利用变量代换关系可以得到曲线回归参数的估值及曲线回归值实验数据分析方法 Chap 6 37 为了检验对两个变量的非线性关系所配曲线的适宜性我们给出两个指标相关指数和剩余标准差在曲线回归中亦用类似于上文中定义的相关系数r来衡量所配曲线效果的好坏即并称它为相关指数式中为曲线回归值为因变量观测值的平均值一般来说 R越接近于1 表明所配曲线的效果越好另外剩余标准差亦可以用来衡量所配的效果 Sy越小表明所配曲线精度越高在选择曲线类型时有时很难一下确定这时可同时选择两种或两种以上曲线类型进行曲线回归然后进行比较选取相关指数较大或剩余标准差较小者为最佳的曲线类型三一元曲线回归的有效性检验实验数据分析方法 Chap 6 38 课后练习 5月9日交测量某导线在一定温度x下的电阻值y得到如下结果请采用一元线性回归找出y与x间关系的表达式画出散点与回归线图并用相关系数检验其显著性实验数据分析方法 Chap 6 39 在相当多的实际问题中影响因变量的因素有很多例如太阳耀斑可能和一群黑子面积半球面黑子相对数日面综合谱斑指数某波段太阳射电辐射流量等10多个因素有关激光测月观测中时延的观测值与理论值之差可能和望远镜位置坐标月球反射器位置坐标月球和地球轨道参数等40多个参数采用值有关为此需要用多元回归来描述它们之间的统计相关关系另外我们在前面提到的多项式回归最后也必须转化为多元线性回归问题 6 3多元线性回归实验数据分析方法 Chap 6 40 在研究因变量y与多个自变量xi之间的统计关系时常常利用多元线性回归模型式中 i i 0 m 称为y对xi的回归系数为正态随机变量上式表示了多维空间的一个超平面和一元回归类似多元线性回归就是要利用N组观测数据根据最小二乘法对模型参数作出估计设b0 b1 bm为参数 0 1 m的最小二乘估计则所得回归方程应为 6 3 1多元线性回归方程的求解实验数据分析方法 Chap 6 41 由最小二乘原理估计值b0 b1 bm应使剩余平方和最小由极值定理将Q分别对 i i 0 m 求偏导数并令它们为零则得到b0 b1 bm所满足的方程组又式中实验数据分析方法 Chap 6 42 常称lij为协方差上页之线性方程组被称为正规方程组解此方程组就可以求得各回归系数bi i 1 m 再由此求得常数项b0 为了方便通常用矩阵形式表示上述正规方程组令则正规方程组可表为 LB Ly线性方程组的解法很多一般的情况可用消元法或求逆阵法在多元回归分析中正规方程组的系数矩阵的逆阵有其特殊的作用因此常用求逆矩阵的方法不难看出 L为对称阵其逆矩阵用C表示即 C L 1 Cij 实验数据分析方法 Chap 6 43 则正规方程组有唯一解并可表为 B CLy或在多元回归中由于各自变量的量纲往往是不一致的这会使正规方程中各系数之间产生较大差异影响了求解精度如果我们采用标准化回归模型则可在一定程度上避免这方面误差的影响另外从最后得到的标准回归系数的大小可以观察各自变量对因变量关系的密切程度所谓标准化模型就是将原来的数据进行标准化变换而对变换后的数据建立的回归模型将原观测数据作如下的标准化变换其中实验数据分析方法 Chap 6 44 则得到标准化数据处理标准化数据还有很多方便之处因为由标准化变换定义式不难得到对标准化数据仍用最小二乘法可得一组新的正规方程组式中 b 为标准化回归系数记实验数据分析方法 Chap 6 45 则得到标准化正规方程组通常定义rij为自变量xi与xj的简单相关系数而由它们构成的矩阵称为相关阵用R表示即并用C 表示R的逆阵 Ry表示列向量 rjy j 1 m B 表示标准化回归系数的列向量即实验数据分析方法 Chap 6 46 则上页之标准化正规方程组可写成解此方程组得标准回归系数即由推导可知故得标准化正规方程同时可得标准回归系数与实际回归系数之间的转换关系利用这个关系最后可把标准回归系数化回到实际回归系数实验数据分析方法 Chap 6 47 和一元回归分析一样对于给定的一组观测数据总可以利用多元线性回归模型按最小二乘原理配一个回归超平面但这个回归超平面是否有实际意义则需要通过显著性检验才能作出判断多元回归的显著性检验包括对总的回归效果的检验及对每个自变量的回归系数的检验两个方面 6 3 2多元线性回归的显著性检验一回归方程的显著性检验多元线性回归的显著性检验又称多元回归的方差分析和一元回归的检验类似我们仍然利用假设检验并用全部回归系数均不为 0 的假设的对立假设为原假设即实验数据分析方法 Chap 6 48 通过将总平方和进行分解确定检验用的统计量及其分布然后对给定的显著水平确定置信限将它和由观测资料算得的统计量进行比较从而作出对原假设接受与否的判断在多元情况我们仍然定义总平方和回归平方和剩余平方和原假设H0成立的条件下 U 2 m Q 2 N m 1 且U和Q相互独立于是统计量服从第一自由度为m 第二自由度为N m 1的F分布实验数据分析方法 Chap 6 49 对于给定的显著水平由F分布表可查得置信限F m N m 1 当由样本值算出的F F m N m 1 时拒绝原假设也就是说对这组数据用模型拟合得到的回归方程可以接受且称它为显著的如若F F m N m 1 则说所得的回归方程不显著和一元回归类似多元回归方程的显著性检验也可以应用相关系数检验法定义为y与各个自变量xi i 1 m 的复或全相关系数 R的大小在一定的程度上反映了y与这些变量之间的密切程度 R越大表明y与这些变量之间的线性关系越密切反之则表示这种线性关系不密切但是必须提出我们不能单纯从R的大小来评定回归效果的好坏因为R的大小还与自变量个数m及观测组数N有关实验数据分析方法 Chap 6 50 因此必须将算得的R与和F等价的相关系数临界值R 进行比较来决定具体方法和一元回归的情况也相同由R的定义式可以得到关系式二回归系数的显著性检验在多元回归中我们并不只满足于回归方程是显著的这个结论因为回归方程显著只是拒绝了回归系数全部为0 这一假设但这并不意味着每个自变量对因变量y的影响都是重要的即可能其中的某些回归系数为或接近零我们总是希望在线性回归方程中包含与y有显著关系的那些变量不包含那些次要的可有可无的变量因此对于多元回归来说除了进行回归方程的显著性检验以外还必须对每个变量相应的回归系数进行检验实验数据分析方法 Chap 6 51 式中 Um是m个变量的回归平方和 Ujm 1表示y对去掉xj之后的m 1个变量的回归平方和因此不难看出偏回归平方和可以用来衡量每个自变量在回归中所起作用的大小凡偏回归平方和大的变量一定是对y有重要影响的因素凡偏回归平方和小的变量虽然不一定不显著但可以肯定偏回归平方和最小的那个变量肯定是所有变量中对y贡献最小的一个为了进行回归系数的显著性检验必须考察每个自变量在多元回归中所起的作用故而引入偏回归平方和概念回归平方和是所有自变量对y变差的总贡献所考虑的自变量愈多回归平方和就愈大如果在所考虑的几个变量中剔除一个变量回归平方和就会减少减少的数值愈多说明该变量在回归中所起的作用愈大我们把取消一个自变量x后回归平方和减少的数值称为y对自变量xj的偏回归平方和记作pj 即检验的基本方法实验数据分析方法 Chap 6 52 因此检验就从这个变量开始我们将检验的原假设取为 H0 j 0可以证明在 j 0成立的条件下服从第一自由度为l 第二自由度为N m 1的F分布于是对给定的置信度由F分布表可查得F 1 N m 1 当统计量Fj F 1 N m 1 时则认为变量xj对y的影响在水平上显著在回归方程中应保留这个变量由于xj是所有变量中对y贡献最小的一个所以对其他变量可不必再作检验如果计算的统计量Fj F 则接受原假设认为和xj对应的回归系数不显著应从回归方程中将变量xj剔除然后重新建立m 1元的新的回归方程计算回归系数和偏回归平方和再按上面的方法进行回归系数的显著性检验实验数据分析方法 Chap 6 53 在进行回归系数的显著性检验时必须要计算偏回归平方和而由偏回归平方和的定义式要计算每个变量的偏回归平方和pj j 1 m 必须要计算剔除每个变量xi i 1 m 后重新建立的m 1元回归方程的回归平方和Uim 1 i 1 m 这个重新建立的m 1元回归方程回归系数和原方程的回归系数是不同的为了避免重建方程的大量计算人们找到了原方程回归系数与剔除某个变量后重新建立的回归方程的系数的关系大大地简化了计算设bj j 1 m 为m个自变量的回归方程的回归系数 bj j k 为在m元回归方程中剔除变量xk后 m 1元回归方程的新回归系数利用行列式的雅可比定理可以证明新老回归系数之间有如下关系偏回归平方和的计算其中ckk ckj是原m元回归方程中系数矩阵的逆阵C中对应的元素实验数据分析方法 Chap 6 54 我们由此可以得到一个直接利用m元回归方程的结果计算偏回归平方和的公式 6 3 3残差检验在实用回归分析中除了对回归方程和回归系数的显著性检验以外还可以通过对残差的分析来检验模型的适度残差即因变量观测值yi和回归值之差记为ei 这个差是回归方程不能解释的量如果模型正确可将ei看作观测误差在进行回归之前对误差未知的真误差 i yi E yi 已作了假定即误差相互独立具有零均值和固定方差 2 为了求置信区间和进行假设检验又假定误差服从正态分布因此如果拟合的模型正确残差就应当呈现出所假定的误差的特性如果回归函数非线性误差项不独立误差项方差不相等模型中缺少一个或几个自变量等偏离模型的情况都可以通过残差图直观地反映出来实验数据分析方法 Chap 6 55 所谓残差图是指以残差为纵坐标以任何其它指定的量为横坐标的散点图这里的横坐标可以是自变量xi 可以是回归值也可以是时间如果观测数据是按时间顺序获得的下图是几种典型的残差图一残差图分析线性模型适合模型不适应包含更多项方差不是常数误差项不独立或缺少自变量实验数据分析方法 Chap 6 56 另外从残差图中还可以检测是否有异常观测值存在在残差图中异常值的残差绝对值比其它残差大得多一般离残差均值有3 4个标准误差的距离当出现异常残差时必须仔细分析其来源如果确认是由观测的异常值可利用观测数据的散点图引起则应予以放弃如果模型中缺少某一自变量也会产生残差异常值这时异常值可能提供重要信息不能随便剔除因此比较稳妥的办法是只有探查出异常值是由过失误差造成的才将其剔除残差的图示分析能比较直观地检验模型的适度而且因为任何一种回归分析都能很方便提供拟合值和残差因此得到各种类型的残差图也是简单易行的实验数据分析方法 Chap 6 57 残差的统计检验是指用统计的方法检验残差的随机性等方差性及正态性等它们是在残差图分析的基础上的进一步检验当残差图显示出方差可能系统地随着X或E y 增加或减小时一种简单的等方差的检验方法是按X把观测值分为两段分别拟合回归函数然后计算误差均方用F检验法检验方差是否相等检验一个分布是否为正态的方法很多常用的一个较简单的方法是利用残差的直方图如果直方图中间高两边低呈正态密度曲线形状则可认为残差来自正态母体考虑一组残差设共有n个符号其中n1个正号 n2个负号每种符号都被另外一种符号隔成一些子序列每个子序列称为一个游程两种符号的游程总数记为R 二残差的统计检验实验数据分析方法 Chap 6 58 如看下面的一个符号序列则n1 11 n2 12 n 23 共有R 10个游程假定n个元素的任一排列出现的概率是相等的则游程总数R的概率函数为及实验数据分析方法 Chap 6 59 利用概率函数可以证明离散随机变量R的均值和方差分别为对给定的显著水平由R的概率分布可得拒绝域 0 R n1 n2 的临界值R n1 n2 它可以从数理统计表中的游程总数检验表查出例如对前面列出的残差符号排列 n1 11 n2 12 R 10 取显著水平 0 05 查游程总数检验表得R0 05 11 12 8 则有R R0 05 应该接受残差序列为随机的假设实际上当n1 n2 10时游程总数R渐近服从正态分布即服从标准正态分布其中的是连续性修正值用以补偿用连续型分布近似离散型分布所造成的损失因此可以其进行游程数检验实验数据分析方法 Chap 6 60 游程检验不仅用于检验残差的随机性也可以用来检验样本的随机性只要先确定样本的中位数对中位数以上的数记以中位数以下的数记以对应于观测样本原来的次序得到一个符号序列这样就可以利用游程检验了另外游程数检验也可以作为分布函数的 2检验的一个补充因为皮尔逊 2量的数值只依赖于实测频数与理论频数偏差的绝对值同偏差的符号无关因此 2检验没有利用偏差的符号含有的信息而游程数检验可以弥补这一不足只要将实测频数超过理论频数的偏差记为否则记为将它们按原序号排列又可得到一

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

实验数据分析方法_6

文档简介

温馨提示

最新文档

评论

实验数据分析方法_6

文档简介

温馨提示

最新文档

评论

相关文档