




已阅读5页,还剩33页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
非线性回归分析的方法研究 摘要 回归分析是数理统计学的重要内容之一。由于它的应用非常广泛,所以关 于它的理论与方法研究一直受到人们的关注。我们针对非线性回归分析方法进 行了讨论。首先介绍常用的一些方法及小波分析和有理插值方法,然后利用有 理插值样条理论,对一元线性回归给出一种有理插值样条逼近算法,并用数值 例子说明所给算法的有效性。 本文共分为四章。第一章简要介绍回归分析的概念和计算方法。第二章简 要介绍线性回归分析的相关理论和计算方法。第三章较详细介绍非线性回归的 各种计算方法,特别是近年来出现的小波分析及有理插值方法,重点讨论有理 插值样条逼近算法,通过实例比较,这种新的方法在一元线性回归分析上有独 特的优势。在多元回归中,主要介绍偏最d , - - 乘方法。第四章总结与展望,并 提出一些未来还需要改进和研究的问题。 关键词:非线性回归,有理逼近,有理插值样条,偏最小二乘 t h er e s e a r c ho nn o n - l i n e a rr e g r e s s i o na n a l y s i sm e t h o d s a b s t r a c t r e g r e s s i o na n a l y s i si so n eo ft h ei m p o r t a n tc o m e m si nm a t h e m a t i c a ls t a t i s t i c s b e c a u s ei t sa p p l i c a t i o ni sv e r ye x t e n s i v e ,s oi t st h e o f i s ea n dm e t h o d sh a v e b e e ns u b j e c tt o a t t e n t i o n i nt h i sa r t i c l e ,n o n - l i n e a rr e g r e s s i o na n a l y s i sm e t h o di sd i s c u s s e d f i r s to fa l l ,w e i n t r o d u c ean u m b e ro fc o m m o n l ym e t h o d s ,i n c l u d e sw a v e l e ta n a l y s i sm e t h o da n d r a t i o n a l i n t e r p o l a t i o nm e t h o d ,t h e nw eg i v ean o n l i n e a rr e g r e s s i o na n a l y s i sm e t h o db a s e do n r a t i o n a li n t e r p o l a t i o ns p l i n ea p p r o x i m a t i o nu s i n gr a t i o n a li n t e r p o l a t i o ns p l i n et h e o r y ,a n d g i v en u m e r i c a le x a m p l e st oi l l u s t r a t et h ea l g o r i t h mw h i c hi se f f e c t i v e t h i sa r t i c l ei sd i v i d e di n t of o u rc h a p t e r s c h a p t e rib r i e f l yi n t r o d u c et h ec o n c e p ta n d c a l c u l a t i o nm e t h o d so fr e g r e s s i o n a n a l y s i s c h a p t e ri ib r i e f l yi n t r o d u c et h el i n e a r r e g r e s s i o na n a l y s i st h e o r ya n dm e t h o d so fc a l c u l a t i o n c h a p t e ri i i d e t a i l l yi n t r o d u c e v a r i o u so fn o n l i n e a rr e g r e s s i o nm e t h o do fc a l c u l a t i o n ,e s p e c i a l l yi 1 1r e c e n ty e a r s ,w a v e l e t a n a l y s i sa n dr a t i o n a li n t e r p o l a t i o nm e t h o d s w ef o c u so nt h er a t i o n a ls p l i n ei n t e r p o l a t i o n a l g o r i t h m ,a n dt h r o u g hc o m p a r i n ga l le x a m p l e ,t h i sn e wm e t h o dh a su n i q u ea d v a n t a g e so n l i n e a rr e g r e s s i o na n a l y s i s a tm u l t i p l er e g r e s s i o n ,w em a i n l yi n t r o d u c e t h em e t h o do f p a r t i a ll e a s t - s q u a r e s c h a p t e ri vs u m m a r ya n do u t l o o k ,a l s os u g g e s ts o m ep l a c e sw h i c h n e e dt om a k es o m ei m p r o v e m e n t sa n df u t u r es t u d yq u e s t i o n s k e y w o r d s :n o n - l i n e a r ,r a t i o n a la p p r o x i m a t i o n ,r a t i o n a li n t e r p o l a t i o ns p l i n e ,p a r t i a l l e a s t - s q u a r e sr e g r e s s i o n 图3 1 图3 - 2 图3 3 图3 4 表3 1 表3 2 表3 3 表3 4 表3 5 表3 6 图表清单 多项式方法与s q t w o l o g 阈值去噪方法的结果对比1 9 多项式方法与r i g r s u r e 阈值去噪方法的结果对比1 9 多项式方法及h e u r s u r e 阈值去噪方法的结果对比2 0 多项式方法及m i n i m a x i 阈值去噪方法的结果对比2 0 不同噪声系数下峰值信噪比r p 2 0 温度电压数据2 3 温度电压新数据2 3 三种算法求得圪拟合值对照表2 4 回归方程有效性检验2 4 两种方法残差平方和的比较2 5 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所 知,除了文中特别加以标志和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得金旦巴王些盔堂 或其他教育机构的学位或证书而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 靴做储辩:研婵醐朋严肘日 学位论文版权使用授权书 本学位论文作者完全了解金照王些盔堂有关保留、使用学位论文的规定,有权保留并向 国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅或借阅。本人授权金目巴兰些太 兰l 可以将学位论文的全部或部分论文内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者毕业后去向: 工作单位: 通讯地址: 导师签名: 拗矽 签字日期:口7 年中月( 孑日 电话: 邮编: y 参1 曙 月 詹小 牟 ,巧 : 年 名牙i 签 伊 者 : 文 期 沦 日 位 字 学 签 致谢 在硕士学位论文完成之际,我想向曾经给我帮助和支持的人们表示衷心的 感谢。 首先我要向培育我的导师朱功勤教授表示崇高的敬意和深深的感谢! 在三 年的硕士研究生课程学习和撰写学位论文的过程中,得到了朱功勤教授的悉心 指导。无论从课程学习、论文选题,还是到论文成稿,朱功勤老师都倾注了很 多心血。在生活上,朱老师也给予了极大的关心。朱功勤教授广博的学识,严 谨细致、一丝不苟的治学作风,诲人不倦的教育情怀,必将是我终身受益,并 激励我勇往直前。在此祝愿他身体健康,全家幸福! 感谢数学系的所有老师,他们让我在课堂上学到了丰富的知识,见识了众 多研究领域的精华。尤其是郭清伟老师,对我的论文的完成给予的很大的帮助。 感谢计算数学班上的同学,以及在我论文完成过程中给予无私帮助的同 学,感谢他们的支持和帮助,使得我能顺利完成论文。 感谢我的家人。在整个研究生阶段,我的家人给予了很大的支持,对此表 示诚挚的谢意。 作者:徐群 2 0 0 9 年3 月 第一章绪论 1 1 概述【1 h 1 2 1 在科学研究和生产实际的各个领域中,普遍地存在着大量数据的分析处理 工作。如何应用数理统计学中的回归分析、多元分析、时间序列分析等统计方 法来解决实际问题,以及如何解决在应用中出现的计算问题,对实际工作者来 说是极需解决的问题。 在市场经济中,经济数据总是在不规则地反映着经济规律作用的结果。但 这些数据的产生并不是完全任意的,在其背后有一个真正的数据生成过程。经 济、统计工作者的任务就是从总体的一组样本中,利用已知的离散点统计推断 其真正的数据生成过程,从而建立最优的经济模型。回归分析已成为广大自然 科学与社会科学研究人员、经济管理人员、工程技术人员和生态环境工作者等 最有用的统计分析工具之一。它的主要对象是客观事物变量间的统计关系,它 是建立在对客观事物进行大量试验和观察的基础上,用来寻找隐藏在那些看上 去是不确定的现象中的统计规律性的统计方法,是通过建立统计模型研究变量 间相互关系的密切程度、结构状态、模型预测的一种有效的工具。 无论是线性回归还是非线性回归在各个领域都有广泛的应用。在文献 4 _ 7 中,分别从军事、物理、地理、生物方面阐述了回归分析的应用。因 此,如何正确地得到回归模型,特别是非线性回归模型是一项非常实用的研究。 文献 8 提出对形变分析的时间序列数据或回归分析数据在建立模型后,应进 行模型误差检验,文献 9 讨论了自然样条半参数回归分析方法,并将此方法 运用到形变分析与预报数据处理中。而本文立足于有理插值理论来讨论非线性 回归模型的方法。 1 1 1回归模型的一般形式 如果变量而,屯,x 。与随机变量y 之间存在着相关关系,通常就意味着每当 而,x 2 ,x 。取定值后,y 便有相应的概率分布与之对应。随机变量y 与相关变量 而,x 2 ,x 。之间的概率模型为 y = 厂( 而,恐,x 。) + 占 ( 1 1 ) 其中,随机变量y 称为因变量,而,屯,x ,称为自变量。厂( 五,恐,x p ) 为一 般变量而,x 29 , 0 9 x 。的确定性关系,占为随机误差。正是因为随机误差项占的引入, 才将变量之间的关系描述为一个随机方程,使得我们可以借助随机数学方法研 究y 与而,x 2 ,x 。的关系。由于客观经济现象是错综复杂的,一种经济现象很难 用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他 客观原因的局限而没有考虑的种种偶然因素。随机误差项主要包括下列因素的 影响: ( 1 ) 由于人们认识的局限或时间、费用、数据质量等制约未引入回归模型 但又对回归因变量y 有影响的因素; ( 2 ) 样本数据的采集过程中变量观测值的观测误差的影响; ( 3 ) 理论模型设定误差的影响; ( 4 ) 其他随机因素的影响。 模型( 1 1 ) 式清楚地表达了变量毛,x :,x p 与随机变量y 的相关关系,它 由两部分组成:一部分是确定性函数关系,由回归函数f ( x a ,x 2 ,x 。) 给出;另 一部分是随机误差项占。由此可见模型( 1 1 ) 式准确地表达了相关关系那种既有 联系又不确定的特点。 当概率模型( 1 1 ) 式中回归函数为线性函数时,即有 y = p o + 届而+ 殷x 2 + + 以x p + s ( 1 2 ) 其中,p o ,展,屈,以为未知参数、称它们为回归系数。线性回归模型的“线 性”是针对未知参数屈( f = 1 ,2 ,p ) 而言的。对于回归自变量的线性是非本质的, 因为自变量是非线性时,常可以通过变量的替换把它转化成线性的。 如果( 薯l ,葺2 ,x t p ;y ) ,i = 1 ,2 ,聆是( 1 2 ) 式中变量( 鼍,吃9 , o0 9 x p ;y ) 的一组观测 值,则线性回归模型可表示为 y j = p o + 屈葺l + 属薯2 + + 屏+ 8 t , f = 1 ,2 ,刀 ( 1 3 ) 为了估计模型参数的需要,古典线性回归模型通常应满足以下几个基本假 设: ( 1 ) 解释变量x a ,x 2 ,x ,是非随机变量,观测值葺,为2 ,是常数。 ( 2 ) 等方差及不相关的假定条件为 i e ( 岛) = 0 ,i = 1 ,2 ,刀 lr, 1c c ,v ( f t ,s i ,) = = 夏二三= :;。7 ( z ,j = = ,2 ,甩) 这个条件称为g a u s s - m a r k o v 条件,简称g m 条件。在此条件下,便可以 得到关于回归系数的最小二乘估计及误差项方差盯2 估计的一些重要性质,如回 归系数的最小二乘估计是回归系数的最小方差线性无偏估计等。 ( 3 ) 正态分布的假定条件为 i 岛n ( 0 ,盯2 ) ,f _ 1 ,2 9 , * e 9 以 【毛,乞,巳相互独立 在此条件下便可得到关于回归系数的最小二乘估计及仃2 估计的进一步的 结果,如它们分别是回归系数及盯2 的最小方差无偏估计等,并且可以作回归的 显著性检验及区间估计。 ( 4 ) 通常为了便于数学上的处理,还要求刀 p ,即样本容量的个数要多于 自变量的个数。 2 1 1 2研究的内容 一般地,变量之间的关系可以分为两种:函数关系和统计关系。在数学中, 变量之间大多是有明确数学表达式的函数关系。而在经济学、社会科学以及自 然科学中,大量存在着另外一种变量间的趋势性关系。也就是说,x 与y 并不 能在某种函数关系下保持一一对应,然而却表现出很强的相随变动规律。这样 的变量关系就叫做统计关系。 回归分析就是采用量化分析,研究自变量x 与因变量y 之间的这种统计关 系。事实上,在统计关系中,认为因变量y 的变化可以由两方面的因素造成: 一方面是系统性因素,如果自变量是x ,则系统因素往往可以表达成x 的函数 形式厂( x ) ;另一方面,在y 的变动中还存在大量的随机因素,它们的综合效果 被记为s 。进行回归模型建模的目的,就是要通过对观测数据的分析,建立因 变量y 与自变量x 的统计模型。 根据自变量与因变量之间的关系,可以将回归分析分成线性的和非线性 的。线性回归分析的研究方法和应用已经接近完美,而非线性回归分析的研究 还处于初步阶段,近年来出现了一些有效的方法,如有理插值方法 2 4 1 、小波分 析方法 2 8 1 等。本文主要从有理插值样条的角度研究非线性回归分析的算法。 1 2 内容结构 本文将从以下几个方面全面地讨论回归分析的研究状况。 第一章绪论,介绍研究状况和内容结构。 第二章简单介绍线性回归分析的内容,其中包括模型的建立,模型的解决 方法及算法。在这一章中分别从一元和多元两个角度进行了分析,在多元线性 回归中重点介绍了偏最小二乘方法。 第三章将重点讨论非线性回归的模型和算法。第一节介绍模型结构,第二 节介绍传统解决方法g a u s s - n e w t o n 算法,第三节介绍有理插值方法,第四节 介绍样条回归方法,第五节介绍多元非线性回归方法,包括样条方法和小波变 换方法。通过分节讨论,可以看出,有理插值方法是一种比较便捷的方法,值 得推广使用。 。 第四章总结与展望,总结前面的内容,并提出需要进一步完善和深入的问 题。 3 第二章线性回归分析 对于理解非线性回归来说,掌握线性模型是必要的,所以本章首先回顾线 性回归分析的基本知识。 本章2 1 将介绍一元线性回归的问题和方法,2 2 介绍多元线性回归的问 题和方法。 2 1 一元线性回归模型【1 0 1 - 1 2 1 一元线性回归是描述两个变量之间统计关系的最简单的回归模型。一元线 性回归虽然简单,但通过一元线性回归模型的建立过程,我们可以了解回归分 析方法的基本思想以及它在实际问题研究中的应用原理。本章将分别简要介绍 一元和多元线性回归的建模思想和计算方法。 2 1 1 一元线性回归模型的实际背景 在实际问题的研究中,经常要研究某一现象与影响它的最主要因素关系。 如影响粮食产量的因素非常多,但在众多因素中,施肥量是一个最主要的因素, 我们往往需要研究施肥量这一因素与粮食产量之间的关系;在消费问题的研究 中,影响消费的因素很多,但我们可以只研究国民收入与消费额之间的关系, 因为国民收入是影响消费的最主要因素;保险公司在研究火灾损失的规律时, 把火灾发生地与最近的消防站的距离作为一个最主要因素,研究火灾损失与火 灾发生地距最近消防站的距离之间的关系。 上述几个例子都是研究两个变量之间的关系,而且它们的一个共同点是: 两个变量之间有着密切的关系,但它们之间密切的程度并不能由一个变量惟一 确定另一个变量,即它们间的关系是一种非确定性的关系。那么它们之间到底 有什么样的关系呢? 这就是下面要进一步研究的问题。 通常我们对所研究的问题首先要收集与它有关的咒组样本数据( 蕾,乃) , 江1 ,2 ,以。为了直观地发现样本数据的分布规律,我们把( x e ,弘) 看成是平面直 角坐标系中的点,画出这, 个样本点的散点图。这样就可以直观地看出变量之 间的大致关系。但是若到得到较为精确的模型,就需要有具体的计算方法。 2 1 2 一元线性回归的总体模型 在回归分析与建模中,如果因变量与自变量之间的关系是线性关系,则称 之为线性回归模型;否则,称之为非线性回归模型。 一元线性回归模型可以表示为 y = 8 0 + 届x + g ( 2 1 ) 其中,8 0 、届为回归参数;f 是随机误差项。 若对y 和x 分别进行n 次独立观测,得到刀对观测值( 咒,) ( 汪1 ,2 ,o * 0 9 珂) 4 这刀对观测值之间的关系符合模型 以= z o + 届t + q ( f = l ,2 ,玎) ( 2 2 ) 其中,屁与届作为总体回归参数,分别为回归直线的截距和斜率:薯是自 变量在第f 次观测时的取值;y ,是对应于薯的因变量取值;岛被称为随机误差项。 是一个随机变量,它服从高斯一马尔科夫( g u a s s - m a r k o v ) 假定,即服从 均值为零、方差为盯2 的正态分布,并且对于不同的观测f ,有c 6 v ( 量,占,) = 0 , 同时它与蕾也不存在相关性。 2 1 3 最小二乘估计方法 一元线性回归方法有最d - - 乘估计法、最大似然估计法、多项式回归法等。 最小二乘估计方法是一种常用的有效方法,此种方法在后面讨论多元回归以及 非线性回归方法都有一定的作用。本节重点讨论最小二乘估计方法的计算过 程。 为了由样本数据得到回归参数属和屈的理想估计值,我们将使用普通最小 二乘估计( o r d i n a r yl e a s ts q u a r ee s t i m a t i o n ,o l s e ) 。对每一个样本观测值 ( 鼍,以) ,最小二乘法考虑观测值只与其回归值e ( ) = 磊+ 屏墨的离差越小越好, 综合地考虑玎个离差值,定义离差平方和为 q ( p o ,届) = ( 乃一e ( 儿) ) 2 。1 ( 2 3 ) = “一属一层五) 2 所谓最小二乘法,就是寻找参数屁和屈的估计值磊, 义的离差平方和达到极小,即寻找反,a ,满足 q ( 磊,a ) :n ( m 一磊一厦葺) z = 卿喜( 咒一庇一翩2 矗,使( 2 3 ) 式定 ( 2 4 ) 依照( 2 4 ) 式求出的反,a ,就称为回归参数属,屈的最小二乘估计。称 多i = 氏七鼬i , 为弘( 汪1 ,2 ,聆) 的回归拟合值,简称回归值或拟合值。称 e i = y i 一多i 为此( 江1 ,2 ,刀) 的残差。 从几何关系上看,用一元线性回归方程拟合挥个样本观测点( 一,乃) , f - 1 ,2 ,z ,就是要求回归直线允= 磊+ 磊而位于这刀个样本点中间,或者说这r id - 样本点能最靠近这条回归直线。 残差平方和 孑= ( 乃一众一磊薯) 2 从整体上刻画了刀个样本观测点( 葺,m ) ,i = l ,2 ,聆,到回归直线允= 扉+ 厦而 距离的大小。 从( 2 3 ) 式中求出属和届是一个求极值问题。由于q 是关于屁,展的非负 二次函数,因而它的最小值总是存在的。根据微积分中求极值的原理屁,屈, 应满足下列方程组 l 瓦a ok 扁= - 2 喜( 乃一庇魂) _ 0 胤f 之喜( 嘲魂纠 经整理后,得正规方程组 + ( 窆薯) 卮:窆m i = 1i = l t ) 磊+ ( 兰砰) a :窆而m f - ll z l 求解以上正规方程组得属,, a l 的最小二乘估计( o l s e ) 为 p o = 了一p 孓 ( 薯一i ) ( 咒一夕) 届= 上l f 一 ( 而一i ) 2 其中i = 去喜鼍,罗= 去喜乃 k = ( 毛一i ) 2 = # - n ( x - ) 2 岛= ( t 一习( 乃一刃= 墨m 一,万 则( 2 4 ) 式可简写为 f 属= 歹一届i 【屈= b k 易知,a 可以等价地表示为 ( t 一虿耽 层= 鼍一 ( 薯一i ) 2 或 6 - ( 2 5 ) 属。m编。匹m,ij、【 屈= x l y j 一阿 垄! # 一拧( 页) 2 由磊= 萝一a i 可知 歹= p o + 届i 。 可见回归直线夕= 反+ 厦x 是通过点( i ,歹) 的,这对回归直线的作图很有帮 助。从物理学的角度看,( i ,萝) 是刀个样本值( 薯,咒) 的重心,也就是说回归直线 通过样本的重心。 2 1 4 多项式回归及其算法 回归模型 咒= p o + 届薯+ 属+ 毛 f = 1 ,2 ,刀 称为一元二阶( 或一元二次) 多项式模型。 为了反映回归系数所对应的自变量次数的类型,我们通常将多项式回归模 型中的系数表示成下面模型的情形 y t = p o - i - 屈砖+ 届l # + 毛 ( 2 9 ) 模型( 2 9 ) 式的回归函数m = p o + 届薯+ 屈。# 是一条抛物线方程,通常称为二 项式回归函数。回归系数届为线性效应系数,届。为二次效应系数。 相应地,回归模型 y j = p o + 层薯+ 届l # + 屈l l # - i - q 称为一元三次多项式模型。 当自变量的幂次超过3 时,回归系数的解释变得困难起来,回归函数也变 得很不稳定,对回归模型的应用会受到影响。因而,幂次超过3 的多项式回归 模型不常使用。 以上两个多项式回归模型都是只含有一个自变量x ,在实际应用中,我们 常遇到含有两个或两个以上自变量的情况。称回归模型 m = p o + 屈薯1 + f 1 2 x i 2 + 层l 一2 l + 屐2 壤+ 届2 而i t 2 + 岛 为二元二阶多项式回归模型。它的回归系数中分别含有两个自变量的线性项系 数届和岛,二次项系数届。和屈:,并含有交叉乘积项系数届:。交叉乘积项表一 与的交互作用,系数届:通常称为交互影响系数。 2 2 多元线性回归模型【”h 1 7 1 2 2 1 多元线性回归模型的一般模式 设随机变量y 与一般变量五,x 2 ,x p 的线性回归模型为 y = 属+ 届五+ 肛屹+ + 屏+ s ( 2 6 ) 其中,p o ,屈,屏是p + 1 个未知参数,属称为回归常数,届,屏称为回归 7 系数。y 称为因变量,五,x 2 ,x 。称为自变量。当p = 1 时,( 2 6 ) 式即为上一节 中一元线性回归模型( 2 1 ) 式。当p 2 时,我们就称( 2 6 ) 式为多元线性回 归模型。占是随机误差,与一元线性回归一样,对随机误差项我们常假定 以o - i j , ( 2 7 ) 【v a r ( g ) = 称 e ( y ) = p o + 届而+ 屐x 2 + + 屏 为理论回归方程。 多元统计分析方法包括主成分分析、因子分析、典型相关分析、 分析等,本节中主要介绍逐步回归计算方法和偏最小二乘回归方法。 ( 2 8 ) 逐步回归 2 2 2 逐步回归计算方法 一、逐步回归分析的主要思路 在实际问题中,人们总是希望从对因变量y 有影响的诸多变量中选择一些 变量作为自变量,应用多元回归分析的方法建立“最优”回归方程以便对因 变量进行预报或控制。所谓“最优 回归方程,主要是指希望在回归方程中包 含所有对因变量y 影响显著的自变量而不包含对y 影响不显著的自变量的回归 方程。逐步回归分析正是根据这种原则提出来的一种回归分析方法。它的主要 思路是在考虑的全部自变量中按其对y 的作用大小,显著程度大小或者说贡献 大小,由大到小地逐个引入回归方程,而对那些对y 作用不显著的变量可能始 终不被引人回归方程。另外,己被引人回归方程的变量在引入新变量后也可能 失去重要性,而需要从回归方程中剔除出去。引人一个变量或者从回归方程中 剔除_ 个变量都称为逐步回归的一步,每一步都要进行f 检验,以保证在引 人新变量前回归方程中只含有对y 影响显著的变量,而不显著的变量已被剔 除。 逐步回归分析的实施过程是每一步都要对已引入回归方程的变量计算其 偏回归平方和,然后选一个偏回归平方和最小的变量,在预先给定的f 水平 下进行显著性检验,如果显著则该变量不必从回归方程中剔除,这时方程中 其它的几个变量也都不需要剔除( 因为其它的几个变量的偏回归平方和都大于 最小的一个更不需要剔除) 。相反,如果不显著,则该变量要剔除,然后按偏 回归平方和由小到大地依次对方程中其它变量进行f 检验。将对y 影响不显著 的变量全部剔除,保留的都是显著的。接着再对未引人回归方程中的变量分别 计算其偏回归平方和,并选其中偏回归平方和最大的一个变量,同样在给定 f 水平下作显著性检验,如果显著则将该变量引入回归方程,这一过程一直 继续下去,直到在回归方程中的变量都不能剔除而又无新变量可以引入时为 止,这时逐步回归过程结束。 8 二、逐步回归分析的主要计算步骤 ( 1 ) 确定f 检验值 在进行逐步回归计算前要确定检验每个变量是否显若的f 检验水平,以 作为引人或剔除变量的标准。f 检验水平要根据具体问题的实际情况来定。一 般地,为使最终的回归方程中包含较多的变量,f 水平不宣取得过高,即显 著水平口不宜太小。f 水平还与自由度有关,因为在逐步回归过程中,回归方 程中所含的变量的个数不断在变化,因此方差分析中的剩余自由度也总在变 化,为方便起见常按玎一k 一1 计算自由度。以为原始数据观测组数,k 为估计可 能选人回归方程的变量个数。例如刀= 1 5 ,估计可能有2 - - 一3 个变量选入回归方 程,因此取自由度为珂= 1 1 ,查f 分布表,当口= o 1 ,自由度石= 1 ,疋= 11 时, 临界值疋= 3 2 3 ,并且在引入变量时,自由度取彳= 1 ,正= 力一k 一2 ,f 检验 的临界值记最,在剔除变量时自由度取万= l ,疋= n k 一2 ,f 检验的临界值 记e ,并要求e 最,实际应用中常取e = e 。 ( 2 ) 逐步计算 如果已计算,步( 包含f = 0 ) ,且回归方程中已引入,个变量,则第f + 1 步的 计算为: ( a ) 计算全部自变量的偏回归平方和矿。 ( b ) 在已引入的自变量中,检查是否有需要剔除的不显著变量。这就要在 已引入的变量中选取具有最小y 值的一个并计算其f 值,如果f 只则不需要剔除 变量,这时则考虑从未引入的变量中选出具有最大矿值的一个并计算f 值, 如果f e ,则表示该变量显著,应将其引人回归方程,计算转至( c ) 。如果 f e ,表示已无变量可选入方程,则逐步计算阶段结束,计算转人( 3 ) 。 ( c ) 剔除或引人一个变量后,相关系数矩阵进行消去变换,第t + l 步计算 结束。其后重复( a ) ( c ) 再进行下步计算。 由上所述,逐步计算的每一步总是先考虑剔除变量,仅当无剔除时才考 虑引入变量。实际计算时,开头几步可能都是引人变量,其后的某几步也可能 相继地剔除几个变量。当方程中已无变量可剔除,且又无变量可引入方程时, 第二阶段逐步计算即告结束,这时转入第三阶段。 ( 3 ) 其他计算,主要是计算回归方程入选变量的系数、复相关系数及残差 等统计量。 逐步回归选取变量是逐渐增加的。选取第,个变量时仅要求与前面己选的 z 一1 个变量配合起来有最小的残差平方和,因此最终选出的三个重要变量有时 可能不是使残差平方和最小的三个,但大量实际问题计算结果表明,这三个变 量常常就是所有工个变量的组合中具有最小残差平方和的那一个组合,特别当 三不太大时更是如此,这表明逐步回归是比较有效的方法。 9 引人回归方程的变量的个数与各变量贡献的显著性检验中所规定的f 检 验的临界值e 与e 的取值大小有关。如果希望多选一些变量进人回归方程,则 应适当增大检验水平口值,即减小e = e 的值,特别地,当e = 最= 0 时,则 全部变量都将被选入,这时逐步回归就变为一般的多元线性回归。相反,如果 口取得比较小,即e 与最取得比较大时,则入选的变量个数就要减少。此外, 还要注意,在实际问题中,当观测数据样本容量n 较小时,入选变量个数三不 宜选得过大,否则被确定的系数魏的精度将较差。 2 2 3 偏最小二乘方法【1 6 】【1 7 】 偏最小二乘回归方法是伍德和阿巴诺于1 9 8 3 年提出的一种新型多元统计 方法,近2 0 年来偏最小二乘回归在理论、方法和应用方面都得到了迅速的发 展。本节主要介绍这种方法的一般建模步骤。 偏最小二乘回归方法与普通最小二乘回归在思路上的主要区别是它在回 归建模过程中采用了信息综合与筛选技术,它不再直接考虑因变量和自变量集 合的回归建模,而是在变量系统中提取若干对系统具有最佳解释能力的新综合 变量( 即成分提取) ,然后利用它们进行回归建模。 一、偏最小二乘回归分析的算法和思路 偏最小二乘回归分析是多元线性回归分析、主成分分析和典型相关分析的 有机结合,其建模原理也建立在这三种分析方法之上。 在一般的多元线性回归模型中,如果有一组因变量y = m ,y 2 ,y q ) 和一组 自变量x = “,x 2 ,x 。 ,当数据总体能够满足高斯一马尔科夫假设条件,根据 最小二乘,有 夕= ( f x ) 一1 x r y p 是】,的线性的最小方差无偏估计量。从上式容易看出,由于要对矩阵 ( x t x ) 求逆,所以,当x 中的变量存在严重的多重相关性时,或者在x 中的样 本点个数与变量个数相比明显过少时,这个最小二乘估计量都会失效,并将引 发一系列应用方面的困难。 如何解决这个问题呢? 偏最d , - 乘回归分析提出了采用成分提取的方法。 在主成分分析中,对于单张数据表x ,为了找到能最好地概括原数据信息的综 合变量,我们在x 中提取了第1 主要成分e ,使得e 中包括的原数据变异信息 可达到最大,即 v a r ( f o m a x 在典型性分析中,为了从整体上研究2 个数据之间的相关关系,则分别在 x 和y 中提取了典型成分e 和g l ,它们满足 1 0 m a x ,( j i ,g 1 ) 盯【研f i g l e l - - :1 1 在能够达到相关度最大的综合变量f 和g 1 之间,如果存在明显的相关关 系,则可以认为,在2 个变量集合之间亦存在相关关系。而且,如果问题研究 需要的话,无论是主成分分析,还是典型相关分析,都还可以提取更高阶的成 分。 下面介绍偏最小二乘回归是如何通过提取成分来达到有效建模的目的的。 设有鸟个因变量饥,奶, 和p 个自变量“,恐,x p ) 。为了研究因变量与 自变量的统计关系,观测了甩个样本点,由此构成了自变量与因变量的数据表 x = ( 五,x 2 ,x p ) 唧和y = ( m ,y 2 ,) 删。偏最小二乘回归分别在x 和y 中提取 出成分 和( 也就是说, 是毛,x 2 ,x p 的线性组合,甜。是m ,y 2 ,虬的线性组 合) 。在提取这2 个成分中,为了回归分析的需要,有下列2 个要求: ( 1 ) 和“,应尽可能多地携带它们各自数据表中的变异信息; ( 2 ) 和的相关程度能够达到最大。 这2 个要求表明, 和应尽可能地代表数据表x 和j ,同时,自变量的 成分对自变量的成分又有很强的解释能力。 在第1 个成分和被提取后,偏最小二乘回归分别实施x 对的回归以及 】,对f l 的回归。如果回归方程已经达到满意的精度,则算法终止;否则,将利 用x 被解释后的残余信息以及】,被解释后的残余信息进行第2 轮的成分提 取。如此反复,直到能达到一个较满意的精度为止。若最终对x 共提取了m 个 成分,乞,乙,偏最小二乘回归将通过施行儿( 七= 1 ,2 ,g ) 对 ,乞,乞的回归,然 后表达成败关于原变量畸,x 2 ,x 。的回归方程。 第三章非线性回归分析 在许多实际问题中,变量之间的关系并不都是线性的。通常我们会碰到某 些现象的被解释变量与解释变量之间呈现某种曲线关系。对于曲线形式的回归 问题,显然不能照搬我们前面线性回归的建模方法。本章将系统地介绍非线性 回归模型及算法,重点介绍利用有理逼近知识解决非线性问题的方法,实例表 明这类方法简捷方便,精确度高。 3 1 非线性回归模型及非线性最小二乘【1 3 】【1 8 】 在种种非线性关系中,可分为三种类型。第一类是可通过变量替换化为线 性关系;第二类是y 与自变量间的非线性关系的函数形式不明确,这类非线性 回归问题可利用多元线性逐步回归来求解;第三类非线性问题,y 与自变量的 非线性关系的函数形式是确定的( 只是其中的参数未知) ,但不可以通过变量 变换化为线性关系。这类非线性回归问题必须用更复杂的拟合方法求解。 一般非线性回归模型可以写成: y = 伊( 而,恐,届,厦,屏) + 占 ( 3 1 ) 对于给定一组观测值( t ,少,) ,f = 1 , 2 ,刀,我们可以将( 3 1 ) 式改写成为 以= 厂( 薯,p ) + 蜀,f = 1 ,2 ,刀 ( 3 2 ) 其中,乃为因变量;非随机向量一= ( 五。,而:,) 是自变量;秒= ( 岛,q ,吼) 为未知参数向量;蜀为随机误差项并且满足独立同分布假定,即 i e ( 岛) = o ,江1 ,2 ,咒 ir, 1c c ,1 、r ( s j ,e i ,) = = 夏:三:i 。7 ( f ,f = = l ,2 ,行) 如果f ( x t ,0 ) = 吼+ x l o , + x 2 0 2 + - i - x p 铭,那么( 3 2 ) 式就是前面讨论的线性模 型,而且必然有k = p :对于一般情况的非线性模型,参数的数目与自变量的数 目并没有一定的对应关系,不要求k = p 。 对非线性回归模型( 3 2 ) 式,我们仍使用最小二乘法估计参数9 ,即求 使得 力 q ( 乡) = ( m - f ( x , ,伊) ) 2 f 1 1 ( 3 3 ) 达到最小的痧,称为秒的非线性最小二乘估计。在假定f 函数对参数秒连续 可微时,可以利用微分法,建立正规方程组,求解使q ( 口) 达最小的矽。将a 函 数对参数秒,求偏导,并令其为0 ,得p + 1 个方程 到a o jo , 菇, q 虹, - 1 胞乱o f 咄2 。 4 , ( _ ,= o ,1 ,2 ,o + 0 9 p ) 非线性最小二乘估计矽就是( 3 4 ) 式的解,( 3 4 ) 式称为非线性最小二乘 估计的正规方程组,它是未知参数的非线性方程组。一般用n e w t o n 迭代法求 解此正规方程组。 也可以直接极小化残差平方和痧,求出未知参数秒的非线性最小二乘估计 目。 3 2g a u s s n e w t o n 算法及其改进【1 3 1 本节讨论求解非线性最d x - - 乘问题的g a u s s - n e w t o n 算法,这是非线性回 归分析中应用十分广泛的算法。 设y 与毛,的胛次观测数据满足非线性回归模型( 3 1 ) ,取目标函数为 f ( ) = 寺p ( ) p ( ) = i 1l l y 一 ,) 1 1 2 求解参数的最小二乘估计等价于求最优化问题:面n f ( ) 的解。用n e w t o n 法求以上最优化问题的解时,因h e s sj a n 矩阵日( ) 太复杂了,造成使用困难。 为了简化日( ) 的计算,我们将误差向量函数e ( ) 在点七) 展开t a y l o r 表达式: p ( ) e ( 。) + ,( ) ( 一2 ) 。 由上式可得目标函数f ( ) 在附近的近似表达式及f ( f 1 ) 的梯度向量 g ( ) 和h e s sj a n 矩阵日( ) 的近似表达式: f ( p ) 去( 。) + ,( ) ( 一。) 瞳( ) + j ( 七) ( 一。) 】, ( 3 5 ) 么 g ( ) j ( ) e ( ) ( 3 6 ) j 7 ( 。) p ( ) + ,( 。) ,( ) ( 一2 ) 日( ) j ( 七) ,( 。) ( 3 7 ) 用h e s s i a n 矩阵的近似公式( 3 7 ) 中不出现口( ) 的二阶导数,使用近似 表达式( 3 6 ) 和( 3 7 ) 构造的牛顿迭代算法称为g a u s s - n e w t o n 算法,将( 3 6 ) 和( 3 7 ) 代入修正迭代公式p k = h ( 七) x 7 ( 。) p ( ) 和“1 = 。+ 五见,所 得算法称为修正的g a u s s - n e w t o n 算法,其迭代公式为 。+ 1 = 一五 ,( ) ,( 。) 】_ 1 j ( 。) p ( ) ( 3 8 ) 这等价于 “1 = 膏+ 五仇,其中发见是方程组: ,( 七) ,( 。) p i = 一j ( 。弦( 。) ( 3 9 ) 的解,或者说仇是方程 j ( ) p i = 一e ( 。) ( 3 1 0 ) 的最小二乘解,其实( 3 9 ) 是方程( 3 1 0 ) 的正规方程。因此修改的g a u s s t n e w t o n 算法的迭代公式可以简单地写成 f 似“) - o + 2 七p k , 仇是方秽( ”) 仇= 一e ( f l ( k ) ) 的最小二乘解, ( 3 1 1 ) i 五是g ( 允) = f ( f l ) + 2 p k ) 的最小点。 1 3 当矩阵,( ) j ( f l ) 可逆时,以上迭代公式与( 3 8 ) 式是等价的,但它在 计算机上必( 3 8 ) 式更方便实用。 可以证明,当j ( ) ,( 七) 可逆时,由( 3 9 ) 式确定的方向仇是目标函 数f ( f 1 ) 的下降方向。故而该算法是很有效的。但当j ( ) j ( 七) 是奇异阵或接 近奇异阵时,不能从( 3 9 ) 解出风,这时可将f ( f 1 ) 在似的负梯度方向: 见= 一g ( ) 作为搜索方向。 算法3 1 ( 修正的g a u s s n e w t o n 算法) 已知e ( p ) = ( e l ( f 1 ) ,e 2 ( ) ,( ) ) , e ( ) 的j a c o b i 阵:j ( f 1 ) :4 警) 及目标函数f ( ) :百1 厶n 乞2 ( ) 。 o l ,;z i i ( 1 ) 选初始点们,计算届= 去彳( o ) ;置k = o
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 军械检修考试题及答案
- 荆门驾考试题及答案
- 2025年中国硬笔书法模具数据监测研究报告
- 金融考试题目及答案
- 连铸工成本控制考核试卷及答案
- 电解精炼工数字化技能考核试卷及答案
- 保温成棉控制工适应性考核试卷及答案
- 教材分析考试题及答案
- 康复辅助技术咨询师操作考核试卷及答案
- 光伏聚光组件制造工成本预算考核试卷及答案
- Unit 1 How can I get there?(教学设计)-2024-2025学年人教PEP版英语六年级上册
- 越南货代基本知识培训课件
- 社会学概论教学课件
- 2025-2026学年粤人版(2024)初中地理八年级上册教学计划及进度表
- 2025年上半年系统架构设计师《综合知识》考试真题及答案
- 牧护关镇街道小学2025-2026学年第一学期工作计划
- 失眠抑郁焦虑课件
- 互联网企业文化调研报告及分析框架
- 2025年国家级检验检测机构资质认定评审员考试在线题库(附答案)
- 农村商业银行三年发展战略规划与实施方案
- 洗衣服劳动与技术课件
评论
0/150
提交评论