回归模型--华东理工大学数学建模.ppt_第1页
回归模型--华东理工大学数学建模.ppt_第2页
回归模型--华东理工大学数学建模.ppt_第3页
回归模型--华东理工大学数学建模.ppt_第4页
回归模型--华东理工大学数学建模.ppt_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2019/4/30东华理工学院数信学院信息技术系,数学建模,第七章 回归模型,7.1 回归分析 7.2 一元线性回归模型及其参数估计 7.3 多元线性回归 7.4 非线性回归 7.5 预测区间,2019/4/30东华理工学院数信学院信息技术系,数学建模,在客观现实世界中,事物的发展变化往往受到其他因素的影响,即是由其他事物的发展变化所造成的,事物之间的这种关系称为因果关系。 因果关系可分为两类:,回 归 分 析,确定性关系,确定性关系,因果关系,2019/4/30东华理工学院数信学院信息技术系,数学建模,所谓确定性关系是指在相互联系的变量中,某一个变量的值可由其余变量的值精确求出,变量之间的这种关系称为确定性关系即函数关系。 如,一个地区某产品销售率q与该产品实际销售量与该地区人数之间有如下关系:q/。所以,q、之间的关系属确定性关系。,2019/4/30东华理工学院数信学院信息技术系,数学建模,非确定性关系:变量之间虽然存在一定的联系,但其中一个变量的值却不能由其余变量的值精确地求出。其原因是它们之间的这种联系,由于受到随机因素的影响而并非一成不变,呈现出不确定性。它们之间的关系不能用精确的数学表达式来表达。通常只能将有关变量的实验数据,用数理统计方法找到它们之间的关系。变量之间的这种非确定性关系称为相关关系或回归关系。 如,汽车配件销售额与车拥有量之间的关系;货币流通量与社会商品零售总额、工农业总产值、货币流通速度等变量间的关系,均属于相关关系。,2019/4/30东华理工学院数信学院信息技术系,数学建模,在对经济问题的研究中,不仅要分析该问题的基本性质,也需要对经济变量之间的数量关系进行具体分析。常用的分析方法有回归分析、相关分析、方差分析等方法。这些方法中应用最广泛的是回归分析。 回归分析就是应用数理统计方法,对变量的大量实验统计数据进行分析处理,找到变量之间的联系方式并进行预测分析的方法。它是经济预测中一种重要的、应用广泛的预测方法。 在回归分析中,常常把预测变量称为因变量,而把影响预测变量的因素称为自变量。,2019/4/30东华理工学院数信学院信息技术系,数学建模,回归分析的步骤为: (1)根据自变量和因变量的一组实验数据,确定自变量和因变量之间的数学关系式(称为实验公式或回归方程)。 (2)对回归方程中的参数进行估计和统计检验,分析影响因素(自变量)与预测目标(因变量)之间关系强弱和影响程度。 (3)利用回归方程,预测因变量的值,并分析研究预测结果的误差范围和精度。 回归分析分为线性回归和非性回归。而线性回归又可分为一元线性回归和多元线性回归。,(,2019/4/30东华理工学院数信学院信息技术系,数学建模,设x为自变量,y为因变量,y与x之间满足如下线性关系: (1) 其中 为随机变量 。 若 为n次独立实验的观察值,则 .(2),“一元线性回归模型”及其参数估计,2019/4/30东华理工学院数信学院信息技术系,数学建模,称(2)为一元线性回归模型. “一元”是指只有一个自变量X,这个自变量X是引起因变量Y变化的部分原因. “线性”它一方面指因变量Y与自变量X之间为线性关系,即 另一方面也指因变量Y与参数a,b之间为线性关系,即,2019/4/30东华理工学院数信学院信息技术系,数学建模,模型假设条件,(1)误差项 的数学期望(均值)为零.即 (2)不同的误差项 和 之间互相独立.即 (3)误差项 的方差与n无关,为一常数.即,2019/4/30东华理工学院数信学院信息技术系,数学建模,(4)自变量 与误差项 不相关.即 (5) 为服从正态分布的随机变量.即,2019/4/30东华理工学院数信学院信息技术系,数学建模,综上所述,一元线性回归模型可以归结为,2019/4/30东华理工学院数信学院信息技术系,数学建模,模型的参数最小二乘估计,问题:设x与y之间的线性关系为()式,如何由一组统计值(xi,yi),i=1,2n.来建立起y与x之间的线性统计模型(线性回归方程)。 如何确定参数 ,使直线 尽可能靠近所有的点(xi,yi)。 即如何去寻找拟合散布点的直线?拟合一条直线的准则是什么?,2019/4/30东华理工学院数信学院信息技术系,数学建模,拟合直线的的准则,直线外一点到直线上的点的距离有三种特殊情况: .点到直线的垂直距离; .点到直线的垂直坐标距离; .点到直线的水平坐标距离;,2019/4/30东华理工学院数信学院信息技术系,数学建模,准则:,.使 达到最小值; .使 达到最小值; .使 达到最小值; .使 达到最小值;,最小二乘准则,2019/4/30东华理工学院数信学院信息技术系,数学建模,最小二乘准则寻找拟合直线,假设 分别为模型参数a,b的估计值。拟合直线为 其中,为 的估计值。它可按如下方法求得 ,。由 令 则 可将ei残差看成随机误差项 的估计值。 令Q:残差平方和. 则最小二乘准则就是求的最小值。,残差,2019/4/30东华理工学院数信学院信息技术系,数学建模,为使达到最小,令,2019/4/30东华理工学院数信学院信息技术系,数学建模,解之得:,2019/4/30东华理工学院数信学院信息技术系,数学建模,其中,2019/4/30东华理工学院数信学院信息技术系,数学建模,例:某市自行车配件销售额y(万元)与自行车保有量x(万辆)历年统计数据如下所示,运用一元线性回归方法,建立自行车配件销售额与自行车保有量之间的回归模型。若该市自行车保有量近几年按每年8%递增,试预测该市1993年及1994年自行车配件销售额。,2019/4/30东华理工学院数信学院信息技术系,数学建模,2019/4/30东华理工学院数信学院信息技术系,数学建模,解:样本个数n=13,由表中数据经计算可得:,2019/4/30东华理工学院数信学院信息技术系,数学建模,代入()式得, =3.7955, =3.9403. 所以回归预测方程为 =3.9403+3.9755x (4) 由给方程即可对1993年、1994年的自行车配件销售额进行预测,由题意可知,近几年自行车保有量每年递增8,所以1993年、1994年该市自行车保有量分别为: 26.611.0828.7388(万辆) 26.611.08*1.0831.09379(万辆),2019/4/30东华理工学院数信学院信息技术系,数学建模,将上述数据代入(4)式,得1993年、1994年该市自行车配件销售额的预测值分别为: =3.9403+3.795528.7388=113.0184(万元) =3.9403+3.795531.0379=121.7446(万元) 值得注意,在求得回归模型参数的估计值后还应该分析研究模型参数的估计值是否与实际经济现象相吻合。例如b的符号及大小是否与所讨论的经济问题相符。若所研究的是某机械产品配件销售额y与该机械保有量x之间的关系,,2019/4/30东华理工学院数信学院信息技术系,数学建模,在一般情况下,保有量增加则其配件销售额增加,而保有量减少其配件销售额也将减少,所以这时回归模型的参数b应为正,若b0,则意味着保有量增加(减少)而其配件销售额却反而减少(或增加),这与一般正常规律相矛盾。又如在某产品的需求量y对该产品的价格x的回归模型中,在一般情况下,价格上升则需求下降,而价格下降则需求上升,所以回归参数b0,否则也与正常的需求规律不相符。除了要考虑回归参数b的符号,还要分析b的大小,因为b 的大小近似的反映了y与x之间的比例关系,,2019/4/30东华理工学院数信学院信息技术系,数学建模,根据所讨论的经济问题的特点及由实际经验,可估计出b的可能取值范围。如,在消费分析中,消费y与收入x之比就不可能大1。所以若 b1,则说明b 的大小与实际情况或经济规律不相符。凡是出现上述类似情况,所得回归模型都是不适用的,必须检查其产生的原因,重新建模。,2019/4/30东华理工学院数信学院信息技术系,数学建模,由回归方程求得的预测值是y的回归估计值,称为点估计。但在实际问题中,不但需要求出y的预测估计值,更重要的是需要知道 y的实际值与预测值之间的误差有多大,即需要知道y的实际值偏离预测值的范围。为此只要能估计出y 的实际值可能的取值范围及其可靠程度即可。该范围一般用区间表示,称为预测区间。对预测区间估计过程称为区间估计。其方法是由一组统计数据(xi,yi)(i=1,2n)确定一个区间( ),对于给定的值a(0a1),预 测 区 间,2019/4/30东华理工学院数信学院信息技术系,数学建模,y的真实值以一定的概率落在区间( )内,即使py =1- 称区间( )为y的100(1-a)%预测区间(或置信区间),100(1-a)%称为置信水平或置信度,a称为置著性水平。 设 xo为自变量x在预测点的值,为因变量 y相应的值, 为相应的预测值。 因为 均为正态随机变量,所以也为正 态随机变量 ,,2019/4/30东华理工学院数信学院信息技术系,数学建模,且 其中 为随机误差项的方差, 的无偏估计量为; :样本方差或剩余方差,S:样本标准差 或剩余标准差。 又 所以,2019/4/30东华理工学院数信学院信息技术系,数学建模,即 (1) 对给定的显著性水平得临界值 ,所以有 令 (2),2019/4/30东华理工学院数信学院信息技术系,数学建模,则 即y的100(1-a)%的预测区间为( )。 特别当n大于等于30(即大样本)时,T分布趋 近于标准正态分布。 且 ,则(1)式变为: N(0,1)由“ ”原则可知,,2019/4/30东华理工学院数信学院信息技术系,数学建模,Y 的68.26%预测区间为( ) Y 的95.44%预测区间为( ) Y 的99.74%预测区间为( ) 例2:在例1中,求1993年自行车销售额的预测 区间,显著性水平a=0.05。 解n=13,回方程为 =3.9403+3.7955x 所以1993年自行车配件销售的预测值为,2019/4/30东华理工学院数信学院信息技术系,数学建模,先计算残差平方和Q= 所以y的样本方差为:s =13.7977 样本标准差S=3.7145 因为xo=x14=26.611.08=28.7388 所以 =1.46475。 又 将上述数据代入 (2)式,2019/4/30东华理工学院数信学院信息技术系,数学建模,得预测区间半径: =9.89 所以1993年自行车配件销售的100(1-a) % =95%预测区间为 ( )=(103.1284,122.908)(万元) 若采用“ ”原则的预测区间,则1993年自行车 配件销售额的68.26%,95.44%,99.74%的预测 区间可分别近似地取为 ( )=(109.3039,116.7329) ( )=(105.5894,120.4474) ( )=(101.8749,124.1619),2019/4/30东华理工学院数信学院信息技术系,数学建模,在实际问题中,常常遇到预测变量受到多个因素影响的情形。如某产品的销售量不仅受到该产品的价格影响,且还受到社会购买力、购买者偏好等因素的影响,这就是多元回归问题。在多元回归中,最重要且应用最广的是多元线性回归。多元回归的基本原理和一元回归相同,方法也类似,但前者比后者复杂得多。 一 多元线性回归模型及其参数估计 设 为自变量,y为因变量,它们之间满足如下线性关系:,多元线性回归,2019/4/30东华理工学院数信学院信息技术系,数学建模,称为多元线性回归模型,其中为随机误差项,且 。 若 次独立实验的观察值,则 .()称为多元线性回归模型 多元线性回归模型有如下假设条件: y与xi(i=1.2.p)之间满足()或()式的线性关系。 xi是确定性变量,且在两个或多个自变量之间不存在线性关系。,2019/4/30东华理工学院数信学院信息技术系,数学建模,随机误差 下面仍用最小二乘法来估计模型中的参数 设由一组统计数据 建立起y与x1,x2xp之间的线性回归方程为 其中 为y的估计值, 分别为模型参数 的估计值, 由 .(3),2019/4/30东华理工学院数信学院信息技术系,数学建模,得残差:残差平方和为: Q= 根据极值原理,使取最小值的 应满足下列方程组 化简得到关于 的p+1阶线性方程组。,(,2019/4/30东华理工学院数信学院信息技术系,数学建模,()式称为正规方程组,解此方程组即可得到模型参数的估计值 。 将()式用矩阵形式表示,令,(4),2019/4/30东华理工学院数信学院信息技术系,数学建模,X,2019/4/30东华理工学院数信学院信息技术系,数学建模,则多元线性回归模型(2)可用矩阵形式表示为: X(5) 多元线性回归方程(3)可表示为 则正规方程组(4)可简洁地表示为: (6) 若 可逆转,则,2019/4/30东华理工学院数信学院信息技术系,数学建模,其中 =,,,2019/4/30东华理工学院数信学院信息技术系,数学建模,例1 某市家用电器销售额y(万元)与该市 在业人口总收入x1(万元),销售服务费x2 (万元)的历年统计数据如表所示,试求y对 的线性回归模型。若1993年该市在业人口 总收入、销售服务费均在1992年的基础上增值 5%,求1993年该市家用电器销售额的预测值。,2019/4/30东华理工学院数信学院信息技术系,数学建模,2019/4/30东华理工学院数信学院信息技术系,数学建模,解:由表建立的y对x1,x2的二元线性回归方程 为: 将表中的数据代入(7)式,2019/4/30东华理工学院数信学院信息技术系,数学建模,2019/4/30东华理工学院数信学院信息技术系,数学建模,所以所求线性回归方程为: 由题意可知1993年该市在业人口总收入与销 售服务费分别为 298225.2 1.05 =313136.46(万元) 54.60 1.05=57.33 (万元) 将其代入上述回归方程,得1993年该市家用电器销售额预测值为,2019/4/30东华理工学院数信学院信息技术系,数学建模,在经济领域中,变量与变量之间的关系除线性相关关系外,还常常遇到非线性相关关系,即非线性回归问题。一般地,非线性回归模型和方法比较复杂,但在很多情形,可将非线性回归问题转化为线性回归问题来处理,下面介绍在经济预测中常用的非线性回归模型和方法。 1、幂函数模型 y= 其中a、b为模型参数,为为随机误差项。上式两端取对数,并令:,非线性回归,2019/4/30东华理工学院数信学院信息技术系,数学建模,Y=Lny,X=Lnx,A=Lna,B=b,则得, 此为线性回归模型,可用线性回归分析方法求得A,B估计值,进而求得 a,b的估计值。 2、指数函数模型 (1) y= 其中a,b为模型参数,为随机误差项。上式两端取对数,得 Lny=Lna+bx+,令Y=Lny,A=Lna,B=b,则有 Y=A+Bx+,线性回归模型,2019/4/30东华理工学院数信学院

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论