版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、重 庆 交 通 大 学现代测量数据学生课题论文课 题 名 称:回归分析在实际案例中的应用指 导 老 师:刘 国 栋学 院 :土木工程学院年级专业班 :2013级测绘工程一班学 生 姓 名:陈 涛学 生 学 号:631301040116课题学习时间:2015年11月目录1、引言32、分类及要点说明42.1、分类42.2、要点说明43、回归分析模型及步骤53.1、回归模型53.2、回归分析步骤64、一元线性回归案例分析64.1、案例叙述64.2、数据输入与分析64.3、解算方法74.3.1、手动解算74.3.2、矩阵的MATLAB解算84.3.3、多项式法解算94.4、模型参数的显著性检验104.
2、5、模型检验104.6、利用回归方程进行预测和预报控制135、多元线性回归案例分析145.1、案例叙述145.2、数据输入与分析155.3、解算方法175.4、模型参数的显著性检验185.5、模型检验195.6、利用回归方程进行预测和预报控制206、结论20参 考 文 献21回归分析在实际案例中的应用陈涛1(1. 重庆交通大学土木工程学院,重庆400074;)摘要数学是一门很重要的学科,许多的数学家研究出了各种定理、公式以及规律方法,并且都证明了它的正确性,应用这些定理公式及规律方法解决了许多疑难问题,回归分析就是其中之一。回归分析是数学分析中的一个重要方法,这种方法可以从对大量数据的处理中得
3、到函数规律从而建立数学模型,它在解决数据分析中的问题时应用广泛、灵活,是解决数据处理问题的一个强有力的工具;另外在解决一些大数据问题或者计算量较大的问题时,借助于一些辅助的数据处理软件会显得简单快捷的多,在这个大数据时代很多问题也必须借助于这些软件进行处理,这已经成为一种常态化,MATLAB就是这样的一种软件。MATLAB可以通过编程实现几乎所有的数据处理问题,他强大的数据处理能力使得一些人工不能解算的大数据处理问题得以实现;本文将结合实际的案例利用MATLAB软件向大家介绍如何运用回归分析解决实际的问题。关键词:回归分析,一元回归,多元回归,MATLAB解算1、引言 回归分析就是指利用数据统
4、计原理,对大量统计数据进行数学处理,“加以去粗取精、去伪存真、由此及彼、由表及里的改造制作工夫”,从而得出反映事物内部规律性的东西。并确定因变量与某些自变量的相关关系,建立一个相关性较好的回归方程(函数表达式),并加以外推,用于预测今后的因变量的变化的数理统计分析分析方法。现实世界中变量之间的关系可以分成两类,一类是确定关系,即我们常说的函数关系,这种关系可以使用函数来进行分析和描述;另一类是不确定关系,即我们常说的相关关系,如我们即将研究的大坝库水位和大坝沉陷量之间的关系和 中国税收收入与“国内生产总值(GDP)”、“财政支出”、“商品零售物价指数”之间的关系。2、分类及要点说明2.1、分类
5、1、根据因变量和自变量的个数来分类:一元回归分析;多元回归分析;2、根据因变量和自变量的函数表达式来分类:线性回归分析;非线性回归分析;2.2、要点说明1、 通常情况下,线性回归分析是回归分析法中最基本的方法,当遇到非线性回归分析时,可以借助数学手段将其化为线性回归;因此,主要研究线性回归问题,一点线性回归问题得到解决,非线性回归也就迎刃而解了,例如,取对数使得乘法变成加法等;当然,有些非线性回归也可以直接进行,如多项式回归等;2、在社会经济现象中,很难确定因变量和自变量之间的关系,它们大多是随机性的,只有通过大量统计观察才能找出其中的规律。随机分析是利用统计学原理来描述随机变量相关关系的一种
6、方法;3、由回归分析法的定义知道,回归分析可以简单的理解为信息分析与预测。信息即统计数据,分析即对信息进行数学处理,预测就是加以外推,也就是适当扩大已有自变量取值范围,并承认该回归方程在该扩大的定义域内成立,然后就可以在该定义域上取值进行“未来预测”。当然,还可以对回归方程进行有效控制;4、相关关系可以分为确定关系和不确定关系。但是不论是确定关系或者不确定关系,只要有相关关系,都可以选择一适当的数学关系式,用以说明一个或几个变量变动时,另一变量或几个变量平均变动的情况。3、回归分析模型及步骤3.1、回归模型1、确定变量之间是否存在相关关系,若存在,则找出数学表达式;2、根据一个或几个变量的值,
7、预测或控制另一个或几个变量的值,且要估计这种控制或预测可以达到何种精确度。回归模型一元回归线性回归非线性回归多元回归线性回归非线性回归3.2、回归分析步骤1、根据自变量与因变量的现有数据以及关系,初步设定回归方程;2、求出合理的回归系数;3、进行相关性检验,确定相关系数;4、在符合相关性要求后,即可根据已得的回归方程与具体条件相结合,来确定事物的未来状况,并计算预测值的置信区间;4、一元线性回归案例分析4.1、案例叙述 根据已知数据求出表示大坝库水位和大坝沉陷量之间的一元线性回归方程。已知数据:编号库水位(m)沉陷量(mm)编号)库水位(m)沉陷量(mm)1102.714 -1.96 7135
8、.046 -5.46 295.154 -1.88 8140.373 -5.69 3114.364 -3.96 9144.958 -3.94 4120.170 -3.31 10141.011 -5.82 5126.630 -4.94 11130.308 -4.18 6129.393 -5.69 12121.234 -2.90 4.2、数据输入与分析设库水位为x,沉陷量y,将以上数据输入MATLAB中进行分析,利用matlab软件可以得到y关于x的散点图如图1所示:95100105110115120125130135140145-6-5.5-5-4.5-4-3.5-3-2.5-2-1.5图1 y关
9、于x的散点图由于提取的数据包含有其它各方面的影响因素,综合考虑其它因素的影响可以看y和x成线性相关关系,可以设库水位x与y为一元回归线性模型:4.3、解算方法4.3.1、手动解算解:计算、的值: 故回归方程为:4.3.2、矩阵的MATLAB解算在matlab中输入编码如下:x=102.714 95.154 114.364 120.170 126.630 129.393 135.046 140.373 144.958 141.011;%输入x的数据y=-1.96 -1.88 -3.96 -3.31 -4.94 -5.69 -5.46 -5.69 -3.94 -5.82;%输入y的数据X=sum(
10、x)/10;%求x数据的平均值 Y=sum(y)/10; %求y数据的平均值A=ones(1,10)*X; %构建一个1行10列值为X的矩阵B=ones(1,10)*Y; %构建一个1行10列值为Y的矩阵Sx=x-A; %矩阵减法Sy=y-B; %矩阵减法Sxx=sum(Sx.*Sx); %对矩阵Sx中的值先平方再求和Sxy=sum(Sx.*Sy); %矩阵Sx中的值与矩阵Sxy中的值先相乘再求和P1=Sxy/Sxx;P0=Y-X*P1;结果输出:P1=Sxy/SxxP1 = -0.0749P0=Y-X*P1P0 =5.0967故回归模型为:4.3.3、多项式法解算在matlab中输入程序编码
11、利用多项式解求参数:x=102.714 95.154 114.364 120.170 126.630 129.393 135.046 140.373 144.958 141.011; %输入x的数据y=-1.96 -1.88 -3.96 -3.31 -4.94 -5.69 -5.46 -5.69 -3.94 -5.82; %输入y的数据P,S=polyfit(x,y,1); % 确定多项式系数的MATLAB命令结果输出:P = -0.0749 5.0967故回归模型为:4.4、模型参数的显著性检验在matlab中输入以下的编码:X=ones(10,1),x'%构建10行2列矩阵X,第一
12、列值都为1,第二列为x的转置b,bint,r,rint,s=regress(y',X); % 计算y',X相关系数,分析其相关程度,以0.05的显著性水平检验相关系数的显著性 s2=sum(r.2)/8; % r中值的平方求和除8 b,bint 结果输出:b = 5.0967 -0.0749bint = 0.0046 10.1887 -0.1153 -0.0345参数b1=5.0967、b2=-0.0749均在其置信区间0.0046,10.1887, -0.1153,-0.0345内,所以模型参数满足要求。4.5、模型检验同样在MATLAB中可以得到残差数据如图2所示:s =
13、0.6954 18.2659 0.0027 0.7795s2 = 0.7795由这些数据可知:=0.6954,F=18.2659,p=0.0027,=0.7795;此处p=0.0027<0.05,基本符合要求,模型有效;同时在matlab中输入编码rcoplot(r,rint)得到模型的残差分布图1,由图知第九组数据存在问题:12345678910-3-2-1012Residual Case Order PlotResidualsCase Number图2 初始残差分布图将第九组数据剔除,取一到八组和十、十一组数据重新计算得到以下模型和数据:bint = 3.6458 10.3979 -
14、0.1187 -0.0644 模型参数满足要求;s = 0.8833 60.5277 0.0001 0.2973s2 = 0.2973=0.8833,F=60.5277,p=0.0001,=0.2973;p=0.0001<0.05满足要求,模型有效;去除异常点的残差分布如图3所示:此时残差图显示所有数据都满足要求,模型比剔除异常点前的模型更好;此处我们将最后一组数据带入发现结果差别较大,因此最后一组数据应该也属于异常点。12345678910-1.5-1-0.500.511.5Residual Case Order PlotResidualsCase Number图3 去除异常点的残差分
15、布图在剔除两个异常点后我们可以再画y关于x的散点图如图4所示:95100105110115120125130135140145-6-5.5-5-4.5-4-3.5-3-2.5-2-1.5图4 无异常点的y关于x的散点图通过对比会发现剔除异常点后的散点图更能体现库水位和沉陷量之间的线性关系,所以最终的回归模型为:4.6、利用回归方程进行预测和预报控制 通过得到的回归模型可知,要使得大坝在理论上的沉陷量为零,大坝的库水位应该为x=7.0218/0.0916=76.66m,虽然在现实生活中不一定能够达到这样的要求,这个数据也不一定就是实际上使得大坝的沉陷为零的库水位值,但是至少也是理论上的一个与实际
16、真值相差最小的值,能够为大坝管理人员提供了一个用于评估和研究的理论数据。5、多元线性回归案例分析5.1、案例叙述 为了反映中国税收增长的全貌,选择包括中央和地方税收的国家财政收入中的“各项税收”(简称“税收收入”)作为被解释变量,以放映国家税收的增长;选择“国内生产总值(GDP)”作为经济整体增长水平的代表;选择中央和地方“财政支出”作为公共财政需求的代表;选择“商品零售物价指数”作为物价水平的代表。由于税制改革难以量化,而且1985年以后财税体制改革对税收增长影响不是很大,可暂不考虑。所以解释变量设定为可观测“国内生产总值(GDP)”、“财政支出”、“商品零售物价指数”。从中国统计年鉴收集到
17、以下数据:年份财政收入(亿元)国内生产总值(亿元)财政支出(亿元)商品零售价格指数(%)YX1X2X31978519.283624.11122.09100.71979537.824038.21281.791021980571.74517.81228.831061981629.894862.41138.41102.41982700.025294.71229.98101.91983775.595934.51409.52101.51984947.3571711701.02102.819852040.798964.42004.25108.819862090.7310202.22204.91106198
18、72140.3611962.52262.18107.319882390.4714928.32491.21118.519892727.416909.22823.78117.819902821.8618547.93083.59102.119912990.1721617.83386.62102.919923296.9126638.13742.2105.419934255.334636.44642.3113.219945126.8846759.45792.62121.719956038.0458478.16823.72114.819966909.8267884.67937.55106.11997823
19、4.0474462.69233.56100.819989262.878345.210798.1897.4199910682.5882067.513187.6797200012581.5189468.115886.598.5200115301.3897314.818902.5899.2200217636.45104790.622053.1598.75.2、数据输入与分析按表中数据将y,x1,x2,x3输入MATLAB中进行分析,得到以下的散点图: 024681012x 104020004000600080001000012000140001600018000图5 y关于x1的散点图00.511.
20、522.5x 104020004000600080001000012000140001600018000图6 y关于x2的散点图95100105110115120125020004000600080001000012000140001600018000图7 y关于x3的散点图对图形分析可以设为多元回归模型:5.3、解算方法在MATLAB中利用矩阵编写程序代码进行解算,程序编码如下:23format long%设置浮点型的输出格式y=519.28537.82571.7629.89700.02775.59947.352040.792090.732140.362390.472727.42821.86
21、2990.173296.914255.35126.886038.046909.828234.049262.810682.5812581.5115301.3817636.45'%y的数据X1=3624.14038.24517.84862.45294.75934.571718964.410202.211962.514928.316909.218547.921617.826638.134636.446759.458478.167884.674462.678345.282067.589468.197314.8104790.6' %X1的数据X2=1122.091281.791228.8
22、31138.411229.981409.521701.022004.252204.912262.182491.212823.783083.593386.623742.24642.35792.626823.727937.559233.5610798.1813187.6715886.518902.5822053.15' %X2的数据X3=100.7102106102.4101.9101.5102.8108.8106107.3118.5117.8102.1102.9105.4113.2121.7114.8106.1100.897.49798.599.298.7' %X3的数据n=25
23、; ;m=3;X=ones(n,1),x1',x2',x3' %构造n行4列矩阵X,第一列为1,第二列为X1转置b,bint,r,rint,s=regress(y',X); %计算y',X相关系数,分析其相关程度,以0.05的显著性水平检验相关系数的显著性s2=sum(r.2)/(n-m-1); % r中值的平方求和除(n-m-1) b,bint,s,结果输出:b = 1.0e+03 * -2.582755482904195 0.000022067154277 0.000702104075794 0.023985062289075故所求模型为:5.4、模
24、型参数的显著性检验 在解算的同时可以求出以下参数:bint = 1.0e+03 * -4.538864982100863 -0.626645983707528 0.000010468615698 0.000033665692856 0.000632985821410 0.000771222330178 0.005812781056010 0.042157343522140由于b = 1.0e+03 * -2.582755482904195 0.000022067154277 0.000702104075794 0.023985062289075b1,,b2,b3,b4都在其置信区间-4538.
25、864982100863,-626.645983707528, 0.010468615698,0.033665692856, 0.632985821410,0.771222330178,5.812781056010,42.157343522140内,所以模型参数满足要求;5.5、模型检验同样在MATLAB中可以得到以下的残差数据: s = 1.0e+04 * 0.000099743048911 0.271725387862814 0.000000000000000 6.967443168409442s2 = 6.967443168409445e+04=0.99743,F=2717.253878
26、6,p=0.000,=69674.43168;此处p<0.05;输入rcoplot(r,rint)代码可得残差分布如图8所示:510152025-800-600-400-2000200400600800Residual Case Order PlotResidualsCase Number图8 残差分布图由图可知残差在零点上下分布均匀且相隔不远、没有异常点,所以模型检验合格、有效。5.6、利用回归方程进行预测和预报控制根据求出来的回归模型可知,财政收入总体的趋势是处于上涨趋势,这是非常积极的;另一方面,影响财政收入的最主要原因是商品零售价格指数,政府应该在这方面引起重视,国内生产总值对财
27、政收入的影响比较小,财政支出的影响也相对适中。6、结论从这两个案例我们知道回归分析能够通过给定的变量之间的对应数据求出变量之间的相关关系,并将这种相关关系通过函数模型表现出来,使研究者可以跳过繁杂的数据看到变量间最本质的联系;通过案例二我们也应该得到一些启发:在多元模型中并不是线性相关性最大的自变量对因变量的影响最大,从最终的函数模型和开始的散点图对应来看是这样的;但同时我也产生了很多的疑问,比如在第一个案例中存在异常值,在取前十组数据时、通过残差图知道第九组数据是异常数据,在排除这个值后将最后一组数据代入得到的函数模型发现结果与实际的结果差别很大,在此我作出的决定是认为该组数据仍然是异常数据
28、,而实际上真的就是如此吗?有没有可能删除的异常点才是真正能反应实际情况的数据,而留下的那十组中的更多的点才是异常点呢?我想如果将这些数据放在一百组中可能就有答案了吧,因为从大坝库水位和大坝沉陷量之间的散点图来看实在是不能非常直观的看出如案例二中y与x2那样的线性关系。参 考 文 献1 胡晓东,董辰辉. MATLAB从入门到精通M.人民邮电出版社:2010 Xiao-dong hu, Dong Chen fai. MATLAB from entry to master M. People's posts and telecommunications publishing house, 2
29、010 2 何晓群,刘文卿.应用回归分析(第三版)M.北京:中国人民大学出版社,2011Xiao-qun he, wen-ching liou. Application of regression analysis (third edition) M. Beijing: China renmin university press, 2011 3 百度文库.网址:Baidu library. Web site: abstractmathematics is a very important subject, many mathematicians developed various theorem, formula and rule method, and prove its correctness, the theorem formula and rule method is applied to solve many
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 宿迁市中医院足部推拿技术考核
- 相亲活动方案流程工作方案
- 盲人协会活动方案
- 纸盘子美术活动方案
- 红色小小宣讲员活动方案
- 百威历代活动方案
- 盲人做木匠活动方案
- 白山镇植树活动方案
- 益智体验活动方案
- 管理系列活动方案
- 医院有限空间作业管理制度(含应急预案)
- 救护车的使用和原理
- 幼儿园中班数学《大家一起来-5以内的连加》课件
- 食管癌诊疗指南解读(2025版)
- 企业食品安全加工培训课件
- 2025年华电集团校园招聘考试指南及模拟题解析
- 社情民意信息提案范文10篇
- 七年级生物期中考试复习要点
- 吉林省珲春市2025年上半年公开招聘辅警试题含答案分析
- 导游资格考试冲刺复习宝典
- 2025至2030年中国活性二氧化硅行业市场全景监测及投资战略咨询报告
评论
0/150
提交评论