




已阅读5页,还剩10页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Regression Analysis回归分析法摘要:略。关键词:回归分析、回归模型、相关性检验、置信区间。回归分析的起源:回归分析起源.doc 回归分析定义:利用数据统计原理,对大量统计数据进行数学处理,并确定因变量与某些自变量的相关关系,建立一个相关性较好的回归方程(函数表达式),并加以外推,用于预测今后的因变量的变化的分析方法。分类:1. 根据因变量和自变量的个数来分类:一元回归分析;多元回归分析;2. 根据因变量和自变量的函数表达式来分类:线性回归分析;非线性回归分析;几点说明:1. 通常情况下,线性回归分析是回归分析法中最基本的方法,当遇到非线性回归分析时,可以借助数学手段将其化为线性回归;因此,主要研究线性回归问题,一点线性回归问题得到解决,非线性回归也就迎刃而解了,例如,取对数使得乘法变成加法等;当然,有些非线性回归也可以直接进行,如多项式回归等;2. 在社会经济现象中,很难确定因变量和自变量之间的关系,它们大多是随机性的,只有通过大量统计观察才能找出其中的规律。随机分析是利用统计学原理来描述随机变量相关关系的一种方法;3. 由回归分析法的定义知道,回归分析可以简单的理解为信息分析与预测。信息即统计数据,分析即对信息进行数学处理,预测就是加以外推,也就是适当扩大已有自变量取值范围,并承认该回归方程在该扩大的定义域内成立,然后就可以在该定义域上取值进行“未来预测”。当然,还可以对回归方程进行有效控制;4. 相关关系 可以分为确定关系和不确定关系。但是不论是确定关系或者不确定关系,只要有相关关系,都可以选择一适当的数学关系式,用以说明一个或几个变量变动时,另一变量或几个变量平均变动的情况。回归分析主要解决的问题:回归分析主要解决方面的问题;1. 确定变量之间是否存在相关关系,若存在,则找出数学表达式;2. 根据一个或几个变量的值,预测或控制另一个或几个变量的值,且要估计这种控制或预测可以达到何种精确度。回归模型:回归分析步骤:1. 根据自变量与因变量的现有数据以及关系,初步设定回归方程;2. 求出合理的回归系数;3. 进行相关性检验,确定相关系数; 4. 在符合相关性要求后,即可根据已得的回归方程与具体条件相结合,来确定事物的未来状况,并计算预测值的置信区间;回归分析的有效性和注意事项:有效性:用回归分析法进行预测首先要对各个自变量做出预测。若各个自变量可以由人工控制或易于预测,而且回归方程也较为符合实际,则应用回归预测是有效的,否则就很难应用;注意事项:为使回归方程较能符合实际,首先应尽可能定性判断自变量的可能种类和个数,并在观察事物发展规律的基础上定性判断回归方程的可能类型;其次,力求掌握较充分的高质量统计数据,再运用统计方法,利用数学工具和相关软件从定量方面计算或改进定性判断。回归分析中的几个常用概念:实际值:实际观测到的研究对象特征数据值;理论值:根据实际值我们可以得到一条倾向线,用数学方法拟合这条曲线,可以得到数学模型,根据这个数学模型计算出来的、与实际值相对应的值,称为理论值;预测值:实际上也是根据数学模型计算出来的理论值,但它是与未来对应的理论值。表示符号:实际值,用表示;理论值,用表示;预测值,用表示。+Unary Linear Regression +一元线性回归,就是只涉及一个自变量的回归;自变量和因变量之间的关系是线性关系的回归;因变量与自变量之间的关系用一条线性方程来表示的回归。方法步骤:1. 确定回归模型:由于我们研究的是一元线性回归,因此其回归模型可表示为:;其中,是因变量;是自变量;是误差项;和称为模型参数(回归系数)。2. 求出回归系数:这里的回归系数的求解,就要用一定的方法,使得该系数应用于该方程是“合理的”。最常用的一种方法就是最小二乘估计法。最小二乘法是测量工作和科学实验中最常用的一种数据处理方法,其基本原理是,根据实验观测得到的自变量x和因变量y之间的一组对应关系,找出一个给定类型的函数,使得它所取的值与观测值 在某种尺度下最接近,即在各点处的偏差的平方和达到最小,即。这种方法求的的和将使得拟合直线中的和之间的关系与实际数据的误差比其他任何直线都小。根据最小二乘法的要求,可以推导.doc得到最小二乘法的计算公式: 其中,;相关性检验:对于若干组具体数据都可算出回归系数,从而得到回归方程。至于与之间是否真有如回归模型所描述的关系,或者说用所得的回归模型去拟合实际数据是否有足够好的近似,并没有得到判明。因此,必须对回归模型描述实际数据的近似程度,也即对所得的回归模型的可信程度进行检验,称为相关性检验。相关系数是衡量一组测量数据线性相关程度的参量,其定义为:,或者值在0|1中。 |越接近于1, 之间线性好;为正,直线斜率为正,称为正相关;为负,直线斜率为负,称为负相关。|接近于0,则测量数据点分散或之间为非线性。不论测量数据好坏都能求出,所以我们必须有一种判断测量数据好坏的方法,用来判断什么样的测量数据不宜拟合,判断的方法是|时,测量数据是非线性的称为相关系数的起码值,与测量次数有关,如下表:相关系数起码值31.00090.798150.64140.990100.765160.62350.959110.735170.60660.917120.708180.59070.874130.684190.57580.834140.661200.561在进行一元线性回归之前应先求出值,再与比较,若| ,则具有线性关系,可求回归直线;否则反之。置信区间的确定:当确定相关性后,就可以对置信区间.doc进行确定,就可以结合实际情况,确定事物未来的状况了。回归分析的最主要的应用就在于“预测”,而预测是不是准确的,就得有一个衡量的工具。它就是置信区间。或者从另外一方面来说,回归方程是由数理统计得出的,它反映的是实际数据的统计规律,所以,根据回归方程所得的预测值只是对应于的单点预测估计值,预测值应该有一个置信区间。这样来看,计算置信区间就是很有必要的。置信区间:,其中是的无偏估计量.doc,称为剩余方差,称为剩余标准差。注:该表达式的自由度为是因为有2个限制变量故对于给定的,值的概率为0.95的置信区间是:。点击参看置信区间的确定.doc内容。+Example+实验数据如下表: 城镇居民家庭人均可支配收入城市人均住宅面积城镇居民家庭人均可支配收入城市人均住宅面积343.46.74838.917.0477.67.25160.317.8739.110.05425.118.71373.913.55854.019.41510.213.76280.020.31700.614.26859.620.82026.614.87702.822.82577.415.28472.223.73496.215.79421.625.04283.016.310493.026.1步骤一:先画出散点图,进行观察:程序如下: clf x=343.4 477.6 739.1 1373.9 1510.2 1700.6 2026.6 2577.4 3496.2 4283.0 4838.9 5160.3 5425.1 5854.0 6280.0 6859.6 7702.8 8472.2 9421.6 0493.0;y=6.7 7.2 10.0 13.5 13.7 14.2 14.8 15.2 15.7 16.3 17.0 17.8 18.7 19.4 20.3 20.8 22.8 23.7 25.0 26.1;plot(x,y,x) xlabel(城镇居民家庭人均可支配收入) ylabel(城市人均住宅面积)在MATALB中的运行结果:可以看到,除了个别点除外,基本上所有的点都分布在一条直线的附近。而且自变量只有一个,因此可以假设其回归模型为:;步骤二:求出回归系数,过程根据最小而乘法的公式计算;计算公式为:其中,;编程: n1,n2=size(x); lxx=0; lxy=0 for k=1:n2 lxx=lxx+(x(k)-mean(x)2 lxy=lxy+(x(k)-mean(x)*(y(k)-mean(y) end b=lxy/lxx a=mean(y)-b*mean(x)在MATLAB中的运行结果:求得=0.0017 =9.4866, 故:=9.4866+0.0017为所求。整个数据拟合如下: clf x=343.4 477.6 739.1 1373.9 1510.2 1700.6 2026.6 2577.4 3496.2 4283.0 4838.9 5160.3 5425.1 5854.0 6280.0 6859.6 7702.8 8472.2 9421.6 0493.0;y=6.7 7.2 10.0 13.5 13.7 14.2 14.8 15.2 15.7 16.3 17.0 17.8 18.7 19.4 20.3 20.8 22.8 23.7 25.0 26.1;plot(x,y,x) xlabel(城镇居民家庭人均可支配收入) ylabel(城市人均住宅面积) n1,n2=size(x); lxx=0; lxy=0 for k=1:n2 lxx=lxx+(x(k)-mean(x)2 lxy=lxy+(x(k)-mean(x)*(y(k)-mean(y) end b=lxy/lxx a=mean(y)-b*mean(x)n1,n2=size(x); lxx=0; lxy=0 for k=1:n2 lxx=lxx+(x(k)-mean(x)2 lxy=lxy+(x(k)-mean(x)*(y(k)-mean(y) end b=lxy/lxx a=mean(y)-b*mean(x) xx=linspace(0,12000,500) yy=a+b*xx; hold on plot(xx,yy,b-) text(6000,15,FitFunction: y=a+b*x)在MATLAB中运行得到拟合图:步骤三:相关性检验;,同理编程计算出相关系数为:=0.964740192922406 由于的绝对值很接近1,所以相关性很强。换句话说,就是拟合程度很好;或者|=0.964740192922406=0.561,所以相关关系;相关指数: R2=0.930723639839961 ,因此回归效果很好。步骤四:置信区间的确定;可以根据表达式计算出剩余方差,然后给定条件,进而就可以求解给定概率内的置信区间了。至此,此次拟合基本完成。当然,确定数据是可以拟合之后,就可以进步一计算拟合方程的截距,斜率等项目,再根据式子的意义,就可以对现实事物进行预测和分析了。附录:1 回归分析起源 112 最小二乘法11-133 置信区间 134 无偏估计量 135 置信区间的确定 14附录1回归分析的起源回归分析最早是19世纪末期高尔顿(SirFrancisGalton)所发展。高尔顿是生物统计学派的奠基人,他的表哥达尔文的巨著物种起源问世以后,触动他用统计方法研究智力进化问题,统计学上的“相关”和“回归”的概念也是高尔顿第一次使用的。1855年,他发表了一篇“遗传的身高向平均数方向的回归”文章,分析儿童身高与父母身高之间的关系,发现父母的身高可以预测子女的身高,当父母越高或越矮时,子女的身高会比一般儿童高或矮,他将儿子与父母身高的这种现象拟合出一种线形关系。但是有趣的是:通过观察他注意到,尽管这是一种拟合较好的线形关系,但仍然存在例外现象:矮个的人的儿子比其父要高,身材较高的父母所生子女的身高将回降到人的平均身高。换句话说,当父母身高走向极端(或者非常高,或者非常矮)的人的子女,子女的身高不会象父母身高那样极端化,其身高要比父母们的身高更接近平均身高。高尔顿选用“回归”一词,把这一现象叫做“向平均数方向的回归”(regressiontowardmediocrity)。虽然这是一种特殊情况,与线形关系拟合的一般规则无关,但“线形回归”的术语仍被沿用下来。作为根据一种变量(父母身高)预测另一种变量(子女身高)的一般名称沿用至今,后被引用到对多种变量关系的描述。(整理自欧美统计学史) 而关于父辈身高与子代身高的具体关系是如何的,高尔顿和他的学生KPearson通过观察了1078对夫妇,以每对夫妇的平均身高作为自变量,取他们的一个成年儿子的身高作为因变量,结果发现两者近乎一条直线,其回归直线方程为:y=33.73+0.516x,这种趋势及回归方程表明父母身高每增加一个单位时,其成年儿子的身高也平均增加0.516个单位。附录2最小二乘法计算公式推导设直线方程的表达式为:要根据测量数据求出最佳的a和b。对满足线性关系的一组等精度测量数据(xi,yi),假定自变量xi的误差可以忽略,则在同一xi下,测量点yi和直线上的点a+bxi的偏差di如下: 显然最好测量点都在直线上(即d1=d2=dn=0),求出的a和b是最理想的,但测量点不可能都在直线上,这样只有考虑d1、d2、dn为最小,也就是考虑d1+d2+dn为最小,但因d1、d2、dn有正有负,加起来可能相互抵消,因此不可取;而|d1|+ |d2|+ |dn|又不好解方程,因而不可行。现在采取一种等效方法:当d12+d22+dn2对a和b为最小时,d1、d2、dn也为最小。取(d12+d22+d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 青春期生理心理健康
- 感染性休克并发症及防治策略
- 大学生心理健康建设课件
- 大班健康课:健康过春天
- 健康讲堂微量元素专题
- 小班健康领域说课稿设计
- 氧气雾化吸入健康教育
- 胎盘脐带异常超声诊断
- 预防脊柱弯曲健康教育
- 酒店房间设计
- 2025春季学期国开电大专科《行政组织学》一平台在线形考(形考任务1至5)试题及答案
- JGT266-2011 泡沫混凝土标准规范
- JJF 1105-2018触针式表面粗糙度测量仪校准规范
- GB/T 9444-2019铸钢铸铁件磁粉检测
- GB/T 7723-2002固定式电子秤
- GB/T 19844-2005钢板弹簧
- GB/T 14486-2008塑料模塑件尺寸公差
- 特种设备管理台帐(5个台账)
- 地裂缝、地面塌陷地质灾害危险性评估课件
- 电力拖动自动控制系统-运动控制系统(第5版)习题答案
- 鱼丸生产加工项目可行性研究报告
评论
0/150
提交评论