数学建模 相关分析与回归分析 清华大学_第1页
数学建模 相关分析与回归分析 清华大学_第2页
数学建模 相关分析与回归分析 清华大学_第3页
数学建模 相关分析与回归分析 清华大学_第4页
数学建模 相关分析与回归分析 清华大学_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第六章相关与回归分析,(一)相关关系的概念前面介绍的描述统计量都是对单个变量的特征进行描述,当数据集含有多个变量时,除分别描述每个变量外,描述这些变量之间的关系也是十分重要的,尤其是确定标量之间的线性关系是更为常见。,现象之间的相互依存关系,1)函数关系用函数表达式表示一一对应关系。2)相关关系变量之间确实存在着数量上的关系,但关系值是不确定的。,(二)相关关系的种类1)根据依存关系:,(1)因果关系:,单向因果关系互为因果关系,(2)分不清因果的依存关系,2)自变量的多少来分,(1)单相关:只有一个自变量(2)复相关:有两个及以上的自变量,3)形式不同,(1)线性相关(直线相关)(2)非线性

2、相关(曲线相关),4)根据相关关系的方向来分,(1)正相关:指两个变量之间的变化方向一致,都是增长趋势或下降趋势。(2)负相关:两个变量的变化趋势相反。,*,r=+1,*,r=-1,*,r0,*,r0,r=1表示X,Y之间存在线性关系:Y=aX+b,r0表示大体上Y随着X增加而递增。,r0表示大体上Y随着X增加而递减。,*,r0,r=0表示Y与X之间没有线性关系(不排斥Y与X之间存在非线性关系),(三)相关分析的步骤,相关分析(广义),一方面:研究变量之间关系的密切程度。相关分析(狭义)另一方面:研究自变量和因变量之间的变动关系,用数学方程式来表达。(称为回归分析),步骤:1)判断现象之间有无

3、相关关系存在及呈现的形态。(相关表和相关图)2)确定相关关系的密切程度。(计算相关系数)3)对具有相关关系的变量建立数学模型并求解方程参数。4)进行相关性检验。,用过程PLOT将这三组变量的数据分别画在直角坐标系里,以便对数据的分布和相关系数的大小有一个直观的了解。,PLOTOFMAXPULSE*RUNPULSE,PLOTOFOXYGEN*RUNTIME,PLOTOFRSTPULSE*WEIGHT,(四)相关系数,若为变量X,Y的n个观测值,则相关系数计算公式为:,相关系数进行相关程度的判断标准:r在0.3以下,不存在直线相关;r在0.3-0.5之间是低度直线相关;r在0.5-0.8之间是显著

4、相关;r在0.8以上是高度相关;,计算出的相关系数是否真的能判断出两个变量之间存在相关关系,可进行线性相关性和显著性检验。方法如下:1)计算自由度f=n-k-1(其中n-样本容量;k-自变量个数)2)选取显著性水平,通常取=0.05或0.013)查表。根据和f,查相关系数临界值表4)判断。当时,则x与y之间显著线性相关。,银行雇员数据,分析的目的是要观察起始工资(salbegin)和现工资(salary)与雇员本人各方面条件的关系。变量有:salary(当前工资)、age(年龄)、jobtime(工作时间)、prevexp(以前工作经验)。,职务等级,输出结果:,1、现在工资平均值比起始工资高

5、。2、现工资差别大。,安徽省国民收入与城乡居民存款余额数据。问:余额与收入之间线性关系?,例:某地区19851996年人均月收入和商品销售额资料如下,计算相关系数并检验。,年份人均月收入商品销售额x2y2xy1985480220230400484001056001986560280313600784001568001987600300360000900001800001988610320372100102400195200198962033038440010890020460019906503354225001122252177501991670340448900115600227800199

6、27003524900001239042464001993750380562500144400285000199478040060840016000031200019958204056724001640253321001996850425722500180625361250合计80904087558770014288792824500,根据公式:,=0.985,取=0.05,f=n-1-1=12-2=10,得r0.05(10)=0.5760由于rr0.05(10)=0.5760,所以x与y之间存在线性关系且关系显著。,模块BASE中的过程CORR可方便地用于计算变量之间的相互关系:计算数据集F

7、ITNESS中OXYGEN,MAXPULSE,RSTPULSE三个变量和另三个变量RUNTIME,RUNPULSE,WEIGHT之间的相关系数。,以下可看出变量MAXPULSE和RUNPULSE有最大的正相关,OXYGEN和RUNTIME负相关的绝对值最大,RSTPLUSE和WEIGHT的相关的绝对值最小。,线性回归,研究变量间的联系的目的是要确定变量之间的联系关系式,并用一些变量的值去预测、控制另一些变量的取值。在数理统计中属于回归分析的内容。在回归分析中建立变量间关系时往往区分两种不同的变量。,独立变量相依变量,例:只考虑一个独立和一个相依变量(总体的、一般的)。,其中:表示随机误差,建立

8、一个以初始工资、工作经验、受教育年限等为自变量,当前工资为因变量的回归模型。,GraphsScatterSimpleSalbeginYsalary-X,AnalyzeRegressionLinearSalaryDependentSalbegin,Prevexp,jobtime,jobcat,educ-Independent,总体的线性回归模型是通过已知的x、y的一组样本观测值(x1,y1),(x2,y2),(xn,yn)即样本回归模型来估计的,由此可得样本回归模型:,直线在y轴上的截距,直线的斜率,条件限制:1。正态性2。独立性,若使回归直线的代表性强,则需使每一点eI越小越好,考虑误差平方和

9、,=最小值,对a,b求一价偏导数,并令其等于零:,得正规方程组:,得系数:,例:以前例人均收入与商品销售额关系(可通过散点图),且r=0.985故配合直线回归模型。其求解a,b的标准方程组:,将有关数据代入方程中,得,4087=12a+8090b2824500=8090 x+5587700b,则所求回归方程为:,当人均月收入增加1元时,该地区商品销售额平均增加5175元。将x=480,560,850依次代入所求回归方程中,得到商品销售额的理论值(追溯预测值),分别为240,281.5,431.575.,例:为了研究人体吸收和消耗氧的功能而对一部分人进行耗氧测试,数据收集了31位测试者的记录。作

10、OXYGEN与RUNTIME的回归分析,输出结果:,所求解线性回归为:,Y(OXYGEN)=-3.310555x(RUNTIME)+82.421773,(二)一元线性回归模型的显著性检验,由于在建模时使用假设条件,为了保证其合理性和有效性,需对模型进行检验。,回归模型的显著检验包括,1)相关系数显著性检验2)回归系数的显著性检验3)回归方程显著性检验4)回归模型符合有关假设条件的检验,1.检验回归系数的显著性,(1)t检验检验x与y之间是否真正存在线性关系(具体表现为回归系数是否为0?),一般步骤:1)假设样本来自没有线性关系的总体,即H0:B=0H1:B=0计算回归系数b的t值:,式中:,回

11、归系数b的标准差,回归估计标准误差,2)根据给定的水平和自由度n-2,查t分布表相应临界值。3)若,则拒绝H0,得出B=0的结论;,若,则不能拒绝H0。,例:对前例进行t检验:假设商品销售价额与人均月收入无线性关系。H0:b=0H1:b=0,计算回归系数b的t值:,取=0.05,自由度n-2=12-2=10,查t分布表,得:,2、F检验,目的:检验所得到的线性回归方程在整体上是否显著成立,进一步检验x,y之间是否存在线性关系。,步骤:1)假设回归方程不显著H0:方程不显著H1:方程显著2)计算回归方程的F统计量,F=,回归平方和/自由度(f1)剩余平方和/自由度(f2),3)给定显著性水平和两

12、个自由度,查F分布表,得到相应临界值F,4)若FF,拒绝H0,回归方程显著;若FF,不能拒绝H0,x与y之间的关系不明显或无关系,回归方程不显著,例:检验前例回归方程显著性,假设:1)H0:方程不显著H1:方程显著2)则有:,3)取=0.05,查F分布表,得临界值F0.05=4.964)由于F=318.907F0.05(1,10)=4.96,所以拒绝H0,接受H1,说明线性回归方程显著成立。,3、D.W检验(用于序列相关性检验),在建立回归模型时有假设条件:随机变量是独立的即COV(ei,ej)=0(i=j)。如果回归模型中不满足假设条件,就称为具有序列相关(或自相关),设ei的一价自回归形式

13、为,假设:1)H0:=0(et不存在一价自相关)H1:=0(et存在一价自相关)2)构造D.W统计量d并计算D.W统计量为:,3)给定显著性水平,根据自变量个数k和样本数据个数n,查DW表,找出临界值dL和du。,4)将d与dL、du比较判断d落在哪个区间内。当dud4-du时,无序列相关;0ddL时,则有正序列相关;4-dLd4时,则有负序列相关;dLddu或4-dud4-dL时,处于不确定区间无法识别有无序列相关性。,正自相关区,不确定区间,无自相关区,不确定区间,负自相关区,0dLdu24-du4-dL4,D.W检验示意图表示:,由于,(i可忽略),由于,其中,因为,所以0d4,当,时,,e不存在自相关,时,,e存在正自相关,存在完全负自相关,一般当d接近1或3时,认为存在某种程度的自相关。,统计分析,(三)判定系数和估计标准误差,研究回归方程拟合的情况进行拟合优度的检验,检验方法,计算相关系数r判定系数r2估计标准误差Sy,r2,和,Sy,的测定,y,x,变差分解图,无法用回归直线所解释的变差数额,由回归直线所解释的变差数额,图中可看到:,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论