版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1多元线性回归的问题和现象土壤流失量:降雨,土壤,地形,植被覆盖,水土保持措施作物产量:气候条件,种子品质,耕作措施,灌溉管理等城市小汽车销量:城市规模;经济水平;交通质量等……
很多对象常受多个自变量影响作用,分别以自己颇为不同的方式影响着因变量。建立只含有一个自变量的回归模型对因变量进行预测,常粗糙得简直毫无用处。一个包含其他自变量的更复杂的模型则有助于提供足够精确的应变量的预测值。
2多元线性回归模型回顾一元线性回归模型:多元线性回归模型:β
0为方程在Y轴上的截距;βj为自变量的回归系数,表示在其他自变量不变的情况下,该自变量每变动一个单位所引起的因变量的变化率。方程组表示采用矩阵来表示:3多元线性回归模型求解最小二乘法对各个系数分别求偏导数,并使之为0:对各个系数求偏导数整理后得:
由于上述公式过于繁杂,应用及推导都很不方便。该方程组称正规方程组。如果用矩阵表示:预测区间SSE:残差平方和4多元线性回归模型的检验和评价因变量y的观测值y1,y2,…yn之间的波动或差异,是由两方面因素引起的:一是由于自变量x1,x2,…,xk的取值不同;另一个是受其它随机因素的影响而引起的。为了从y的总变差中把它们区分开来,就需要对回归模型进行方差分析,即将y的总的离差平方和Syy分解成两个部分:回归平方和U和剩余平方和Q。回归问题的方差分析预报量总离差平方和:回归平方和:残差平方和:则有:Syy=U+Q多元线性回归方程的显著性检验
检验回归方程是否可靠,决定系数达到多大时方程具有显著性。构造F统计量:P为自变量个数,n为样品个数。在显著性水平α下,如果F>Fα
,则拒绝原假设,认为回归方程是显著的。F分布:分子自由度p,分母自由度(n-p-1)
检验多元回归系数是否显著,如果不显著,一般应该将它从回归方程中去掉,再重新进行回归拟合。构造统计量:式中Ckk为矩阵C=(XˊX)-1中对角线上第k个元素。在显著性水平α下,如果F>Fα
,则拒绝原假设,即认为该回归系数是显著的。复相关系数:性质:0<=R2<=10<=R<=1决定系数:复相关系数实际上是y与多个自变量的相关系数,或y与所有xj构成的整体的相关系数。复相关系数与普通相关系数的不同点是它不取负值。决定系数意义:反映预报因子(自变量)对预报量的线性回归解释的部分。偏相关系数是保持其他变量不变的条件下计算的两个变量间的相关系数。它的计算公式为:
其中C=(X
X)-1,Cij为矩阵C的元素。对偏相关系数的检验也可通过查表进行。
残差方差估计:预报量方差估计:调整决定系数:意义:调整复相关系数是对总体复相关系数的估计。调整复相关系数:残差分析(examinationofresiduals)误差项的均值为零,误差项独立,服从正态分布残差图(residualdiagram):以残差为纵坐标,其他指定的变量为横坐标,满足模型假设的残差图应当是呈水平带状;检验相邻误差项是否有序列相关—Durbin-Watson;DW介于1.2~2.8之间时可认为是独立的。查找异常点(casewise)—Outlier,通常以超出3个残差标准差的样品为异常点。检验误差正态的假设一是看标准化残差直方图与正态曲线比较是否接近;二是看Q-Q图,与对角直线相比,若接近为正态。Q-Q图用来检验样本分布是否来自于指定的理论分布的一种统计图形。Q-Q图将zj从小到大排列z(i)算出每个z(i)的发生频率(i-1/2)/n
根据频率查标准正态表得到q(i)作q(i)和zj的散点图,此散点图趋于直线为好.多元相关分析简单相关系数
两个随机变量之间的积矩相关系数复相关系数
度量某个随机变量Y与一组随机变量(X1,X2,…,Xp)之间的线性联系的程度;因变量Y的观察值和预测值之间的简单相关系数;决定系数的平方根。偏相关系数
变量之间相互相关;扣除其它变量影响情况下两变量之间的相关。
例-学生成绩分析
后一个公式比较直观易理解:X2和X3对X1的决定系数扣除X3对X1的决定系数后,就是X2对X1的“纯”决定系数;1-R1(3)2为X3对X1所未能解释的百分比;设有3个变量X1、X2和X3,扣除X3的影响后X1和X2的偏相关系数为:或例-学生成绩分析(续)
问题:计算扣除智商影响后语文成绩和数学成绩之间的偏相关系数。解答解法1:r数学语文=0.932,r数学智商=0.918,r语文智商=0.958,r数学语文,智商=(0.932-0.918*0.958)/sqrt((1-0.918^2)(1-0.958^2))=0.461解法2:r数学(语文,智商)=0.936,r数学智商=0.918,r数学语文,智商=sqrt((0.936^2-0.918^2)/(1-0.918^2))=0.461偏相关系数一般计算公式
设有x1,x2,…xp共p个变量,求扣除x3~xp多个自变量影响下的x1和x2的偏相关系数为:偏相关系数显著性的检验
设剔除q个自变量影响的偏相关系数为r-q,对样本中计算的偏回归系数的t检验为:例(续):t=0.461*sqrt(18-1-2)/(1-0.461^2)=2.2696多元回归自变量的选择
对一个实际问题如预报土壤流失量,影响的因素包含降雨,土壤,地形,植被覆盖,水土保持措施等方面,可选择的用来预报土壤流失量的变量就更多。但并不是变量选择越多就越好,因为:首先增加了数据的需求量;有些变量因素对土壤流失量的作用也不显著;许多变量相互关联,一些变量的作用可被其它变量代替。
自变量与因变量的相关系数越大,对残差平方和的下降贡献越大,该自变量越重要(注意自变量之间相关性)。选择变量的依据是对回归系数做显著性检验,只有能够显著地预测因变量的自变量才会被选择进来。好的回归方程不但方程显著,而且每个自变量的回归系数也显著。多引入一个变量,残差平方和就下降一些,从而提高拟合精度。但数据需求也增加,同时可能增加方程的不稳定性。
如果存在4个自变量,可能的方程数目为:
N=24-1=C41+C42+C43+C44=15
如果存在个p自变量,可能的方程数目为:(2p-1)
建立包含全部自变量的回归方程对方程中每个变量检查Vk的大小,从中找出最小者进行该变量系数的显著性检验。如果显著,结束,否则剔除该变量。重复第2步。
第k个自变量对方程作用的重要性以指标Vk表示,Ckk为矩阵C=(XˊX)-1中对角线上第k个元素:6.1逐步剔除方法(Backwardchoice)逐步剔除方案例:有8个自变量的回归分析经过检验剔除后,只剩x3和x8两个变量进入回归方程。从全部待选自变量中,考察每个变量对方程的贡献指标Vk(最大正相关或最大负相关的变量),挑选最大者对应的变量,经检验,若显著就进入方程,否则结束。从剩余因子(没有进入方程的变量)中考察每个因子,假设单独引进该因子对方程的贡献Vk,从中找出最大者进行该变量系数的显著性检验。经检验显著就进入方程,否则结束。重复第2步。6.2逐步引进方案(Forwardchoice)逐步引进方案例-有8个自变量的回归分析最后选入X2,X8,X6共3个变量6.3双重检验的逐步回归方案(Stepwise)首先采用向前选择(逐步引进)的方式选择第一个变量(贡献Vi最大),若通不过显著性检验则终止选择。对未引入过方程的自变量分别考察它们对方程的贡献Vi。从中找出最大者进行显著性检验,如果不显著,计算结束;如果显著,该自变量正式引入方程。对方程中除刚引入变量外的其它变量,分别计算它们对方程的贡献Vj。从中找出最小者进行显著性检验,如果显著,没有要剔除的变量,回到第2步,否责剔除该变量,再回到第2步。双重检验的逐步回归-有7个自变量的回归分析最后有x4,x7,x6等3个自变量进入回归方程6.4Cp标准
概念:假设共有k个自变量,全部变量选入回归模型时模型的误差平方和为SSEk,误差的估计方差为(SSEk/(n-k-1)),如果只选入p个自变量(p<k)进入回归模型,可得到Cp计算公式,一般来说Cp越小越好。Cp标准步骤算出所有自变量选取不同个数不同组合进入回归模型时的SSEp,算出所有自变量都选入回归模型时误差的估计方差计算出每组组合时的Cp值以Cp值为标准选择合适的回归模型。缺点是工作量大。Cp标准例-四个自变量对因变量的回归自变量的选择多元回归的关键7多元回归实例计算EXCELSPSS“X值输入区域”要求输入的多个自变量相邻。EXCEL中多元回归SPSS多元回归设置参与回归分析的变量。“Independent(s)”列表框:用于选入回归分析的自变量。将粮食产量、农作物总的播种面积、有效灌溉面积以及化肥施用量全部选入“Independent(s)”列表框。“Dependent”框:选入粮食产量,作为回归分析的因变量。“Method”下拉框:用于选择对自变量的选入方法,选择Stepwise(逐步回归法)。其它可采用默认选项。按钮“Statistics..”,回归分析结果的有关统计输出。按钮“Plot..”,回归分析结果的有关图形输出设置。按钮“Save...”,回归分析结果的有关表格文件输出设置。按钮“Options...”,回归分析结果的有关设置。确认所有设置无误后,单击按钮“OK”,进行计算,等待输出结果。Statistics对话框
Statistics对话框设置“RegressionCoefficients”框:定义回归系数的输出情况。选择复选钮“Estimates”,输出回归系数及其检验结果;选择复选钮“CovarianceMatrix”,输出各个自变量的相关系数阵和方差、协方差阵。对话框右侧也是一组5个复选钮。选择复选钮“Modelfit”,显示模型拟合过程中进入、退出的变量的列表以及模型拟合情况;选择复选钮“Descriptives”,输出例如均值、标准差等的一些变量描述;选择复选钮“PartandPartialcorrelations”,输出自变量之间的相关、部分相关和偏相关系数。其它可采用默认设置。Plots对话框用作绘制散点图X、Y轴变量的残差值DEPENDEN:因变量
ZPRED:标准化预测值
ZRESID:标准化残差
DRESID:删除残差
ADJPRED:调整残差
SRESID:学生化残差
SDRESID:学生化删除残差
“StandardizedResidualPlots”框:选择绘制标准化残差图类型,可以选择直方图(Histogram)或正态概率图(Normalprobabilityplot);
“Producesallpartialplots”复选钮:选择是否绘制每一个自变量与应变量残差的散点图。
Save对话框Save对话框设置“Predictedvalue”框:有关预测值的输出选项。Residuals:有关残差的输出。Distances:有关距离的输出选项。Influencestatistics:有关用来判断数据点影响强弱的统计量选项。Predictionintervals:选择是否给出均数和每个样品值的置信区间,默认95%。Savetonewfile:选择是否将新变量存储到新的文件。单击按钮“File”会弹出一个保存文件对话框,要求用户给出文件名。Exportmod
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年信息技术中级测试卷参考答案详解
- 2026年辽宁省二级建造师继续教育复习考试黑钻押题完整参考答案详解
- 2026届广东省深圳市耀华实验学校高三理零模试卷及答案版含解析
- 2026年新版知识产权转让合同协议转让方受让方
- 2026年租赁合同协议范本水电费用
- 2026年医疗服务委托协议范本医院诊疗责任划分
- 2026年保密协议合同范本违约责任条款
- 分公司合作经营合同协议书范本-简单版
- 新能源车电池管理系统研发方案
- 2026云南大学附属医院面向社会招聘非事业编制工作人员2人(三批次)考试备考题库及答案解析
- 安徽省皖江名校联盟2026届高三5月联考语文试卷(含答案及解析)
- (正式版)T∕CPCPA 0017-2026 托育机构婴幼儿回应性照护服务规范
- 北京2025年国家艺术基金管理中心招聘应届毕业生笔试历年参考题库附带答案详解
- 小学三年级下册数学每日计算练习
- 求欧普照明员工手册
- 小学语文文言文教学策略研究
- 中医肺病科普养生知识讲座
- ECMO基础讲课课件精
- JB-T 4088.1-2022 日用管状电热元件 第1部分:通用要求
- 钢管材质证明书
- 2022年张掖市甘州区招聘中小学幼儿园教师笔试试题及答案
评论
0/150
提交评论