信息与计算科学专业论文08544.doc_第1页
信息与计算科学专业论文08544.doc_第2页
信息与计算科学专业论文08544.doc_第3页
信息与计算科学专业论文08544.doc_第4页
信息与计算科学专业论文08544.doc_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

论 文 题 目: 回归分析和残差分析 回归分析和残差分析摘要回归分析师应用极其广泛的数理统计方法之一,它基于观测数据建立变量间适当的相关关系,以分析数据的内在规律,并可用于预报、控制等问题在数理统计基础部分,我们已经学习了一元线性回归分析的基本内容,即当影响因变量y的因素只有一个(记为y)时,如何建立y于x的适当的线性回归关系,在实际问题中,影响y的因素往往很多,本文讨论多元线性回归模型的系统建模方法,主要包括模型的参数估计、假设检验、残差分析等,而在诸如对回归函数的线性假设、误差的正态性和同方差性假设等都有可能不适合所给数据,因此拟合一个模型之后进一步考察模型对所给数据的适用性是必须的,而且也是十分重要的一个环节,为使拟合的模型较好的反映数据的特点,通过残差分析对模型作必要的修正或者对数据作某些处理就起着十分重要的作用关键词 回归分析 sas编程 残差分析 线性诊断目录1分析目的2分析原理2.1 多元回归分析原理与方法简述 2.1.1 回归方程的建立2.1.2回归方程的显著性检验(-检验)2.1.3回归系数的显著性检验(-检验)2.1.4利用回归方程进行预测2.2 回归诊断的简述2.2.1线性回归模型的假定:2.2.2残差及其性质2.2.3回归函数线性的诊断;2.2.4误差方差齐性的诊断,2.2.4.1 hartley检验(水平重复次数相等)2.2.4.2 cochran检验(水平重复次数相等)2.2.4.3 barlett检验2.2.5 误差的独立性诊断2.2.6异常点与强影响点2.2.6.1 异常点2.2.6.2强影响点2.3 实例分析2.3.1建立多元线性回归模型2.3.1.1 回归分析2.3.1.2残差分析2.4 参考文献 1分析目的(1)熟悉运用sas编程进行数据整理和加工;(2)掌握用sas编程进行多元回归分析;(3)用残差图进行回归函数线性诊断,误差方差齐性的诊断,误差的独立性诊断,异常点和强影响点的判断;(4)会用回归方程进行预测。2分析原理 21 多元回归分析原理与方法简述 211 回归方程的建立多元线性回归是研究因变量与个自变量之间的线性相关关系的.设是一个可观测的随机变量,它受非随机变量和随机因素的影响.若与有如下关系: 其中是未知参数,并假定.对y、x作n次观测,得到n组数据 设分别是的估计值,称 为多元线性回归方程,称为回归系数.确定可根据最小二乘法,使残差平方和达到最小,即 由多元函数求极值的方法,得正规方程 可由正规方程求得 其中,.2.1.2回归方程的显著性检验(-检验)检验假设 检验统计量为 若拒绝,则回归模型显著.2.1.3回归系数的显著性检验(-检验)检验的目的是把次要的变量从回归方程中剔除,重新建立更为简洁的回归方程.检验假设 检验统计量为 其中,为正规方程系数矩阵的逆 的对角线上一个元素. 注意:在剔除变量时,每次只剔除一个,如果有几个变量经检验都不显著,则先剔除其中值最小的一个变量,然后对所求的新回归方程的回归系数进行检验,有不显著的再剔除,直到保留的变量都显著为止.2.1.4利用回归方程进行预测对于给定的,求预测区间.计算回归值:写出的可靠性为的预测区间2.2 回归诊断的简述2.2.1线性回归模型的假定假设1 自变量是确定性变量,不是随机变量,且,即是满秩矩阵。假设2 满足高斯-马尔科夫条件,即 假设3 正态分布的条件 2.2.2残差及其性质 称为帽子矩阵,因为将因变量的观测值向量变换成响应变量的拟合值向量,残差向量被定义为 残差的性质:(1);(2);(3)若时,标准化残差:,其中是的第个元素,标准化残差近似服从标准正态分布,且近似的相互独立。残差图:以残差或为纵轴标,以拟合值或自变量,或观测时间或序号等为横坐标的散点图。利用残差图可对于模型假设的合理性进行检验。2.2.2回归函数线性的诊断;2.2.3误差方差齐性的诊断,2.2.3.1 hartley检验(水平重复次数相等) 其拒绝域为 ,其中是总体个数,各水平重复的次数,而且当为零或很小,或时,不能用此检验。2.2.3.2 cochran检验(水平重复次数相等) 其拒绝域为 2.2.3.3 barlett检验 其中,是第个样本的容量,当中有一个为零或很小时,此检验不能用。2.2.4 误差的独立性诊断 d-w检验 其中为一阶自相关系数,根据dw的值可按下面规则判断:当时,认为间存在正相关;当时,认为间存在不相关;当认为间存在负相关;当或时,对于是否相关暂不能下结论.2.2.5异常点与强影响点2.2.5.1 异常点异常点通常是指数据中的极端点或来自与其 模型不同的数据点。常用的诊断统计量有:标准化残差的绝对值2的观测值认为是可疑点,而标准化残差的绝对值3的观测值认为是异常点;外学生化残差检验统计量,其拒绝域为2.2.5.2强影响点强影响点是指保留该点与删除该点两种情况下建立的回归方程中的回归系数会产生很大差异的点。常用的诊断统计量有:描述性统计量 设投影阵的对角元为,的值越大,则第点对回归系数的估计的影响越大;采用cook距离 ,其中是第点标准化残差,该值越大,则第点对回归系数的估计的影响越大。w-k统计量 ,其中是第点的外学生化残差,该值越大,则第点对回归系数的估计的影响越大。若某点为异常点,它可能是强影响点,也可能不是强影响点。同样,强影响点可能是异常点也可能不是。当存在异常点或强影响点时,要避免它对于估计和拟合的影响的一种方法是删除该点后建立回归方程。2.3 实例分析在平炉炼钢中,钢在冶炼初期总去碳量y与两种矿石x1,x2的量和熔化时x3有关,所测得的49组数据如下.x1x2x3yx1x2x3y2 18 50 4.3302 9 6 39 2.7066 7 9 40 3.6485 12 5 51 5.6314 5 14 46 4.4830 6 13 41 5.8152 12 3 43 5.5468 12 7 47 5.1302 1 20 64 5.4970 0 24 61 5.3910 3 12 40 3.1125 5 12 37 4.4533 3 17 64 5.1182 4 15 49 4.6569 6 5 39 3.8759 0 20 45 4.5212 7 8 37 4.6700 6 16 42 4.8650 0 23 55 4.9536 4 17 48 5.3566 3 16 60 5.0060 10 4 48 4.6098 0 18 49 5.2701 4 14 36 2.3815 8 4 50 5.3772 5 13 36 3.8746 6 14 51 5.4849 9 8 51 4.5919 0 21 51 4.5960 6 13 54 5.1588 3 14 51 5.6645 5 8 100 5.4373 7 12 56 6.0795 5 11 44 3.9960 16 0 48 3.2194 8 6 63 4.3970 6 16 45 5.8076 2 13 55 4.0622 0 15 52 4.7306 7 8 50 2.2905 9 0 40 4.6805 4 10 45 4.7115 4 6 32 3.1272 10 5 40 4.5310 0 17 47 2.6104 3 17 64 5.3637 9 0 44 3.7174 4 15 72 6.0771 2 16 39 3.8946 请给出(1)它们之间的线性回归方程及显著性检验;(2)用残差图判断三元回归模型是否合适;并判断方差是否齐性;(3)试用dw统计量检验数据间有无一阶自相关;(4)诊断是否存在异常点和强影响点.2.3.1建立多元线性回归模型2.3.1.1 回归分析proc import out=ffiron datafile=d:sasdatanew4.xls dbms=excel2000 replace; proc reg data= ffiron outest=outest; model y=x1-x3/cli clm; run;程序说明: 第一个proc步:调用import 过程导入excel数据,生成sas数据集ffiron.;out=,等号后为导入后的数据集名;datafile=,excel数据所在物理位置;dbms=,说明导入的数据文件类型. 第二个proc步:调用reg过程进行回归分析;outest=,输出数据集,存入模型估计值;model语句定义线性回归模型,y是因变量,三个自变量分别是x1,x2,x3.注意,在model语句斜杠(/)后的选项cli表示对因变量的各预测值输出95置信上、下限,clm表示对每个观测输出因变量期望值的95置信上、下限.运行结果:结果the sas 系统 1 the reg procedure model: model1 dependent variable: y analysis of variance(方差分析表) sum of mean source df squares square f value pr f (变异来源) (自由度) (平方和) (均方) (f值) (p值) model (模型) 3 15.23391 5.07797 7.70 0.0003 error (误差) 45 29.67210 0.65938 corrected total(总和) 48 44.90601 root mse(误差均方根) 0.81202 r-square (r2) 0.3392 dependent mean (因变量均值) 4.58188 adj r-sq(校正r2) 0.2952 coeff var(变异系数) 17.72248 parameter estimates(参数估计值) parameter standard variable df estimate error t value pr |t| (变量) (自由度) (参数估计值) (标准误差s)(t值,h0:j=0)(p值) intercept 1 0.69518 0.86527 0.80 0.4260 x1 1 0.16061 0.06030 2.66 0.0107 x2 1 0.10758 0.03741 2.88 0.0061 x3 1 0.03595 0.01057 3.40 0.0014结果 sas 系统 2 the reg procedure model: model1 dependent variable: y output statistics dependent predicted std error obs variable value mean predict 95% cl mean 95% cl predict residual (观测值)(预测值)(预测均值的标准差)(预测均值的上下限)(预测值的上下限) (残差) 1 4.3302 4.7502 0.1684 4.4111 5.0894 3.0799 6.4205 -0.4200 2 3.6485 4.2256 0.1541 3.9151 4.5360 2.5609 5.8902 -0.5771 3 4.4830 4.6579 0.1416 4.3727 4.9431 2.9977 6.3181 -0.1749 4 5.5468 4.4909 0.2438 3.9999 4.9820 2.7833 6.1986 1.0559 5 5.4970 5.3080 0.2295 4.8457 5.7703 3.6085 7.0076 0.1890 45 2.2905 4.4774 0.1409 4.1937 4.7612 2.8175 6.1374 -2.1869 46 4.7115 4.0310 0.1839 3.6606 4.4015 2.3541 5.7080 0.6805 47 4.5310 4.2770 0.2003 3.8736 4.6805 2.5925 5.9616 0.2540 48 5.3637 5.3065 0.2041 4.8954 5.7176 3.6201 6.9929 0.0572 49 6.0771 5.5395 0.2622 5.0114 6.0676 3.8209 7.2582 0.5376sum of residuals (残差和) 0 sum of squared residuals (残差平方和) 29.67210 predicted residual ss (press) (预测残差平方和) 36.02817结果分析: 输出模型信息.方差分析给出多元回归拟合这组数据的效果信息。方差分析表变异来源自由度平方和均方fp值模型315.233915.077977.700.0003误差4529.672100.65938总和4844.90601检验统计量f值=7.70概率p值=0.003 f model 3 15.23391 5.07797 7.70 0.0003 error 45 29.67210 0.65938 corrected total 48 44.90601 root mse 0.81202 r-square 0.3392 dependent mean 4.58188 adj r-sq 0.2952 coeff var 17.72248 parameter estimates(参数估计) parameter standard variable df estimate error t value pr |t| type i ss type ii ss intercept 1 0.69518 0.86527 0.80 0.4260 1028.68558 0.42562 x1 1 0.16061 0.06030 2.66 0.0107 0.06248 4.67730 x2 1 0.10758 0.03741 2.88 0.0061 7.54354 5.45415 x3 1 0.03595 0.01057 3.40 0.0014 7.62788 7.62788 (误差项的独立性检验) durbin-watson d 1.910 number of observations 49 1st order autocorrelation 0.037结果 output statistics(输出统计量) dependent predicted std error std error student cooks obs variable value mean predict residual residual residual -2-1 0 1 2 d 1 4.3302 4.7502 0.1684 -0.4200 0.794 -0.529 | *| | 0.003 2 3.6485 4.2256 0.1541 -0.5771 0.797 -0.724 | *| | 0.005 3 4.4830 4.6579 0.1416 -0.1749 0.800 -0.219 | | | 0.000 4 5.5468

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论