




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章 回归模型2-1 回归分析的意义一、概念:回归分析是处理变量之间相关关系的一种数理统计方法,在生产和科学实验中,某一客观现象的统一体中,其变量往往客观上存在一定的关系,为了了解事物的本质,往往需要找出描述这些变量之间依存关系的数学表达式,这就是需要采用回归分析进行处理。 例如:煤的灰分与密度之间就存在着某种不确定的关系,其关系近似成正比关系,根据实验数据可采用回归分析求出其关系表达式。 变量之间关系可以分成二类:完全确定关系,例如欧姆定律;另一类为不确定关系;如上例,选矿生产过程中就存在着大量的这种不确定关系,变量之间这种不确定关系称为相关关系,这种关系可利用数理统计方法找到。 二、回归
2、分析主要解决以下三方面问题(1)根据试验数据,研究变量之间的相关关系,找出定量的关系式和其中的参数。(2)由于关系或是一种相关关系,所以需要进一步找出它的可信程度,为此,要进行统计检验。(3)如果关系式中有许多自变量,则判断这些自变量的显著性,并剔除影响不显著的自变量。 2-2 可疑数据的处理 在进行回归运行之前应根据误差理论对观测数据进行处理,因为在一组试验数据中,如果混杂异常数据,就会歪曲整个试验结果,影响所建立的模型,所以必须运用正确的方法舍弃其中异常的数据。 常用的判别方法有拉依达准则(3准则)和肖维勒准则。 (1)3准则: 其准则认为:某一观测值的剩余误差绝对值大于3时,该数据就应被
3、舍弃。 a) 为观测数据的标准差,即 其中 式中: 观测值; 为的平均值。 n观测次数; f自由度。 当(2030) 时,f=n-1; 当N30时 ,f=n-1n, 观测值 与 之差称为离差,以g表示, 即: niiyyf12)(1niiyNy11iyyyygiiiyy 3准则判据为: 时,即认为该数据可疑,应剔除。b)当剔除某一观测数据后,对余下的n-1个数据重新计算及 ,然后重复按上述方法检验,直到所有观测数据的离差 均满足要求为止。c)注意条件: 3准则是建立在n的前提下,当n有限或较小时,3准则不十分可靠,这时应采用肖维涅准则。 3yygiiy3yygii(2)肖维涅准则a)肖维涅准则
4、是按下式进行判断的: 当 时,认为该数据可疑。 式中K为与观测次数n有关的参数。 并且,K值随着n的增大而增大。b)当剔除掉某一数据以后,把剩下的观测数据重新计算和检验,直至所有观测值离差的绝对值小于K为止。 kyygiic)注意条件当n10时,使用该准则较勉强;当n185时,肖维涅准则与3准则相当;当n185时,肖维涅准则较3准则宽。 2-3 模型形式的确定 1从建模和求解方便来看,总希望模型的形式简单一点,所含的变量和参数不要太多;但从模型的使用角度看,则要计算结果准确,反映真实,所以从这一点看又得要把模型选配的复杂些。 2常用的模型形式有一元线性模型。一元非线性模型,多元线性模型,多元非
5、线性模型及多项式模型。 3利用回归分析所建立的数学模型主要是线性回归模型,及多项式回归模型,以及一些可以通过初等变换转化为线性的一元非线性回归模型。下面我们先介绍一元线性回归模型。 2-4 一元线性回归模型 一元线性回归分析是最简单的一种回归分析、它所研究的对象是二个变量之间的相关关系。 设有N对实验数据 ,其中x为确定性变量,y为服从正态分布的随机变量,如果它们之间存在线性关系,则可以用一个线性方程表示。 式中: 为回归方程计算值,a,b为待定系数(模型参数) ), 2 , 1(Niyxiibxayy一、参数a,b的最小二乘法估计1统计分析: 对于上述的一组试验数据(xi,yi),i=1,
6、2, , n。由数理统计知识得: 离差= 剩余偏差(残差)= 回归差= 其中: 试验值; 计算值; 平均值。 yyi yyiyyiiyiyy同时可知:离差平方和 剩余平方和 回归平方和 由散点图可知:21)(niiyyGniiiyyQ12)(niiyyU12)()()(yyyyyyiiii0 则总离差平方和 2121)()()(niiiiniiyyyyyyGniniiiiiniiiyyyyyyyy11221)(2)()(niiniiiyyyy1212)()(UQ 2参数最小二乘法确定 为了使回归直线是一切直线中最接近所有试验点的直线,也就是说以这条直线代表x与y的关系与观测值的误差最小时的a、
7、b参数值,就是所求的最佳值。 也就是要使得观测值与回归方程计算值的偏差为最小,为了消除正负值影响,采用其剩余平方和为最小。 niiiniiibxayyyQ1212min)()(根据极值原理:要使上式有最小值,应使上式称为线性回归的正规方程组,得0)(20)(211niiiiniiixbxaybbxayaxbya2)()(xxyyxxbiii222xnxyxnyxxxxxyyxxiiiiiii 上式中: ; 若令: 则上式可写成: ixNx1iyNy1222)(xNxxxLiixxyxNyxyyxxLiiiixy)(222)(yNyyyLiiyyxbyaxxxyiiiLLxNxyxNyxb22
8、二、回归方程显著性检验 在建立回归模型时,我们假定两个变量之间是线性的,再根据最小二乘原理,确定了回归系数和的值,那么这两个变量之间是否真正是线性的,所以必须对原来的假定进行显著性检验,回归方程显著,回归方程显著性检验就是对两个变量线性关系进行定量的评价,常用的方法有相关系数法与F检验法两种。 (1)方差分析 由前面分析知,三种离差平方和关系为: 上式中:S总表示观测点 与平均值 离差平方和,它反映了 的总波动情况。产生这种差异是由于二方面因素引起:一方面是由于x与y之间的线性相关所引起,也就是由于变量的取值不同引起的;另一方面是由于试验误差和除x与y线性关系之外一切因素所引起的。 残回总SS
9、Siyiyy S回表示回归值 与平均值 离差平方之和,它是由于x与y之间线性相关引起那部分离差,它是由自变量x的变化引起的。 S残表示观测值 与回归值 的离差平方和,它是在所有类似的直线中与观测点离差平方和中最小的一个,也就是说它是除了x对y线性影响之外的一切因素对y变差的作用。iyyiyiy S总,S回,S残的计算方法:yyniiLyyS12)(总niiniixbabxayyS1212)()(回xxxyxxniiLLLbxxb22122)(xxxyyyLLLSSS2回总残(2)相关系数检验法 a显然,在总离差平方和一定的条件下,S残越小,S回越接近S总,变量x与y之间的线性关系就越密切,从而
10、比值S回/S总就越接近1,线性越好,反之线性差。用表示S回/S总, 即: 总回SSr2yyxxxyLLLsSr总回/ 我们称r为变量x与y的相关系数。其绝对值为 ,相关系数的正负号由 决定,即R与b同号。R0时为正相关;RF表 则说明回归方程显著,即与的线性关系密切。残回fQfUF 回f残f回f残f 三、回归方程的预测值精度检验 寻求回归方程的目的是为了通过x值来预测y值,但是,由于x与y之间存在的是相关关系,所以由回归方程计算得到的只能是观测值的平均值。那么,实际的值y和 偏差有多大,这就需要对回归方程的预测精度进行检验。 y 三、回归方程的预测值精度检验 在一元线性回归方程中,x是确定性变
11、量,y是服从正态分布的随机变量,并按正态分布规律波动,如果能计算出波动的标准差,则回归方程的预测精度就能估计出来。 由于剩余偏差平方和Q是随机因素造成的,它排除了线性关系的影响。 由于剩余偏差平方和Q是随机因素造成的,它排除了线性关系的影响。 我们把剩余标准差作为衡量y随机波动大小的一个估计量。 即 : 若, 则y的取值是以为 中心而对称分布。越靠近 ,出现的概率越大,相反,越远离 ,则出的概率越小, 与剩余标准差之间,有如下关系: 2)(22NyyNQii0 xx 0y0y0y0y观测值 落在 区间 内的概率为38%观测值 落在 区间 内的概率为68.3%观测值 落在 区间 内的概率为95.
12、4%观测值 落在 区间 内的概率为99.73%观测值 落在区间 内的概率为99.99 如上所述,越小,则回归方程预测值越接近实测值,预极就精确。因此,可以把剩余标准差作为预极回归方程精度的标志。 iy5 . 00yiyiyiyiyy2y3y4y 例1 在选煤试验研究中,测得尾矿产品的灰分与对应分选时的基元灰分关系如下表所示,试建立它们的预测模型,并进行方差分析。x22 34 39 43 46 54 58 64 67 72y11 13 16 16 17 15 20 19 24 23编号xyx2y2xy122114841212422341311561694423391615212566244431
13、6184925668854617211628978265415291622581075820336440011608641940965017829672444895761608107223518452916504991742717631829228试验统计数据表根据公式: 待求:xyxbxayxbna2xyxyx,2xxxyLLb xbya线性回归方程计算表2778)(11 .24898)499(101)(1271769 .4910149922222xnxLxnxxxxXX4 .154)(16 .3027)174(101)(131824 .1710117422222ynyLynyyyyyy52
14、8)(18700)(1922810yxnxyLyxnxynxy方差计算:回归差残差xyxbyaLLbxxxy24. 042. 5424. 59 .4924. 04 .1724. 022785287 .1264 .1547 .12652824. 0 xyyyxybLLQbLU7 .27 相关系数: 当置信水平=0.05,数据组数为10,自由度=10-2=8时,查表得相关系数值0.632。r计=0.89r表=0.632求得的线性回归方程线性关系密切。 剩余标准差:89. 04 .1542278528LxxLyyLxyr86. 12107 .272NQ方差分析表误差来源误差平方和自由度均方和F计值查
15、F(1.8,0.01)回归(U)剩余(Q)总和126.727.7154.4110-2=810-1=9126.73.4636.311.3四、四、一元线性回归子程序,一元线性回归子程序,PASCAL语言语言1计算步骤BEG1N计算 , , , 计算回归方程系数a,b计算建立回归方程后的预测值计算回归平方和U,剩余平方和Q计算相关系数R,标准离差S,F检验值。END;ix2ixiy2iyiy2形式参数说明 样本数 存放自变量 的一维数组 存放自变量 的一维数组 存放建立回归方程后的预测值的一维数组a,b一元线性回归方程的两个系数 回归平方和 剩余平方和 相关系数 剩余标准离差 F检验值nxixyiy
16、qquqrsf3PASCAL子程序PROCEDURE axy1 (n:integer; VAR x,y, qq;VAR a,b,u,q,r,s,f:real);VAR h,k,c,g,e,w,v,l,d,z:real; I:integer;BEGINH:=0; k:=0; c:=0; g:=0; e:=0;FOR i:=1 T0 n D0BEGINh:=h+xi; k:=k+xi*xi;C:=C+yi; g:=g+yi*yi;e:=e+xi*yi;END;W:=h/n; V:=c/n;L:=0; d:=0; z:=0;FOR i:=1 T0 n D0BEGINL:=L+(xi-w)*(xi-w
17、);d:=d+(yi-v)*(yi-v);END;B:=Z/L; a:=V-b*w;FOR i:=1 T0 n D0qqi:=a+b*xi;u:=0; q:=0;FOR i:=1 T0 n D0BEGINu:=u+sqr(qqi-v); 回归平方和S回q:=q+sqr(yi-qqi); 剩余平方和S残END;r:sqrt(u/d); S:=sqrt(q/(n-1);f:=u*(n-2)/q;END. 2)(yyi)(iiyy作业作业1 1:根据青龙山选煤厂某年浮沉结果,建立其灰:根据青龙山选煤厂某年浮沉结果,建立其灰分与密度的一元线性回归方程,并求分与密度的一元线性回归方程,并求1.351.3
18、5,1.41.4,1.51.5,1.851.85时的灰分值。时的灰分值。月份-1.313-1.41.4-1.51.5-1.61.6-1.8+1.812.937.5117.6526.3536.8779.2422.367.0116.6526.6640.6479.3432.326.9617.1424.4738.6378.6543.778.3918.6426.2338.9880.2552.716.8416.3826.3938.3281.0262.756.6216.7126.3638.8882.9672.556.8916.6626.1137.8580.3082.187.0917.2426.7338.2480.6193.127.7518.1329.0439.8679.58102.767.0616.8226.3336.5380.38112.876.8916.4825.5038.0678.86122.386.7216.8925.7638.7482.06作业2 某矿区取得的18个煤样,试建立其密度和灰分之间的线性回归模型。 样品号密
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025渭南合阳县煤炭事务中心招聘(12人)笔试参考题库附带答案详解
- 2025河南商丘市实达国际人力资源合作有限公司招聘辅助人员30人笔试参考题库附带答案详解
- 2025年京能服务内蒙分锡林郭勒项目招聘10人笔试参考题库附带答案详解
- 广东新安职业技术学院《英语翻译实践》2023-2024学年第二学期期末试卷
- 中国传媒大学《生物医学检验技术》2023-2024学年第二学期期末试卷
- 上海外国语大学《华为HCIA-GausDB应用开发》2023-2024学年第二学期期末试卷
- 华东理工大学《商业伦理》2023-2024学年第二学期期末试卷
- 江苏航运职业技术学院《论文成果》2023-2024学年第二学期期末试卷
- 阜阳师范大学《焊接结构》2023-2024学年第二学期期末试卷
- 沈阳城市建设学院《传感器技术理论教学》2023-2024学年第二学期期末试卷
- 高中数学知识点全总结PPT
- 文档简谱视唱
- 中考英语初中必会英语语法汇总
- 工业机器人22手部设计-23腕部设计课件
- DLT-969-2023年变电站运行导则
- 人教版小学三年级数学下册面积练习
- 2023年湖南省长沙市中考语文真题试卷【含答案】
- 2022北京西城区初一期末(下)道法试卷及答案
- 2023年被告民事诉讼答辩状
- (2020)中国儿童阻塞性睡眠呼吸暂停诊断与治疗指南
- 监狱围栏施工组织设计方案范本
评论
0/150
提交评论