合金强度与碳含量的回归分析_第1页
合金强度与碳含量的回归分析_第2页
合金强度与碳含量的回归分析_第3页
合金强度与碳含量的回归分析_第4页
合金强度与碳含量的回归分析_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、成 绩 评 定 表学生姓名王青松班级学号1009010215专 业信息与计算科学课程设计题目合金强度与碳含量的回归分析评语组长签字:成绩日期 2012 年 06月 28 日课程设计任务书学 院理学院专 业信息与计算科学学生姓名王青松班级学号1009010215课程设计题目合金强度与碳含量的回归分析实践教学要求与任务:通过该课程设计,使学生进一步理解概率论与数理统计的基本概念、理论和方法;初步掌握Excel统计工作表在随机模拟中是应用,MATLAB统计软件包对数据进行统计检验和统计分析;具备初步的运用计算机完成数据处理的技能,使课堂中学习到理论得到应用。1数据整理:收集数据,录入数据,画出相应图

2、形;建立数学模型,数据的输入与整理,各种数据的图形显示。2假设检验: MATLAB绘制出直方图,做数据分布的推测;参数估计,假设检验,绘制概率密度图。3单因素、多因素方差分析:正态总体的方差分析问题; MATLAB统计软件中关于方差分析的相关命令,做出方差分析表,box图,能对结果进行简单分析。4一元、多元线性回归模型:回归系数的估计与检验,数据散点与回归直线的图示,残差图。运用MATLAB统计软件,对给定的数据拟合回归方程。工作计划与进度安排:周三12节:选题,设计解决问题方法 周三38节:调试程序周四14节:完成论文,答辩指导教师:张玉春 2012年6月28日 专业负责人:2012年7月8

3、日学院教学副院长:2012年7月19日摘 要 数理统计是具有广泛应用的数学分支,而区间估计和假设检验问题在其中占有很重要的地位。对于正态总体期望和方差的区间估计和假设检验问题已有完备的结论;对于非正态总体期望和方差的区间估计和假设检验问题,在大样本的情况下,可利用中心极限定理转化为正态总体来解决。但实际问题中常常碰到非正态总体,而且是小样本的情况,因此对它的区间估计和假设检验是一个值得研究的问题。 本文利用概率纶与数理统计中的所学的回归分析知识,对合金强度与碳含量之间的关系建立数学模型,利用这些数据做出碳含量关于合金强度的线性回归方程,并MATLAB 与EXCEL软件对验数据进行分析处理,得出

4、线性回归系数与拟合系数等数据,并用F检验法检验了方法的可行性,同时用分布参数置信区间和假设检验问题 ,得出了碳含量关于合金强度的线性关系显著,并进行了深入研究,提出了小样本常用分布参数的置信区间与假设检验的解决方法。关键词:统计量法;置信区间;假设检验;线性关系;回归分析目 录1 设计目的12 设计原理12.1 模型回归系数的估计12.2 回归方程显著性检验22.3 回归系数的置信区间32.4 利用模型预测33 设计问题43.1 用matlab处理数据43.2 excel处理数据74 设计总结12参考文献121 设计目的了解一元回归方程,回归系数检验方法及应用一元回归方程进行预测的方法;学会应

5、用MAATLAB软件进行一元回归实验的分析方法。2 设计原理 在实际问题中,经常会遇到两个变量之间的相关关系的(即直线型),而是非线性的(即曲线形)。设其中有两个变量X与Y,我们可以确定一个函数关系式:y=(x)大致的描述Y与X的相关关系,函数(x)称为Y关于X的回归函数,方程方程y=(x)称为Y关于X的回归方程。 一元回归处理的是两个变量x与y之间的线性关系,可以设想y的值有两部分构成:一部分是自由变量x的线性影响所致,表示x的线性函数a+bx;另一部分只有众多其他因素,包括随机因素影响所致,这一部分可以视为随机误差项,记为,可以得到一元线性回归模型y=a+bx+··&#

6、183;···(1)式中,自变量x是可以控制的随机变量,由于是随机误差,可根据中心极限定理,假定N(0,),是未知参数。 确定Y与X的关系前,可根据散点图的形状,选择适当的曲线回归方程,而这些方程往往可以化为线性方程或者就是线性方程:y=a+bx大致描述变量Y与X之间的关系。2.1 模型回归系数的估计 为了估计回归系数,假定得到两个变量x与y的n个数据对(x,y),i=1,2,,···,n我们将这n对观测值带入(1)式,得y=a+bx+ EMBED Equation.KSEE3 , i=1,2,,···,

7、n这里 EMBED Equation.KSEE3 , EMBED Equation.KSEE3 ,···, EMBED Equation.KSEE3 是相互独立的随机变量,均服从正态分布即N(0,),i=1,2,3,···,n 在一定意义下“最佳地”表现变量Y与X之间的相关关系,解决该问题,可以利用所谓的最小二乘法,即要求选取的a,b的值使得随机误差的平方和最小,即求使得函数Q(a,b)=取得最小值时的a,b。 由于Q(a,b)是a,b的二元函数,利用函数存在极值的必要条件,Q(a,b)分别对求a,b偏导数,并令其为0,构成二元一次方

8、程组,这里得到以下方程组 a解此方程组得参数a,b的估计值,由观测数据和(i=1,2,····,n)得到回归方程带入,得到称为回归预测值。方程的直线称为回归直线。2.2 回归方程显著性检验 建立一元线性回归方程当且仅当变量之间存在线性相关关系时才是有意义的,因此必须对变量之间的线性相关的显著性进行检验,即对建立的回归模型进行显著性检验。我们首先引入几个概念:,称为总偏差平方和,它表示观测值总的分散程度;,称为回归平方和,它是由回归变量的变化引起的,放映了回归变量对变量线性关系的密切程度;,称为残差(剩余)平方和,它是由观测误差等其他因素起误差,它的值越小

9、说明回归方程与原数据拟合越好。可以证明下列关系成立 即 EMBED Equation.3 =+ 我们主要考虑回归平方和在总偏差和中所占的比重,记(0<=R<=1),称R为复相关系数,用R的大小来评价模型的有效性,R越大,则反映回归变量与相应变量之间的线性函数关系越密切。引入F统计量。定义, 可知FF(1,n-2).对于给定的显著水平a(一般这里取0.05或0.01),查表可得临界值F(1,n-2) 如果F> F(1,n-2),则认为y与x之间的线性关系显著;如果F<= F(1,n-2),则认为y与x之间的线性关系不显著,或者不存在线性关系,在实际应用中也可以通过F对应的

10、概率P<来说明y与x之间的线性相关性显著。2.3 回归系数的置信区间 回归方程(1)的回归系统,是一个点估计值,给定置信水平1-后,可得到他们对应的置信区间,并且回归区间越短越好,如果摸个回归系数的置信区间包含0点,则说明该回归变量的影响不显著,需要进一步地修改回归方程,尽量是每个回归系数的置信区间都不包含0点。2.4 利用模型预测 在对所建立的回归模型进行相关程度检验与分析之后,如果预测变量y与相关变量x的每一个给定值x,带入回归模型,就可以求得一个相对应的回归预测值,称为模型的点估计值。3 设计问题某合金强度与碳含量有关,研究人员在生产试验中收集了该合金的强度y与碳含x的数据如下表3

11、.1。检测模型的可行度,检查数据中有无异常点。表3.1 合金的强度y与碳含x的数据x0.100.110.120.130.140.150.160.170.180.190.200.23y42.041.540.145.545.047.549.055.050.055.055.560.53.1 用matlab处理数据其实现MATLAB程序代码如下:y=42.0 41.5 40.1 45.5 45.0 47.5 49.0 55.0 50.0 55.0 55.5 60.5;x=0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.20 0.21 0.23;plot(x

12、,y,'+');n=length(y);X=ones(n,1),x'b,bint,r,rint,s=regress(y',X);b,bint,s运行结果:b = 25.0168 150.7361bint = 19.6522 30.3814 117.8538 183.6184s = 0.9125 104.3263 0.0000 4.0437整理结果如下:回归系数回归系数估计值回归系数置信区间25.016819.6522,30.3814150.7361111.8538,183.6184 =0.9125 F=104.3263 P=0.0000<0.05结果表明,

13、回归模型y=25.0168+150.7361x成立。散点图如下: 图3.1 散点图残差效果图代码如下:y=42.0 41.5 40.1 45.5 45.0 47.5 49.0 55.0 50.0 55.0 55.5 60.5;x=0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.20 0.21 0.23; b,bint,r,rint,s=regress(y',X);rcoplot(r,rint);从几个方面都可以检验模型是有效的:检验-接近于0;的置信区间不含零点;用MATLAB命令finv(0.95,1,10)计算得到,F为统计量观测值,所

14、以X与Y的相关性显著。残差图截图如图3.2图3.2 残差图 所谓残差是指实际观察值与回归估计值的差,残差分析就是通过残差所提供的信息,分析出数据的可靠性、周期性或其它干扰。从残差图可以看出,数据的残差离零点较近,且残差的置信区间均包含零点,这说明回归模型y=25.0168+150.7361x能很好的符合原始数据(除第八个数据外)。3.2 excel处理数据 用Excel“分析工具库”提供的“回归”工具,找出线性回归方程,并检验其显著性。1 具体步骤如下:1>在【工具】菜单中选中【数据分析】,则会弹出【数据分析】对话框,然后“分析工具”中选择“回归”选项,如图二所示。单击【确定】后,则弹出

15、【回归】对话框,如图<5>所示。2>填写【回归】对话框。如图<6>所示,该对话框的内容较多,可以根据需要,选择相关项目。在“X值输入区域”内输入队因变量数据区域的引用,该区域必须有单列数据组成,如本题中组分B;在“Y只输入区域”输入对自变量数据区域的引用,如本题中组分C。“标志” :如果输入区域的第一行中包含标志项,则选中此复选框,本题中的输入区域包含标志项;如果在输入区域中没有标志项,则应清楚此复选框,Excel将在输出表中生成合适的数据标志。“置信度” :如果需要在汇总输出表中包含附件的置信度信息,则选中此复选框,然后在右侧的编辑框中,输入所要使用的置信度。E

16、xcel默认的置信度为95%,相当于显著性水平a=0.05。“常数为零” :如果要强制回归线通过原点,则选中此复选框。“输出选项” :选择“输出区域”,在此输出对输出表左上角单元格的引用。3>“残差” :如果需要以残差输出表形式查看残差,则选中此复选框。“标准残差” :如果需要在残差输出表中包含标准残差,则选中此复选框。“残差图” :如果需要生成一张图表,绘制每个自变量及其残差,则选中此复选框。“线性拟合图” :如果需要为预测值和观察值生成和观测值生车一个图表,则选中此复选框。分析工具截图如图3.3及3.4:图3.3 Excel数据分析工具图3.4 回归分析工具界面回归分析工具运行结果如

17、下表3.1:表3. 1 回归统计在表1中,“Multiple R”是线性回归的系数,“R Square”是拟合系数,“Adjusted R Square” 调整后的拟合系数。方差分析截图如下表3.2:表3.2 方差分析回归分析结果截图如下表3.3:表3.3 回归分析结果1表3.4 回归分析结果 残差与标准残差下图是残差分布图如图3.5:图3.5 用EXCEL处理数据得出的残差分布图散点图如图3.6图3.6 EXCEL处理数据得出的散点图 由表3可知,该回归方程的截距是25.0168,斜率为150.7361,所以回归方程的表达式为:y=25.0168+150.7361x;根据回归统计结果,知决定

18、系数=0.955625,即相关系数r=0.912531,说明自变量与因变量之间有较高的相关性;据方差分析的结果,F=104.3623,有效的F<0.01,所以建立的回归方程非常显著。在表五中,除了列出了回归系数,还有标准误差等项目。其中“标准误差”表示的事对应回归系数的标准误差,其中偏回归系数的标准误差。“t Stat”就是t检验时的统计量t;如果多元线性回归,则可直接根据“t Stat”的大小,判断因素的主次顺序。“P-value”表示t检验偏回归系数不显著的概率,如果P-value<0.01,则可认为该系数对应的变量对试验结果影响非常显著(* *),如果0.01< P-value <0.05,则可认为该系数对应的变量对试验结果影响显著(*);对于常数项,P-value则表示常数项为零的几率。4 设计总结

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论