第7讲 统计回归模型PPT课件_第1页
第7讲 统计回归模型PPT课件_第2页
第7讲 统计回归模型PPT课件_第3页
第7讲 统计回归模型PPT课件_第4页
第7讲 统计回归模型PPT课件_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第7讲统计回归模型,软件开发人员的薪金农作物施肥效果分析,统计模型如果由于客观事物内部规律的复杂性及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的模型,那么通常要搜集大量的数据,基于对数据的统计分析建立模型,这就是本章还要讨论的用途非常广泛的一类随机模型统计回归模型。,案例1软件开发人员的薪金,【问题】一家高技术公司人事部门为研究软件开发人员的薪金与他们的资历、管理责任、教育程度等因素之间的关系,要建立一个数学模型,以便分析公司人士策略的合理性,并作为新聘用人员工资的参考。他们认为目前公司人员的薪金总体上是合理的,可以作为建模的依据,于是调查了46名开发人员的档案资料,如表。其中资历一列指从事专业工作的年数,管理一列中1表示管理人员,0表示非管理人员,教育一列中1表示中学程度,2表示大学程度,3表示更高程度(研究生).,开发人员的薪金与其资历、管理责任、教育程度,分析与假设,按照常识,薪金自然按照资历(年)的增长而增加,管理人员的薪金高于非管理人员,教育程度越高薪金越高。,薪金记作,,资历(年)记作,为了表示是否为管理人员,作如下定义:,1,管理人员0,非管理人员,为了表示三种教育程度,定义,1,中学0,其它,1,大学0,其它,(1)为了简单起见,我们假定资历(年)对薪金的作用是线性的,即资历每加一年,薪金的增长是常数;,利用MATLAB的系统工具箱可以得到回归系数及其置信区间(置信水平,)、检验统计量,的结果,见表。,(2)管理责任、教育程度、资历诸因素之间没有交互作用,建立线性回归模型。,模型的进一步假设:,模型建立与求解,1.基本模型,结果分析:,从表中,,,即因变量(薪金)的95.7%可由模型确定,,用的。比如,利用模型可以估计(或估计)一个大学毕业、有2年资历、管理人员的薪金为:,模型中各个回归系数的含义可初步解释如下:,的系数为546,说明资历每增加一年,薪金增长546;,的系数为6883,说明管理人员的薪金比非管理人员多6883;,的系数为-2994,说明中学程度的薪金比研究生少2994;,【注意】上述解释是就平均值来说的,并且,一个因素改变引起的因变量的变化量,都是在其它因素不变的条件下才成立的。,进一步讨论:,的置信区间包含零点,说明上述基本模型存在缺点。为了寻找改进,我们将影响因素分成资历教育组合、与管理教育组两类。管理-教育组合定义如表:,管理教育组合,为了对残差进行分析,下图给出,与资历,的关系,及,与管理,从左图看,残差大概分成3个水平,这是由于6种管理教育组合混在一起,在模型中未被正确反映的结果;,在模型中,管理责任和教育程度是分别起作用的,事实上,二者可能起着交互作用,如大学程度的管理人员的薪金会比二者分别的薪金之和高一点。,从右图看,对于前4个管理教育组合,残差或者全为正,或者全为负,也表明管理-教育组合在模型中处理不当。,以上分析提示我们,应在基本模型中增加管理,2、模型改进,与教育,的交互项,建立新的回归模型。,增加,与,的交互项后,模型记作,利用MATLAB的统计工具箱得到的结果如表:,模型(1)的参数回归分析数据,模型(2)的参数回归分析数据,比较可知,模型(2)的,和,值都比上一个模型有所改进,,并且所有回归系数的置信区间都不含零点,表明这个模型完全可用。,做该模型(2)的两个残差分析图,可以看出,已经消除了不正常现象,这也说明了模型的适用性。,与,的关系,与,组合的关系,从上图,还可以发现一个异常点:具有10年资历、大学程度的管理人员(编号33)的实际薪金明显低于模型的估计值,也明显低于与他有类似经历的其他人的薪金。这可能是由我们未知的原因造成的。,为了使个别数据不致影响整个模型,应该将这个异常数据去掉,对模型重新估计回归系数,得到的结果如表。残差分析见图。可以看到,去掉异常数据后结果又有改善。,模型(2)中去掉33号数据后的参数回归分析数据,与,的关系,与,组合的关系,模型的应用,对于第二个模型,用去掉异常数据(33号)后估计出的系数得到的结果是满意的。模型的应用之一,可以用来“制订”6种管理教育组合人员的“基础”薪金(即资历为零的薪金),这是平均意义上的。利用第二个模型和去掉异常数据后得到的回归系数,可以得到如下结果:,可以看出,大学程度的管理人员薪金比研究生程度管理人员薪金高,而大学程度的非管理人员薪金比研究生程度非管理人员薪金略低。当然,这是根据这家公司实际数据建立的模型得到的结果,并不具普遍性。,若发现异常值应剔除,有助于结果的合理性。,【思考】在这里我们由简到繁,先分别引进管理和教育因素,再引入交互项。试直接对6种管理-教育组合引入5个01变量,建立模型,看结果如何。,模型评注,从建立回归模型的角度,通过这个问题的求解我们学习了:,对于影响因变量的定性因素(管理、教育),可以引入01变量来处理,01变量的个数比定性因素的水平少1(如教育程度有3个水平,引入2个01变量)。,用残差分析法可以发现模型的缺陷,引入交互作用项常常可以得到改善。,案例2农作物施肥效果分析,【问题-CMCM-92】某研究所为了研究N、P、K三种肥料对于土豆和生菜的作用,分别对每种作物进行了三组实验,实验中将每种肥料的施用量分为10个水平,在考察其中一种肥料的施用量与产量的关系时,总是将另二种肥料固定在第7个水平上,实验数据如下列表所示,其中ha表示公顷,t表示吨,kg表示千克。试建立反映施肥量与产量关系的模型,并从应用价值和如何改进等方面做出评价。,土豆:,N,P,K,生菜:,N,P,K,以下论文出要参考了中国科技大学特等奖论文及文献,1.模型假设,(1)研究所的实验是在相同正常实验条件(如充足的水分供应,正确的耕种程序)下进行的,产量的变化是由施肥量的改变引起的,产量与施肥量之间满足一定规律;,(2)土壤本身已含有一定数量的N、P、K肥,即具有一定的天然肥力;,(3)每次实验是独立进行的,互不影响。,符号说明:,2.问题分析,农学规律表明,施肥量与产量满足下图所示关系,它分成三个不同区段,在第一区段,当施肥量比较小时,作物产量随施肥量的增加而迅速增加,第二区段,随着施肥量的增加,作物产量平缓上升;第三区段,施肥量超过一定限度后,产量反而随施肥量的增加而下降。,为考察氮、磷、钾三种肥料对作物的施肥效果,我们以氮、磷、钾的施用量为自变量,土豆和生菜的产量为因变量描点作图。,从图中可以看出,氮肥对作物的贡献大致呈指数关系;磷肥对于作物产量的关系大致为分段直线形式;至于钾肥,对土豆而言,大致呈指数关系,对生菜而言,随着施肥量的增加,产量的上升幅度很小。为此,我们得到了对施肥效果的定性认识。,200.00,400.00,X(P),0.00,20.00,40.00,W,图2.3磷肥对土豆的效应曲线,图2.4磷肥对土豆的效应曲线,在长期的实践中,农学家们已经总结出关于作物施肥效果的经验规律,并建立了相应的理论:,相关理论:,(1)Nicklas和Miller理论:设h为达到最高产量时的施肥量,边际产量(即产量W对施肥量x的导数)dW/dx与(h-x)成正比例关系,即,从而,(2)米采利希学说:只增加某种养分时,引起产量的增加与该种养分供应充足时达到的最高产量A与现在产量W之差成正比,即,从而,考虑到土壤本身的天然肥力,上式可修正为:,(3)英国科学家博伊德发现,在某些情况下,将施肥对象按施肥水平分成几组,则各组的效应曲线就呈直线形式。若按水平分成二组,可以用下式表示:,我们假设该研究所的实验是在正常条件下进行的,因而题目给出的表中的施肥量与产量的数据应该满足上述规律(对不同肥料,不同作物而言可以满足不同的规律)。以这些理论为依据,即可对作物施肥效果进行回归分析。,3.模型与结果,根据对问题的初步分析,氮肥的施肥效果应满足Nicklas和Miller理论所描述的关系,运用二次多项式回归,得到:,氮肥对土豆的效应方程:,氮肥对生菜的效应方程:,氮肥的效应曲线如图3.1,图3.2所示:,20.00,图3.1氮肥对土豆的效应曲线,图3.2氮肥对生菜的效应曲线,磷肥的施用对作物产量的增加表现为分段直线形式,运用现行回归,得到:,磷肥对土豆的效应方程:,磷肥对生菜的效应方程:,氮肥的效应曲线如图3.3,图3.4所示:,200.00,400.00,X(P),0.00,20.00,40.00,W,图3.3磷肥对土豆的效应曲线,图3.4磷肥对土豆的效应曲线,从钾肥对土豆的实验数据可以看出,当施用量超过一定限度后,产量的增加很不明显,因此用(5)式来描述其施肥效果是合理的,用指数回归分析得到:,钾肥对土豆的效应方程:,磷肥对生菜的效应方程:,对生菜来说,钾肥的施用量对产量影响很小,通过线性回归得到:,钾肥的效应曲线如图3.5,图3.6所示:,4.结果的应用分析,(1)模型定量地反映了施肥量与产量之间的关系。从效应曲线可以看出:氮肥的过量施用会造成作物的减产,这就是农业生产中化肥的过量使用会造成烧苗的原因;磷肥的施用超过一定限度后对于产量的贡献很小;钾肥对土豆的贡献也是如此。,此外,就钾肥对于生菜的效应曲线呈一条几乎平行的直线,说明下列两种情形可能存在:,生菜对钾肥的需求量很小;土壤本身已含有丰富的钾元素供生菜生长的需要.,(2)每种肥料最佳施用量的计算。从模型可知,边际产量随的增大而减少,当下列关系成立时,投入一吨肥料得到的效益最大,此时施肥量即为最佳施肥量,它小于最高产量时的施肥量,氮、磷、钾肥的大致价格为:氮肥350元/吨,磷肥320元/吨,钾肥640元/吨(数据由农资公司提供),土豆和生菜的大致价格为:土豆0.80元/千克,生菜0.20元/千克(由农贸市场提供),根据这些信息,最佳施肥量的计算及结果如下,(i)由(7)得:,由(8)得:,得到氮肥对土豆的最佳施用量为290.57kg/ha.,得到氮肥对生菜的最佳施用量为203.57kg/ha.,(ii)磷肥的效应曲线为分段直线,两直线交点处的施肥量即为最佳施肥量,由(9)和(10)知,磷肥对土豆的最佳施用量为102.24kg/ha,对生菜的最佳施用量为202.54kg/ha.,(iii)根据,将(1)带入可知,钾肥对土豆的最佳施用量为562.62kg/ha,对于生菜的情况,土壤本身含钾量已经能够满足生菜生长需要,可以不施用钾肥。,5.模型验证,从每种肥料的效应曲线可以看出,模型结果与实验数据很接近,但也存在一定的偏差,这种偏差可能来源于两个方面:,(1)由于实验误差引起;(2)由于模型的不完善造成.,对每组实验的模型计算值与实际观测值的偏差及残差的分布做了统计分析,结果如表5.1所示(剔除异常值后):,表5.1模型结果的残差分析,可以看出,残差的均值几乎为0,说明无系统误差,并且其方差都很小,表明模型合理地反映了施肥量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论