




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
3.1 回归分析的基本思想及其初步应用庖丁巧解牛知识巧学一、回归直线方程对于一组具有线性相关关系的数据(x1,y1),(x2,y2),,(xn,yn),其回归方程的截距和斜率的最小二乘估计公式分别为:=,=.回归直线方程中的=称为样本点的中心.回归直线过样本点的中心.二、相关系数及相关检验给定(xi,yi)(i=1,2,,n),只要x1,x2,xn不全相等,就能求出一条回归直线,因此它有无意义就是个大问题.由于根据散点图看数据是否大致在一直线附近主观性太强,可利用下面量化的检验法.当xi不全相等,yi也不全相等时,r=.叫做变量与之间的样本相关系数(简称相关数),1.当0时,表明两个变量正相关;当0时,表明两个变量负相关.的绝对值越接近1,表明两个变量的线性相关性越强;的绝对值越接近0时,表明两个变量之间几乎不存在线性相关关系.通常,当的绝对值大于0.75时认为两个变量有很强的线性相关关系.联想发散 注意此处空半格当与1接近到什么程度才表明Y与之间具有线性相关关系呢?为明确这一点,常通过相关性检验的方法,其步骤如下:(1)作统计假设:与Y不具有线性相关关系;(2)根据小概率0.05与-2在附表中查出的一个临界值r0.05;(3)根据样本相关系数计算公式算出的值;(4)作统计推断,如果r0.05,表明有95%的把握认为与y之间具有线性相关关系.如果r0.05,我们没有理由拒绝原来的假设,这时寻找回归直线方程是毫无意义的.三、回归分析1.随机误差在线性回归模型y=bx+a+e中,a和b为模型的未知参数,e是y与=bx+a之间的误差,通常为随机变量,称为随机误差.它的均值E()0,方差D(e)=20.线性回归模型的完整表达形式为在此模型中,随机误差的方差2越小,通过回归直线=bx+a预报真实值的精度越高.深化升华 注意此处空半格引起随机误差的原因:(1)在实际中,随机变量除了受随机变量的影响之外,还受其他变量的影响;(2)由于前面相关关系公式中的和为截距和斜率的估计值,它们与真实值a和b之间也存在误差.2.方差分析对于样本点(x1,y1),(x2,y2),(xn,yn)而言,相应于它们的随机误差为ei=yi-=yi-bxi-a(i=1,2,,n),其估计值为=yi-=yi-xi-(i=1,2,,n),称为相应于点(xi,yi)的残差.类比样本方差估计总体方差的思想,可以用2=Q(,)(2)作为的估计量,其中和由公式给出,Q(,)称为残差平方和.可以用衡量回归直线方程的预报精度.通常越小,预报精度越高.要点提示 注意此处空半格因为随机误差是随机变量,因此可以通过这个随机变量的数字特征来刻画它的一些总体特征.均值是反映随机变量取值平均水平的数字特征,方差是反映随机变量集中于均值程度的数字特征,而随机变量的均值为0,因此可以用方差2来衡量随机误差的大小.3.残差分析在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,可以通过残差,来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工作称为残差分析.其中残差是数据点yi和它在回归线上相应位置之间的差异,即=yi-.4.相关指数R2用相关指数R2来刻画回归的效果,其计算公式是:R2=显然R2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.深化升华 注意此处空半格在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率.R2越接近于1,表示回归的效果越好(因为R2越接近于1,表示解释变量和预报变量的相关性越强).如果对某组数据可能采取几种不同的回归方程进行回归分析.也可以通过比较几个R2,选择其值大的模型.四、建立回归模型的基本步骤(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y=bx+a);(4)按一定规则估计回归方程中的参数(如最小二乘法);(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等),若存在异常,则检查数据是否有误,或模型是否合适等.问题探究问题1两个变量具有线性相关关系和两个变量具有函数关系相同吗?你对二者关系是如何理解的?思路:相关关系与函数关系不同,因为函数关系是一种确定性的关系,而相关关系是一种非确定性关系.相关关系包括两种情况:一是两个变量中,一个变量为可控制变量,另一个变量为随机变量.二是两个变量均为随机变量.而函数关系可以看成是两个非随机变量之间的关系.另一方面,函数关系是一种因果关系,而相关关系不一定是因果关系,也可以是伴随关系.探究:对两个变量的关系来说,在相关关系中,例如,在水稻产量与施肥量的关系中,施肥量是可控制变量,而水稻的产量是随机变量;在研究一个学生的数学成绩与物理成绩的关系时,这两个变量都是不可控制的随机变量.而正方形的面积S与边长之间的关系是一种函数关系,这两个变量就不是随机变量.由于相关关系的不确定性,我们经常运用统计分析的方法,即回归分析法来进行研究.问题2 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.相关关系又分线性相关关系和非线性相关关系,如何利用回归分析的方法对两个具有线性相关关系的变量进行研究呢?思路:利用回归分析的方法对两个具有线性相关关系的变量进行研究可以按如下步骤进行:画出两个变量的散点图;求回归直线方程;用回归直线方程进行预报.其中求回归直线方程是关键.而对于线性回归模型y=bx+a来说,估计模型中的未知参数a和b最好的方法就是最小二乘法估计和,其计算公式为=-,=.探究:上述问题研究是具有线性相关关系的变量的线性回归.那么如何用回归分析的方法对非线性回归问题进行统计分析呢?我们可以对其分为两类.若问题中已给出经验公式,这时可以将解释变量进行交换(换元),将变量的非线性关系转化为线性关系,将问题化为线性回归分析问题来解决.若问题中没有给出经验公式,需要我们画出已知数据的散点图,通过与各种函数(如指数函数、对数函数、幂函数等)的图象作比较,选择一种与这些散点拟合得最好的函数,然后采用适当的变量变换,将问题化为线性回归分析问题来解决.典题热题例1假设关于某设备的使用年限和所支出的维修费用(万元),有如下的统计资料:使用年限23456维修费用2.23.85.56.57.0若由资料知对呈线性相关关系.(1)线性回归方程的回归系数,;(2)预报使用年限为10年时的维修费用是多少?思路分析:因为对呈线性相关关系,所以可以用一元线性相关的方法解决问题.(1)利用公式=-.来计算回归系数.有时为了方便常制表对应写出xiyi,xi2,以利于求和.(2)获得回归直线方程后,取10,即可求值.解:(1)由题意求得=4,=5,=1xi2=90,=112.3,于是=1.23,=5-1.234=0.08.(2)回归直线方程是=1.23x+0.08,当10(年)时,=1.2310+0.08=12.38(万元),即估计使用10年时维修费用是12.38万元.深化升华 注意此处空半格知道与呈线性相关关系,就无需进行相关性检验,否则应首先进行相关性检验.如果本身两个变量不具有相关关系,或者说,它们之间相关关系不显著,即使求出了回归方程也是毫无意义的,而且估计和预测的量也是不可信的.例2为了了解某一地区母亲身高与女儿身高Y的相关关系,随机测得10对母女的身高如下表所示:母亲身高()159160160163159154159158159157女儿身高y()158159160161161155162157162156试对与y进行一元线性回归分析,并预报当母亲身高为161 时女儿的身高为多少?图3-1-1思路分析:为了寻找两个随机变量间的线性关系,一般先做散点图.把这10对数据画出散点图,如图3-1-1所示,其中点(159,162)表示一对母女的身高数据.由图可以看出,与y之间有近似的线性相关关系,据此用回归直线方程解决问题.解:由以上分析先对与y作相关性检验.(1)作统计假设:与y不具有线性相关关系.(2)由小概率0.05与-28在附表中查得r0.05=0.632.(3)=(159+160+157)=158.8,=(158+159+156)=159.1,=(1592+1602+1572)-10158.82=47.6,-10x y=(159158+160159+157156)-10158.8159.1=37.2,yi2-10y2=(1582+1592+1562)-10159.12=56.9,所以r=0.71.(4)|r|=0.710.632,即|r|r0.05,从而有95%的把握认为与y之间具有线性相关关系,求回归直线方程是有意义的.回归系数=0.78,=159.1-0.782158.834.92.所以y对的回归直线方程是=34.92+0.78x.因此,当母亲身高为161 时,女儿的身高的预报值为=34.92+0.78160=160.5 .这就是说,当母亲身高为161 时女儿的身高大致也接近161 .方法归纳 注意此处空半格线性回归分析的步骤方法为:首先作出统计假设;求出线性相关系数;由相关系数确定回归直线方程是否有意义;写出线性回归方程,解决有关问题.例3某工业部门进行了一项研究,分析该部门的产量与生产费用之间的关系,从这个工业部门内随机提选了10个企业作样本,有如下资料:产量x(千件)40424855657988100120140生产费用y(千元)150140160170150162185165190185完成下列要求:(1)计算与的相关系数;(2)对这两个变量之间是否线性相关进行相关性检验;(3)设回归直线方程为=bx+a,求系数a,b.思路分析:(1)使用样本相关系数计算公式r=即可完成;(2)由小概率0.05与-28在附表中查得r0.05的大小,以检验所得结果,来说明与之间的线性相关是否显著;(3)用公式代入即可求出.解:(1)根据题意制表如下:i12345678910合计xi40424855657988100120140777yi1501401601701501621851651901851 657xi21 6001 7642 3043 0254 2256 2417 74410000144001960070903yi222500196002560028900225002624434225272253610034225277119xiyi6 0005 8807 6809 3509 750
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 培养孩子逻辑思维习惯
- 八百壮士活动策划方案
- 公交公司安全活动方案
- 公交志愿活动方案
- 森林运动会大结局650字12篇范文
- 公共图书馆活动方案
- 一年级写人作文我喜欢的老师200字8篇
- 告示引起的刺杀2000字10篇范文
- 公司diy美食活动方案
- 小区智能门禁系统合作协议
- 二手房砸墙合同协议书
- 2024-2025新入员工安全培训考试试题及参考答案(达标题)
- 2025陕西中考:历史必背知识点
- 《电力设施保护》课件
- 《人工智能应用基础》 完整课件(共十个模块-上)
- 国企财务测试题及答案
- 死亡报卡培训试题及答案
- 《鼻腔止血材料研究》课件
- 中医理疗养生馆创业计划
- 2025-2030中国羟丙基壳聚糖行业市场发展趋势与前景展望战略研究报告
- 饭店兑店合同协议
评论
0/150
提交评论