概率论与数理统计第九章.ppt_第1页
概率论与数理统计第九章.ppt_第2页
概率论与数理统计第九章.ppt_第3页
概率论与数理统计第九章.ppt_第4页
概率论与数理统计第九章.ppt_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、回归分析简介,“回归” 一词的历史渊源,“回归”一词最早由Francis Galton引入。 Galton发现,虽然父母的身高对子女的身高起到决定性作用,但给定父母的身高后,他们儿女辈的平均身高却趋向于或者“回归”到社会平均水平。Galton的普遍回归定律(law of universal regression)。 Galton的朋友Karl Pearson通过收集一些家庭的1000多名成员的父子身高数据,证明儿子确实“回归到中等(regression to mediocrity)”,1.回归分析的概念,现实世界中,变量之间相互依赖、相互制约的关系,可大致分为两类: 一类是函数关系,即变量之间

2、存在着确定的关系例如圆半径与圆面积的关系是s=r2 另一类是相关关系例如身高与体重的关系;家庭收入与支出的关系;又如农作物的单位面积产量与降雨量、施肥量等的关系.这类关系不能用函数来表达变量之间的这种非确定性关系,称为相关关系,对于相关关系,虽然不能求出变量之间精确的函数关系式,但是通过大量的观测数据,可以发现它们之间存在着一定的统计规律性 由一个(或一组)非随机变量来估计或预测某一个随机变量的观测值时,所建立的数学模型和所进行的统计分析,称为回归分析. 如果这个模型是线性的,就称为线性回归分析. 研究两个变量间的相关关系的回归分析,称为一元回归分析,2.一元线性回归,在一元回归分析里,我们要

3、考察的是随机变量 y 与一般变量 x 之间的相互关系虽然 x和 y 之间没有确定的函数关系. 但是我们可以借助函数关系来表达它们之间的统计规律性用以近似地描述具有相关关系的变量间的联系的函数,称为回归函数 由于 y 与 x 之间不存在完全确定的函数关系,因此必须把随机波动产生的影响考虑在内.于是我们的模型的一般形式为 y=f(x)+ . 其中 是随机项,进行 n 次独立试验,观测值如下表所示:,其中xi, yi表示x和y在第i次试验中的观测值,则有,通常把点(xi,yi)(i =1,2,n )画在直角坐标平面上,,这样得到的图就是散点图,例 某种合成纤维的强度与其拉伸倍数有直接关系,下表是实际

4、测定的24个纤维样品的强度与相应拉伸倍数的记录。,数据表格,将数据描绘到坐标纸上,我们称这个方程为y对x的回归直线方程,,如果所有的散点大体上散布在某一条直线附近,就可以认为y对x的回归函数的类型为直线型:,并称其中的b为回归系数. 在y的上方加,是为了区别于y的实际观测值y.,如果随机变量y与非随机变量x之间存在着线性相关关系,则可用回归直线方程,来描述怎样确定该方程中未知参数a和b的值呢?,取一个容量为n的样本(xi,yi)(i =1,2,n ) ,则有 其中, 满足 (1) (2) 相互独立. 我们用 即 来描述点 (xi,yi)(与回归直线沿平行于纵轴方向的远近距离,则,为了定量地描述

5、回归直线与 n 个观测点的接近程度要找出一条总的看来最接近这 n个观测点的直线,就是要找出使 Q达到最小值的a,b (记作 )由于平方又叫做二乘方因此把这种使“偏差平方和为最小”的方法称为最小二乘法.这样求得的 称为 a,b的最小二乘估计 的求法如下:,整理可得 法方程(正规方程) 解这个方程组,可得 其中,可以证明,所求得的 ,确实使 取得最小值. 于是,所求的回归直线方程为,例1 炼钢基本上是一个氧化脱碳过程,设某平 炉的熔毕碳(全部炉料熔化完毕时,钢液含碳量),x与精炼时间y的生产纪录列表如下:,求x,y的关系式(经验公式),解列表计算,因此,熔毕碳,与精炼时间,间的回归方程为,前面提到

6、,只有当两个变量间存在线性相关关系时,才能用直线方程大致表示它们之间的关系.但是,对任意两个变量的一组观察数据 都可以用最小二乘法形式上求得对的回归直线.这样就需要考察与间是否确有线性相关关系,能否用直线方程来表示,即判断回归方程是否有意义.这种问题一般称为回归方程的显著性检验,一元线性回归的统计分析,在 的假设下,如果 b=0 ,说 明 x 值的变化对 y没有影响,因而变量 x 不能控制变量y ,用回归直线方程 不能描述两个变量 y 与 x之间的关系,因此,要判明 y与 x是否确有线性相关关系,就是要检验假设 H0: b=0 这和前面介绍的假设检验一样,首先要构造统计量.,下 面我们先导出一

7、个具有统计意义的分解公式:,设 xi ,yi(i=1,2,n)为变量 x ,y 间的一组容量为 n的样本, 为由这组样本出发求得的变量 x ,y 间的回归直线方程,则 就表示了观测数据的总的变动情况,故称Lyy 为总变动平方和因为,而,所以,这里,上面的公式称为变动平方和的分解公式.量U,主要描述,离,的分散程度而由公式,看出,的分散性又由,的分散性通过,对于,的线性影响反映出来的,由此,称为回归平方和.量,表示观察值,与经验回归,所对应的纵坐标,它是扣除了,直线上,的偏离情况,,x对y 的线性影响后所剩余的平方和,因此称Q 为剩余平方和(或残差平方和),它主要反映了试验误差的大小,不难想到,要分析样本值,是否显著地存在确定的线性相关关系,可以用,与,进行比较,如果比值,相当大(从几何上看就是,之间是否存在线性关系,即样本,是否近似地存在着线性关系,可以构造统计量,纵向偏差相对于横向来说要小的多),就可以认为存 在着线性相关关系.由此,启示我们,要检验x与y,数学上已经证明:在 成立时, . 这样,我们得到显著性检验的步骤如下: (1) 选取统计量 ; (2)计算 和 的观察值 和 ,并按 计算 ; (3)对给定的显著水平 (一般 或 ),从 分布表中查出 ,使得 如果 ,则否定假设 ,即可以认为回归方程在 水平上显著,反之,不能断定变量x和y之间的线性关系,即回归方程

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论