第十章直线回归和相关分析_第1页
第十章直线回归和相关分析_第2页
第十章直线回归和相关分析_第3页
第十章直线回归和相关分析_第4页
第十章直线回归和相关分析_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十章 直线回归 和相关分析 v 英国生物学家高尔顿(Francis Galton,18221911)提出“回归”一词。1889年出版的自然遗传( Natural inheritance) 一书中首次提出并阐明了“相关”的概念及计算两个变数相关程度的“相关系数”(Correlation)的概念。第一节 回归和相关意义 v 一、基本概念 v 一般变量之间的关系可以分为两类:一类是函数关系,另一类是统计关系。 v 函数关系是一种确定性的关系,一个变量的取值和变化完全取决于另一个或几个变量的取值和变化。 v 统计关系是一种非确定性的关系,即一个变量的取值受到另一变量的影响,两者之间既有关系,但又不存

2、在完全确定的函数关系。 v 对具有统计关系的两个变量的资料进行初步考察的简便而有效的方法,是将这两个变量的n对观察值(x1,y1)、(x2,y2)、(xn,yn)分别以坐标点的形式标记于同一直角坐标平面上,获得散点图(scatter diagram)。 v 根据散点图可初步判定双变量X和Y间的关系,包括:v X和Y相关的性质(正或负)和密切程度;v X和Y的关系是直线型的还是非直线型的;v 是否有一些特殊的点表示着其他因素的干扰等。 二、回归分析和相关分析 v 1回归分析 v 对两个变量进行回归分析是定量地研究X和Y的数值变化规律,根据这种规律可由一个变量的变化来估计另一个变量的变化。 v 在

3、回归模型中,两个变量有因果关系,原因变量称自变量(independent variable) ,一般用X表示;结果变量称依变量(dependent variable),以Y表示。X是已知的或是可控制的,没有误差或误差很小,而Y则不仅随X的变化而变化,还要受到随机误差的影响。 v 2相关分析 v 对两个变量进行相关分析,其目的是研究X和Y间有无相关以及相关程度、相关性质(方向)。v 在相关模型中,两个变量是平行的,没有因果关系的自变量和依变量之分,且皆有随机误差。第二节 直线回归v 一、直线回归方程(linear regression equation)v 1直线回归方程与参数估计 v 上式读作

4、“y依x的直线回归方程”。 v x是自变量;v 是和x的量相对应的依变量y的点估计值; v a是x=0时的值,即回归直线在y轴上的截距; v b是x每增加一个单位数时, 平均地将要增加(b0时)或减少(b0时)的单位数,叫回归系数。v 分别对a和b求偏导数并令其为0,即可获得正规方程组(normal equations): v 算得的b、a值带入方程式,即可保证 v 2直线回归方程的计算v 例10.1某地一年级12名女大学生的体重与肺活量的关系数据列于表10.1,试求肺活量(L)对体重(kg)的直线回归方程。表10.1 体重与肺活量关系v 散点图解:首先由表10.1算得回归分析所必须的6个一级

5、数据:v 然后,由一级数据算得5个二级数据:v 故得表10.1资料的回归方程为:v 上述方程中回归系数和回归截距的意义为:当体重(x)每增加1kg时,则肺活量平均增加0.558L;若体重为0,则肺活量为0.0004L。限定x的区间为42,58;如要在x58的区间外延,则必须有新的依据。v 3、直线回归方程的图示v 4直线回归的估计标准误v 回归方程的估计标准误sy/x为:v 恒等式 v 例10.2 试计算由表10.1资料获得的回归方程的估计标准误。代入(10.5)式有:v 它的统计意义是:在 范围内约有68.27%个观察点,在 范围内约有95.45%个观察点等。 v 5直线回归的数学模型和基本

6、假定v Y总体的每一个值由以下三部分组成: v Y的总体平均数v 因此,总体直线回归的数学模型可表示为:v 其中, v 相应的样本线性组成为: v 直线回归的基本假定v (1)Y变量是随机变量,而X变量则是没有误差的固定变量,至少和Y变量比较起来X的误差小到可以忽略。v (2)在任一X上都存在着一个Y总体(可称为条件总体),它是作正态分布的,其平均数 是X的线性函数:v (3)所有的Y总体都具有共同的误差方差v 这一方差不因X的不同而不同,而直线回归总体具有 试验所得的一组观察值(xi,yi)只是 中的一个随机样本。 v (4)随机误差相互独立,并作正态分布,具有 v 二、直线回归的假设检验v

7、 1回归关系的假设检验 v (1) t检验 v 遵循v=n-2的t分布 v 例10.3 试检验例10.1资料回归关系的显著性。 在例10.1和10.2已算得 b = 0.,SSx = 306.66667,sy/x = 0.288,故有:查附表4,t0.05,10=2.228,t0.01,10=3.169。现实得| t | = 3.580大于t0.01107,表明在的总体中因抽样误差而获得现有样本的概率小于0.01。所以应否定H0:b=0,接受H0:b0,即认为一年级女大学生体重和肺活量是有真实直线回归关系的,或者说是极显著的。 v (2)F检验 v SSy将分解成两个部分,即:v 上式的 即离

8、回归平方和Q,是试验误差及y对x的非直线关系的影响引起的,它和x的大小无关,具有v= n-2, 则为回归平方和,简记作U,它是由x的取值不同而引起的,具有u=(n-1) - (n-2)=1。由即可测定回归关系的显著性。 v 例10.4 试用F检验法检测例10.1资料回归关系的显著性。 v 在例10.1和10.2已算得SSy = 1.8892, SSx = 306.6667,SP = 18.04 , Q = 0.8280,故 U = SSy Q = 1.8892 0.8280 = 1.0612,并有方差分析列于表10.2。 v 在表10.2,得到F=12.82F0.01=10.04,所以同样表明

9、一年级女大学生体重和肺活量是有真实直线回归关系的。用t检验和用F检验的结果是完全一致的。 v (3)相关系数法 v 相关系数即标准化的回归系数。因此,同一资料的回归关系与相关关系的显著与否是一致的,由于相关系数的计算和检验都比较容易,所以在实践中常采用计算相关系数假设检验来完成对回归关系的假设检验。v 该方法在直线相关中介绍 v 三、回归预测与控制v 1条件总体平均数mY/X ( )的区间预测 v 根据回归模型的定义,每一个X上都有一个变量的条件总体,当X = x0 时,该条件总体的平均数为 其标准误为v 于是预测条件总体平均数mY/X ( )的95%置信区间为: v v 2个别值的预测v 这

10、是以一定的保证概率估计任一X上Y单个预测值的存在范围。个别值的估计不仅受 和b的抽样影响,而且还受到总体分布变异度的影响,当x=x0时,y0的标准误为:v 于是y0的(1 a)100%可靠度的区间预测为:v 例10.5测定迟熟早籼广陆矮4号在5月5日至8月5日播种时(每隔10d播一期),播种至齐穗的天数(x,d)和播种至齐穗的总积温(y,)的关系于表10.3。试计算在x = 65时,95%可靠度的总积温平均值和个别值的预测区间。表10.3 广陆矮4号播种至齐穗天数x和总积温()的关系v 解:由表10.3可算得:SS x = 444.0000,SSy = 55273.4022,SP = 4718

11、.2000,v 进而得:v a = 1496.0444 (10.63 58) = 879.50()v 故有直线回归方程 v 当x = 65时,其点预测为:v 在x = 65处, 及y的标准差分别为:v 因而,当x = 65时,95%可靠度的总积温平均值预测区间为:v 而95%可靠度的总积温个别值y预测区间为:v 对于表10.3资料,95%可靠度的预测区间的变化见图10.3。图10.3也叫预测图 图10.3 表10.3资料的95%可靠度预测图v 3、 控制v 控制问题是预测问题的反问题,若要求Y的个别值在内的可靠性为(1 - a) 100%,应把X控制在什么范围?首先,由于Y个别值(1 - a)

12、 100%可靠度的上下限分别为v 因而当控制个别值时,应满足 。同理当控制平均值时,控制区间应满足:v 对个别值的控制应满足方程组(x1 x2)v 对平均值的控制应满足方程组(x3 t0.01,所以H0:r=0被否定,计算结果说明,一年级女大学生体重与肺活量呈正相关,即体重愈重,肺活量愈大。 v (2)查表法v 有人已将不同自由度n=(n-2)下,达到0.05和0.01显著水平的临界ra值编成附表11。因此,当算得r值后,只要查出相应的值与之比较,就可以确定接受.v 如本例|r|=0.7495r0.01=0.708,所以否定H0。第四节 直线回归与相关的应用要点 v 1、回归和相关分析要有学科

13、专业知识作指导.v 2、要严格控制研究对象(X和Y)以外的有关因素.v 3、直线回归和相关分析结果不显著,并不意味着X和Y没有关系.v 4、一个显著的r或b并不代表X和Y的关系就一定是直线的,因为它并不排斥能够更好地描述X和Y的各种曲线的存在。 v 5、虽然显著的直线相关和回归并不意味着X和Y的真实关系就是直线的,但在X和Y的一定区间内,用直线关系作近似描述是允许的。v 6、一个显著的相关或回归并不一定具有实践上的预测意义。 v 7、为了提高回归和相关分析的准确性,两个变量的样本容量n (观察值对数)要尽可能大一些.小结:v 回归分析:v 1、先计算6个一级数据和5个二级数据。v 2、计算r,根据| r |查ra值表检验H0:r = 0,从而间接检验H0:b = 0(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论