直线回归与相关分析.ppt_第1页
直线回归与相关分析.ppt_第2页
直线回归与相关分析.ppt_第3页
直线回归与相关分析.ppt_第4页
直线回归与相关分析.ppt_第5页
免费预览已结束,剩余130页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

平均数,标准差,方差分析,多重比较,集中点,离散程度,差异显著性,一个变量(产量),施肥量,播种密度,品种,在实际研究中,事物之间的相互关系涉及两个或两个以上的变量,只要其中的一个变量变动了,另一个变量也会跟着发生变动,这种关系称为协变关系,具有协变关系的变量称为协变量。,确定的函数关系,PV=RT气体压强,S=r2圆的面积,协变量,S=ab长方形面积,身高与胸围、体重,施肥量与产量,溶液的浓度与OD值,人类的年龄与血压,温度与幼虫孵化,不完全确定的函数关系(相关关系),协变量,相关变量,一个变量的变化受另一个变量或几个变量的制约,因果关系,平行关系,两个以上变量之间共同受到另外因素的影响,动物的生长速度受遗传、营养等影响,子女的身高受父母身高的影响,人的身高和体重之间的关系,兄弟身高之间的关系,为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应该是成对的,然后在直角坐标系上描述这些点,这一组点集称为散点图。,散点图(scatterdiagram),为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。,散点图(scatterdiagram),两个变量间关系的性质(正向协同变化或负向协同变化)和程度(关系是否密切),两个变量间关系的类型(直线型或曲线型),是否有异常观测值的干扰,正向直线关系,负向直线关系,曲线关系,定性研究,回归(regerssion),相关(correlation),定量研究,直线型,非直线型,二元,多元,直线型,二元,直线相关与回归分析,第九章,第一节,第二节,第三节,回归与相关的概念,直线回归,直线相关,第九章,相关变量,因果关系,平行关系,回归分析(regressionanalysis),相关分析(correlationanalysis),一个变量的变化受另一个变量或几个变量的制约,两个以上变量之间共同受到另外因素的影响,在生物学中,研究两个变量间的关系,主要是为了探求两变量的内在联系,或从一个变量X(可以是随机变量,也可以是一般的变量),去推测另一个随机变量Y。,x,y,施肥量(可以严格地人为控制),产量,如果对x的每一个可能的值,都有随机变量y的一个分布相对应,则称随机变量y对变量x存在回归(regression)关系。,自变量(independentvariable),因变量(dependentvariable),因果关系,一个变量的变化受另一个变量或几个变量的制约,在大量测量各种身高人群的体重时会发现,虽然在同样身高下,体重并不完全一样。但在每一身高下,都有一个确定的体重分布与之相对应;,在大量测量各种体重人群的身高时会发现,虽然在同样体重下,身高并不完全一样。但在每一体重下,都有一个确定的身高分布与之相对应;,身高与体重之间存在相关关系。,X身高,Y体重,X体重,Y身高,相关关系,一、直线回归方程的建立,二、直线回归的数学模型和基本假定,三、直线回归的假设检验,四、直线回归的区间估计,简单回归(SimpleRegression),一、直线回归方程的建立,直线回归就是用来描述一个变量如何依赖于另一个变量,温度,天数,直线回归方程(linearregressionequation),截距(intercept)回归截距,斜率(slope)回归系数(regerssioncoefficient),自变量,与x值相对应的依变量y的点估计值,a0,b0,a0,a0,b0,a=0,b=0,变量1,变量2,收集数据,散点图,温度,天数,黏虫孵化历期平均温度与历期天数关系图,回归直线在平面坐标系中的位置取决于a,b的取值。,y,最小,最小二乘法(methodofleastsquare),最小,为最小值,基本性质,11.8-20.4,用x估计y,存在随机误差,必须根据回归的数学模型对随机误差进行估计,并对回归方程进行检验。,y,误差,二、数学模型和基本假定,y,y的总体平均数,因x引起y的变异,y的随机误差,总体回归截踞,总体回归系数,随机误差,直线回归的数学模型(modeloflinearregression),基本假定,x是没有误差的固定变量,或其误差可以忽略,而y是随机变量,且有随机误差。,x是的任一值对应着一个y总体,且作正态分布,其平均数+x,方差受偶然因素的影响,不因x的变化而改变。,随机误差是相互独立的,呈正态分布。,y,三、直线回归的假设检验,有意义,指导实践,?,是否真正存在线性关系回归关系是否显著,(x,y),实际值与估计值之差,剩余或残差。,估计值与均值之差,它与回归系数的大小有关。,检验线性回归系数的显著性,采用t检验法进行。,假设,H0:=0HA:0,检验样本回归系数b是否来自=0的双变量总体,以推断线性回归的显著性。,依变量y的平方和,总平方和,SSy,SS总,回归平方和U,离回归平方和Q,y的离均差,反映了y的总变异程度,称为y的总平方和。,说明未考虑x与y的回归关系时y的变异。,反映了由于y与x间存在直线关系所引起的y的变异程度,因x的变异引起y变异的平方和,称为回归平方和。,它反映在y的总变异中由于x与y的直线关系,而使y变异减小的部分,在总平方和中可以用x解释的部分。,U值大,说明回归效果好。,回归平方和(regressionsumofsquares)U,误差因素引起的平方和,反映了除去x与y的直线回归关系以外的其余因素使y引起变化的大小。,反映x对y的线性影响之外的一切因素对y的变异的作用,也就是在总平方和中无法用x解释的部分。,离回归平方和误差平方和,剩余平方和(residualsumofsquares)Q,在散点图上,各实测点离回归直线越近,Q值越小,说明直线回归的估计误差越小。,依变量y的平方和,总平方和,SSy,SS总,回归平方和U,离回归平方和Q,直线回归分析中,回归自由度等于自变量的个数,只涉及到1个自变量,df回归1,df总n-1,df离回归n-2,Q/n-2,离回归标准差回归估计标准误剩余标准差,离回归方差,:它是y的本底水平,即x对y没有任何作用时,y的数量表现。,x:它描述了因变量y的取值改变中,由y与自变量x的线性关系所引起的部分,即可以由x直接估计的部分。,误差:它描述了因变量y的取值改变由x以外的可能与y有关的随机和非随机因素共同引起的部分,即不能由x直接估计的部分。,两个变量是否存在线性关系,可采用F检验法进行。,若x与y间不存在直线关系,则总体回归系数=0;,若x与y间存在直线关系,则总体回归系数0,假设,H0:两变量间无线性关系HA:两变量间有线性关系,在无效假设存在下,回归方差与离回归方差的比值服从F分布。,df1=1df2=n-2,H0:黏虫孵化历期平均温度x与历期天数y之间不存在线性关系HA:两变量间有线性关系,df=n-2,回归系数的标准误,否定H0:=0,接受HA:0,认为黏虫孵化历期平均温度与历期天数间有真实直线回归关系。,同一概率值,F(一尾)值(df1=1,df2=n-2),t值(两尾)(df=n-2),四、直线回归的区间估计,点估计,四、直线回归的区间估计,df=2,总体回归截距的置信区间,总体回归系数的置信区间,95%的样本回归截距落在该区间内,95%的样本回归系数落在该区间内,不包含随机误差,y总体的平均数,单个y值所在的区间,x,点估计,df=n-2,y总体的平均数,单个y值所在的区间,x,y总体的平均数,黏虫孵化历期平均温度为15时,历期天数为多少天(取95置信概率)?,df=n-2,y总体的平均数,x,单个y值所在的区间,单个y值所在的区间,某年的历期平均温度为15时,该年的历期天数为多少天(取95置信概率)?,正比,反比,作回归分析时要有实际意义。,直线回归注意问题,不能把毫无关联的两种现象勉强作回归分析,即便有回归关系也不一定是因果关系,还必须对两种现象的内在联系有所认识,即能从专业理论上作出合理解释或有所依据。,进行直线回归分析之前,绘制散点图。,直线回归注意问题,当观察点的分布有直线趋势时,才适宜作直线回归分析。,散点图还能提示资料有无异常值,即对应于残差绝对值特别大的观测数据。异常点的存在往往对回归方程中的a和b的估计产生较大的影响。因此,需要复查此异常点的值。,直线回归的适应范围一般以自变量的取值为限。,直线回归注意问题,在自变量范围内求出的估计值,一般称为内插(interpolation);超过自变量取值范围所计算出的估计值,称为外延(extrapolation)。,若无充分理由证明超过自变量取值范围还是直线,应该避免外延。,描述两变量间的依存关系。,直线回归的应用,利用回归关系进行预测(forecast)。,直线回归的应用,将自变量作为预报回子,代入方程对预报量进行估计,其波动范围可按个体y值容许区间方法计算。,回归方程进行统计控制(statisticalcontrol).,直线回归的应用,NO2浓度,一、相关系数和决定系数,二、相关系数的假设检验,三、相关系数的区间估计,一、相关系数和决定系数,x,y,线性关系,了解x和y相关以及相关的性质,相关系数,相关类型,正相关,正相关,负相关,零相关,直线相关的两个变量的相关程度和性质,乘积和,互变量,(1)单位问题,(2)x与y本身的变异不影响x与y之间的相关性,?,r,两个变量的变异程度,两个变量的度量单位,两个变量的个数,r可以用来比较不同双变量的相关程度和性质。,样本,总体,两个变量在相关系数计算中的地位是平等的,没有自变量和依变量之分,区别,联系,决定系数coefficientofdetermination,变量x引起y变异的回归平方和占y总变异平方和的比率,当SSy固定时,回归平方和U的大小取决于r2。,回归平方和U是由于引入了相关变量而使总平方和SSy减少的部分。,说明引入相关的效果好,x与y完全相关。,完全正相关,完全负相关,散点图上所有点必在一条直线上。,回归一点作用也没有,即用x的线性函数完全不能预测y值的变化。,x与y之间不存在直线相关关系,这时散点图分布紊乱,没有直线的趋势,但可能存在非线性关系。,x的线性函数对预测y值的变化有一定作用,但不能准确预测,说明y还受其他因素(包括随机误差)的影响。,相关系数(r)和决定系数(r2)的区别,(2)r可正可负,r2取正,r2一般只用于表示相关程度而不表示相关性质。,温度,天数,黏虫孵化历期平均温度与历期天数成负相关。,x和y的变异有93.74可用二者之间的线性关系来解释。,=0,x,y,(x1,y1),(x2,y2),(x3,y3),(xn,yn),P?,二、相关系数的假设检验,r是线性关系强弱的指标,H0:=0HA:0,检验样本回归系数b是否来自=0的双变量总体,以推断线性回归的显著性。,对于相关系数r作显著性检验的无效假设为=0,即测定r来自=0总体的概率,也就是判断r所代表的总体是否存在直线相关。,总体相关系数=0,相关系数r的标准误,()假设,(2)水平,(3)检验,(4)推断,H0:=0;HA:0,选取显著水平,在显著水平上,否定H0,接受HA;推断r显著。,在显著水平上,接受H0,否定HA;推断r不显著。,r经显著性检验的结果呈不显著时,便推断两变数间不存在相关关系,这时不能用r代表其相关密切程度。,()假设,(2)水平,(3)检验,(4)推断,H0:=0;HA:0,选取显著水平0.01,否定H0,接受HA;推断r极显著,黏虫孵化历期温度与历期天数之间存在着极显著的直线相关关系。,必然结果,r与t符号相同。,相关系数的假设检验可不计算t值,直接从附表12查出df=n-2时r的临界值。,椰子树的产量数X(个),椰子树的高度Y(尺),X(个)120121123126128Y(尺)2123222524,椰子树的产果树与树高之间无直线相关关系。,当样本太小时,即使r值达到0.7996,样本也可能来自总体相关系数=0的总体。,不能直观地由r值判断两变数间的相关密切程度。,试验或抽样时,所取的样本容量n大一些,由此计算出来的r值才能参考价值。,1,2,三、相关系数的区间估计,r值经假设检验达到显著水平,需要由r估计总体相关系数所在的区间。,y,(x1,y1),(x2,y2),(x3,y3),(xn,yn),X,0,两变量无直线相关关系,0,两变量有直线相关关系,正态分布,黏虫孵化历期温度与历期天数的总体相关系数的95的置信区间为(-0.9944,-0.8294)。,相关与回归的联系,回归方程的显著性,回归系数的显著性,相关系数的显著性,一致,x,y,三者同时显著或不显著。,r与b的符号一致,由两变量离均差乘积之和的符号决定。,相关与回归的联系,r:+,两变量间的相互关系是同向变化的。,b:+,x增(减)一个单位,y平均值增(减)b个单位。,相关与回归的联系,用回归解释相关。,相关与回归的联系,y关于x的直线回归系数,x关于y的直线回归系数,x,y,回归,相关,x是可以精确测量和严格控制的变量。,y服从正态分布。,x服从正态分布。,y服从正态分布。,I型回归,II型回归,相关与回归的区别,资料要求,x,y,两变量间依存变化的数量关系,两变量间相关关系,回归,相关,相关与回归的区别,应用,x,y,回归系数与相关系数的正负号都由两变量离均差积之和的符号决定,所以同一资料的b与其r的符号相同。,回归系数有单位,形式为(应变量单位/自变量单位),相关系数没有单位。,相关系数的范围在-1+1之间,而回归系数没有这种限制。,有些资料用相关表示较适宜,比如兄弟与姐妹间的身长关系、人的身长与前臂长之间的关系等资料。,有些资料用相关和回归都适宜,此时须视研究需要而定。,就一般计算程序来说,是先求出相关系数r并对其进行假设检验,如果r显著并有进行回归分析之必要,再建立回归方程。,注意问题,作

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论