直线回归与相关分析_第1页
直线回归与相关分析_第2页
直线回归与相关分析_第3页
直线回归与相关分析_第4页
直线回归与相关分析_第5页
已阅读5页,还剩116页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

直线回归与相关分析第1页,课件共121页,创作于2023年2月复习1、方差分析的用途。2、方差分析的基本思路3、方差分析的出发点4、方差分析的步骤5、单因素方差分析中SST、SSt、SSe的含义及三者的关系。第2页,课件共121页,创作于2023年2月第九章第一节第二节第三节回归与相关的概念直线回归直线相关本章节内容第3页,课件共121页,创作于2023年2月第一节:回归与相关的概念

前面各章我们讨论的问题,都只涉及到一个变量,如体重、日增重、产仔数、体温、血糖浓度、产奶量、产毛量或孵化率、发病率等。但是,由于客观事物在发展过程中相互联系、相互影响,因而在生物学研究中常常要研究两个或两个以上变量间的关系。

第4页,课件共121页,创作于2023年2月

一、确定的函数关系:变量间存在着完全确定性的一一对应关系,可以用精确的数学表达式来表示。

二、不完全确定的函数关系:变量间不存在完全的确定性关系,不能用精确的数学公式来表示,统计学中把这些变量间的关系称为协变关系(相关关系),把存在协变关系的变量称为协变量(相关变量)。

研究两个或两个以上变量间的关系有两类:

第5页,课件共121页,创作于2023年2月相关变量因果关系平行关系一个变量的变化受另一个变量或几个变量的制约。两个以上变量之间互为因果或共同受到另外因素的影响。第6页,课件共121页,创作于2023年2月1、回归分析(regressionanalysis)研究呈因果关系的相关变量间的关系。表示原因的变量称为自变量,表示结果的变量称为依变量。一因一果,一元回归分析一个自变量与一个依变量的回归分析,分为直线回归分析与曲线回归分析两种。多因一果,多元回归分析多个自变量与一个依变量的回归分析,分为多元线性回归分析与多元非线性回归分析两种。第7页,课件共121页,创作于2023年2月回归分析的任务:

揭示出呈因果关系的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程,由自变量(原因)来预测、控制依变量(结果)。

回归分析主要包括:找出回归方程;检验回归方程是否显著;通过回归方程来预测或控制另一变量。第8页,课件共121页,创作于2023年2月2、相关分析(correlationanalysis)

研究呈平行关系的相关变量之间的关系。简单相关分析:对两个变量间的直线关系进行相关分析,也称为直线相关分析。复相关分析:对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关;偏相关分析:

研究其余变量保持不变的情况下两个变量间的线性相关。 第9页,课件共121页,创作于2023年2月第10页,课件共121页,创作于2023年2月第二节:直线回归

LinearRegression一、直线回归方程的建立二、直线回归的数学模型和基本假定三、直线回归的假设检验四、直线回归的区间估计第11页,课件共121页,创作于2023年2月一、直线回归方程的建立通过试验或调查获得两个变量的n对观测值:(x1,y1),(x2,y2),……,(xn,yn)。为了直观地看出x和y间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图。1、散点图:x与y的关系散点图第12页,课件共121页,创作于2023年2月两个变量间关系的性质(正向协同变化或负向协同变化)和程度(关系是否密切)两个变量间关系的类型(直线型或曲线型)是否有异常观测值的干扰

散点图直观地、定性地表示了两个变量之间的关系。为了探讨它们之间的规律性,还必须根据观测值将其内在关系定量地表达出来。

从散点图可以看出:第13页,课件共121页,创作于2023年2月X每一个取值都有Y的一个正态分布与之对应。根据回归的定义:

由于依变量y的实际观测值总是带有随机误差,因而依变量y的实际观测值yi可用自变量x的实际观测值xi表示为:(i=1,2,…,n)(6-1)

式中:α,β为未知参数,

i为相互独立,且服从N(0,)的随机变量。这就是直线回归的数学模型。2、直线回归的数学模型第14页,课件共121页,创作于2023年2月总体线性回归模型的图示YX观察值观察值第15页,课件共121页,创作于2023年2月总体线性回归模型因变量自变量参数随机误差y条件平均数第16页,课件共121页,创作于2023年2月为了描述X与Y间的数量关系,必须找出一个能代表Y的值与χi对应,这个代表值只能是当X=χi时,Y的平均数μy/X=χi。μy/X=χi称为Y的条件平均数。如何估计μy/X=χi是直线回归所要解决的问题。第17页,课件共121页,创作于2023年2月根据回归方程所画出的直线称为回归线,b是直线的斜率,称为回归系数。多次重复的平均值所做的直线估计总体最理想实际应用中并不设置重复,而是直接用n对观察值估计总体回归线。怎样通过实际观测值得到总体回归α

和β的最好点估计值a和b?第18页,课件共121页,创作于2023年2月下一张

主页

退出

上一张

设回归直线方程为:(6-2)其中,是α的估计值,b是β的估计值。最小二乘估计法参数α,β的估计第19页,课件共121页,创作于2023年2月建立样本线性回归方程的方法

最小二乘法实际观察值与样本回归线上的点的距离的平方和最小xye1e2e3e4最小

原则:回归直线是指所有直线中最接近散点图全部散点的直线,即最好的直线是使总的估计误差达到最小的直线。第20页,课件共121页,创作于2023年2月最小最小二乘法(methodofleastsquare)a、b应使回归估计值与实际观测值的误差平方和最小,即:最小这种使估计误差平方之和达最小的参数估计方法称为最小二乘法。第21页,课件共121页,创作于2023年2月令Q对a、b的一阶偏导数等于0,即:

整理得关于a、b的正规方程组:

解正规方程组,得:

第22页,课件共121页,创作于2023年2月自变量x的离均差与依变量y的离均差的乘积和。

a叫做样本回归截距,是总体回归截距的最小二乘估计值也是无偏估计值,是回归直线与y轴交点的纵坐标,当x=0时,

y=a;

简称乘积和,记作SPxy或Ssxy

简称SSX

。b叫做样本回归系数,表示x改变一个单位,y平均改变的数量;b的符号反映了x影响y的性质,b的绝对值大小反映了x影响y的程度;第23页,课件共121页,创作于2023年2月为最小值基本性质第24页,课件共121页,创作于2023年2月变量1变量2收集数据散点图温度天数XY平均温度(℃)历期天数(d)

11.830.114.717.315.616.716.813.617.111.918.810.719.58.320.46.7第25页,课件共121页,创作于2023年2月XY平均温度(℃)历期天数(d)

11.830.114.717.315.616.716.813.617.111.918.810.719.58.320.46.7第26页,课件共121页,创作于2023年2月第27页,课件共121页,创作于2023年2月以上计算也可在回归计算表中进行。序号kXiYiXi2XiYiYi212∑回归方程计算表1(一级数据)第28页,课件共121页,创作于2023年2月∑Xi=

∑Yi=

n=

X=Y=∑Xi2=∑XiYi=∑Yi2=(∑Xi)2/n=(∑Xi∑Yi)/n=(∑Yi)2/n=SSx=SPxy=SSy=b=SPxy/SSx=a=y-bx=回归方程计算表2(二级数据)注:x,y分别为X,Y的平均数第29页,课件共121页,创作于2023年2月01020304010121416182022温度天数(天)(℃)11.8-----20.4b的生物学意义:当温度提高一个单位时,历期缩短2.5317天。a的生物学意义:当温度为0时,历期是57.04天。根据直线回归方程可作出回归直线,见图。从图看出,并不是所有的散点都恰好落在回归直线上,这说明用去估计y是有偏差的。第30页,课件共121页,创作于2023年2月二、直线回归的假设检验有意义指导实践?是否真正存在线性关系回归关系是否显著第31页,课件共121页,创作于2023年2月(一)对回归方程的F检验1、直线回归的变异来源yy-y实际值与估计值之差,剩余或残差。y-y估计值与均值之差,它与回归系数的大小有关。y=a+bxy-yy-y(x,y)第32页,课件共121页,创作于2023年2月依变量

y的平方和,总平方和,记SST或SS总。回归平方和USSR离回归平方和QSSE第33页,课件共121页,创作于2023年2月y的离均差,反映了y的总变异程度,称为y的总平方和。说明未考虑x与y的回归关系时y的变异。

它反映在y的总变异中由于x与y的直线关系,而使y变异减小的部分,在总平方和中可以用x解释的部分。

SSR(U)值大,说明回归效果好。为由x变异引起y变异的平方和,称回归平方和(regressionsumofsquares)USSR第34页,课件共121页,创作于2023年2月误差因素引起的平方和,反映了除去x与y的直线回归关系以外的其余因素使y引起变化的大小。反映x对y的线性影响之外的一切因素对y的变异的作用,也就是在总平方和中无法用x解释的部分。离回归平方,误差平方和,残差(剩余)平方和(residualsumofsquares)SSEQ在散点图上,各实测点离回归直线越近,SSE

(Q)值越小,说明直线回归的估计误差越小。第35页,课件共121页,创作于2023年2月第36页,课件共121页,创作于2023年2月直线回归分析中,回归自由度等于自变量的个数,只涉及到1个自变量df回归=1df总=n-1df离回归=n-2第37页,课件共121页,创作于2023年2月Q/n-2离回归标准差回归估计标准误剩余标准差离回归方差第38页,课件共121页,创作于2023年2月两个变量是否存在线性关系,可采用F检验法进行。总体回归截踞总体回归系数随机误差若x与y间不存在直线关系,则总体回归系数β=0;若x与y间存在直线关系,则总体回归系数β≠0第39页,课件共121页,创作于2023年2月假设H0:两变量间无线性关系HA:两变量间有线性关系在无效假设存在下,回归方差与离回归方差的比值服从F分布。df1=1df2=n-22、F显著性检验第40页,课件共121页,创作于2023年2月H0:黏虫孵化历期平均温度x与历期天数y之间不存在线性关系HA:两变量间有线性关系变异来源dfSSs2FF0.05F0.01

回归1353.6628353.662889.89**5.9913.74

离回归623.60603.9343

总变异7377.2688第41页,课件共121页,创作于2023年2月检验线性回归系数的显著性,采用t检验法进行。(二)t检验b的方差:第42页,课件共121页,创作于2023年2月df=n-2假设H0:β=0

HA:β≠0检验样本回归系数b是否来自β=0的双变量总体,以推断线性回归的显著性。

说明样本回归系数的变异程度不仅取决于误差方差的大小,也取决于自变量X的变异程度。如果自变量X的变异程度大,即取值分散一些,则b的变异就会小一些,b就会稳定一些,回归方程所估计出的值就会精确一些。第43页,课件共121页,创作于2023年2月第44页,课件共121页,创作于2023年2月否定H0:β=0,接受HA:β≠0,认为黏虫孵化历期平均温度与历期天数间有真实直线回归关系。第45页,课件共121页,创作于2023年2月同一概率值F(一尾)值(df1=1,df2=n-2)t值(两尾)(df=n-2)第46页,课件共121页,创作于2023年2月

依变量对自变量的回归关系是通过回归系数来体现的,截距的大小对回归关系没有影响。当截距为0时,表示回归直线通过原点(0,0)。有时需要检验回归直线是否通过原点,就要对是否为0进行检验,可以利用t检验,为此需要先求出的期望和方差:(三)对截距的检验df=n-2假设H0:=0HA:≠0第47页,课件共121页,创作于2023年2月与0的差异是极显著的,也就是说没有通过原点。第48页,课件共121页,创作于2023年2月

特别要指出的是:利用直线回归方程进行预测或控制时,一般只适用于原来研究的范围,不能随意把范围扩大,因为在研究的范围内两变量是直线关系,这并不能保证在这研究范围之外仍然是直线关系。若需要扩大预测和控制范围,则要有充分的理论依据或进一步的实验依据。利用直线回归方程进行预测或控制,一般只能内插,不要轻易外延。第49页,课件共121页,创作于2023年2月第三节:直线相关LinearCorrelation一、相关系数和决定系数二、相关系数的假设检验三、相关系数的区间估计第50页,课件共121页,创作于2023年2月一、相关系数xy线性关系了解x和y相关以及相关的性质相关系数第51页,课件共121页,创作于2023年2月相关类型正相关负相关零相关第52页,课件共121页,创作于2023年2月IIIIIIIVIIIIIIIVIIIIIIIV第53页,课件共121页,创作于2023年2月IIIIIIIV正相关第54页,课件共121页,创作于2023年2月IIIIIIIV正相关IIIIIIIV负相关第55页,课件共121页,创作于2023年2月IIIIIIIV零相关第56页,课件共121页,创作于2023年2月直线相关的两个变量的相关程度和性质乘积和互变量(1)单位问题(2)x与y本身的变异会影响x与y之间的相关性?n这个统计量也称为样本协变量(covairance),表示Cov(x,y)。第57页,课件共121页,创作于2023年2月rr可以用来比较不同双变量的相关程度和性质。第58页,课件共121页,创作于2023年2月样本总体第59页,课件共121页,创作于2023年2月两个变量在相关系数计算中的地位是平等的,没有自变量和依变量之分相关回归区别联系第60页,课件共121页,创作于2023年2月第61页,课件共121页,创作于2023年2月用y可以准确预测y值x与y完全相关。完全正相关完全负相关散点图上所有点必在一条直线上。第62页,课件共121页,创作于2023年2月回归一点作用也没有,即用x的线性函数完全不能预测y值的变化。x与y之间不存在直线相关关系,这时散点图分布紊乱,没有直线的趋势,但可能存在非线性关系。IIIIIIIV第63页,课件共121页,创作于2023年2月x的线性函数对预测y值的变化有一定作用,但不能准确预测,说明y还受其他因素(包括随机误差)的影响。第64页,课件共121页,创作于2023年2月相关系数(r)和决定系数(r2)

的区别(1)除去r=1和0的情况外,r2<r,这样可以防止对相关系数所表示的相关程度作夸张的解释。(2)r可正可负,r2取正,r2一般只用于表示相关程度而不表示相关性质。第65页,课件共121页,创作于2023年2月温度天数黏虫孵化历期平均温度与历期天数成负相关。x和y的变异有93.74%可用二者之间的线性关系来解释。第66页,课件共121页,创作于2023年2月H0:ρ=0

HA:ρ≠0r是一个统计量,反映线性关系强弱的指标。而由于可能存在抽样误差,并不能直接说明总体线性相关关系是否确实存在。对于相关系数r作显著性检验的无效假设为ρ=0,即测定r来自ρ=0总体的概率,也就是判断r所代表的总体是否存在直线相关。总体相关系数ρ=0二、相关系数的假设检验第67页,课件共121页,创作于2023年2月(一)假设检验:检验方法有:F检验t检验利用相关系数临界值表1、F检验从两个变量中任选出一个变量,求出它的平方和并将其剖分为相关平方和与非相关平方和。如选择变量y,其平方和及其剖分为:式中:等式右边的第1项为相关平方和;第2项为非相关平方和。第68页,课件共121页,创作于2023年2月综上所述,可归纳成方差分析表(analysisofvariancetable)S非相关2n-2SS非相关非相关n-1SS总总和S相关21SS相关相关F均方自由度平方和变异来源F=S相关2S非相关23.9623.6非相关7SS总总和353.71353.7相关F均方自由度平方和变异来源F=90.7﹡﹡F0.05F0.0113.745.99第69页,课件共121页,创作于2023年2月F值的计算实际上可以不考虑,因为分母和分子都有它,可以约掉。如果选择x并对其平方和进行剖分,结果一样的。第70页,课件共121页,创作于2023年2月(1)假设(2)水平(3)检验(4)推断H0:ρ=0;HA:ρ≠0选取显著水平α=0.01否定H0,接受HA;推断r极显著,黏虫孵化历期温度与历期天数之间存在着极显著的直线相关关系。2、t检验第71页,课件共121页,创作于2023年2月3、利用相关系数临界表检验相关系数的假设检验可不计算t值,直接从附表12查出df=n-2时r的临界值。

临界值特点:当样本对子数很少时,样本相关系数很大时才会显著;而当对子数大到100时,只要达到0.1946就显著。第72页,课件共121页,创作于2023年2月r经显著性检验的结果呈不显著时,便推断两变数间不存在相关关系,这时不能用r代表其相关密切程度。第73页,课件共121页,创作于2023年2月三、相关系数的区间估计r值经假设检验达到显著水平,需要由r估计总体相关系数ρ所在的区间。ρy(x1,y1)(x2,y2)(x3,y3)(xn,yn)X第74页,课件共121页,创作于2023年2月ρ=0两变量无直线相关关系ρ≠0两变量有直线相关关系第75页,课件共121页,创作于2023年2月正态分布第76页,课件共121页,创作于2023年2月第77页,课件共121页,创作于2023年2月黏虫孵化历期温度与历期天数的总体相关系数ρ的95%的置信区间为(-0.9944,-0.8294)。第78页,课件共121页,创作于2023年2月相关与回归的联系回归方程的显著性回归系数的显著性相关系数的显著性一致xy第79页,课件共121页,创作于2023年2月三者同时显著或不显著。r与b的符号一致,由两变量离均差乘积之和的符号决定。相关与回归的联系第80页,课件共121页,创作于2023年2月r:+,两变量间的相互关系是同向变化的。b:+,x增(减)一个单位,y平均值增(减)b个单位。相关与回归的联系第81页,课件共121页,创作于2023年2月用回归解释相关。相关与回归的联系第82页,课件共121页,创作于2023年2月y关于x的直线回归系数x关于y的直线回归系数xy第83页,课件共121页,创作于2023年2月回归相关x是可以精确测量和严格控制的变量。y服从正态分布。x服从正态分布。y服从正态分布。I型回归II型回归相关与回归的区别资料要求xy第84页,课件共121页,创作于2023年2月两变量间依存变化的数量关系两变量间相关关系回归相关相关与回归的区别应用xy单向xyxy双向第85页,课件共121页,创作于2023年2月回归系数与相关系数的正负号都由两变量离均差积之和的符号决定,所以同一资料的b与其r的符号相同。回归系数有单位,形式为(应变量单位/自变量单位),相关系数没有单位。相关系数的范围在-1~+1之间,而回归系数没有这种限制。第86页,课件共121页,创作于2023年2月有些资料用相关表示较适宜,比如兄弟与姐妹间的身长关系、人的身长与前臂长之间的关系等资料。有些资料用相关和回归都适宜,此时须视研究需要而定。就一般计算程序来说,是先求出相关系数r并对其进行假设检验,如果r显著并有进行回归分析之必要,再建立回归方程。第87页,课件共121页,创作于2023年2月注意问题作相关与回归分析要有实际意义。不要把毫无关联的两个事物或现象用来作相关或回归分析。****如儿童身高的增长与小树的增长,作相关分析是没有实际意义的,如果计算由儿童身高推算小树高的回归方程则更无实际意义。也许算得的r、b是显著的,也是没有意义的。

第88页,课件共121页,创作于2023年2月相关分析只是以相关系数来描述两个变量间相互关系的密切程度和方向,并不能阐明两事物或现象间存在联系的本质。对相关分析的作用要正确理解。****注意问题相关并不一定就是因果关系,切不可单纯依靠相关系数或回归系数的显著性“证明”因果关系之存在。要证明两事物间的因果关系,必须凭籍专业知识从理论上加以阐明。但是,当事物间的因果关系未被认识前,相关分析可为理论研究提供线索。第89页,课件共121页,创作于2023年2月注意问题适合相关和回归分析的资料通常有两种一个变量X是选定的,另一个变Y是从正态分布的总体中随机抽取的。****1回归分析第90页,课件共121页,创作于2023年2月注意问题由一个变量推算另一个变量说明两变量间的相互关系两变量X、Y(或X1、X2)都是从正态分布的总体中随机抽取的,即是正态双变量中的随机样本。2回归分析相关分析第91页,课件共121页,创作于2023年2月注意问题在回归分析中,由X推算Y与由Y推算X的回归方程是不同的,不可混淆。

必须正确选定自变量与应变量。一般说,事物的原因作自变量X,当事物的因果关系不很明确时,选误差较小的即个体变异小的变量作自变量X,以推算应变量Y。第92页,课件共121页,创作于2023年2月注意问题回归方程的适用范围有其限度,一般仅适用于自变量X的原数据范围内,而不能任意外推。因为我们并不知道在这些观察值的范围之外,两变量间是否也呈同样的直线关系。

第93页,课件共121页,创作于2023年2月一、直线回归方程的建立通过试验或调查获得两个变量的n对观测值:(x1,y1),(x2,y2),……,(xn,yn)。为了直观地看出x和y间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图。1、散点图:1234564321正向直线关系1234564321负向直线关系1234564321曲线关系第94页,课件共121页,创作于2023年2月三、直线回归的区间估计a和b的置信区间(一)μy/x

的置信区间和单个y的预测区间(二)μy/x

和单个y观测值置信区间图示(三)第95页,课件共121页,创作于2023年2月(一)a和b的置信区间第96页,课件共121页,创作于2023年2月(一)a和b的置信区间df=2总体回归截距α的置信区间第97页,课件共121页,创作于2023年2月(一)a和b的置信区间总体回归系数β

的置信区间第98页,课件共121页,创作于2023年2月第99页,课件共121页,创作于2023年2月95%的样本回归截距落在该区间内95%的样本回归系数落在该区间内第100页,课件共121页,创作于2023年2月(二)μy/x

的置信区间和单个y的预测区间不包含随机误差由回归方程预测x为某一定值时y的观测值所在区间,则y观测值不仅受到y和b的影响,也受到随机误差的影响。第101页,课件共121页,创作于2023年2月y总体的平均数单个y值所在的区间x点估计(二)μy/x

的置信区间和单个y的预测区间第102页,课件共121页,创作于2023年2月df=n-2y总体的平均数单个y值所在的区间xy总体的平均数第103页,课件共121页,创作于2023年2月第104页,课件共121页,创作于2023年2月黏虫孵化历期平均温度为15℃时,历期天数为多少天(取95%置信概率)?第105页,课件共121页,创作于2023年2月df=n-2y总体的平均数x单个y值所在的区间单个y值所在的区间第106页,课件共121页,创作于2023年2月第107页,课件共121页,创作于2023年2月某年的历期平均温度为15℃时,该年的历期天数为多少天(取95%置信概率)?第108页,课件共121页,创作于2023年2月(二)μy/x

的置信区间和单个y的预测区间第109页,课件共121页,创作于2023年2月(三)μy/x

和单个y观测值置信区间图示第110页,课件共121页,创作于2023年2月正比反比愈靠近x,对y总体平均值或单个y的估计值就愈精确,而增大样本含量,扩大x的取值范围亦可提高精确度。第111页,课件共121页,创作于2023年2月四、回归方程的拟合度——决定系数

回归方程是根据使估计误差平方和最小的原理(最小

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论