一元回归及简单相关分析_第1页
一元回归及简单相关分析_第2页
一元回归及简单相关分析_第3页
一元回归及简单相关分析_第4页
一元回归及简单相关分析_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一元回归及

简单相关分析SimpleRegressionandCorrelationAnalysis第8章第一节变量之间的关系:函数关系(确定性关系),变量之间依公式的关系而存在。相关关系,一种变量受另一种变量的影响,两者之间既有关系,但又不存在完全确定的函数关系。内容概要第一节回归与相关的基本概念第二节一元线性回归方程第四节一元非线性回归第三节一元线性回归的检验第五节相关

第一节回归与相关的基本概念1、回归的概念

回归(regression):设有两个随机变量X和Y,如果对于变量X的每一个可能的值xi,另一个随机变量Y都有一个确定的分布与之相对应,则称随机变量Y对变量X存在着回归。一、回归自变量(independentvariable):在具有回归关系的变量中,自身发生变化从而引起其他变量随之发生变化的变量,称为自变量,也称解释变量。随机变量X为自变量。因变量(dependentvariable):依据自变量的变化而发生变化的随机变量称为因变量,也称为反应变量。随机变量Y

为因变量。一元回归:只有一个自变量的回归,称为一元回归,也称为简单回归。2、自变量与因变量3、一元回归与多元回归多元回归:有多个自变量的回归,称为多元回归。4、条件平均数

(conditionalmean)条件平均数:在具有回归关系的两变量之间,对于自变量X的任一可能的值xi,因变量Y与之对应的分布的平均数μY·X=xi,称为自变量X=xi时因变量Y的条件平均数。相关:设有两个随机变量X和Y,对于任一随机变量的每一个可能的值,另一个随机变量都有一个确定的分布与之相对应,即在Y对X存在回归关系的同时,X对Y也存在回归关系,则称这两个随机变量间存在相关关系。二、相关

(correlation)回归——变量间的依存关系相关——变量间的互依关系“回归”名称的由来

英国统计学家F·Galton(1822——1911年)和他的学生、现代统计学的奠基者之一K·Pearson(1856——1936年)在研究父母身高与其子女身高的遗传问题时,观察了1078对夫妇,以每对夫妇中父亲的身高作为解释变量X,而取他们的一个成年儿子的身高作为被解释变量Y(应变量),将结果在平面直角坐标系上绘成散点图,发现趋势近乎一条直线。计算出的回归直线方程为:

50.250.7样本条件平均数

第二节一元线性回归方程

用自变量X为横轴,因变量Y为纵轴,在XY平面内标出(x1,y1),(x2,y2),…,(xn,yn)这些点,就构成一幅散点图。一、散点图(scatterdiagram):散点图1、概念2、常见类型的散点图XYXYX00000YXYXYXY⑴两变量之间的关系是否密切,能否由

X来估计Y;3、根据散点图考虑以下问题:⑵两变量之间的关系是呈一条直线(即线性的),还是呈某种曲线;⑶是否存在某个点偏离过大;⑷是否存在其他规律。4、实例【例】土壤内NaCI含量对植物的生长有很大的影响,NaCI含量过高,将增加组织内无机盐的累积,抑制植物的生长。下表中的数据,是每1000g土壤中所含NaCI的不同克数(X),对植物单位叶面积干物重(Y)的影响,作出7对数据的散点图。土壤NaCI含量X/

g.kg-100.81.62.43.24.04.8干重Y/

mg.dm-2809095115130115135以每1000g土壤中NaCI含量为横轴,以单位叶面积干物重为纵轴,建立坐标系,依据所给数据作出散点图。解:不同NaCI含量对单位叶面积干物重影响的散点图土壤NaCI含量

/

g.kg-100.81.62.43.24.04.8干重/

mg.dm-2重复值1809095115130115135210085899410612513737510711510310312812848993921101101431275911031151131281321556799212010813112113271017895121117129148885105951101211121179839310510811412013410798598111116130132平均数86.293.1101.9109.3117.6125.5134.5增加每一NaCI含量下观测次数(10次重复观测值及平均值如下)

每个NaCI含量下10次重复的散点图“•”表示在各xi处y的平均值;“+”是第一次观测的数据二、一元正态线性回归模型

若X是可控制的变量,在实验无限重复之后,则可以得到在各xi上的Y的条件平均数μY·X

,这些平均数构成一条直线。μY=α+βXY:NID(α+βX,σ2)ε

:NID(0,σ2)Y

=α+βX+εSimpleLinearRegressionModelY的总体均数自变量Intercept总体截距Slope总体斜率LINE假定xy标准差相等

EQUALSTANDARDDEVIATION

对于任何X值,随机变量Y的标准差

Y|X相等独立INDEPENDENCE

每一观察值之间彼此独立

y|X=α+x线性LINEARITY

反应变量均数与X间呈直线关系

Y|X=α+X直线回归模型的四个假定正态

NORMALITY

对于任何给定的X,Y服从正态分布,均数为

Y|X,标准差为

Y|X1、估计直线的一般表达式:a:截距(intercept),直线与Y轴交点的纵坐标,表示X=0时Y的平均值。b:斜率(slope),回归系数(regressioncoefficient)。意义:X每改变一个单位,Y平均改变b个单位。

b>0,Y随X的增大而增大(减少而减少)——斜上;

b<0,Y随X的增大而减小(减少而增加)——斜下;

b=0,Y与X无直线关系——水平。|b|越大,表示Y随X变化越快,直线越陡峭。三、参数α和β的估计回归系数:一元线性回归线的斜率称为回归系数,表示自变量每改变一个单位,因变量平均改变的单位数。回归线:根据回归方程所画出的直线称为回归线。2、基本概念

回归方程:称为Y对X的回归方程。3、最优回归线的估计原理

最小二乘法(methodofleastsquare)原理:在各种离差平方和中,以距平均数的离差平方和最小。在回归问题中,则在xi处Y的实际观测值yi对条件平均数μY·xi离差平方和最小,也就是使各散点到直线的纵向距离的平方和最小。即观测值与回归估计值之间的离差平方和达到最小时的回归线作为最好的回归线。最小二乘(Leastsquares)法图解Yi(Y的估计值)

=a+bXi

Yi估计值i残差i=Yi–估计值i寻找使S(残差i)2最小的直线33LeastSquaresMethodThe“best”lineistheonethatminimizesthesumofsquaredverticaldifferencesbetweenthepointsandtheline.wwww4114(1,2)22(2,4)(3,1.5)Sumofsquareddifferences=(2-1)2+(4-2)2+(1.5-3)2+(4,3.2)(3.2-4)2=6.89Sumofsquareddifferences=(2-2.5)2+(4-2.5)2+(1.5-2.5)2+(3.2-2.5)2=3.992.5LetuscomparetwolinesThesecondlineishorizontalThesmallerthesumofsquareddifferencesthebetterthefitofthelinetothedata.4、β和α的最小二乘估计⑴

β的最小二乘估计:⑵

α的最小二乘估计:X和Y的校正交叉乘积和,用SXY表示。X的校正平方和,用SXX表示。Y的总校正平方和,用SYY表示。四、回归方程的计算实例【例10.1】根据下表中的数据,计算干物重在NaCI含量上的回归方程。土壤NaCI含量X/

g.kg-100.81.62.43.24.04.8干重Y/

mg.dm-2809095115130115135解:①列出回归方程计算表:(编码法)XX’=X-2.4X’2YY’

=Y-110Y’2X’Y’0-2.45.7680-30900720.8-1.62.5690-20400321.6-0.80.6495-15225122.40011552503.20.80.6413020400164.01.62.5611552584.82.45.761352562560和017.92-102600200②利用公式计算SXY

,SXX

,SYY

:③计算b和a:④得到回归方程,作出回归线:干物重在NaCI含量上的回归线

第三节一元线性回归的检验一、b、a和e的数学期望值与方差

二、b和a的显著性检验——t检验1、b的显著性检验

H0:β

=0(β0)HA:β≠0(β0)检验统计量为:|t|>tn-2,α/2时,拒绝H0,接受HA,说明两变量间存在显著的线性关系,回归显著;|t|<tn-2,α/2时,接受H0,说明两变量间不存在显著的线性关系,回归不显著。df=n-2【例10.2】以例10.1中的数据为例,进行回归系数

b的显著性检验。t5,0.01/2=4.032,

t>t5,0.01/2,拒绝H0,即拒绝β

=0,说明两变量间存在极显著的线性关系,回归极显著。结论:干物重在NaCI含量上的回归极显著。解:2、a的显著性检验

H0:α=α0HA:α≠α0检验统计量为:|t|>tn-2,α/2时,拒绝H0,接受HA;|t|<tn-2,α/2时,接受H0。df=n-2【例10.5】以例10.1中的数据为例,检验a是

否抽自α

=100的总体。t5,0.05/2=2.571,|t|>t5,0.05/2,拒绝H0,即拒绝α

=100。结论:a不是抽自α

=100的总体

。解:三、两个回归方程的比较对两个回归方程的b和a的差异显著性检验之后,就能判断它们是否来自同一总体。若来自同一总体,则可以将它们合并为一个回归方程。⑴检验MSe1和MSe2有无显著差异:F>Fα/2时,拒绝H0,说明两回归线的总体方差不一致,差异显著;F<Fα/2时,接受H0,说明两回归线有一共同的总体方差,估计值为:H0:σ12=σ12HA:σ12≠σ12检验统计量为:(df:n大-2,n小-2)|t|>tα/2时,说明两回归线的回归系数差异显著;|t|<tα/2时,说明两回归线有一共同的总体回归系数,估计值为:H0:β1-β2=0HA:β1-β2≠0⑵检验b1和b2有无显著差异:检验统计量为:df:(n1-2)+(n2-2)或|t|>tα/2时,说明两回归线的a差异显著;|t|<tα/2时,说明两回归线的a有一共同的总体,合并值为:H0:α1-α2=0HA:α1-α2≠0检验统计量为:df:(n1-2)+(n2-2)或⑶

检验a1和a2有无显著差异:以上的检验,都是后者在前者差异不显著的基础上进行的,若前者差异显著,后面的检验则可终止;若三者的检验,差异均不显著,则两回归方程可合并为一个回归方程。【例10.6】在优质育种工作中,为了快速筛选优良原始材料,采用染料结合(DBC)法测定种子中的碱性氨基酸含量。实验测定了大麦和黑麦每试样的染料结合力(DBC)与碱性氨基酸含量,结果如下,试检验两回归线有无显著差异。列出计算表:解:⑴检验MSe1和MSe2有无显著差异:F<Fα/2,接受H0,两回归线有一共同的总体方差,估计值为:H0:σ12=σ12HA:σ12≠σ12检验统计量为:|t|<tα/2,两回归线有一共同的总体回归系数,估计值为:H0:β1-β2=0HA:β1-β2≠0⑵检验b1和b2有无显著差异:检验统计量为:|t|>tα/2,两回归线的a差异显著。H0:α1-α2=0HA:α1-α2≠0检验统计量为:⑶

检验a1和a2有无显著差异:|t|>tα/2,两回归线的a差异显著。若检验a1和a2无显著差异,估计值:X四、一元回归的方差分析1、无重复时的情况

Y的离均差平方和的分解几个平方和的意义剩余(残差)标准差SY|X

度量了实际散点远离回归直线的离散程度,反映了模型的可靠性。越小模型越好。

tb检验,区间的计算均需要使用这一值。检验统计量为:F

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论