版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十章相关与回归
第一节直线相关及相关系数的显著性检验
一、变量之间的两种关系
(-)函数关系
它反映着现象之间存在着严格的依存关系。在这种关系中,对于
某一变量的每一个数值,都有另一变量的确定的值与之对应C例如:
圆面积对于圆半径的依存关系可用一个确定的公式A二KR2反映
出来。
函数关系是确定性的关系。这种变量的表现,都是非随机变量。
(二)相关关系
相关关系是对随机变量而言的。这种关系的主要特征是:某一现
象的标志与另外的标志之间存在着一定的依存关系,但它们不是确定
的和严格依存的。在这种关系中,对于某项标志的每一个数值,可以
有另外标志的若干个数值与之相适应,这延缓数值之间表现出一定的
波动性,但又总是围绕着它们的平均值遵循一定的规律而变动。例如:
1.一般地,身高相同者,体重不一定相同;而身高不同者,体
重却有可能相同。对应于同一身高的人们,其体重或大或小,不全相
同,而是在所有这些体重的平均值周闱波动C
2.速跑(单位:秒)与跳远(单位:米)的关系一例:
30米跑3.73.63.53.93.53.6
跳远5.305.555.655.105.255.50
由表中看到,30米跑成绩相同的人,跳远成绩并不相同。但人们知
道,速度与跳远的关系确实是很密切的,可是此时不能用一种确定的
数学公式来反映这两个变量间的相互关系。类似情形在体育中是大量
存在的,如速度与撑杆跳高,体重与投掷顼目的成绩,等等。
当研究的两个事物或现象之间,既存在着密切的数量关系,又不
象函数关系那样,能以一个变量的值精确地求出另一个变量的数值,
这类变量之间的关系称为相关关系,简称相关。
函数关系与相关关系在一定条件下可以互相转化。如:因为误差
的存在,函数关系在实际中常以相关关系表现出来。而当人们对某些
事物的规律了解得更深刻、更准确时,相关关系也可以转化为函数关
系。
二、相关系数的意义
相关系数是表示两个变量之间直线关系的密切程度和相关方向
的一种统计指标,用符号r表示(总体间的相关系数用「表示)。
相关系数没有单位。其取值范围为一1WrW1即|r|Wl。当
变量之间的直线关系越密切,则|r|越接近于1;当变量之间的直
线关系越不密切,|r|越接近于0。
(-)若两个变量同时趋向同一方向变化,即当X增加(或减
少),Y相应增加(或减少),则称之为正相关。此时,OVrVl。
若此时又有各点都在一条直线上,则称为完全正相关,r=l。
图1()—1正相关
(二)若两个变量的变化方向相反,即当X增加(或减少)时,
Y却减少(或增加),则称为负相关,此时一lVr<0。
若此时各点都在一条直线上,则称为完全负相关,r=-lo
(三)当X与Y无关时,Y(或X)的值不受X(或Y)值变
化的影响。此时r=0,称为无相关或零相关。
Y个
01---------->xol---------->x
图10-3零相关(r=0)的部分情形
零相关可能是丙变量间确实没有关系;也可能表明两变量间不存
在线性关系但有其他某种关系。另一种特例,虽然各点密集于一条直
线,但呈水平或垂直散布,则仍为零相关。
”正r二l
(完全相关Y
〔负r二-1
线性相关<
(正OVr<1
相关关系{I非完全相关<
〔负一IVrVO
〃曲线相关r=0
,非线性相关<
、完全无关r=0
三、相关系数的计算
这里兴介绍用积差法求相关系数。这是由原始数据计算相关系数
的方法,读者也可仿此法用简化值计算。
定义
Llxy
-yLxx*L[.yy
V(x-x)(y-y)
JZ(x—7)2・Z(y—y)2
Zxy.(ZX)产
IZy2-^^]
nn
^xy-nxy
(10—1)
J(Xx2-nx2)(Xy2-ny2)
式中:
2
Lxx=X(x-x)=2>2-②^为X的离均差平方和;
一—n
Lyy=E(y-?)2=2丫2-8匚为y的离均差平方和;
一一n
Lxy=Z(x-x)(y-y)=Zxy_丁、)0丫)为x、y的离均差
一一n
积和。
公式(10—1)的几个式子等价,实际应用进可根据具体情况选
用任一个即可。但最好先将Lxx,Lyy,Lxy计算出来备用。
例10—1测得某年级10名学生的引体向上和30秒俯卧撑
成绩如(表10—1)中,计算二者的相关系数。
表10—1本例相关系数计算表
编号引体向上(X)30秒俯卧撑(Y)X2Y2X•Y
157254935
26113612166
38106410080
477494949
5101410()196140
669368154
71114121196154
857254935
956253630
1075492535
Z7090530902678
解:(1)列相关系数计算表,如(表10—1)。
(2)计算相关系数:
Lxx=立=530--=40
“n10
Lyy=Xy2-(^y)=902-902
=92
…犀n”"m--
^Lxy48
心0.791
"Lxx•LlyyV40x92
例10—2测知7名学生左手和右手的肌肉力量(千克)如
(表10—2)中,求左、右手力量指标的相关系数。
表10—27名学生左、右手力量指标相关系数计算表
编号左手力量X右手力量YX2Y2XY
113.814.2190.44201.64195.96
214.214.9201.64222.()1211.58
312.114.0146.41196169.4
413.015.4169237.16200.2
514.616.0213.16256233.6
617.418.1302.76327.61314.94
715.917.2252.81295.84273.48
z101109.81476.221736.261599.16
解:(1)列相关系数计算表,并求得
=101,Xy=109.8,Xx2=1476.22,
Xy2=1736.26,Zxy=1599.16
(2)计算相关系数:
2(X)
Lxx=VX-^=1476.22一里y18.9343
“n7
Lyy==1736.26一理^
y13.9686
n7
(Sx)(Ey)
Lxy=Zxy-
=1599.16-101x109,8心14.9029
7
^Lxy14.9029
口.916
JLxx【LyyV18.9343x13.9686
线性相关系数计算程序
一、程序功能
本程序能够根据输入的m人随机变量(XI,X2,……,Xm)的观
测值(Xkl,xk2,.....,Xkm),k=1,2,........,no求出这m个随机
变量两两间的线性相关系数。
二、程序中使用的主要符号说明
N:观测数据的组数;
C:变量的个数;
R:线性相关系数;
W:“一”的个数(制表用虚线的长度)。
三、程序所依据的理论计算公式
n__
E(Xki-xJ(Xkj-Xj)
四、程序名称:Q0JXG
5REMQ0JXG
10INPUT“n,c,w——“;N,C,W
20OPTIOBASE1
30DIMA(N,C),R(C,C),B(C),C(C),D(C,C)
40FOR1=1TON:FORJ=1TOC
50READA(I,J):NEXTJ:NEXTI
60FORK=1TOC
70B(K)=0:C(K)=0
80NEXTK
90FOR1=1TOC:FORJ=1TON
100B(I)=B(I)+A(J,I)
110C(I)=C(I)+A(J,I)A2
120NEXTJ:NEXTI
130FOR1=1TOC:FOR=K+1TOC
140D(I,J)=0:R(I,J)=0
150NEXTJ:NEXTI
160FORK=1TOC:FORI=K+1TOC:FORJ=1
TON
170D(K,I)=D(K,I)+A(J,K)*A(J,I)
180NEXTJ:NEXTI:NEXTK
190FORK=1TOC:FORI=K+1TOC:FORJ=1
TON
200R(K,I)=(D(K,I)-B(I)*B(K)/N)/SQR((C(K)-B(K)A2/N)
*(C⑴-B(I)A2/N))
210NEXTJ:NEXTI:NEXTK
220GOSUB300:PRINT
230PRINTSPC(5)“R”SPC(5);
240FOR1=2TOC:PRINTI:SPC(IO);
250NEXTI:PRINT:GOSUB300
260FORK=1TOC:PRINTSPC(5)K;
270FORI=K+1TOC:PRINTTAB(12*(I-1);R(K,I);
280NEXTI:PRINT;NEXTK
290GOSUB300:GOTO320
300FOR1=0TOW:PRINT“一”
310NEXTI:PRINT:RETURN
320END
五、例题
试求出上例中的身高、足长、小腿长两两间的线性相关系数。
解:在程序中使用口尺^语句,按61<1,*1<2/1<3),1<=1,2,……
10的方式输入数据资料:
330DATA21,33,140,20,32,133,20,30,130,19,29,
131,21,32,137
340DATA20,31,133,19,32,135,21,33,138,20,31,
139,21,34,141
RUN
n,c,w-----10,3,40
R23
1.716354.678737
2.810961
3
四、相关系数的显著性检验
(-)检验的基本原理
根据随机抽样得到的样本资料去计算相关系数,与计算其他统计
量一样,存在着抽样误差的影响。
在理论上讲,若从不存在相关关系的总体(P二0)中随机抽样
并且没有抽样误差,则应有r=0。但实际中由于存在着抽样误差,
所以常抽到rW0的样本。同理,rW0也并不能说明有2#0。
因此,不能简单地由"|的大小去对随机变量x、y之间线性
关系的密切程度作出判断。实际上造成r与p之差的原因有二:
1.rW0的样本确实是从「二0的总体中抽得,此时r与"=0
之差仅仅是由抽样误差所致,没有本质的差别;
2.rr0的样本来自某个夕#0的总体,此时显然r与夕二0
的差别是本质性的c为了分清差别是由哪种原因造成的,必须要对r
进行显著检验。
检验的无效假设为Ho:p=0(即总体中不存在相关关系)
(1)若检验结果知P(Ho)>a,认为r与夕=0的差别无显著
意义,即相关系数r无显著性。此时,即使|r|值较大,也不能认
为随机变量x、y是相关的。
(2)若检验结果知P(Ho)Wa,拒绝Ho,认为r与P=0的
差别有显著意义,即相关系数r显著。此时,即使|r|值较小,也
能认为随机变量x、y相关的。
只有通过显著性检验得知r显著,才可根据|r|值的大小去说
明变量x、y相互关系的密切程度。总之,“|r|值较大”和“x、
y相关”绝不是一回事,要加以注意!
(―)检验方法
1.检验
检验统计量的公式tr=注二回,其中相关系数的标准误S,二
sr
1—尸
——,在Ho:「=()时,有
n-2
(10-2)
自由度n'=n—2o
例10—3在例10.1中计算得到相关系数r=0.791,试检验
r是否显著。
解:(1)无效假设H。:夕=()
(2)计算tr值:
.|r|V^20.791x710-2_
Vl-r2V1-0.7912
(3)选取a=0.05,进行双侧检验,自由度n'=n—2=10
-2二8,查t值表(书后附表2)得to.o5(8)=0.306
(4)结论:Vtr>to.05(8)
・・・p<0.05,拒绝Ho,认为总体相关系数P
W0,即r显著。
这说明r=0.791不象是由抽样误差造成的,而是来自pW0
的总体之中。
2.查表法
为使检验简便,统计学家根据t分布表求出r的5%和1%的
临界水平概率P值,表左边第一列为自由度n'二n—2。计算出相关
系数r并查出临界值「必治后,可作如下比较判断:
若》心(吟,则「显著;
若"I<ra(nf)f则r不显著。
例10—4在例10.1中算得r=0.791,用双侧检验并取a=
0.05,n*=n—2=10—2=8,查表得知to.05⑻=0.632c
Vr=0.791>to,05(8)=0.632
・,•相关系数r显著。
明显用查表法要快捷得多,建议多采用此法。
查表时要注意:是用单侧检验,还是双侧脸验决定于统计设计之时:
而不是在算出r之后。
学生氏T分布检验计算程序
一、程序功能
对于统计检验,在不知道其标准差的情况下,可以用T分布检验
来检验正态分布总体的均值。
应用本程序时如按程序所问输入(三种功能的)功能选择、样本
个数、元素个数和每个元素值,则程序能自动计算出T值、自由度数
及其T分布的右尾值(检验水平)。使用者将右尾值与检验的显著性
水平比较,则可得出检验的结果。
二、程序中使用的主要符号说明
T:WHICHHTPOTHESIS程序功能选择(共三种);
R(I):NRMBEROFELEMENTS元素数;
M:MALUEOFMEAN均值;
ABS(A):T-MALUE所求的T值;
B:DEGREESOFFREEDOM所求的自由度数;
X:RIGHTTAILVALUE右尾值。
三、程序所依据的主要理论计算公式
学生氏T分布检验法。
四、程序名称:STUDENTzS-T.TES
5REMSTUDENTfST—TESTPROGRAM
10PRINT“STUDENT'ST—TESTPROGRAM"
20PRINT
30DIMP(20,2),V(12)
40DIMR(2),M(2),D(2)
50PRINT“Testi:Mean=x”
60PRINTuTest2:Mean=mean,Standard,deviation=Standard
deviation,,
70PRINTuTest3:Mean=mean,Standard,deviation<>
Standarddeviation”
80INPUT“whichhypothesis=:T
90PRINTuwhichhypothesis="T
100PRINT
110FOR1=1TOSGN(T-l)+1
120V(I)=0
130D(I)=0
140PRINT“Sample”;「:”
150INPUT"Numberofelements=",U
155R(I)=U
160PRINT“Numberofelements=;R(I)
170FORJ=1TOR(I)
180PRINT“elements”;J;
182INPUTG
185P(J,I)=G
190PRINT“Elements";J,P(J,I)
200V(I)=V(1)+P(J,I)
210D(I)=D(I)+P(J,I)A2
220NEXTJ
230M(I)=V(I)/R(I)
240V(I)=(D(I)-V(I)A2/R(I)/(R(I)-1)
255NEXTI
260PRINT
270IFT=2THEN340
280IFT=3THEN380
300INPUTuValueofmean=M
305PRINT“Valueofmean=9,;M
310A=(M(1)-M)*SQR(R(1)/V(D)
320B=R(1)-1
330GOTO420
340A=(M(1)-M(2))/SQR(1/R(1)+1/R(2))
350B=R(1)+R(2)-2
360A=A/SQR(((R(1)-1)*V(1)+(R(2)-1)*V(2))
/B)
370GOTO420
380A=(M(1)-M(2))/SQR(V(1)/R(1)+V(2)/R(2))
390B=(V(1)/R(1)+V(2)/R(2))A2
400B=B/((V(1)/R(1)A2(R(1)+V(2)/R(2))A2/
(R(2)+D)-2)
410B=INT(B+.5)
420PRINT
430PRITNUT—Value=9,;ABS(A)
440PRITN“Degreesoffreedom=";B
450T=ABS(A)
460D=B
470X=1
480Y=1
490T=TA2
500IFT<1THEN550
510S=Y
520R=D
530Z=T
540GOTO580
550S=D
560R=Y
570Z=1/T
580J=2/(9*S)
590K=2/(9*R)
600L=ABS((1-K)*ZA1/3)-1+J)/SQR(K*Z八(2/3)
+J)
610IFR<4THEN650
620X=.5/(1+L*(.196854+L*(.115194+L*(.000344+L
*.019527))))A4
630X=INT(X*10000+.5)/10000
640GOTO620
650L=L*(l+.08+LA4/RA3)
660GOTO620
670IFT>=1THEN690
680X=1-X
690PRINT“Righttailvalue=";X
700END
五、例题
(一)设某运动员的200米跑的成绩服从正态分布。其中抽测6
次的成绩(单位:秒)如下:24.7,23.5,22.2,23.0,24.4,22.6。
能否认为该运动员200米跑的成绩为23.2秒?(取显著性水平a二
0.05)
解:无效假设Ho:〃=23.2秒
RUN
STUDENTzST—TESTPROGRAM
Test1:Mean=x
Test2:Mean=Mean,Standarddeviation=Standarddeviation
Test3:Mean=Mean,Standarddeviation<>Standarddeviation
Whichhypothesis=1
Sample1:
Numberofelements=6
Elements124.7
Elements223.5
Elements322.2
Elements423
Elements524.4
Elements622.6
Valueofmean=23.2
T—Value=.492869
Degreesoffreedom=5
Righttailvalue=.6584
・・•右尾值=0.6584大于a值
・・・〃二23.2秒的假设未被否定。即可用23.2秒作为该运动员
200米跑成绩的代表。
(二)采用两种试验方法进行同一种试验,分别获得试验数据如
T:___________________________________________________________
A1613121510nA=5
B879657NB=5
试用T检验法检验这两种方法获得的试验数据是否有显著性差异?
(总体的峭=端未知,a=0.05)
解:无效假设Ho:"A-NB
RUN
STUDENT'ST—TESTPROGRAM
Test1:Mean=x
Test2:Mean=Mean,Standarddeviation=Standarddeviation
Test3:Mean=Mean,Standarddeviation<>Standarddeviation
Whichhypothesis=2
Sample1:
Numberofelements=5
Elements116
Elements213
Elements312
Elements415
Elements510
Sample2:
Numberofelements=6
Elements18
Elements27
Elements39
Elements46
Elements55
Elements67
T-Value=5.3634
Degreesoffreedom=9
Righttailvalue=.003
•••右尾值=0.003小于a值
="“的假设未被否定。即这两种实验方法获得的试
验数据有显著性差异。
(三)下列资料为两家电影公司的体育纪录影片放映时间:
公司名称时间(分)
公司I102869810992
公司H81165971349287114
试检验公司I与公司n的体育纪录影片的平均放映时间是否有显著
性差异?(两总体的方差不等,a=0.05)
解:无效假设Ho://I=〃ii
RUN
STUDENT'ST--TESTPROGRAM
Test1:Mean=x
Test2:Mean=Mean,Standarddeviation=Standarddeviation
Test3:Mean=Mean,Standarddeviation<>Standarddeviation
Whichhypothesis=3
Sample1:
Numberofelements==5
Elements1102
Elements286
Elements398
Elements4109
Elements592
Sample2:
Numberofelements==7
Elements181
Elements2165
Elements397
Elements4134
Elements592
Elements687
Elements7114
:右尾值=0.3232小于a值
/.//i=4n的假设未被否定。即这两家电影公司的体育纪
录影片的平均放映时间没有显著性差异。
第二节一元线性回归分析
一、一元线性回归的意义
经过相关分析后,确认为两个变量之间具有较密切的直线相关关
系时,期望着能找到两个变量之间存在的数量关系,即找到一个最适
宜的数学表达式,用函数关系来描述两变量的关系。这就要借助于回
归分析的方法。
(-)回归分析方法是一种处理变量的相关关系的方法
它主要是把两个或两个以上变量之间的变动关系,加以模型化,
求现回归方程来,以便进行估计推算。
两个变量之间的回归分析称为一元回归分析,三个以上变量之间
的回归分析称为多元回归分析。
“回归”一词所表示的实质意义是:任何变异的东西总有趋向平
稳、一般的势头。对于一组样本观察数据(X”y。,(X2,y2),..........
(Xn,yn)来说,总有一个稳定点在起作用,这个稳定点就是n个样
本观察值的几何重心(口飞),而通过(丸Q)点的稳定轴线便称
为回归线。
(二)回归分析主要解决以下几方面的问题
1.分析一组数据,确定个变量之间是否存在相关关系;如果
存在的话,找出它们之间最合适的数学关系式,即回归方程。
2.对变量关系式中的参数进行估计和统计检验,分析影响因素
与预测目标之间的关系强弱和影响程度,确定诸变量中哪些是主要影
响因素,哪些是次要因素以及它们之间的关系。
3.根据求得的回归方程和自变量的值,预测因变量未来的取值,
并分析预测结果的误差范围和精度。
(三)要注意的问题
一般地,有相关关系的变量都不是从属的因果关系,即分不清谁
是自变量,谁是因变量。而作回归分析时,一定要先根据研究目的确
定哪个是自变量。这里,要求因变量是随机的,而自变量不是随机的,
是给定的数值。求出回归方程后,也是将给定的自变更值代入方程中,
去求得估计的因变量值,这个估计值不只是一个确定的数值,而是许
多可能数值的平均数。因此,可以计算估计值的标准差。
综上所述,可知“相关”与“回归”的区别主要在于:
1.相关关系是互相的,是结等的,不是一种从属的因果关系。
我们只是去研究相关的密切程度。
2.回归分析是研究从属的因果关系,有已知变量,依此推测未
知变量。(一个是非随机变量,一个是随机变量。)
(四)研究两变量关系时的一般程序
1.先根据n对数据在直角坐标系xoy中作散点图,由直观上看
无成直线分布的趋势。
2.若两个变量只有直线相关关系时,需进一步由一个变量(自
变量x)的值来推测另一个变量(因变量y)的值,这就需要作直
线回归分析。
3.直线回归的任务是建立描述两变量之间关系的回归方程。这
个方程用
y=a+bx(10—3)
表示,其中,是y的估计值。
方程y=a+bx所表示的直线,是n个散点的一条拟合直线,
称为回归直线。它是针对散点图找出的一条能代表两变量x与y之
间关系的最佳直线c“配线”原则是:使各点与这条直线的纵向距离
最近。由数学意义上说,即使离差y-y的平方和Z(y-9)2达
到最小。若令Q=£(y-9)2,即称之为剩余平方和。
这样,根据数学上的“最小二乘原理”,求回归方程y=a-bx
的问题就归结为求使Q=£(y-y)2取得最小值时的a和b的问
题了。
在回归方程?二a+bx中,把b称为回归系数。因为b反映
两个变量X与y之间的数量关系。b可正可负,与r的符号一致。
a称为截距。
二、一元线性回归方程的求法
例10—5仍以例10—1的资料为例,说明求由引向上指标
x推测30秒俯卧撑y的回归方程的具体步骤。
(一)列计算表同表10—1o
(二)求回归系数b
.xv(Zx)(Zy)—
b=j二二―=Zxy-吩(10_4)
LXX)2_(ZX)2>2一”
本例:由上节已知Lxx=4(),Lxy=48代入公式(10—4)得
(三)求截距a
a=y—bx(10—5)
本例:x==—=7
n10
-Zy90
y=二=—=yo
n10
/.a=y—bx=9—1.2=0.6
(四)列出回归方程
y=0.6+1.2x
注意:回归方程9=a+bx是根据x、y之间的相关关系建立的,
不是确定性的函数关系,因此不可根据这个方程进行逆推由y求出
XO
要想由y推测x值必须另建立回归方程。其中:
x=a,+b,y(10—6)
b'=xy(10—7)
az=x-b*y(10—8)
由上可推知r与b,bf之间的关系:
b.b,=L(Lxy),
T.T
LXXLyyJxx匚yy
Ar=±Yb•b,(10—9)
公式(10—9)中,正、负的取舍决定于“r与b的符号是否一
致二
在上例中,b=1.2,而
b=Ld=—=0.522
Lxx92
Ar=4bly=V1.2x0.522处0.791
这与上节中求出的r一致。
三、一元线性回归方程的评价
(-)回归问题的方差分析
直线回归方程在一定程度上提示了两个相关变量x,y之间的
内在规律,但一个回归方程所揭示的规律性强不强?回归效果如何?
怎样利用回归方程由自变量x的取值预测因变量y的取值?预测的
精度如何?等等,这些都需要进一步地分圻。
1.离差平方和的分解
由于受x值变化的影响和受其他因素的影响,因变量y是有变
异的,即y的值是有波动的。Y值的这种波动称为变差,用观测值
y与其平均数、的离均差y-Q来表示。全部n次观测值的总变差
由这些离均差的平方和Lyy=Z(y-7)2来表示,它称为y的总离
差平方和。(图10—4)
图10—4总离差分解示意图
由(图10—4)可知,每个观测点的离差y一7可分解成
y-y=(y-y)+(y-y)
把上式两边同时平方之后,对所有n点求和,有:
Z(y-y)2=Et(y-y)+(y-y)]2
=E(y-y)2+Z(y-y)2+2^(y-y)(y-y)]
可证上式右边最后一项X(y-yMy-y)J二°,故
Z(y-y)2=Z(y-y)2+L(y_y)?(io—io)
公式(10—io)右边第二项是估计值y离差的平方和,根据
回归方程y=a+bx,可以把y—y[=b(X—X)]看做是由于x
的变化所引起的,因此反映了在y的总变差中由于x与y
的直线回归关系而引起的y的变化部分,称之为回归平方和,记作
u=»y)~。
一9
公式(io—io;右边第一项z(V-y),是每个观测点距回去
归直线的残关匠平方和,它反映的是除了x对y的线性影响之外的
一切因素(包括X对y的非直线关系的影响及观测误差等)对y的
影响部分,称为剩余平方和,记作Q=2L(y-y)2o
故有
Lyy=U+Q(10—11)
在实际计算中,U及Q并不是由定义形式去计算的,由于已知
回归系数b,则:
U=£(y-yf=Z(a+bx—a—b7)2
=b2X(x-x)*^=b2Lxx
二b・-Lxx=bLxy(10—12)
LxX
Q=Lyy—U二Lyy—bLxy(1()—13)
又:由U及Q的意义可知,U在总平方和Lyy中所占的比例『L
Lyy
2
越大,回归效果越好。而旦==(Lxy)二产
LyyLyyLxx'Lyy
2
AU=rLyy(10—14)
2
Q=Lyy-U=(l-r)Lyy(10—15)
通过以上关系式,可看到|r|越大,回归效果越好。可进一步
理解相关系数的意义。
2.自由度
在回归问题中:Lyy的自由度N=n-l
U的自由度n「=k=1
Q的自由度ni1-n—k—1=n—2
rT=n「+n2'(10一16)
式中:k是自变量的个数。一元线性回归中k=l。
3.剩余标准差(估计标准误差)
剩余平方和Q除以它的自由度n—2所得之商的算术平方根为:
SJ=J—(10—17)
Vn-2
SJ称为剩余标准差,它可以用来衡量所有随机因素对y的一次
观测值的平均变化差的大小。S/的单位与Y的单位相同。
SJ越小,则所有观察点越靠近回归线;Sy'越大,则所有观察
点离回去归线越远。可见这一指标从另一侧面反映了线性关系的密切
程度。
以上这种把平方和与自由度进行分解的方法,称为回归问题的方
差分析法。
表10—3一元线性回归的方差分析表
变差来源平方和自由度均方F值
回归U=bLxy1U
(n-2)U
Q
剩余Q=Lyy—bLyn-2QQ
Xn-2
总计Lyy=U+Qn—1
例10—6资料同例10—1,已求出回归方程g=0.6+L2x,
作回归问题的方差分析。(a=0.05)
解:可作Ho:回归效果不显著。
已知Lxx=40,Lyy=92,Lxy=48,n=10,b=1.2
Q=bLxy=1.2x48=57.6
Q=Lyy-U=92-57.6=34.4
nz=n-1=10-1=9
nT=1
r)2'=n—2=10—2=8
表10—4本例的方差分析表
变差来源平方和自由度均方F值
回归57.6757.6
13.395
剩余34.484.3
总计929
取a=0.05,n।f=1,ri2‘=8查知F0.05(i.8)=5.32
,**F>Fo,05(1,8)
・・・P(Ho)<O.O5,拒绝Ho,说明回归效果显著。
(二)根据回归方程预测值
运用分二a+bx求得的y并不是实际值,而是回归估计值,
通常称为点估计。仅仅求出y的实际意义并不大,因为随着现实情
况的变化和各种因素的影响,预测目标的实际值总会同预测值有或大
或小的偏移。所以,不仅要求出y的预测值,并且还应知道实际的
值可能偏离预测值的范围,也就是要知道预测的精度如何?这样的范
围常用区间的形式给出,称为预测区间。
一般地,对于某个确定的x=x0,实际对应的Y值是在y=a+
bx附近波动的,且服从正态分布。它的平均数就是当x=x。时回归
方程的相应值yo=a+bxo,其方差可用剩余方差SJ来估计。
干是,根据正态分布的性质,对干固定的x=x。,y的取值是以
V。为中心而对称分布的,而且与剩余标准差SJ之间有下关系:
y值落在go土Sy'区间内的概率约为68%
y值落在g°±L96Sy'区间内的概率约为95%
y值落在yo±2.58Sy"区间内的概率约为99%
由上可见,SJ越小,则由回归方程预y值就越精确。因此,SJ是
预测精确度的标志。
例10.7资料同例1().1:
若已知x0=9,则预测y值:
yo=O.6+1.2x9=11.4
预测的95%置信区间是
,1
y0±1.96Sy=11.411.96x2.07=即(7.3,15.5)。
由此可预测与X。=9对应的全部y值落在区间(73.3,15.5)之内
的概率约是95%o
注意:用回归方程作预测的适用范围一般仅局限于原来自变量变
动的范围,而不能随意外推!
(四)、相关与回去归在实际应月时应注意的问题
(一)当目的在于确定两个变量之间关系的性质(例如确定它们
之间是否有线性关系),以便对给定的X值预测最可能的y值时,
回归分析是一种较好的技术。但如果只对估计两个变量之间关系的强
度感兴趣。那么用相关分析就够了。
(二)相关系数的显著性水平与相关的密切程度虽然有联系,但
绝不是一回事。显著性达到0.05,只说明有95%的可能存在相关,
有5%的可能估计不准,不存在相关。不能误认为显著性水平越高,
相关系数就越大,或线性关系就越密切。
(三)对于不存在相互联系的事物,不要勉强做出没有意义的相
关和回归。例如人的年龄秘树的树龄,也可能可以作出“正相关”的
情况,但没有实际意义。
(四)只有在相关系数r显著且|r|较大时,计算回归方程才
具有一定的实用意义。
回归分析的计算中以数据为依据。田赛成绩越好数值越大,但径
赛成绩越好数值(时间数)越小,故两者往往呈负相关。因此在计算
回归方程时,相关系数按负值代入。
(五)相关分析要求X和Y皆为连续随机变量:但回归分析的
应用范围较广,它不要求两个变量都是随机变量。人们常常是“控制”
了一个变量,这个被控制的变量即是自变量。
(六)回归推测方程式只适用于样本数据的最大值和最小值两极
的范围内。“外推”的做法,有可能带来危险的后果。因为在某个区
间之内,两个变量之间的关系可以是线性关系,但在这一区间之则它
只能对总体提供有限的代表性。而把这一样本的结果扩展到它所代表
的区间之外,就有可能导致错误的结论。如(图10—5)所示,便
是一种可能的外推陷井。
第三节二元线性回归分析介绍
先简单回顾一元回归分析的大致内容:
(1)数学模型:y=a+4x+e
万一总体中的相关系数;
£一误差,一般服从正态分布。
给出一组观测数据(X|,y1),(X2,y2),......,(Xn,yn),
有yi二a+Qxi+ci,y2=0+^x2+£2,......,yn=cr+/?xn
+£n,其中:£1,£2,......,£n~N(0,CT2)
(2)建立回归方程:y=a+bx
用最小二乘法(使Q取最小值)求出a,b即a,£的估计值。
n__
I£(Xj-x)(ys-y)
b=,=-----_——
LxxX(xi-x)2
i=l
a=y—bx
(3)回归方程检验
Ho:。二0(假设总体中相关系数为0)
因为若£=0,则y为常数;若0,则x与y有线性关系。
所以检验回归方程显著性一般检验夕是否等于0?
检验统计量(方差分析):
U
F=—^—〜F(1,n—2)
n-2
重要的平方和分解公式:
Lyy=U+Q
①若F>F](临界值),则否定Ho,说明夕W(),x与y之间
图10—6
②若F>F”则可接受Ho,或可说是“相容”的。
(4)相关系数
r=Lxy
JLxx.LXy
(5)预测问题
s/=J旦并利用正态分布的理论。
以上所述的两个变量,其中因变量y只与一个自变量x有关。
但在客观现象当中,各事物之间的联系和制约是广泛的、相互的,一
个事物的变化是受许多因素影响的。为了分析研究这诸多因素(Xi)
相互间的关系,以及对某一事物(y)的关系,数理统计给出了“多
元分析”的方法。
多元分析方法是科学研究中常用的统计方法。它比单因素分析更
能揭示事物的本质和内在的联系。但由于多元分析方法较复杂,而且
计算量大,所以多用计算机计算。至于实际应用,关键是掌握处理方
法和操作计算机的技术。因为大部分多元分析方法都已有计算机计算
程序。这将为实际计算带来方便并节省大量时间。
由于课时限制等原因,这里只介绍“二元线性回归分析”的基本
内容。
研究两个变量与一个因变量的线性相关关系的统计方法称为二
元性回归分析方法。二元线性回归的原理与一元线性回归相同,只是
在计算等方面有复杂许多。今后若能把二元线性回归的理论和方法进
一步推广,就可解决多元线性回归的问题了。
一、求二元线性回归方程
二元线性回归方程的一般形式是
y=bo+bixi+b2X2(10一18)
求b。,bI,b2之值的原则是应用最小二乘法,求使剩余平方和
Q=Z(y-9)2达到最小值时的bo,bi,b2之值。即解方程组
'票=0
<
建=0(i=।,2)
得其解为b0,b1,b2的估计值。
我们课上的具体求法是解正规方程:
厂
=
L11b1+L[2b2Liv
v111122_ly(10—19)
b]+L22b2=L2y
求得bo,bl,b2的值。
公式(10—19)中:
Lij=Lji=£(Xi—xi)(xj-xj)
=Zxixj--(Zxi)(SXj)(10—20)
(i,j=l,2)
Liy二工⑸-xi)(y-y)
=Xxiy--(Zxi)(Xy)(10—21)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公对公服务外包合同
- 写文章服务外包合同
- 出租房外包合同
- 加工外包合同
- 劳动派遣外包合同
- 厂区物业外包合同
- 商务ktv外包合同
- 园林修剪外包合同
- 垃圾清运费外包合同
- 外出参观外包合同
- 广东省广州市增城区2026年中考二模化学试卷-附答案
- 数字化时代下TC保险公司内部审计信息化建设路径探析
- 吉林省长春市2026年中考语文模拟试卷四套附答案
- 物业小区消防安全隐患排查及整改措施
- 2025年一级造工程师(交通)案例分析真题及答案
- 2026年中国实体剧本杀消费洞察报告
- 食品安全检测与评估培训教材(标准版)
- 2025年度陕西延长石油(集团)有限责任公司“汇才”-管理人才储备招聘130人(春招)笔试参考题库附带答案详解
- 电力线路巡检报告模板
- DB22∕T 1056-2022 梅花鹿产品初加工技术规程
- 足球一对一防守课件教学
评论
0/150
提交评论