版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ChapterSeventeen
CorrelationAndRegression
第十七章相关分析与回归分析
学习目标讨论积矩相关系数、偏相关和部分相关的概念,并说明这些相关关系如何为回归分析建立基础。解释二元回归的特点和方法,描述其一般模型、参数估计、标准化回归系数、显著性检验、预测准确性、残差分析和模型交叉检验。解释多元回归分析的特点和方法,尤其是逐步回归、含虚拟变量的回归以及回归中的方差和协方差分析。描述多元回归分析中用的特殊方法,尤其是逐步回归、含虚拟变量的回归以及回归中的方差和协方差分析。探讨非定量相关及其测量指标学习内容积矩相关系数偏相关非定量相关回归分析二元回归统计与二元回归分析的关系进行二元回归分析多元回归
与二元回归分析相关的统计量
进行多元回归分析逐步回归多重共线性预测的相对重要性交叉验证回归与虚拟变量方差分析与回归分析总结ProductMomentCorrelation
积矩相关系数积矩相关系数r是最常用的概括两个定量(定距或定比尺度)变量X与Y的关系强度的统计量它是一个决定X与Y是否存在线性关系的指标。由于这个指标最早由KarlPearson提出的,因此也被称为Pearson相关系数。
它同时也叫简单相关系数、双变量相关系数或者相关系数。ProductMomentCorrelation
积矩相关系数对于n个观测值的样本,变量为X和Y,积矩相关系数r计算为r=(Xi-X)(Yi-Y)Si=1n(Xi-X)2Si=1n(Yi-Y)2Si=1nDivisionofthenumeratoranddenominatorby(n-1)givesr=(Xi-X)(Yi-Y)n-1Si=1n(Xi-X)2n-1Si=1n(Yi-Y)2n-1Si=1n=COVxySxSyProductMomentCorrelation
积矩相关系数r在-1.0和+1.0之间变化。不论两个变量各自的测量单位是什么,相关系数都是不变的。
ExplainingAttitudeTowardtheCityofResidence
研究对居住城市的态度Table17.1调查对象编号对城市的态度居住年限天气的重要性161032912113812443415101211646175878224911188109910111017812225ProductMomentCorrelation
积矩相关系数相关系数的计算如下: =(10+12+12+4+12+6+8+2+18+9+17+2)/12 =9.333
XY =(6+9+8+3+10+4+5+2+11+9+10+2)/12 =6.583(Xi-X)(Yi-Y)Si=1n =(10-9.33)(6-6.58)+(12-9.33)(9-6.58) +(12-9.33)(8-6.58)+(4-9.33)(3-6.58) +(12-9.33)(10-6.58)+(6-9.33)(4-6.58) +(8-9.33)(5-6.58)+(2-9.33)(2-6.58) +(18-9.33)(11-6.58)+(9-9.33)(9-6.58) +(17-9.33)(10-6.58)+(2-9.33)(2-6.58) =-0.3886+6.4614+3.7914+19.0814 +9.1314+8.5914+2.1014+33.5714 +38.3214-0.7986+26.2314+33.5714 =179.6668ProductMomentCorrelation
积矩相关系数DecompositionoftheTotalVariation
总变差分解r2
=
Explained
variationTotal
variation
=
SSxSSy
=
Total
variation
-
Error
variationTotal
variation=
SSy
-
SSerrorSSy
DecompositionoftheTotalVariation
总方差分解
DecompositionoftheTotalVariation
总变差分解r=0时的非线性关系PartialCorrelation偏相关偏相关系数是用于测量在控制或调整了一个或多个变量的基础上,两个变量之间的关系计算偏相关系数是需要考虑其“阶数”,这
“阶数”说明有多少个变量被控制或调整简单相关系数r是零阶的,因为在测量两个变量之间关系时不需要控制额外变量的作用。
PartialCorrelation偏相关
PartCorrelationCoefficient
部分相关系数部分相关系数代表从X中去除其他自变量线性影响后,Y和X之间的相关性。ry(x.z)部分相关系数计算如下:通常认为偏相关系数比部分相关系数重要。ry(x.z)
=
rxy
-
ryzrxz1
-
rxz2NonmetricCorrelation非定量相关
rs
t
rt
t
rs
rRegressionAnalysis回归分析Regression
analysis
examinesassociativerelationshipsbetweenametricdependentvariableandoneormoreindependentvariablesinthefollowingways:回归分析是分析定量因变量与一个或多个自变量之间相关关系的有效且易用的方法,可以用于以下几方面;Determinewhethertheindependentvariablesexplainasignificantvariationinthedependentvariable:whetherarelationshipexists.确定自变量是否能够解释因变量的重要变差,即二者之间是否存在关系。Determinehowmuchofthevariationinthedependentvariablecanbeexplainedbytheindependentvariables:strengthoftherelationship.确定因变量中有多大比例的变差可以有自变量来解释,即关系的强度有多大。RegressionAnalysis回归分析Determinethestructureorformoftherelationship:themathematicalequationrelatingtheindependentanddependentvariables.确定二者关系的形式,即与自变量和因变量有关的数学方程式。Predictthevaluesofthedependentvariable.预测因变量的值。Controlforotherindependentvariableswhenevaluatingthecontributionsofaspecificvariableorsetofvariables.在评估特定变量贡献时,控制其他变量的作用。Regressionanalysisisconcernedwiththenatureanddegreeofassociationbetweenvariablesanddoesnotimplyorassumeanycausality.尽管自变量可能解释一部分因变量的变差,但这并不表示必然存在因果关系StatisticsAssociatedwithBivariate
RegressionAnalysis与二元回归分析相关的统计量Bivariateregressionmodel.ThebasicregressionequationisYi=+Xi
+ei,whereY=dependentorcriterionvariable,X=independentorpredictorvariable,=interceptoftheline,=slopeoftheline,andeiistheerrortermassociatedwiththeithobservation.二元回归模型,基本的回归等式为Yi=+Xi
+ei,其中Yi
是因变量或标准变量,Xi为自变量或预测变量,为直线截距,为直线斜率,ei为第i个观测值的误差。Coefficientofdetermination.Thestrengthofassociationismeasuredbythecoefficientofdetermination,r2.Itvariesbetween0and1andsignifiestheproportionofthetotalvariationinYthatisaccountedforbythevariationinX.可决系数变量之间联系的强度由可决系数r2
类测量,其值在0和1之间变化,表表示Y的总变差中能被X变差解释的比例。Estimatedorpredictedvalue.TheestimatedorpredictedvalueofYiisi
=a+bx,whereiisthepredictedvalueofYi,andaandbareestimatorsof
and,respectively.
估计值或预测值:Yi的估计值或预测值为=a+bx,为Yi预测值,a
和
b
分别为和的估计值。
b0
b1
b0
b1
b0
b1StatisticsAssociatedwithBivariate
RegressionAnalysis与二元回归分析相关的统计量Regressioncoefficient.Theestimatedparameterbisusuallyreferredtoasthenon-standardizedregressioncoefficient.回归系数。估计的参数b通常是指非标准化回归系数。Scattergram.Ascatterdiagram,orscattergram,isaplotofthevaluesoftwovariablesforallthecasesorobservations.散点图。散点图是根据两个变量的所有观测值绘制的图。Standarderrorofestimate.Thisstatistic,SEE,isthestandarddeviationoftheactualYvaluesfromthepredictedvalues.估计标准误。SEE表示Y的实际值与预测值之间的标准差Standarderror.Thestandarddeviationofb,SEb,iscalledthestandarderror.标准误。B的标准差Seb被称作标准误。YStatisticsAssociatedwithBivariate
RegressionAnalysis与二元回归分析相关的统计量Standardizedregressioncoefficient.Alsotermedthebetacoefficientorbetaweight,thisistheslopeobtainedbytheregressionofYonXwhenthedataarestandardized.标准化回归系数。也被称作beta系数或beta权数,是X与Y均为标准化数据时的斜率。Sumofsquarederrors.Thedistancesofallthepointsfromtheregressionlinearesquaredandaddedtogethertoarriveatthesumofsquarederrors,whichisameasureoftotalerror,误差平方和。将所有偏离回归拟合线的点的距离的平方和加总就得到误差平方和,值总误差的测量指标,记作tstatistic.Atstatisticwithn-2degreesoffreedomcanbeusedtotestthenullhypothesisthatnolinearrelationshipexistsbetweenXandY,orH0:β=0,wheret=b/SEbT统计量。自由度为n-2的t统计量可用于检验X与Y不存在线性关系的零假设。
ejS2ConductingBivariateRegressionAnalysis
PlottheScatterDiagram
二元回归分析散点图Ascatterdiagram,orscattergram,isaplotofthevaluesoftwovariablesforallthecasesorobservations.
散点图就是根据两个变量的所有观测值绘制的图表Themostcommonlyusedtechniqueforfittingastraightlinetoascattergramistheleast-squaresprocedure.Infittingtheline,theleast-squaresprocedureminimizesthesumofsquarederrors,用一条直线对散点图进行拟合的最常用方法为最小二乘法.为找到最佳拟合线,最小二乘法可以令误差平方和最小。
ejS2ConductingBivariateRegressionAnalysis进行二元回归分析法Fig.17.2图PlottheScatterDiagram绘制散点图FormulatetheGeneralModel建立二元回归模型EstimatetheParameters估计参数EstimateStandardizedRegressionCoefficients估计标准化回归系数TestforSignificance显著性检验DeterminetheStrengthandSignificanceofAssociation确定相关关系的强度和显著性CheckPredictionAccuracy检查预测准确度ExaminetheResiduals残差检验
Cross-ValidatetheModel模型交叉检验ConductingBivariateRegressionAnalysis
FormulatetheBivariateRegressionModel分析二元回归模型Inthebivariateregressionmodel,thegeneralformofastraightlineis:Y
=X
b0+
b1whereY=dependentorcriterionvariable因变量或标准变量X=independentorpredictorvariable自变量或预测变量
=interceptoftheline直线的截距
b0
b1=slopeoftheline直线的斜率
Theregressionprocedureaddsanerrortermtoaccountfortheprobabilisticorstochasticnatureoftherelationship:在回归分析中需要加上误差项,以便考察变量之间关系的随机性Yi
=
b0+
b1
Xi+eiwhereeiistheerrortermassociatedwiththeithobservation.式中ei为第I个观察值相关的误差项PlotofAttitudewithDurationFig.17.34.52.256.7511.25913.593615.7518DurationofResidenceAttitudeWhichStraightLineIsBest?Fig.17.49
6
3
2.25
4.5
6.75
9
11.25
13.5
15.75
18
Line1
Line2
Line3
Line4
BivariateRegression二元回归
Fig.17.5X2X1X3X5X4YJeJeJYJXYβ0+β1XConductingBivariateRegressionAnalysis
EstimatetheParameters二元回归参数分析 areunknownandareestimatedfromthesampleobservationsusingtheequation在大多数情况下,和是未知的,需要根据等式从样本观测值中估计
whereiistheestimatedorpredictedvalueofYi,andaandbareestimatorsofInmostcases,
b0and
b1Yi=a+bxiYand,respectively.
b=COVxySx2=(Xi-X)(Yi-Y)Si=1n(Xi-X)Si=1n2=XiYi-nXYSi=1nXi2-nX2Si=1n
b0
b1b0ConductingBivariateRegressionAnalysis
EstimatetheParameters二元回归参数分析Theintercept,a,maythenbecalculatedusing:截距a则可以计算如下 a=ForthedatainTable17.1,theestimationofparametersmaybe
illustratedasfollows:
=(10)(6)+(12)(9)+(12)(8)+(4)(3)+(12)(10)+(6)(4) +(8)(5)+(2)(2)+(18)(11)+(9)(9)+(17)(10)+(2)(2) =917
Xi2 =102+122+122+42+122+62 +82+22+182+92+172+22 =1350-bYXS12iS=112=i1XiYiConductingBivariateRegressionAnalysis
EstimatetheParameters二元回归参数分析Itmayberecalledfromearliercalculationsofthesimplecorrelationthat:前面我们讲过简单相关系数的计算为: =9.333 =6.583
Givenn=12,bcanbecalculatedas:
=0.5897
a=XYb
=
917
-
(12)
(9.333)
(
6.583)1350
-
(12)
(9.333)2Y-bX
=6.583-(0.5897)(9.333) =1.0793ConductingBivariateRegressionAnalysis
EstimatetheStandardizedRegressionCoefficient估计标准化回归系数Standardizationistheprocessbywhichtherawdataaretransformedintonewvariablesthathaveameanof0andavarianceof1(Chapter14).标准化就是将原始数据转换为均值为0,方差为1的新变量的过程(见14章)Whenthedataarestandardized,theinterceptassumesavalueof0.数据进行标准化后,截距取值为0Thetermbetacoefficientorbetaweight
isusedtodenotethestandardizedregressioncoefficient.Bata系数被用来表示标准化回归系数。 Byx=Bxy
=rxy
Thereisasimplerelationshipbetweenthestandardizedandnon-standardizedregressioncoefficients:标准化和非标准化回归系数的关系可以简单表示如下:
Byx=byx(Sx/Sy)ConductingBivariateRegressionAnalysis
TestforSignificance二元回归显著性检验ThestatisticalsignificanceofthelinearrelationshipbetweenXandYmaybetestedbyexaminingthehypotheses:对于X和Y之间的线性关系的统计显著性可以通过以下假设进行检验Atstatisticwithn-2degreesoffreedomcanbeused,where通常采用双尾检验,对此要采用自由度为n-2的t统计量SEbdenotesthestandarddeviationofbandiscalledthestandarderror.Seb表示b的标准差,被称为标准误。
H0:b1=0H1:b1¹0t
=
bSEbConductingBivariateRegressionAnalysis
TestforSignificance二元回归显著性检验Usingacomputerprogram,theregressionofattitudeondurationofresidence,usingthedatashowninTable17.1,yieldedtheresultsshowninTable17.2.Theintercept,a,equals1.0793,andtheslope,b,equals0.5897.Therefore,theestimatedequationis:用计算机程序,根据表17-1的数据,可以建立对城市态度与居住年限的回归方程,其中截距a=1.0793,斜率b=0.5897,估计的方程式为:Attitude()=1.0793+0.5897(Durationofresidence)Thestandarderror,orstandarddeviationofbisestimatedas0.07008,andthevalueofthetstatisticast=0.5897/0.0700=8.414,withn-2=10degreesoffreedom.B的标准误或标准差为0.07008,t=0.5897/0.0700自由度为n-2=10FromTable4intheStatisticalAppendix,weseethatthecriticalvalueoftwith10degreesoffreedomand=0.05is2.228foratwo-tailedtest.Sincethecalculatedvalueoftislargerthanthecriticalvalue,thenullhypothesisisrejected.从附录统计表4中,我们可以找到自由度为10,a=0.05时双尾检验t的临界值为2.228,由于t的计算值大于临界值,零假设被拒绝。
aYConductingBivariateRegressionAnalysis
DeterminetheStrengthandSignificanceofAssociation确定相关关系的强度和显著性Thetotalvariation,SSy,maybedecomposedintothevariationaccountedforbytheregressionline,SSreg,andtheerrororresidualvariation,SSerrororSSres,asfollows:总变差SSy可以分解为回归变差,SSreg和残差SSerror或Ssres,即SSy=SSreg+SSreswhere
S
S
y
=
(
Y
i
-
Y
)
2
n
S
i
=1
S
S
r
e
g
=
(
Y
i
-
Y
)
2
S
S
r
e
s
=(
Y
i
-
Y
i
)
2
n
S
i
=1n
S
i
=1DecompositionoftheTotal
VariationinBivariateRegression
二元回归中的总变差分解Fig.17.6X2X1X3X5X4YXTotalVariationSSyResidualVariation残余变差SSresExplainedVariation解释变差SSregYConductingBivariateRegressionAnalysis
DeterminetheStrengthandSignificanceofAssociation确定相关关系的强度和显著性Toillustratethecalculationsofr2,letusconsideragaintheeffectofattitudetowardthecityonthedurationofresidence.Itmayberecalledfromearliercalculationsofthesimplecorrelationcoefficientthat:为说明r2
计算,我们任然以居住年限对城市态度的影响为例。在此之前我们曾经计算过简单相关系数
=120.9168SSy=(Yi-Y)2Si=1n
r
2
=
S
S
r
e
g
S
S
y
=
S
S
y
-
S
S
r
e
s
S
S
y
Thestrengthofassociationmaythenbecalculatedasfollows:变量之间联系的强度计算如下;ConductingBivariateRegressionAnalysis
DeterminetheStrengthandSignificanceofAssociation确定相关关系的强度和显著性Thepredictedvalues()canbecalculatedusingtheregression预测值可以通过回归方程来计算equation:Attitude()=1.0793+0.5897(Durationofresidence)ForthefirstobservationinTable17.1,thisvalueis:()=1.0793+0.5897x10=6.9763.Foreachsuccessiveobservation,thepredictedvaluesare,inorder,8.1557,8.1557,3.4381,8.1557,4.6175,5.7969,2.2587,11.6939,6.3866,11.1042,and2.2587.对以后各项观测值,预测值依次为8.1557,8.1557,3.4381,8.1557,4.6175,5.7969,2.2587,11.6939,6.3866,11.1042,和2.2587YYYConductingBivariateRegressionAnalysis
DeterminetheStrengthandSignificanceofAssociation确定相关关系的强度和显著性Therefore,
=(6.9763-6.5833)2+(8.1557-6.5833)2 +(8.1557-6.5833)2+(3.4381-6.5833)2 +(8.1557-6.5833)2+(4.6175-6.5833)2 +(5.7969-6.5833)2+(2.2587-6.5833)2 +(11.6939-6.5833)2+(6.3866-6.5833)2 +(11.1042-6.5833)2+(2.2587-6.5833)2 =0.1544+2.4724+2.4724+9.8922+2.4724 +3.8643+0.6184+18.7021+26.1182 +0.0387+20.4385+18.7021
=105.9524SSreg=(Yi-Y)2Si=1nConductingBivariateRegressionAnalysis
DeterminetheStrengthandSignificanceofAssociation确定相关关系的强度和显著性 =(6-6.9763)2+(9-8.1557)2+(8-8.1557)2
+(3-3.4381)2+(10-8.1557)2+(4-4.6175)2 +(5-5.7969)2+(2-2.2587)2+(11-11.6939)2 +(9-6.3866)2+(10-11.1042)2+(2-2.2587)2
=14.9644ItcanbeseenthatSSy=SSreg+SSres.Furthermore,
r2 =SSreg/SSy =105.9524/120.9168 =0.8762SSres=(Yi-Yi)2Si=1nConductingBivariateRegressionAnalysis
DeterminetheStrengthandSignificanceofAssociation
确定相关关系的强度和显著性Another,equivalenttestforexaminingthesignificanceofthelinearrelationshipbetweenXandY(significanceofb)isthetestforthesignificanceofthecoefficientofdetermination.Thehypothesesinthiscaseare:
另外一个考察X与Y之间线性关系显著性(b的显著性)的等价检验,是可决系数显著性检验。该检验的假设为:
H0:R2pop=0
H1:R2pop>0ConductingBivariateRegressionAnalysis
DeterminetheStrengthandSignificanceofAssociation
确定相关关系的强度和显著性TheappropriateteststatisticistheFstatistic:适当的统计检验量为F统计量
whichhasanFdistributionwith1andn-2degreesoffreedom.TheFtestisageneralizedformofthettest(seeChapter15).Ifarandomvariableistdistributedwithndegreesoffreedom,thent2isFdistributedwith1andndegreesoffreedom.Hence,theFtestfortestingthesignificanceofthecoefficientofdeterminationisequivalenttotestingthefollowinghypotheses:它服从F分布,自由度为1和n-2。F检验是t检验的一般形式,如果随机变量服从自由度为n的t分布,那么t2就服从自由度为1和n的F分布。因此检验可决系数显著性的F检验与以下假设意义相同: orF
=
SSregSSres/(n-2)
H0:b1=0H1:b1¹0
H0:r=0H1:r¹0ConductingBivariateRegressionAnalysis
DeterminetheStrengthandSignificanceofAssociation
确定相关关系的强度和显著性FromTable17.2,itcanbeseenthat:
r2=105.9522/(105.9522+14.9644)
=0.8762
Whichisthesameasthevaluecalculatedearlier.ThevalueoftheFstatisticis:
F=105.9522/(14.9644/10)=70.8027
with1and10degreesoffreedom.ThecalculatedFstatisticexceedsthecriticalvalueof4.96determinedfromTable5intheStatisticalAppendix.Therefore,therelationshipissignificantat=0.05,corroboratingtheresultsofthettest.自由度为1和10.计算出的F统计量超过了根据附录统计表5查到的临界值4.96,因此,变量之间的关系在a=0.05的对平下显著,证实了t检验的结果
aBivariateRegression
二元回归Table17.2MultipleR 0.93608R2 0.87624AdjustedR2 0.86387StandardError 1.22329
ANALYSISOFVARIANCE
df SumofSquares MeanSquareRegression 1 105.95222 105.95222Residual 10 14.964441.49644F=70.80266 SignificanceofF=0.0000VARIABLESINTHEEQUATIONVariable b SEb Beta(ß) TSignificance ofTDuration 0.58972 0.070080.93608 8.414 0.0000(Constant) 1.07932 0.74335 1.452 0.1772BivariateRegression
二元回归Table17.2多元R
0.93608R2 0.87624调整的
R2 0.86387标准误
1.22329
方差分析
自由度
平方和
均方回归方程 1 105.95222 105.95222残差
10 14.964441.49644F=70.80266
F
的显著性
=0.0000等式中的变量变量
b SEb Beta(ß) TSignificanceofT
居住年限 0.58972 0.070080.93608 8.414 0.0000(常数项 1.07932 0.74335 1.452 0.1772ConductingBivariateRegressionAnalysis
CheckPredictionAccuracy检查预测准确度Toestimatetheaccuracyofpredictedvalues,,itisusefultocalculatethestandarderrorofestimate,SEE.为估计预测值的准确性,有必要计算估计的标准误SEE,这个统计量表示Y的实际值与预测值之间的标准差。
orormoregenerally,iftherearekindependentvariables,如果有K个自变量,一般形式为
ForthedatagiveninTable17.2,theSEEisestimatedasfollows:
=1.22329Y2(12)ˆ--=å=nSEEniiiYY2-=nSEESSres1--=knSEESSresSEE
=
14.9644/(12-2)Assumptions假设Theerrortermisnormallydistributed.ForeachfixedvalueofX,thedistributionofYisnormal.误差项呈正态分布,对于每个X的固定值,Y为正态分布ThemeansofallthesenormaldistributionsofY,givenX,lieonastraightlinewithslopeb.给定X,所有正态分布的Y的均值位于一条斜率为b的直线上Themeanoftheerrortermis0.误差项的均值为0Thevarianceoftheerrortermisconstant.ThisvariancedoesnotdependonthevaluesassumedbyX.误差项的方差固定,方差不随X值变化Theerrortermsareuncorrelated.Inotherwords,theobservationshavebeendrawnindependently.误差项是不相关的,即观测值是相互独立的。MultipleRegression多元回归Thegeneralformofthemultipleregressionmodelisasfollows:多元回归模型的一般形式如下:whichisestimatedbythefollowingequation:该模型通过以下公式尽享估算 =a+b1X1+b2X2+b3X3+...+bkXk
Asbefore,thecoefficientarepresentstheintercept,buttheb'sarenowthepartialregressioncoefficients.如前所述,系数a代表的是截距,但b现在是偏回归系数。Y
Y=b0+b1X1+b2X2+b3X3+...+bkXk+eeStatisticsAssociatedwithMultipleRegression与多元回归有关的统计量AdjustedR2.R2,coefficientofmultipledetermination,isadjustedforthenumberofindependentvariablesandthesamplesizetoaccountforthediminishingreturns.Afterthefirstfewvariables,theadditionalindependentvariablesdonotmakemuchcontribution.
调整的。将多元可决系数根据自变量和样本规模进行调整,除了前几个自变量,其他自变量对因变量的影响不大。Coefficientofmultipledetermination.Thestrengthofassociationinmultipleregressionismeasuredbythesquareofthemultiplecorrelationcoefficient,R2,whichisalsocalledthecoefficientofmultipledetermination.多元可决系数。多元回归中变量之间关系的强度由多元相关系数的平方R2来测量Ftest.TheFtestisusedtotestthenullhypothesisthatthecoefficientofmultipledeterminationinthepopulation,R2pop,iszero.Thisisequivalenttotestingthenullhypothesis.TheteststatistichasanFdistributionwithkand(n-k-1)degreesoffreedom.F检验。F检验用于检验样本总体多元可决系数R2pop为0的假设。这与检验零假设是等价的。检验统计量服从F分布,自由度为k和(n-k-1).StatisticsAssociatedwithMultipleRegression与多元回归有关的统计量PartialFtest.Thesignificanceofapartialregressioncoefficient,,ofXimaybetestedusinganincrementalFstatistic.TheincrementalFstatisticisbasedontheincrementintheexplainedsumofsquaresresultingfromtheadditionoftheindependentvariableXitotheregressionequationafteralltheotherindependentvariableshavebeenincluded.偏F检验。对Xi的偏回归系数进行显著性检验可以应用递增F统计量。递增F统计量取决于在所有其他自变量都包括在模型中的情况下,向回归方程引入新自变量时可解释平方和的增量。
Partialregressioncoefficient.Thepartialregressioncoefficient,b1,denotesthechangeinthepredictedvalue,,perunitchangeinX1whentheotherindependentvariables,X2toXk,areheldconstant.偏回归系数。偏回归系数b1表示在X2到Xk均固定不变时,改变一单位X1引起的预测值的变化。Y
biConductingMultipleRegressionAnalysis
PartialRegressionCoefficients偏回归系数
Tounderstandthemeaningofapartialregressioncoefficient,letusconsideracaseinwhichtherearetwoindependentvariables,sothat:
为便于理解偏回归系数的意义,我们假设有两个自变量,所以有如下公式
=a+b1X1+b2X2First,notethattherelativemagnitudeofthepartialregressioncoefficientofanindependentvariableis,ingeneral,differentfromthatofitsbivariateregressioncoefficient.首先,注意一个自变量的偏回归系数的相对重要性在总体上不如其二元回归系数。Theinterpretationofthepartialregressioncoefficient,b1,isthatitrepresentstheexpectedchangeinYwhenX1ischangedbyoneunitbutX2isheldconstantorotherwisecontrolled.Likewise,b2representstheexpectedchangein
YforaunitchangeinX2,whenX1isheldconstant.Thus,callingb1andb2partialregressioncoefficientsisappropriate.偏回归系数b1代表的意义是,X2在不变或受到控制的前提下,X1变化一个单位会使Y产生的预期变化。同样b2代表的意义是,X1在不变或受到控制的前提下,X2变化一个单位会引起Y产生的预期变化。YConductingMultipleRegressionAnalysis
PartialRegressionCoefficients偏回归系数ItcanalsobeseenthatthecombinedeffectsofX1andX2onYareadditive.Inotherwords,ifX1andX2areeachchangedbyoneunit,theexpectedchangeinYwouldbe(b1+b2).。X2,和
X1对Y的联合作用是累加的。即如果都改变一个单位,Y的预期变化就是(b1+b2
)SupposeonewastoremovetheeffectofX2fromX1.ThiscouldbedonebyrunningaregressionofX1onX2.Inotherwords,onewouldestimatetheequation1=a+bX2andcalculatetheresidualXr=(X1-1).Thepartialregressioncoefficient,
b1,isthenequaltothebivariateregressioncoefficient,br,obtainedfromtheequation=a+brXr.假设我们希望从X1中X2去除的影响,可以用X2对X1进行回归,也就是估计方程=a+bX2
,并计算残差Xr=(X1-1),因此,偏回归系数br与方程Y=a+brXr.中的二元回归系数相等。XXYConductingMultipleRegressionAnalysis
PartialRegressionCoefficients偏回归系数Extensiontothecaseofkvariablesisstraightforward.Thepartialregressioncoefficient,b1,representstheexpectedchangeinYwhenX1ischangedbyoneunitandX2throughXkareheldconstant.Itcanalsobeinterpretedasthebivariateregressioncoefficient,b,fortheregressionofYontheresidualsofX1,whentheeffectofX2throughXkhasbeenremovedfromX1.
以上方程可以直接扩展到K个变量的情况。偏回归系数b1道标X2到Xk固定时,X1 变化一单位引起Y的预期变化。它也可以解释为去除X2到Xk对X1的影响后,Y对X1残差回归的二元回归系数。Therelationshipofthestandardizedtothenon-standardizedcoefficientsremainsthesameasbefore:
标准化与非标准化系数之间的关系为:
B1=b1(Sx1/Sy) Bk=bk(Sxk/Sy)Theestimatedregressionequationis:估计出的回归方程为;
()=0.33732+0.48108X1+0.28865X2orAttitude=0.33732+0.48108(Duration)+0.28865(Importance)YMultipleRegressionTable17.3MultipleR 0.97210R2 0.94498AdjustedR2 0.93276StandardError 0.85974
ANALYSISOFVARIANCE
df SumofSquares MeanSquareRegression 2 114.26425 57.13213
Residual 9 6.65241 0.73916
F=77.29364 SignificanceofF=0.0000VARIABLESINTHEEQUATIONVariable b SEb Beta(ß) TSignificance ofTIMPORTANCE 0.28865 0.086080.31382 3.353 0.0085
DURATION 0.48108 0.058950.76363 8.160 0.0000
(Constant) 0.33732 0.56736 0.595 0.5668
多元回归Table17.3多元
R
0.97210R2 0.94498调整的
R2 0.93276标准误 0.85974
ANALYSISOFVARIANCE
df SumofSquares MeanSquare回归方程 2 114.26425 57.13213
残差 9 6.65241 0.73916
F=77.29364 SignificanceofF=0.0000VARIABLESINTHEEQUATION变量
b SEb Beta(ß) TSignificance ofT天气重要性 0.28865 0.086080.31382 3.353 0.0085
居住年限 0.48108 0.058950.76363 8.160 0.0000
(常数项
0.33732 0.56736 0.595 0.5668
ConductingMultipleRegressionAnalysis
StrengthofAssociation联系的强度SSy=SSreg+SSreswhereSSreg=(Yi-Y)2Si=1nSSy=(Yi-Y)2Si=1nSSres=(Yi-Yi)2Si=1nConductingMultipleRegressionAnalysis
StrengthofAssociation联系的强度Thestrengthofassociationismeasuredbythesquareofthemultiplecorrelationcoefficient,R2,whichisalsocalledthecoefficientofmultipledetermination. 变量之间联系的强度可以用多元相关系数的平方R2,来测量,也称多元可决系数。R2
=
SSregSSyR2isadjustedforthenumberofindependentvariablesandthesamplesizebyusingthefollowingformula:
R2可以根据自变量的数量和样本规模按照如下公式调整AdjustedR2
=R2
-
k(1
-
R2)n
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年昌吉市应急管理系统事业单位人员招聘考试备考试题及答案详解
- 2026年北京大学第一医院肿瘤诊所中心医护人员招聘笔试模拟试题及答案解析
- 医学就业指导
- 2026年本溪市卫生健康系统事业单位人员招聘考试备考试题及答案详解
- 2026年定西市水利系统事业单位人员招聘考试备考试题及答案详解
- 2026江苏有线数据公司南通分公司招聘2人考试模拟试题及答案解析
- 2026年亳州市社区工作者招聘考试备考试题及答案详解
- 2026黑龙江哈尔滨理工大学招聘30人考试备考题库及答案解析
- 2026 增肌期桃课件
- web前端开发职业规划
- 长城的历史资料概括
- 2020新版药品GCP考试题库及答案
- 证据法学-典型案例分析
- 2022年一级注册建筑师考试《建筑材料与构造》真题及答案解析
- 滴水实验 说课课件
- 小型液压机液压系统设计
- 玉米的综合利用玉米皮的综合利用
- GB/T 4450-1995船用盲板钢法兰
- 汽轮机TSI系统详解
- 建档立卡-退役军人信息登记表(基础电子档案)
- (部编版)统编四年级语文下册第六单元《习作:我学会了-》教学课件
评论
0/150
提交评论