版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
5.7回归分析
线性回归曲线估计二分量逻辑分析多项式逻辑分析标称变量分析概率回归非线性回归加权估计
2阶段最小二乘法第1页/共134页5-7-1线性回归模型总体回归模型
j也被称为偏回归系数(partialregressioncoefficients),表示在其他解释变量保持不变的情况下,Xj每变化1个单位时,Y的均值E(Y)的变化。样本回归函数第2页/共134页参数估计最小二乘法模型统计推断检验拟合优度检验方程显著性检验(F检验)变量显著性检验(t检验)
第3页/共134页
(1)拟合优度检验
回归方程的拟合优度检验就是要检验样本数据聚集在样本回归直线周围的密集程度,从而判断回归方程对样本数据的代表程度。
回归方程的拟合优度检验一般用调整判定系数R2实现。该统计量的值越接近于1越好。(注:在一元线性回归中拟合优度的检验可用判定系数R2实现)第4页/共134页
(2)回归方程的显著性检验(F检验)回归方程的显著性检验是对因变量与所有自变量之间的线性关系是否显著的一种假设检验。回归方程的显著性检验一般采用F检验,利用方差分析的方法进行。第5页/共134页
Fα第6页/共134页
(3)回归系数的显著性检验(t检验)所谓回归系数的显著性检验,就是根据样本估计的结果对总体回归系数的有关假设进行检验。之所以对回归系数进行显著性检验,是因为回归方程的显著性检验只能检验所有回归系数是否同时与零有显著性差异,它不能保证回归方程中不包含不能较好解释说明因变量变化的自变量。因此,可以通过回归系数显著性检验对每个回归系数进行考察。第7页/共134页
回归参数显著性检验的基本步骤。
①提出假设
②计算回归系数的t统计量值
③根据给定的显著水平α确定临界值,或者计算t值所对应的p值
④作出判断H0:
j=0
(j=1,2…k)
第8页/共134页一、一元线性回归y=a+bx例5-7-1
已知我国分地区家庭人均食品支出、人均收入。试作一元线性回归分析。(e5-7-1)
第9页/共134页
操作步骤:使用系统默认选择项进行线性回归分析Analyze-------Regression---------Linear分析——回归——线性Dependent:存放因变量Independent:存放自变量
第10页/共134页输出结果及结果分析变量引入或剔出表:Model1引入变量
income,用强迫输入法Enter。第11页/共134页模型摘要表相关系数R=0.923,判定系数R2=0.852,调整判定系数R2=0.847,估计值的标准误为
注:在一元线性回归中可用判定系数R2来判断模型的拟合度。调整判定系数R2的值越大,模型的拟合优度越好。第12页/共134页方差分析表回归的均方(Regression–MeanSquare)=878382.334,剩余(残差)的均方(Residual-Meansquare)=5450.755,F=161.149P=0.000.可以认为这两个变量之间有直线关系.
注:H0为模型线性关系不成立,即b=0第13页/共134页变量显著性检验(t检验)回归系数:t=12.694,p=0.00,拒绝原假设,显著不为0常数项:,,接受原假设,常数项与0没有显著差异。注意:在实际中一般不以t检验决定常数项是否保留在模型中,而是从经济意义方面分析回归线是否应该通过原点。第14页/共134页回归方程:常数项=-53.086,回归系数=0.422,则线性回归方程为:
第15页/共134页二、多元回归分析1、从“Analyze”
(分析)——“Regression”(回归)——“Linear”(线性),打开
Linear线性回归主对话框。第16页/共134页
2、在左侧的源变量栏中选择一数值变量作为因变量进入Dependent栏中,选择一个或更多的变量作为自变量进入Independent(s)栏中。
3、如果要对不同的自变量采用不同的引入方法,可利用“Previous”与“Next”按钮把自变量归类到不同的自变量块(Block)中,然后对不同的变量子集选用不同的引入方法(Method)。
Enter(进入):强迫引入法,默认选择项。定义的全部自变量均引入方程。
Remove(移去):强迫剔除法。定义的全部自变量均删除。
Forward(向前):向前引入法。自变量由少到多一个一个引入回归方程,直到不能按检验水准引入新的变量为止。该法的缺点是:当两个变量一起时效果好,单独时效果不好,有可能只引入其中一个变量,或两个变量都不能引入。
Backward(向后):向后剔除法。自变量由多到少一个一个从回归方程中剔除,直到不能按检验水准剔除为止,能克服向前引入法的缺点。当两个变量一起时效果好,单独时效果不好,该法可将两个变量都引入方程。
Stepwise(逐步):逐步引入一剔除法。将向前引入法和向后剔除法结合起来,在向前引入的每一步之后都要考虑从已引入方程的变量中剔除作用不显著者,直到没有一个自变量能引入方程和没有一个自变量能从方程中剔除为止。缺点同向前引入法,但选中的变量比较精悍。
第17页/共134页
说明:为弥补各种选择方法和各种标准的局限性,不妨分别用各种方法和多种引入或剔除处理同一问题,若一些变量常被选中,它们就值得重视。
4、
Selectionvariable(选择变量):可从源变量栏中选择一个变量,单击Rule后,通过该变量大于、小于或等于某一数值,选择进入回归分析的观察单位。
5、CaseLabels(个案标签):在左侧的源变量框中选择一变量作为标签变量进入
CaseLabels框中。第18页/共134页
6、Statistics(统计)对话框单击“Statistics”按钮,进入统计对话框如图:第19页/共134页
Estimates(默认选择项):回归系数的估计值(B)及其标准误(Std.Error)、常数(Constant);标准化回归系数(Beta);B的t值及其双尾显著性水平(Sig.)。
Modelfit(默认选择项):列出进入或从模型中剔除的变量;显示下列拟合优度统计量:复相关系数(R)、判定系数(R2)、调整R2(AdjustedRSquare)、估计值的标准误以及方差分析表。
Confidenceintervals:回归系数B的95%可信区间(95%ConfidenceintervalforB)。
Descriptives:变量的均数、标准差、相关系数矩阵及单尾检验。
Covariancematrix:方差——协方差矩阵。
Rsqaredchange:R2和F值的改变,以及方差分析P值的改变。
Partandpartialcorrelations:显示方程中各自变量与因变量的零阶相关(Zero一order,即Pearson相关)、偏相关(Partial)和部分相关(part)。进行此项分析要求方程中至少有两个自变量。
Collinearitydiagnostic(共线性诊断)。显示各变量的容差(Tolerance)、方差膨胀因子(VIC,VarianceInflationFactor)和共线性的诊断表。
第20页/共134页
容差(Tolerance)是不能由方程中其它自变量解释的方差所占的构成比。所有进入方程的变量的容差必须大于默认的容差水平值(Tolerance:)。该值愈小,说明该自变量与其他自变量的线性关系愈密切。该值的倒数为方差膨胀因子(VarianceInflationFactor)。当自变量均为随机变量时,若它们之间高度相关,则称自变量间存在共线性。在多元线性回归时,共线性会使参数估计不稳定。逐步选择变量是解决共线性的方法之一。
Durbin-Waston:用于随机误差项的分析,以检验回归模型中的误差项的独立性。如果误差项不独立,那么对回归模型的任何估计与假设所做出的结论都是不可靠的。
计算DW值给定
,由n和k的大小查DW分布表,得临界值dL和dU
比较、判断第21页/共134页0<D.W.<dL
存在正自相关
dL<D.W.<dU
不能确定
dU<D.W.<4-dU
无自相关4-dU<D.W.<4-dL
不能确定4-dL<D.W.<4存在负自相关
说明:当D.W.值在2左右时,模型不存在一阶自相关。第22页/共134页Casewisediagnostic:对标准化残差(服从均数=0,标准差=1的正态分布)进行诊断。判断有无奇异值(离群值)(outliers)。
Outliers:显示标准化残差超过n个标准差的奇异值,n=3为默认值。
AllCases:显示每一例的标准化残差、实测值和预测值、残差。7、Plots(图)对话框单击“Plots”按钮,对话框如下图所示。Plots可帮助分析资料的正态性、线性和方差齐性,还可帮助检测奇异值或异常值。第23页/共134页第24页/共134页
(1)散点图:可选择如下任何两个变量为Y(纵轴变量)与X(横轴变量)作图。为获得更多的图形,可单击“Next”按钮来重复操作过程。
DEPENDENT:因变量。
*ZPRED:标准化预测值。
*ZRESID:标准化残差。
*DRESID:删除的残差。
*ADJPRED:调整残差。
*SRESID:Student氏残差。
*SDRESID:Student氏删除残差。(2)StandardizedResidualPlots:标准化残差图。
Histogram:标准化残差的直方图,并给出正态曲线。
NormalProbalityPlot:标准化残差的正态概率图(P-P图)。(3)ProduceallPartialplots:偏残差图。第25页/共134页8、Save(保存新变量)对话框单击“Save”按钮,对话框如下图所示。每项选择都会增加新变量到正在使用的数据文件中。第26页/共134页(1)预测值(PredictedValues):
Unstandardized:未标准化的预测值,简称预测值(新变量为pre_1)。
Standardized标准化的预测值(新变量为Zpr_1)。
S·E·Ofmeanprediction:预测值的标准误(新变量为Sep_l)。(2)残差(Residuals)
Unstandardized未标准化残差(新变量为res_1)。
Standardized:标准化残差(新变量为Zre_1)。(3)预测区间估计(PredictionIntervals)
Mean:是总体中当X为某定值时预测值的均数的可信区间(新变量lmci_1为下限,umci_1为上限。
Individual:个体Y值的容许区间。即总体中,当X为某定值时,个体Y值的波动范围(新变量lici_1为下限,uici_1为上限)。
ConfidenceIntervals:可信区间。默认为95%的可信区间,但用户可以自己设定。第27页/共134页9、Options选择项对话框
单击“Option”按钮,打开Options对话框,如下图。
第28页/共134页(1)逐步方法准则(SteppingMethodCriteria):
UseProbabilityofF(使用F显著水平值):当候选变量中最大F值的P值小于或等于引入值(默认:0.05)时,引入相应的变量;已进入方程的变量中,最小F值的P值大于或等于剔除值(默认:)时,剔除相应的变量。所设定的引入值必须小于剔除值,用户可设定其它标准,如引入,剔除,放宽变量进入方程的标准。
UseFvalue使用F值。含义同上。
Includeconstantinequation:线性回归方程中含有常数项。(2)缺失值的处理方法(MissingValue)
Excludecaseslistwise:剔除所有变量中有缺失值的观测量。
Excludecasespairwise:仅剔除正在参与运算的一对变量中有缺失值的观测量。
Replacewithmean:以平均数代替缺失值.第29页/共134页11、“WLS”(WeightLeastSquares)(1)利用加权最小平方法给于观测量不同的权重值,它或许用来补偿采用不同测量方式时所产生的误差。(2)将左侧源变量框中的加权变量选入WLSWeight框中。应用举例例5-7-2在例5-7-1中增加一自变量粮食价格price,数据如下图。试作多元线性回归分析。(e5-7-2.sav)
第30页/共134页第31页/共134页操作步骤:
1、从菜单“Analyze”——“Regression”——“Linear”,打开Linear线性回归主对话框。
2、在左边的源变量栏中选择foodexp作为因变量进入Dependent栏中,选择income、price作为自变量进入Independent(s)栏中。在Method栏中选择Stepwise(逐步引入一剔除法)。
3、单击“Options”按钮,进入Options对话框。在UseprobabilityofF栏中的Entry框内输入0.10,Remove框中输入0.11。
4、单击“Statistics”按钮,进入Statistics对话框,选择Descriptives、Casewisediagnostic中的outliers(n=3为默认值)。
5、单击“Plots”按钮,选择以下3项:
散点图。选用SRESID(Y纵轴变量)与*ZPRED(X横轴变量)作图。
Histogram:标准化残差的直方图,并给出正态曲线。
NormalProbabilityplot:标准化残差的正态概率图(P-P图)。
第32页/共134页
6、单击“Save”按钮,选择保存以下新变量:(1)预测值(PredictedValues)中的
Unstandardized,未标准化的预测值(新变量为
pre_l)
S.E.ofmeanPredictions,预测值的标准误(新变量为
sep_l)。(2)残差(Residuals)中的
Unstandardized末标准化残差(新变量为res_1)(3)预测区间估计(PredictionIntervals)中
Mean,当自变量为某定值时,预测值的均数的可信区间(新变量lmci_1为下限,umci_1为上限)
Individual,个体Y值的容许区间,即总体中,当自变量为某定值时,个体Y值的波动范围(新变量lici_1为下限,uici_1为上限);
Confidence,可信区间,默认为95%的可信区间,用户可以自己设定。
7、单击“OK”按钮,运行程序,得到结果如下:第33页/共134页描述统计量表:均值、标准差、观测量的个数第34页/共134页相关系数表:相关系数、检验概率、观测量个数第35页/共134页变量引入/剔除表:
Model1中:引入自变量incomeModel2中:又引入Price,没有剔除变量,所以有两个自变量。第36页/共134页模型摘要表
Model1中:相关系数R=0.923,判定系数r2=0.852,调整判定系数R2=0.847,估计值的标准误为
Model2中:相关系数R=0.940,判定系数r2=0.884,调整判定系数R2=0.876,估计值的标准误为。第37页/共134页方差分析表
Model2中:F=103.167,P=0.000,说明因变量foodexp与自变量income、price之间有线性关系。第38页/共134页回归分析系数表
Model2中回归方程为:
经t检验,在检验水平下,回归系数b1、b2有显著性意义。而常数项的P=0.173,无显著性意义。第39页/共134页模型外的变量
Model1中方程外的变量price的t检验概率P=0.011<0.10,所以在Model2中被引入方程。第40页/共134页残差统计表第41页/共134页标准化残差直方图及正态曲线第42页/共134页标准化残差的正态概率图:用来判断一个变量的分布是否符合一个特定的检测分布。如果两分布基本相同,那么在P-P图中的点应该围绕在一条斜线的周围。第43页/共134页
散点图:可以判断模型的拟合效果。在残差图中,如果各点呈随机状,并绝大部分落在±2σ范围内,说明模型对于数据的拟合效果较好。第44页/共134页第45页/共134页多元线性回归:
1、因变量、自变量的确定
2、变量引入、剔除方法的选择
3、常用选择项
第46页/共134页4、检验
(1)模型拟合检验:调整R2第47页/共134页4、检验
(2)模型线性关系检验:方差分析表,F统计量
零假设:回归系数全为0第48页/共134页4、检验
(3)模型回归系数检验:t检验
零假设:相对应的回归系数为0第49页/共134页应用举例:全国财政收入的回归分析第50页/共134页采用ENTER法:引入全部变量第51页/共134页第52页/共134页移除GNP后,剩余的自变量采用ENTER法第53页/共134页其中:x1—税收;x2—其它收入;X3—从业人数;X4—进出口额为什么从业人数的系数为负?注意:本题变量的引入——剔除可采用Stepwise(逐步)法由计算机自动完成。第54页/共134页5.7.2曲线估计(曲线拟合)一、曲线拟合的功能与应用
在很多情况下有两个相关的变量,用户希望利用其中的一个变量对另一个变量进行预测,此时采用的方法也很多,从简单的线性模型到复杂的时间序列模型。如果不能马上根据观测数据确定一种最佳模型,可利用曲线估计在众多的回归模型中建立一个简单而又比较适合的模型。第55页/共134页二、曲线拟合的应用示例
例5-7-3已知变量X,Y的数据如下,试拟合曲线。(e5-7-3.sav)x:y:.687.398.200.121.090.050.020.0101、作散点图“graphs------legacyDialogs------“scatter/Dot”(------“Simple”第56页/共134页2、曲线估计Analyze-------“Regression”-------“CurveEstimation”
第57页/共134页
(l)Dependent(s):因变量栏。(2)Independent:定义自变量选项。
Variable:把左侧源变量栏的某变量放入该栏作为自变量,系统默认值。
Time:以时间序列作为自变量。(3)CaseLabels:数据标签栏,把左侧源变量栏的某变量放入该栏,该栏的变量值作为结果散点图中的点标记。(4)Models:曲线模型选择栏,有11种类型曲线可供选择。(5)DisplayANOVATable:结果中显示方差分析表。(6)Inc1udeconstantinequation:方程包含常数项,系统默认值。(7)Plotmodels:绘制曲线拟合图,系统默认值。
(8)“Save”按钮:变量储存按钮,激活变量储存对话框。
第58页/共134页第59页/共134页·Savevariables(保存变量选项)。点击一个或全部选项,可将相应的数值以新变量形式储存到数据库中,这些变量的定义将在结果中显示。
Predictedvalues:预测值选项(fit_1
)。
Residuals:残差(观察值与预测值之差)选项(err_1
)。
Predictionintervals:预测值区间(上、下限)选项(lcl_1,ucl_1
)。
Confidenceinterval:可信区间选项。
·PredictCase:预测观测量栏,仅在以时间序列作为自变量时有效。
PredictionestimationPeriodthroughlastcase:计算样本中数据的预测值。
Predictthrough:可计算样本中和样本之后的预测值仅用于时间序列的数据。
Observation:观察值号。第60页/共134页第61页/共134页第62页/共134页第63页/共134页线性模型第64页/共134页指数模型第65页/共134页第66页/共134页第67页/共134页结果分析如下:
(1)方差分析表:
线性拟合:,SignifF(P值)。
指数拟合:F=701.9507,SignifF=
可见两种拟合方法都通过水平检验,即有统计意义。但指数拟合比线性拟合更为显著。
(2)调整后的判定系数:
线性拟合:R2。
指数拟合:R2。
(3)自变量X检验:
线性拟合:,。
指数拟合:,。
(4)拟合方程
线性拟合:-
指数拟合:
(5)新增变量的描述
数据文件增加了8个变量,前四个为线性拟合的,后四个为指数拟合的.指数估计法的拟合效果比线性估计法好。两种方法的自变量系数都通过t检验。第68页/共134页结论:通过方差分析两种模型都具有统计意义,但指数拟合模型的拟合效果好。说明:首先,判断模型的方差分析结果,如果模型没有统计意义,那么即使它有最好的R2值,与其它呈显著意义的模型进行比较是没有意义的。然后,比较模型的R2值。第69页/共134页在例5-7-3中,对y进行按时间序列做曲线估计。第70页/共134页5.7.3逻辑回归分析(逻辑斯谛回归)一、逻辑回归分析的基本概念使用多元线性回归来分析多个自变量与一个因变量的关系,因变量要求正态分布的连续随机变量。所谓Logistic回归,是指因变量为二级计分或二类评定的回归分析,这在经济学研究中经常遇到,如:如人的素质的高低跟人的受教育年数等因素有关。这类变量称二项分类变量(0,1)。如果因变量是二项分类变量,显然不满足正态分布的条件,这时可用Logistic回归分析。在Logistic回归分析中常把自变量(Independentvariable)称为协变量(Covariate)。
SPSS10.0以上版本增加了可以处理多项逻辑分析的功能。多项的含义是指有时事物的状态不止两种,用二项分类变量不足以描述。
无论是处理二项分类变量还是处理多项分类变量逻辑分析统称为逻辑分析。
第71页/共134页BinaryLogistic回归模型中因变量只能取两个值1和0(虚拟因变量),而MultinomialLogistic回归模型中因变量可以取多个值。本节将只讨论BinaryLogistic回归,并简称Logistic回归(与曲线估计中介绍的Logistic曲线模型相区别)。第72页/共134页BinaryLogistic回归模型
令Y服从二项分布,取值为0,1。Y=1的概率为P(Y=1),则k个自变量分别为X1,X1,X3,...Xk所对应的Logistic回归模型为:第73页/共134页或者写为:第74页/共134页参数估计方法:最大似然估计法第75页/共134页1.-2对数似然值(-2loglikelihood,-2LL)模型检验-2loglikelihood(-2LL)是检验模型拟合度的一个统计量,当-2LL=0时模型非常完美地拟合数据。第76页/共134页Logistic回归的拟合优度统计量计算公式为在实际问题中,通常采用如下分类表(ClassificationTable)反映拟合效果。2.拟合优度(GoodnessofFit)统计量第77页/共134页Predicted(预测值)01PercentCorrect
(正确分类比例)Observed(观测值)0n00n01f01n10n11f1Overall(总计)ffClassificationTableforY第78页/共134页3.Cox和Snell的R2(Cox&Snell’sR-Square)第79页/共134页4.Nagelkerke的R2(Nagelkerke’sR-Square)第80页/共134页5.Hosmer和Lemeshow的拟合优度检验统计量(HosmerandLemeshow'sGoodnessofFitTestStatistic)
与一般拟合优度检验不同,Hosmer和Lemeshow的拟合优度检验通常把样本数据根据预测概率分为10组,然后根据观测频数和期望频数构造卡方统计量(即Hosmer和Lemeshow的拟合优度检验统计量,简称H-L拟合优度检验统计量),最后根据自由度为8的卡方分布计算其值并对Logistic模型进行检验。第81页/共134页
如果该p值小于给定的显著性水平α(如α
),则拒绝因变量的观测值与模型预测值不存在差异的零假设,表明模型的预测值与观测值存在显著差异。如果值大于α,我们没有充分的理由拒绝零假设,表明在可接受的水平上模型的估计拟合了数据。第82页/共134页6.Wald统计量Wald统计量用于判断一个变量是否应该包含在模型中,其检验步骤如下。(1)提出假设。
零假设:变量的系数等于0
(2)构造Wald统计量。(3)作出统计判断。第83页/共134页二、操作步骤:Analyze------Regression------BinaryLogistic第84页/共134页1.Logistic回归过程对话框。(l)Dependent:因变量栏。用于放入因变量,因变量可以是数值型或短字符型的二分变量。(2)“Previous”Blockof“Next”:设定不同区组(Block)的协变量,可以用不同的协变量筛选方法对不同区组的协变量进行筛选。(3)Covariates:协变量栏。用于放入协变量或一级交互作用的协变量,用“>a*b>”按钮。
(4)Method:协变量筛选方法选项。可选择七种筛选协变量方法的其中之一。
第85页/共134页
Enter:所有自变量强制进入回归方程。
Forward:Conditional:以假定参数为基础作似然比概率检验,向前逐步选择自变量。
Forward:LR:以最大局部似然为基础作似然比概率检验,向前逐步选择自变量。
Forward:Wald:作Wald概率统计法,向前逐步选择自变量。
Backward:Conditional:以假定参数为基础作似然比概率检验,向后逐步选择自变量。
Backward:LR:以最大局部似然为基础作似然比概率检验,向后逐步选择自变量。
Backward:Wald:作
Wald概率统计法,向后逐步选择自变量。
第86页/共134页
(5)“SelectVariable”:放入将要按规则选择观察值的变量。“Rule”:规则按钮。激活SetRule对话框。设定规则:选择变量等于,不等于,小于,小于或等于,大于,大于或等于某值。
第87页/共134页(6)“Categorical”:定义分类协变量按钮。激活定义分类协变量对话框,可定义一个或多个字符型和数值型分类变量。(7)“Save”:储存新变量按钮。激活储存新变量对话框。
(8)“
Options”:选择按钮。激活选择对话框。
第88页/共134页2、DefineCategoricalVariables定义分类协变量对话框。
(1)Covariates:协变量栏,列出源协变量。
(2)CategoricalCovariates:分类协变量栏,用于放入分类协变量。(3)Change:改变对照方法选项。第89页/共134页Contrast栏,对照方法选项。
Indicator:比较显示是否具有同类效应,为系统默认值。
Deviation:除参照分类外,各分类与总效应比较。
Simple:除参照分类外,各分类与参照分类比较。
Difference:逆Helmert对照,除第一分类外,各分类与以前平均分类效应比较。
Helmert:除最后分类外,各分类与以后平均分类效应比较。
Repeated:除第一分类外,各分类与以前分类效应比较。
Polynomial:假定分类等距,该分类仅用于数值型变量。
ReferenceCategory:参照方法选项。
Last:最后的分类为参照分类,系统默认值。
First:第一分类为参照类.
第90页/共134页3.SaveNewVariables(储存新变量)对话框第91页/共134页(l)PredictedValues:预测值选项。.Probabilities:每个变量的事件发生的预测概率。.Groupmembership:基于变量的预测概率归组。(2)Residuals:残差选项。.Unstandardized:非标准化残差。观察值与预测值之差。.Logit:Logit单位化残差。使用Logit单位的预测模型残差。.Studentized:学生化残差。某观察值删除时,模型偏差的改变量。.Standardized:标准化残差。非标准化残差除以其标准差。.Deviance:偏差。基于模型偏差的残差。(3)Influence:预测值影响量度选项。.Cook’:Cook’上影响统计量。当删除某观察值时,全部观察值残差改变的量度。.Leveragevalues:Leverage值。每个观察值对模型拟合优度的相对影响。.Dfbeta(s):Beta的差值。当删除某观察值时,回归系数的改变量。
第92页/共134页4.Options选择项对话框。第93页/共134页
StatisticsandPlots统计量和图形选项。.Classificationplots:显示有关因变量观察值与预测值的分类图。.Correlationsofestimates:显示模型中参数估计的相关矩阵。.Hosmer-Lemeshowgoodness-of-fit:估计模型拟合优度,特别是在较多协变量或协变量是连续变量时。.Iterationhistory:在参数估计过程中,显示每次迭代的系数和对数似然比统计量。.Casewiselistingofresiduals:显示非标准化残差、预测概率、观察和预测组关系。
Outliersoutside,显示某个标准差以外的奇异值。默认值是2个标准差。
Allcases:显示所有变量的残差。
CIforexp(B):计算参数值95%的置信区间。第94页/共134页
Display:显示方法选项。
Ateachstep:显示每一步的结果。系统默认值。
Atlaststep:显示综合中间过程和最后结果。
Probabilityforstepwise:协变量引入或删除的概率标准选项
Entry栏,引入协变量标准,默认值为。
Removal栏,删除协变量标准,系统默认值为。
ClassificationCutoff:因变量分类界限,系统默认值为。
MaximumIterations:设定最大迭代次数,系统默认值为20次。
Includeconstantinmodel:模型包含常数项,系统默认值
第95页/共134页
研究问题在一次关于某城镇居民上下班使用交通工具的社会调查中,因变量y=1表示居民主要乘坐公共汽车上下班;y
=0表示主要骑自行车上下班;自变量x1表示被调查者的年龄;x2表示被调查者的月收入;x3表示被调查者的性别(x3=1为男性,x3=0为女性)。试建立y与自变量间的Logistic回归.三、应用举例第96页/共134页
使用交通工具上下班情况序号x1(年龄)x2(月收入:元)x3(性别)y118850002211200003238500142395001528120001631850007361500018421000019469500110481200001155180001125621000113581800011418850101520100010162512001017271300101828150010193095011203210001021331800102233100010233812001024411500102545180011264810001027521500112856180011第97页/共134页
实现步骤“LogisticRegression”对话框第98页/共134页“LogisticRegression:Options”对话框第99页/共134页
(1)第一部分输出结果有两个表格,第一个表格说明所有个案(28个)都被选入作为回归分析的个案。结果和讨论第100页/共134页
第二个表格说明初始的因变量值(0,1)已经转换为逻辑回归分析中常用的0、1数值。第101页/共134页
(2)第二部分(Block0)输出结果有4个表格。第102页/共134页第103页/共134页第104页/共134页
(3)OmnibusTestsofModelCoefficients表格列出了模型系数的OmnibusTests结果。第105页/共134页
(4)ModelSummary表给出了-2对数似然值、Cox和Snell的R2以及Nagelkerke的R2检验统计结果。第106页/共134页
(5)HosmerandLemeshowTest表格以及ContingencyTableforHosmerandLemeshowTest表格给出了Hosmer和Lemeshow的拟合优度检验统计量。结论:因变量的观测值与模型预测值不存在显著性差异。第107页/共134页
(6)ClassificationTable分类表说明第一次迭代结果的拟合效果,从该表格可以看出对于y=0,有86.7%的准确性;对于y=1,有76.9%准确性,因此对于所有个案总共有82.1%的准确性。第108页/共134页
(7)VariablesintheEquation表格列出了Step1中各个变量对应的系数,以及该变量对应的Wald统计量值和它对应的相伴概率。从该表格中可以看出x3相伴概率最小,Wald统计量最大,可见该变量在模型中很重要。第109页/共134页
(8)CorrelationMatrix表格列出了常数Constant、系数之间的相关矩阵。常数与x2之间的相关性最大,x1和x3之间的相关性最小。第110页/共134页
(9)图7-26所示是观测值和预测概率分布图。该图以0和1为符号,每四个符号代表一个个案。横坐标是个案属于1的录属度,这里称为预测概率(PredictedProbability)。纵坐标是个案分布频数,反映个案的分布。第111页/共134页第112页/共134页
(10)逻辑回归的最后一个输出表格是CasewiseList,列出了残差大于2个标准差的个案。第113页/共134页逻辑回归应用风险与保障:
基于农村养老问题的一个实证分析——《农
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 委托代理协议(资料15篇)
- 发热待查诊治专家共识深度解读2026
- 2026年制造业升级中的自动化与智能制造
- 2026年生产流程仿真模拟与优化实例
- 应急物资仓储物流设施建设项目可行性研究报告
- 《GB∕T 46566-2025温室气体管理体系 要求》专业深度解读与实施指导之4-1:“4组织所处的环境-4.1理解组织的内外部因素”(雷泽佳编制-2026A0)
- 桩基沉降预测与控制方案
- 2026年多维度分析机械图纸
- 2026年利用Python实现邮件自动回复系统
- 2026年桥梁抗震评估中的多因素影响分析
- 2026年安徽皖北协作区第28届高三语文联考作文题目解析及范文:看见与想象
- 八年级下册道德与法治核心考点深度解析与议题式教学实施精要
- 2026年统编版小学二年级道德与法治下册(全册)课时练习及答案(附教材目录)
- 销售办事处考勤制度
- 《希腊城邦和亚历山大帝国》历史教学课件
- 纳滤膜行业分析报告
- 护工管理员考核制度
- 2026湖北武汉理工大学心理健康教育专职教师招聘2人备考题库及1套参考答案详解
- 2026年消防工作计划及重点整治工作
- 2025年提前招生社会工作笔试题及答案
- 门式脚手架施工技术规范
评论
0/150
提交评论