




已阅读5页,还剩29页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第 七 章 回 归 分 析回归分析是处理两个及两个以上变量间线性依存关系的统计方法。在研究中,此类问题很普遍,如人头发中某种金属元素的含量与血液中该元素的含量有关系,人的体表面积与身高、体重有关系;等等。回归分析就是用于说明这种依存变化的数学关系。当两个变量间存在相关时,即可进行回归分析,通常可由一个自变量(预测变量,X),来预测一个因变量(被预测变量,Y)。7.1 概述7.1.1 几个概念自变量:首先要区分两种主要类型的变量:一种变量相当于通常函数关系中的自变量,对这样的变量能够赋予一个需要的值(如室内的温度、施肥量)或者能够取到一个可观测但不能人为控制的值(如室外的温度),这样的变量称为自变量;因变量:自变量的变化能引起另一些变量(如水稻亩产量)的变化,这样的变量称为因变量。 回归分析:由一个或一组非随机变量来估计或预测某一个随机变量的观测值时,所建立的数学模型及所进行的统计分析,称为回归分析。是研究随机变量与非随机变量之间的数量关系的一种数学方法。线性回归分析:如果所建立的模型是线性的就称为线性回归分析。线性回归分析不仅告诉我们怎样建立变量间的数学表达式,即经验公式,而且还利用概率统计知识进行分析讨论,判断出所建立的经验公式的有效性,从而可以进行预测或估计。7.1.2 回归分析的主要内容1.如何确定因变量与自变量之间的回归模型;2.如何根据样本观测数据,估计并检验回归模型及未知参数;3.在众多的自变量中,判断哪些变量对因变量的影响是显著的,哪些变量的影响是不显著的;4.根据自变量的已知值或给定值来估计和预测因变量的值。计算回归的方法1、在绘图结果中,用“图表(C)添加趋势线(R)”计算回归是最简便的方式,而且其可计算的回归种类也最多。2、使用“工具(T)数据分析(D)”求回归,可获得很多相关的统计数字。如:相关系数、判定系数、用F检验因变量与自变量间是否有回归关系存在、用f检验各回归系数是否不为03、利用回归函数,如:LINEST()、TREND()这应该是最难懂的回归方式。7.2 excel进行回归分析7.2.1 绘图中加入趋势线在绘图中利用加入趋势线的机会,一并计算回归方程式是最简便的方式。而且可计算的回归种类也最多,包括:直线(一次式)、多次式、指数、对数等等。7.2.1.1 绘图中加入趋势线直线回归例子:假设收集了某一品牌同一车型中老车的车龄及其售价数据。要绘制数据散点图,并求车龄对售价的回归方程式。步骤:1选取A1:B11区域。2单击“图表向导”按钮,启动“图表向导”,选择绘制“XY散点图”3.单击“下一步”按钮4.选“列(L)”,单击“下一步”按钮,在“标题”标签,输入标题。5.在“图例”标签,取消“显示图例(S)”。6.单击“下一步”按钮,选择“作为其中的对象插入(O)”。7.单击“完成“按钮,获得图表。8.编辑好图表,以便美观、清楚9.点选图内一个数据点,单击鼠标右键,进入“添加趋势线(R)”,在“类型”标签,选“线性(L)”选项。10.在“选项”标签中选“显示公式(E)”与“显示R平方值(R)”.11.单击“确定”按钮,即可在图表上获得回归方程式和判定系数(R平方值,R2)结果解释:1.有了回归方程,可根据此方程式计算Y的预测值。2.回归方程式为:y = -4.8091x + 57.8,x表示年龄, y表示售价。3.判定系数R2为0.9865,表示整个回归模式的解释力很强,即年龄的方差可解释98.65的售价差异。4.预测值与实际值的差距,即称之为差异5.若是判定系数不是很高,研究者则应判断是否有差异很大的特殊样本。若有,可将其排除后再重算一次回归,可求得更适当的回归方程式。问题是差异应小于多少才好?并无定标准,全凭研究者判断。本例的判定系数(R2)为0.9865,相当不错,所以就不必再进行此处理过程。判定系数来历:判定系数(R2)的公式或回归平方和占总平方和的百分比,即是这条回归线可帮助数据解释的部分。由于:总平方和回归平方和+差异平方和,所以判定系数就转换为:例子:假设收集了某一品牌同一车型中老车的车龄及其售价数据。用上面的公式求判定系数。结果解释:表中的差异平方和(26.06),就是回归线无法解释的部分,将其除以F12的总平方和(1934.07),就是这条回归线无法解释部分的百分比。用1减去无法解释的百分比,就是这条回归线可帮助数据解释的百分比,即D14的0.9865,一般称之为判定系数(R2),恰等于原利用绘图求回归方程式所算出的R2 0.9865。判定系数(R2)越大,代表可解释的部分越大,若两组回归模式的判定系数(R2)差不多,就选择方程式较简单的一组回归模式。7.2.1.2 绘图中加入趋势线非线性回归例子:假设收集了某一群人的收入和年龄的数据。要绘制数据散点图,并求车龄对收入的回归方程式。若用线性回归的结果,判定系数(R2)为0.001,表明这一回归方程根本就没有解释力,需要用非线性回归方程。非线性回归方程步骤 (大部分同直线回归一样)1选取A1:B11区域。2单击曰 “图表向导”按钮,启动“图表向导”,选择绘制“XY散点图”3.单击“下一步”按钮4.选“列(L)”,单击“下一步”按钮,在“标题”标签,输入标题。5.在“图例”标签,取消“显示图例(S)”。6.单击“下一步”按钮,选择“作为其中的对象插入(O)”。7.单击“完成“按钮,获得图表。8.编辑好图表,以便美观、清楚9.点选图内一个数据点,单击鼠标右键,进入“添加趋势线(R)”,在“类型”标签,选幂次为2的“多项式(P)”。(就第9步同线性回归不一样)10.在“选项”标签中选“显示公式(E)”与“显示R平方值(R)”.11.单击“确定”按钮,即可在图表上获得回归方程式和判定系数(R平方值,R2)结果解释:回归方程为:y = -36.54x2 + 3463.7x 42087;判定系数R2 = 0.884,说明这一回归方程有很强的解释力,可以用它来求预测值。问题利用加入趋势线计算回归方程式的种类也最多,到底选择哪一种呢?7.2.1.3 绘图中加入趋势线回归模式的选择例子:假设收集了树木的直径和高度的数据要绘制数据散点图,并求车龄对收入的回归方程式。用上面的步骤求得各种回归方程的结果如下:1.直线回归方程结果2.对数回归方程结果3.多项式回归方程结果4.乘幂回归方程结果5.指数回归方程结果可以把每个类型都计算,比较那个的判定系数大,就用哪个,若差不多,就选择简单的一个。7.2.2使用“数据分析”进行回归7.2.2.1 使用“数据分析”进行回归直线回归在绘图中,利用添加趋势线计算回归方程式,并无法对方程式及其系数进行检验,而且很多统计数字也未提供。如果使用“工具(T)数据分析(D)”的“回归”项进行计算(得先安装“加载宏”的“分析工具库”),则可获得很多相关的统计数字。如:求相关系数、判定系数、用F检验判断因变量与自变量间是否有回归关系存在、用t检验判断各回归系数是否不为0、计算回归系数的置信区间、计算差异甚至还可绘制图表(只是并不很好看而已)。例子:假设收集了广告费和销售量,求广告费对销售量的回归方程式。步骤:1执行“工具(T)数据分析(D)”,选择“回归”项。2单击“确定”按钮,转入“回归”对话框。3在“Y值输入区域”处,以拖拽方式选取销售量区域B1:B11。4在“X值输入区域”处,以拖拽方式选取广告费区域A1:A11。5由于上述两区域均含标志,所以勾选“标志(L)”。6勾选“置信度(O)”,可计算回归系数的置信区间(预设值为95)。SUMMARY OUTPUT回归统计Multiple R0.950193R Square0.902867Adjusted R Square0.890725标准误差195.8486观测值107在“输出选项”处决定要将回归结果输出在何处?本例选“输出区域(O)”,并将其安排在原工作表的D1位置。8如果要分析残差,可勾选“残差(R)”或“标准残差(T)”。 (本例选前者)9如果要绘图,可勾选“残差图(D)”或“线性拟合图(1)”。 (本例选后者)10单击“确定”按钮,即可获得回归结果。结果说明:此部分在计算简单相关系数0.9502(R,写成“Multiple R”,在复回归模式,此部分即复相关系数)、判定系数(RSquare)0.9029、调整后的RSquare 0.8907(在复回归时使用,有些统计学家认为在复回归模式中,增加预测变量必然会使R Square增大,故必须加以调整)标准误差195.8486与观察值个数10。结果2方差分析dfSSMSFSignificance F回归分析12852237285223774.360910.000残差8306853.338356.66总计93159090结果2解释:ANOVA检验,判断因变量(Y)与自变量(X,在复回归中则为全部的自变量)间,是否有显著的回归关系存在?判断是否显著,只需看显著水平是否小于所指定的a值即可,如本例的显著水平0.000a=0.05,所以无法放弃其为0的虚拟假设,回归方程式的常数项应为0,所以往后可将其省略。(2)本例的自变量X(广告费)的回归系数为9,131,其统计量为8623,显著水平 (p-值)0.000数据分析(D)”进行回归(最多可以求16个变量的回归)7.2.2.2 使用“数据分析”进行回归多元回归例子1:假设收集了车龄、里程数和价格的数据,求车龄、里程数对价格的回归方程式。步骤:1执行“工具(T)数据分析(D)”,选择“回归”项。2单击“确定”按钮,转入“回归”对话框。3在“Y值输入区域”处,以拖拽方式选取销售量区域B1:B11。4在“X值输入区域”处,以拖拽方式选取广告费区域A1:C115由于上述两区域均含标志,所以勾选“标志(L)”。6勾选“置信度(O)”,可计算回归系数的置信区间(预设值为95)。7在“输出选项”处决定要将回归结果输出在何处?本例选“输出区域(O)”,并将其安排在原工作表的D1位置。8单击“确定”按钮,即可获得回归结果。结果1SUMMARY OUTPUT回归统计Multiple R0.971605R Square0.944016Adjusted R Square0.928021标准误差4.692793观测值10结果1解释:此结果的复相关系数(R)为0.9716,判定系数(R2)为0.9440、调整后的R2为0.9280。显示整组回归方程式可解释价格差异的程度相当高。结果2方差分析dfSSMSFSignificance F回归分析22599.4441299.72259.018420.000残差7154.156222.02231总计92753.6结果2解释:ANOVA表中的F检验的显著水平0.000a=0.05,所以其结果为放弃因变量与自变量间无回归关系存在的虚拟假设。显示价格与车龄及里程数整体间有明显回归关系存在。结果3Coefficients标准误差t StatP-valueLower 95%Upper 95%下限 95.0%上限 95.0%Intercept62.653.2119.530.0055.0670.2355.0670.23车龄-5.371.22-4.420.00-8.25-2.50-8.25-2.50里程数 (万公里)-0.231.06-0.220.83-2.732.28-2.732.28结果3解释:最后t检验结果中,常数项(截距)为62.647,显著水平(P-值)0.000a=0.05,所以否定其为0的虚拟假设,回归方程式的常数项不应为0,所以不可将其省略。两个自变量中车龄的回归系数为-5.374,其显著水平(P-值)0.003a=0.05,所以无法否定其为0的虚拟假设,里程数与价格间并无直线关系。所以可将此系数自回归方程式中排除掉。 (少一个变量,即可省去搜集其数据的时间与成本)。所以,最后的回归方程式应为:y=-5.374x1+62.647(价格-5.374*车龄+62.647)例子2:假定银行为核发信用卡,而搜集的申请人的每月总收入、不动产、动产、每月房贷与扶养支出费用等数据,并以主管的经验,主观的给予一个信用分数。步骤: 1执行“工具(T)数据分析(D)”,选“回归”项,单击“确定”按钮。 2.在“Y值输入区域”处,用拖拽方式选取因变量(信用分数)区域F1:F9。 3在“X值输入区域”处,用拖拽方式选取自变量(每月总收入、不动产、动产、每 月 房贷与固定支出)区域A1:E9。(5列数据表使用5个自变量,最多可达16个自变量)4.由于上述两区域均含标志,所以勾选“标志记(L)”。5.选择“输出区域(O)”,并安排在H1位置。6.单击“确定”按钮,获得回归结果。结果1 SUMMARY OUTPUT回归统计Multiple R0.99R Square0.98Adjusted R Square0.94标准误差2.18观测值8.00结果1解释:此结果的复相关系数(R)为0.9910,判定原数(R2)为0.9821,调整后的R2为 0.9372。显示整组回归方程式可解释信用分数差异的程度相当高。结果2方差分析dfSSMSFSignificance F回归分析5.00520.00104.0021.900.04残差2.009.504.75总计7.00529.50结果2解释:ANOVA表中的F检验的显著水平0.044a=0.05,所以其结果为放弃因变量与自变量间无回归关系存在的虚拟假设。显示每月总收入、不动产、动产、每月房贷、固定与信用 分数整体间有明显回归关系存在。结果3Coefficients标准误差t StatP-valueLower 95%Upper 95%下限 95.0%上限 95.0%Intercept57.08 4.95 11.53 0.01 35.78 78.38 35.78 78.38 每月总收入(万)5.35 1.00 5.38 0.03 1.07 9.63 1.07 9.63 不动产 (百万)0.70 0.93 0.76 0.53 -3.30 4.71 -3.30 4.71 动产(百万)-4.96 5.45 -0.91 0.46 -28.39 18.47 -28.39 18.47 每月房贷(万)-0.09 1.72 -0.05 0.96 -7.47 7.29 -7.47 7.29 固定支出(万)-2.50 1.70 -1.47 0.28 -9.84 4.84 -9.84 4.84 结果3解释:最后的t检验结果中,常数项(截距)为57.076,其显著水平(p-值)0.007a=0.05, 放弃其为0的虚拟假设,回归方程式的常数项不应为0,所以不可以将其省略。 所有5个自变量中,只有每月总收入的显著水平(p-值)为0.033数据分析(D)”,选“回归”项,单击“确定”按钮。3在“Y值输入区域”处,以拖拽方式选取因变量(每月收入)区域C1:C15。4.在“X值输入区域”处,以拖拽方式选取自变量(年龄平方与年龄)区域A1:B15。5.由于上述两个区域均含标志,所以勾选“标志(L)”。6.选“输出区域(O)”,并将其安排在原工作表的E1位置。7.单击“确定”按钮,即可获得回归结果。结果1SUMMARY OUTPUT回归统计Multiple R0.940 R Square0.884 Adjusted R Square0.863 标准误差5383.550 观测值14.000 结果1解释:此结果的复相关系数(R)为0.940 ,判定原数(R2)为0. 884 ,调整后的R2为 0. 863。显示整组回归方程式可解释信用分数差异的程度相当高。结果2方差分析dfSSMSFSignificance F回归分析2.0002430313599.5881215156799.79441.9270.000残差11.000318808721.84128982611.076总计13.0002749122321.429结果2解释:ANOVA表中的F检验的显著水平0.000liner,系统弹出线性回归对话框如下:除了大家熟悉的内容以外,里面还出现了一些特色菜,让我们来一一品尝。【Dependent框】用于选入回归分析的应变量。【Block按钮组】由Previous和Next两个按钮组成,用于将下面Independent框中选入的自变量分组。由于多元回归分析中自变量的选入方式有前进、后退、逐步等方法,如果对不同的自变量选入的方法不同,则用该按钮组将自变量分组选入即可。下面的例子会讲解其用法。【Independent框】用于选入回归分析的自变量。【Method下拉列表】用于选择对自变量的选入方法,有Enter(强行进入法)、Stepwise(逐步法)、Remove(强制剔除法)、Backward(向后法)、Forward(向前法)五种。该选项对当前Independent框中的所有变量均有效。【Selection Variable框】选入一个筛选变量,并利用右侧的Rules钮建立一个选择条件,这样,只有满足该条件的记录才会进入回归分析。【Case Labels框】选择一个变量,他的取值将作为每条记录的标签。最典型的情况是使用记录ID号的变量。【WLS钮】可利用该按钮进行权重最小二乘法的回归分析。单击该按钮会扩展当前对话框,出现WLS Weight框,在该框内选入权重变量即可。【Statistics钮】弹出Statistics对话框,用于选择所需要的描述统计量。有如下选项: Regression Coefficients复选框组:定义回归系数的输出情况,选中Estimates可输出回归系数B及其标准误,t值和p值,还有标准化的回归系数beta;选中Confidence intervals则输出每个回归系数的95%可信区间;选中covariance matrix则会输出各个自变量的相关矩阵和方差、协方差矩阵。以上选项默认只选中Estimates。 Residuals复选框组:用于选择输出残差诊断的信息,可选的有Durbin-Watson残差序列相关性检验、超出规定的n倍标准误的残差列表。 Model fit复选框:模型拟合过程中进入、退出的变量的列表,以及一些有关拟合优度的检验:,R,R2和调整的R2, 标准误及方差分析表。 R squared change复选框:显示模型拟合过程中R2、F值和p值的改变情况。 Descriptives复选框:提供一些变量描述,如有效例数、均数、标准差等,同时还给出一个自变量间的相关矩阵。 Part and partial correlations复选框:显示自变量间的相关、部分相关和偏相关系数。 Collinearity diagnostics复选框:给出一些用于共线性诊断的统计量,如特征根(Eigenvalues)、方差膨胀因子(VIF)等。以上各项在默认情况下只有Estimates和Model fit复选框被选中。【Plot钮】弹出Plot对话框,用于选择需要绘制的回归分析诊断或预测图。可绘制的有标准化残差的直方图和正态分布图,应变量、预测值和各自变量残差间两两的散点图等。【Save钮】许多时候我们需要将回归分析的结果存储起来,然后用得到的残差、预测值等做进一步的分析,Save钮就是用来存储中间结果的。可以存储的有:预测值系列、残差系列、距离(Distances)系列、预测值可信区间系列、波动统计量系列。下方的按钮可以让我们选择将这些新变量存储到一个新的SPSS数据文件或XML中。【Options钮】设置回归分析的一些选项,有: Stepping Method Criteria单选钮组:设置纳入和排除标准,可按P值或F值来设置。Include constant in equation复选框:用于决定是否在模型中包括常数项,默认选中。Missing Values单选钮组:用于选择对缺失值的处理方式,可以是不分析任一选入的变量有缺失值的记录(Exclude cases listwise)而无论该缺失变量最终是否进入模型;不分析具体进入某变量时有缺失值的记录(Exclude cases pairwise);将缺失值用该变量的均数代替(Replace with mean)。输出结果解释根据题目的要求,我们只需要在Dependent框中选入spovl,Independent框中选入fat即可,其他的选项一律不管。单击OK后,系统很快给出如下结果:Regression这里的表格是拟合过程中变量进入/退出模型的情况记录,由于我们只引入了一个自变量,所以只出现了一个模型1(在多元回归中就会依次出现多个回归模型),该模型中fat为进入的变量,没有移出的变量,具体的进入/退出方法为enter。上表为所拟合模型的情况简报,显示在模型1中相关系数R为0.578,而决定系数R2为0.334,校正的决定系数为0.307。这是所用模型的检验结果,可以看到这就是一个标准的方差分析表!有兴趣的读者可以自己用方差分析模型做一下,就会发现出了最左侧的一列名字不太一样外,其他的各个参数值都是相同的。从上表可见所用的回归模型F值为12.059,P值为0.002,因此我们用的这个回归模型是有统计学意义的,可以继续看下面系数分别检验的结果。由于这里我们所用的回归模型只有一个自变量,因此模型的检验就等价于系数的检验,在多元回归中这两者是不同的。上表给出了包括常数项在内的所有系数的检验结果,用的是t检验,同时还会给出标化/未标化系数。可见常数项和fat都是有统计学意义的,上表的内容如果翻译成中文则如下所示:未标准化系数标准化系数模型系数b系数标准误系数t值P值1常数5.0970.42711.9230.000fat0.7000.2020.5783.4730.0027.3.1.2复杂实例操作例子:请分析在数据集plastic.sav中变量extrusn、additive、gloss和opacity对变量tear_res的大小有无影响?已知extrusn对tear_res的大小有影响。显然,这里是一个多元回归,由于除了extrusn确有影响以外,我们不知道另三个变量有无影响,因此这里我们将extrusn放在第一个block,进入方法为enter(我们有把握extrusn一定有统计学意义);另三个变量放在第二个block,进入方法为stepwise(让软件自动选择判断),操作如下:Analyze=Regression=LinerDependent框:选入tear_resIndependent框:选入extrusn;单击next钮Independent框:选入additive、gloss和opacity;Method列表框:选择stepwise单击OK钮结果解释:最终的结果如下:Regression上面的表格依次列出了模型的筛选过程,模型1用进入法引入了extrusn,然后模型2用stepwise法引入了additive,另两个变量因没有达到进入标准,最终没有进入。上面的表格翻译出来如下:模型进入的变量移出的变量变量筛选方法1extrusn进入法2additivestepwise法(标准:进入概率小于0.05,移出概率大于0.1)上表是两个模型变异系数的改变情况,从调整的R2可见,从上到下随着新变量的引入,模型可解释的变异占总变异的比例越来越大。右表是所用两个模型的检验结果,用的方法是方差分析,可见二个模型都有统计学意义。上表仍然为三个模型中各个系数的检验结果,用的是t检验,可见在模型2中所有的系数都有统计学意义,上表的内容翻译如下:未标化的系数标化的系数模型B标准误Betat值P值1(常数)5.900.26522.278.000extrusion.590.167.6393.522.0002(常数)5.315.31416.926.000extrusion.590.144.6394.905.000additive.390.144.4222.707.000这是新出现的一个表格,反映的是没有进入模型的各个变量的检验结果,可见在模型1中,未引入模型的候选变量additive,还有统计学意义,可能需要引入,而模型2中没有引入的两个变量其P值均大于0.05,无需再进行分析了。7.3.2 Curve Estimation过程Curve Estimation过程可以用与拟合各种各样的曲线,原则上只要两个变量间存在某种可以被它所描述的数量关系,就可以用该过程来分析。但这里我们要指出,由于曲线拟合非常的复杂,而该模块的功能十分有限,因此最好采用将曲线相关关系通过变量变换的方式转化为直线回归的形式来分析,或者采用其他专用的模块分析。7.3.2.1 界面详解Curve Estimation过程中有特色的对话框界面内容如下:下面我们分别解释一下它们的具体功能。【Dependent框】用于选入曲线拟和中的应变量,可选入多个,如果这样,则对各个应变量分别拟合模型。【Independent单选框组】用于选入曲线拟和中的自变量,有两种选择,可以选入普通的自变量,也可以选择时间作为自变量,如果这样做,则所用的数据应为时间序列数据格式。【Models复选框组】是该对话框的重点,用于选择所用的曲线模型,可用的有:Linear:拟合直线方程,实际上与Linear过程的二元直线回归相同;Quadratic:拟合二次方程Y = b0+b1X+b2X2;Compound:拟合复合曲线模型Y = b0b1X;Growth:拟合等比级数曲线模型Y = e(b0+b1X);Logarithmic:拟合对数方程Y = b0+b1lnX;Cubic:拟合三次方程Y = b0+b1X+b2X2+b3X3;S:拟合S形曲线Y = e(b0+b1/X);Exponential:拟合指数方程Y = b0 eb1X;Inverse:数据按Y = b0+b1/X进行变换;Power:拟合乘幂曲线模型Y = b0X b1;Logistic:拟合Logistic曲线模型Y = 1/(1/u + b0b1X),如选择该线型则要求输入上界。上面的几种线型和其他的模块有重复,如Logistic、Liner等,由于本模块的功能有限,在重复的情况下建议用其它专用模块来分析。【Include constant in equation复选框】确定是否在方程中包含常数项。【Plot models复选框】要求对模型做图,包括原始数值的连线图和拟合模型的曲线图。【save钮】弹出SAVE对话框,用于定义想要存储的中间结果,如预测值、预测值可信区间、残差等。【Display ANOVA table复选框】要求显示模型检验的方差分析表。7.3.2.2 实例操作例子:锡克试验阴性率(%)随着年龄的增长而增高,某地查得儿童年龄(岁)X与锡克试验阴性率Y的资料如下,试拟合曲线。年龄(岁)1234567锡克试验阴性率(%)57.176.090.993.096.795.696.2首先对年龄和阴性率作散点图,发现两者有斜率逐渐放缓的曲线趋势,因此选择二次曲线模型、三次曲线模型和对数曲线模型,最终取其中结果最优者,做法如下:Analyze=Regression=Curve estimationDependant框:选入阴性率Independant框:选入年龄Models复选框组:选择Quadratic、Curbe、Logarithmatic,取消对Liner的选择。单击OK 结果如下:Curve FitMODEL:MOD_11.Independent:年龄DependentMthRsqd.f.FSigfb0b1b2b3阴性率LOG.913552.32.00161.325920.6704阴性率QUA.970465.20.00139.271421.8250-2.0036阴性率CUB.9943165.37.00125.571437.4278-6.5702.3806上表给出了所拟合的三个模型的检验报告,包括拟合优度、模型的检验结果和各个系数值,从检验结果看,三个模型均有统计学意义,但从拟合优度看,三次方曲线的拟合优度最高,似乎应选择三次方曲线,但注意三次方曲线多一个参数,要复杂一些,而它的拟合优度和二次方曲线相差不大,因此仅从这里的结果还不好对它们两者作出判断,下面我们还要看看模型曲线的情况。右图是三个模型曲线和实际值连线的情况,可见在4岁以前,二次方和三次方曲线对模型的拟合相差不大,4岁以后三次方曲线则要明显优于二次方曲线,但我们的观察值只有7例,样本量太少,在曲线回归中,模型的简洁性和拟合优度的高低同样重要,拟合优度太高的模型往往对新样本的拟合度较差,我认为在这种情况下选择参数较少的模型为宜,因此最终选择二次方曲线模型。其实这里由于观察样本太少,无论选择哪种模型影响都不大,而且各人的意见不会相同,往往是有多少条曲线,就会有多少种意见,最后还是要结合专业知识来决定,希望大家明白,曲线拟和是非常复杂的问题,千万不能轻易下结论。7.3.3 Binary Logistic过程在10年前,国内的统计学应用上还是卡方检验横行,分层的M-H卡方简直就是超级武器,更有那些1:M的配对卡方,N:M的配对卡方,含失访数据的N:M配对卡方之类的,简直象恐龙一般,搞得我头都大了。其实恐龙我还能讲出十多种来,可上面这些东西我现在还没彻底弄明白,好在社会进步迅速,没等这些恐龙完全统制地球,Logistic模型就已经飞速进化到了现代人的阶段,各种各样的Logistic模型不断地在蚕食着恐龙爷爷们的领地,也许还象贪吃的人类一样贪婪的享用着恐龙的身体。好,这是好事,这里不能讲动物保护,现在我们就远离那些恐龙,来看看现代白领的生活方式。Logistic模型和卡方在原理上是不一样的,在公式推演上也不可能划等号,只是一般来说两者的检验结果会非常接近而已,多数情况下可忽略其不同。所谓Logistic模型,或者说Logistic回归模型,就是人们想为两分类的应变量作一个回归方程出来,可概率的取值在01之间,回归方程的应变量取值可是在实数集中,直接做会出现01范围之外的不可能结果,因此就有人耍小聪明,做了一个Logit变换,这样取值区间就变成了整个实数集,作出来的结果就不会有问题了,从而该方法就被叫做了Logistic回归。随着模型的发展,Logistic家族也变得人丁兴旺起来,除了最早的两分类Logistic外,还有配对Logistic模型,多分类Logistic模型、随机效应的Logistic模型等。由于SPSS的能力所限,对话框只能完成其中的两分类和多分类模型,下面我们就介绍一下最重要和最基本的两分类模型。7.3.3.1 界面详解与实例例子:某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例资料作为示例进行logistic回归分析(本例来自卫生统计学第四版第11章)。 i: 标本序号 x1:确诊时患者的年龄(岁) x2:肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共3个等级 x3:肾细胞癌组织内微血管数(MVC) x4:肾癌细胞核组织学分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 18910.64-2025液晶显示器件第6-4部分:测试方法带动态背光的液晶显示模块
- 计算机自动化技术试题及答案
- 材料疲劳寿命评估误差分析重点基础知识点
- 行政法学案例探讨与答案发布
- 社区火灾应急预案论文(3篇)
- 技术员考试准备试题与答案
- 森林火灾瞬间应急预案范文(3篇)
- 行政法学动态研究试题及答案
- 风险管理在企业优化决策中的应用试题及答案
- 《环保与生活》课件-第十三篇
- 热点主题作文写作指导:古朴与时尚(审题指导与例文)
- 河南省洛阳市2025届九年级下学期中考一模英语试卷(原卷)
- 电网工程设备材料信息参考价2025年第一季度
- 2024年安徽省初中学业水平考试生物试题含答案
- 2024年浙江省中考英语试题卷(含答案解析)
- MOOC 理解马克思-南京大学 中国大学慕课答案
- 说明书hid500系列变频调速器使用说明书s1.1(1)
- 直流系统蓄电池充放电试验报告
- 送教上门学生教案(生活适应和实用语数共17篇)
- ISO22716:2007标准(中英文对照SN T2359-2009)47
- RTO处理工艺PFD计算
评论
0/150
提交评论