医学研究的数据管理与分析——第十章2_第1页
医学研究的数据管理与分析——第十章2_第2页
医学研究的数据管理与分析——第十章2_第3页
医学研究的数据管理与分析——第十章2_第4页
医学研究的数据管理与分析——第十章2_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十章 SPSS软件应用(三)第二节第二节 回归分析回归分析回归分析的概念寻求有关联(相关)的变量之间的关系主要内容:n从一组样本数据出发,确定这些变量间的定量关系式n对这些关系式的可信度进行各种统计检验n从影响某一变量的诸多变量中,判断哪些变量的影响显著,哪些不显著n利用求得的关系式进行预测和控制回归分析的过程在回归过程中包括:Liner:线性回归Curve Estimation:曲线估计Binary Logistic: 二分变量逻辑回归Multinomial Logistic:多分变量逻辑回归Ordinal 序回归Probit:概率单位回归Nonlinear:非线性回归Weight Est

2、imation:加权估计2-Stage Least squares:二段最小平方法Optimal Scaling 最优编码回归回归菜单回归菜单回归分析(regression analysis) 确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。p涉及的自变量的多少a. 一元回归分析b. 多元回归分析p自变量和因变量之间的关系类型,a. 线性回归分析b. 非线性回归分析线性回归回归分析一般步骤:确定回归方程中的解释变量(自变量)和被解释变量(因变量)确定回归模型建立回归方程对回归方程进行各种检验利用回归方程进行预测线性回归一元线性回归模型是指只有一个解释变量的线性回归模型,用于揭示被

3、解释变量与另一个解释变量之间的线性关系。一元线性回归数学模型:其中0和1是未知参数,分别称为回归常数和回归系数,称为随机误差,是一个随机变量,且应该满足两个前提条件: E( )=0 var()=201yx线性回归模型线性回归多元线性回归模型是指有多个解释变量的线性回归模型,用于揭示被解释变量与其他多个解释变量之间的线性关系。多元线性回归数学模型:其中0、1、 p都是未知参数,分别称为回归常数和偏回归系数,称为随机误差,是一个随机变量,且同样满足两个前提条件: E( )=0 var()=201122ppyxxx线性回归线性回归模型线性回归模型假设条件线性回归模型假设条件(1)正态性假设:即所研究

4、的变量均服从正态分布;(2)等方差假设:即各变量总体的方差是相等的;(3)独立性假设, 即各变量之间是相互独立的;(4)残差项无自相关性,即误差项之间互不相关,Cov(i,j)= 0回归参数的普通最小二乘估计(OLSE)线性回归方程确定后的任务是利用已经收集到的样本数据,根据一定的统计拟合准则,对方程中的各参数进行估计。普通最小二乘就是一种最为常见的统计拟合准则。最小二乘法将偏差距离定义为离差平方和,即 (1)最小二乘估计就是寻找参数0 、1、 p的估计值0 、 1、 p,使式(1)达到极小。通过求极值原理(偏导为零)和解方程组,可求得估计值,SPSS将自动完成。2011(,)()npiiiQ

5、yE y线性回归一元线性回归方程: y=a+bxa称为截距b为回归直线的斜率用R2判定系数判定一个线性回归直线的拟合程度:用来说明用自变量解释因变量变异的程度(所占比例)多元线性回归方程: y=b0+b1x1+b2x2+bnxnb0为常数项b1、b2、bn称为y对应于x1、x2、xn的偏回归系数用Adjusted R2调整判定系数判定一个多元线性回归方程的拟合程度:用来说明用自变量解释因变量变异的程度(所占比例)线性回归模型的检验项目线性回归模型的检验项目(1)回归系数的检验(t检验)。(2)回归方程的检验(F检验)。(3)拟合程度判定(可决系数R2)。(4)D.W检验(残差项是否自相关)。(

6、5)共线性检验(多元线性回归)。(6)残差图示分析(判断异方差性和残差序列自相关)。 u回归方程的统计检验u回归方程的拟合优度检验(相关系数检验)一元线性回归的拟合优度检验采用R2统计量,称为判定系数或决定系数,数学定义为22121()()niiniiyyRyy21()niiyy其中 称为回归平方和(SSA) 称为总离差平方和(SST)21()niiyy线性回归线性回归u回归方程的统计检验u回归方程的拟合优度检验(相关系数检验) R2取值在0-1之间, R2越接近于1,说明回归方程对样本数据点的拟合优度越高。多元线性回归的拟合优度检验采用 统计量,称为调整的判定系数或调整的决定系数,数学定义为

7、2R式中n-p-1、n-1分别是SSE和SST的自由度。其取值范围和意义与一元回归方程中的R2是相同的。u回归方程的统计检验u回归方程的拟合优度检验(相关系数检验)2111SSEnpSSTnR 线性回归u回归方程的统计检验u回归方程的显著性检验(F检验)一元线性回归方程显著性检验的零假设是1=0,检验采用F统计量,其数学定义为:2121()()2niiniiiyyMSAFMSEyyn即平均的SSA/平均的SSE,F统计量服从(1,n-2)个自由度的F分布。SPSS将会自动计算检验统计量的观测值以及对应的概率p值,如果p值小于给定的显著性水平,则应拒绝零假设,认为线性关系显著。线性回归u回归方程

8、的统计检验u回归方程的显著性检验(F检验)多元线性回归方程显著性检验的零假设是各个偏回归系数同时为零,检验采用F统计量,其数学定义为:即平均的SSA/平均的SSE,F统计量服从(p,n-p-1)个自由度的F分布。SPSS将会自动计算检验统计量的观测值以及对应的概率p值,如果p值小于给定的显著性水平,则应拒绝零假设,认为y与x的全体的线性关系显著。2121()()1niiniiiyyPMSAFMSEyynP线性回归u回归方程的统计检验u回归系数的显著性检验(t检验)一元线性回归方程的回归系数显著性检验的零假设是1=0,检验采用t统计量,其数学定义为:121()niitxxt统计量服从n-2个自由

9、度的t分布。 SPSS将会自动计算t统计量的观测值以及对应的概率p值,如果p值小于给定的显著性水平,则应拒绝零假设,认为x对y有显著贡献,线性关系显著。线性回归u回归方程的统计检验u回归系数的显著性检验(t检验)多元线性回归方程的回归系数显著性检验的零假设是i=0,检验采用t统计量,其数学定义为:ti统计量服从n-p-1个自由度的t分布。 SPSS将会自动计算ti统计量的观测值以及对应的概率p值,如果p值小于给定的显著性水平,则应拒绝零假设,认为xi对y有显著贡献,应保留在线性方程中。21()injiijixxt(i=1,2, ,p)线性回归lt检验与F检验的关系l一元回归中,F检验与t检验一

10、致,即: F=t2,两种检验可以相互替代l在多元回归中,F检验与t检验不能相互替代lF统计量和R2值的关系l如果回归方程的拟合优度高,F统计量就越显著。F统计量越显著,回归方程的拟合优度就会越高。u回归方程的统计检验u残差分析所谓残差是指由回归方程计算所得的预测值与实际样本值之间的差距,即iiiyye它是回归模型中 的估计值。如果回归方程能较好地反映被解释变量的特征和变化规律,那么残差序列中应不包含明显的规律性和趋势性。残差分析包括以下内容:残差服从正态分布,其平均值等于0;残差取值与X的取值无关;残差不存在自相关;残差方差相等。 i线性回归u回归方程的统计检验u残差分析均值为0的正态性分析残

11、差均值为0的正态性分析,可以通过绘制残差图进行分析,如果残差均值为0,残差图中的点应在纵坐标为0的横线上下随机散落着。正态性可以通过绘制标准化(或学生化)残差的累计概率图来分析线性回归u回归方程的统计检验u残差分析独立性分析 绘制残差序列的序列图以样本期(或时间)为横坐标,残差为纵坐标,如果残差随时间的推移呈规律性变化,则存在一定的正或负相关性。计算残差的自相关系数取值在-1到+1之间,接近于+1表明序列存在正自相关性。 DW(DurbinWatson)检验DW取值在0至4之间,直观判断标准是DW=4,残差序列完全负自相关;DW=2,完全无自相关;DW=0,完全正自相关。线性回归u回归方程的统

12、计检验u残差分析异方差分析 绘制残差图如果残差的方差随着解释变量值的增加呈增加(或减少)的趋势,说明出现了异方差现象。线性回归u回归方程的统计检验u残差分析异方差分析 等级相关分析得到残差序列后首先对其取绝对值,然后计算出残差和解释变量的秩,最后计算Spearman等级相关系数,并进行等级相关分析。具体过程见相关分析相关章节。线性回归u回归方程的统计检验u残差分析探测样本中的异常值和强影响点(对于y值)强影响点:指对多重线性回归模型参数估计有很强影响的数据点标准化残差ZRE由于残差是服从均值为0的正态分布,因此可以根据3准则进行判断,首先对残差进行标准化 ,绝对值大于3对应的观察值为异常值。学

13、生化残差SRE剔除残差DRE(或剔除学生化残差SDRE)上述SRE、SDRE的直观判断标准同标准化残差ZRE。iZREe线性回归线性回归变量多重共线性问题多重共线性:是指自变量间存在线性相关,即一个自变量可用其他一个或几个自变量的线性表达式进行表示。导致偏回归系数存在无穷多个解或无解,出现偏回归系数难以有合乎专业知识的解释容忍度Tol容忍度值越接近于1,表示多重共线性越弱。SPSS变量多重共线性的要求不很严格,只是在容忍度值太小时给出相应警告信息。方差膨胀因子VIF膨胀因子是容忍度的倒数,越接近于1,表示解释变量间的多重共线性越弱。通常如果VIFi大于等于10,说明解释变量xi与其余解释变量之

14、间有严重的多重共线性。线性回归21iiTolR 变量多重共线性问题特征根和方差比这里的特征根是指相关系数矩阵的特征根。如果最大特征根远远大于其他特征根的值,则说明这些解释变量之间具有相当多的重叠信息。条件指数ki10 ki 100时,认为多重共线性较强, ki 100时,认为多重共线性很严重多重共线性的解决方法逐步回归岭回归主成分回归路径分析线性回归miiku变量筛选问题向前筛选策略 解释变量不断进入回归方程的过程,首先选择与被解释变量具有最高线性相关系数的变量进入方程,并进行各种检验;其次在剩余的变量中挑选与解释变量偏相关系数最高并通过检验的变量进入回归方程。向后筛选策略 变量不断剔除出回归

15、方程的过程,首先所有变量全部引入回归方程并检验,然后在回归系数显著性检验不显著的一个或多个变量中,剔除t检验值最小的变量。逐步筛选策略 向前筛选与向后筛选策略的综合线性回归逐步回归分析的基本原理按每个变量在方程中对应变量作用的大小,由大到小依次引入回归方程。具体作法:每引入一个自变量都要对回归方程中每一个已引入的自变量的作用作统计意义检验,当发现一个或几个已被引入的自变量的作用无统计意义时,即行剔除。每剔除一个自变量后,也要对仍留在回归方程中的自变量逐个作统计意义检验。如果发现方程中还存在作用无统计意义的自变量时,也就剔除,直到没有变量可引入,也无剔除时为止前进、后退、逐步法的侧重点不同。当自

16、变量间不存在简单线性相关时,三种方法计算结果一致。当自变量间存在一定的简单线性相关时:前进法侧重于向模型中引入单独作用较强的变量后退法侧重于向模型中引入联合作用较强的变量逐步法介于两者之间应用线性回归方程应注意的问题1、作回归分析要有实际意义,不能把毫无关联的两种现象勉强作回归分析,即便有回归关系,也不一定有因果关系,还必须对两种现象间的内在联系有所认识,即能从专业理论上作出合理解释或有所依据2、在进行线性回归分析时,应绘散点图,当观察点的分布有直线趋势,才适宜作直线回归分析。散点图还能提示资料有无异常点,异常点对方程估计影响较大3、线性回归方程的适用范围一般以自变量的取值范围为限,在此范围求

17、出y的估计值,称为内插,超出自变量取值范围称外延。若无充分理由证明超过自变量取值范围还是直线,应该避免外延n回归分析基本操作(1)选择菜单AnalyzeRegressionLinear,出现如下对话框因变量自变量条件变量标志变量筛选策略线性回归(2)将因变量选入Dependent框(3)将一个或多个自变量选入Independengt(s)框(4)在Method框中选择回归分析中自变量的筛选策略。其中Enter表示所选变量强行进入回归方程,是SPSS默认策略,通常用在一元线性回归分析中;Remove表示从回归方程中剔除所选变量;Stepwise表示逐步筛选策略;Backward、Forward分

18、别表示向后、向前筛选策略。n回归分析基本操作线性回归(5)上述(3)、(4)中确定的自变量和筛选策略可放置在不同的Block中,单击 “Next”和“Previous”按钮设置多组自变量和变量筛选策略,并放在不同Block中,SPSS将按照设置顺序依次进行分析。“Block”设置便于作各种探索性的回归分析。n回归分析基本操作线性回归(6)选择一个变量作为条件变量到Selection Variable框中,并单击“Rule”按钮给定一个判断条件。只有变量值满足给定条件的样本数据才参与线性回归分析。线性回归n回归分析基本操作(7)在Case Labels框中指定哪个变量作为数据样本点的标志变量,该

19、变量的值将标在回归分析的输出图形中。(8)WLS Weight中选人权重变量,主要用于加权最小二乘法。 至此便完成了线性回归分析的基本操作,SPSS将根据指定自动进行回归分析,并将结果输出到输出窗口中。线性回归n回归分析基本操作n回归分析的其他操作StatisticsStatistics选项选项输出与回归系数相关的统计量,包括回归系数、回归系数标准误、标准化回归系数、回归系数显著性检验的t统计量和概率p值,个解释变量的容忍度。每个非标准化回归系数的95%置信区间输出各解释变量间的相关系数、协方差以及各回归系数的方差线性回归输出判定系数、调整的判定系数、回归方程的标准误、回归方程显著性检验的方差

20、分析表每个解释变量进入方程后引起的判定系数的变化量和F值的变化量(偏F统计量)输出个解释变量和被解释变量的均值、标准差、相关系数矩阵及单侧检验概率值输出方程中各解释变量与被解释变量之间的简单相关、偏相关系数和部分相关线性回归n回归分析的其他操作StatisticsStatistics选项选项多重共线性分析:输出各解释变量的容忍度、方差膨胀因子、特征值、条件指标、方差比例等DW值输出标准化残差绝对值大于等于3(默认)的样本数据的相关信息线性回归n回归分析的其他操作StatisticsStatistics选项选项PlotsPlots选项选项标准化预测值标准化残差剔除残差调整的预测值学生化残差剔除学

21、生化残差标准化残差序列直方图标准化残差序列正态分布累计概率图依次绘制被解释变量与各解释变量的散点图线性回归n回归分析的其他操作将选中结果作为新变量存入数据文件或新文件将选中结果作为新变量存入数据文件或新文件预测值观测值与均值偏差预测值区间残差值剔除某case后改变值SaveSave选项选项OptionsOptions选项选项设置多元线性回归分析中解释变量进入或剔除出回归方程的标准偏F统计量的概率值线性回归n回归分析的其他操作回归分析中是否包含常数项【结果形式结果形式】可决系数-自变量可解释因变量的比例模型的方差分析H0: b1=bn=0模型中常数项与回归系数的检验回归方程为time=-1.95

22、5+3.457diamH0:a=0H0:bi=0u线性回归分析的应用举例例10-2-1线性回归【实例实例】为研究某公司职工当前工资水平(为研究某公司职工当前工资水平(salarysalary),),收集了影响因素收集了影响因素6 6个,即开始工资(个,即开始工资(salbeginsalbegin $ $)、受)、受教育时间(教育时间(educeduc)、来公司工作时间()、来公司工作时间(jobtimejobtime)、工)、工种(种(jobcatjobcat)、来前工作经验()、来前工作经验(prevexpprevexp)及是否少数)及是否少数民族(民族(minorityminority),

23、试用多元线性回归对该公司当前工),试用多元线性回归对该公司当前工资水平建立恰当回归模型。资水平建立恰当回归模型。【数据准备数据准备】见下页见下页6个影响因素变量自变量逐步筛选【设置界面设置界面】【statistics按钮按钮】【Save按钮按钮】【结果形式结果形式】先后选入自变量, minority未选入未选入剔除变量复相关系数,随自变量的加入而增大,较大,线性相关高可决系数D-W统计量值:在1.52.5间无显著自相关性随自变量的加入,线性模型都有显著效果H0:b1=b5=0H0:b1=b2=b3=0随自变量的加入,因变量与自变量都显著线性相关H0:a=0,bi=0 (j=1,.,5)标准化回

24、归系数(无量纲),用于比较各变量重要程度大小 可见,第可见,第5个回归方程为个回归方程为 salary=-15038.574+1.365salbegin+5859.585jobcat-19.553prevexp+154.698jobtime+539.642educ 复相关系数复相关系数R=0.917,可决系数,可决系数R2=0.84,经检验,回,经检验,回归模型、回归系数及归模型、回归系数及D-W检验都有显著统计学意义。检验都有显著统计学意义。 对工资水平影响较大的因素依次为对工资水平影响较大的因素依次为 开始工资、工种、来前工作经验、来公司工作时间、受教开始工资、工种、来前工作经验、来公司工

25、作时间、受教育时间。育时间。曲线回归(估计、拟合) 变量间的相关关系中,并不总是表现出线性关系,非线性关系也是极为常见的。变量之间的非线性关系可以划分为本质线性关系和本质非线性关系。本质线性关系是指变量关系形式上虽然呈非线性关系,但可通过变量变换为线性关系,并最终可通过线性回归分析建立线性模型。本质非线性关系是指变量关系不仅形式上呈非线性关系,而且也无法变换为线性关系。本节的曲线估计是解决本质线性关系问题的。 Curve Estimation: 曲线估计分析曲线估计分析 曲线回归曲线回归(估计、拟合):选定一种用函数表达曲线,(估计、拟合):选定一种用函数表达曲线,使理论数据与实际数据间的差异

26、尽可能小。使理论数据与实际数据间的差异尽可能小。解决问题解决问题:(1)曲线模型的选择;曲线模型的选择;(2)模型参数的确定。模型参数的确定。 本质非线性关系本质线性关系非线性关系线性关系变量间关系可以经变量变换转化为线性关系,可以经变量变换转化为线性关系,SPSS中中Curve Estimation解决。解决。不能经变换转化为线性关系,用迭代或分段平不能经变换转化为线性关系,用迭代或分段平均值等方法处理,均值等方法处理, SPSS中中Nonlinear解决解决基本思路基本思路:通过散点图及专业、经验等确定函数类型,:通过散点图及专业、经验等确定函数类型,再利用再利用SPSSSPSS解决。解决

27、。SPSS曲线估计中,首先,在不能明确究竟哪种模型更接近样本数据时,可在多种可选择的模型中选择几种模型;然后SPSS自动完成模型的参数估计,并输出回归方程显著性检验的F值和概率p值、判定系数R2等统计量;最后,以判定系数为主要依据选择其中的最优模型,并进行预测分析等。另外,SPSS曲线估计还可以以时间为解释变量实现时间序列的简单回归分析和趋势外推分析。Curve Estimation中提供了中提供了11种本质线性模型:种本质线性模型:曲线估计的基本操作 可通过绘制并观察样本数据的散点图粗略确定被解释变量和解释变量之间的相关关系,为曲线拟合中的模型选择提供依据。SPSS曲线估计的基本操作步骤是:

28、(1)选择菜单AnalyzeRegressionCurve Estimation,出现窗口如下页所示。(2)把被解释变量选到Dependent框中。(3)曲线估计中的解释变量可以是相关因素变量也可是时间变量。如果解释变量为相关因素变量,则选择Variable选项,并把一个解释变量指定到Independent框;如果选择Time参数则表示解释变量为时间变量。(4)在Models中选择几种模型。(5)选择Plot Models选项绘制回归线;选择Display ANOVA table输出各个模型的方差分析表和各回归系数显著性检验结果。 至此,完成了曲线估计的操作,SPSS将根据选择的模型自动进行曲线估计,并将结果显示到输出窗口中。【实例实例】某产品零售商已知产品的广告投入和销售某产品零售商已知产品的广告投入和销售额的数据,试找出适当的回归方程。额的数据,试找出适当的回归方程。【作散点图预分析作散点图预分析】 Graphs-scatter/dotGraphs-scatt

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论