版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第6章 回归分析线性回归Logistic回归第6章 回归分析线性回归Logistic回归回归分析顾客对商品和服务的反映对于商家是至关重要的,但是仅仅有满意顾客的比例是不够的,商家希望了解什么是影响顾客观点的因素以及这些因素是如何起作用的。 类似地,医疗卫生部门不能仅仅知道某流行病的发病率,而且想知道什么变量影响发病率,以及如何影响。一般来说,统计可以根据目前所拥有的信息(数据)建立人们所关心的变量和其他有关变量的关系(称为模型)。假如用Y表示感兴趣的变量,用X表示其他可能有关的变量(可能是若干变量组成的向量)。则所需要的是建立一个函数关系Y=f(X)。这里Y称为因变量或响应变量,而X称为自变量
2、或解释变量或协变量。建立这种关系的过程就叫做回归。2回归分析顾客对商品和服务的反映对于商家是至关重要的,但是仅仅回归分析一旦建立了回归模型可以对各种变量的关系有了进一步的定量理解还可以利用该模型(函数)通过自变量对因变量做预测。这里所说的预测,是用已知的自变量的值通过模型对未知的因变量值进行估计;它并不一定涉及时间先后的概念。 3回归分析一旦建立了回归模型3例1 有50个从初中升到高中的学生.为了比较初三的成绩是否和高中的成绩相关,得到了他们在初三和高一的各科平均成绩(数据:highschool.sav)4从这张图可以看出什么呢?有个上升趋势;即初三时成绩相对较高的学生,在高一时的成绩也较高。
3、但对于具体个人来说,大约有一半的学生的高一平均成绩比初三时下降,而另一半没有变化或有进步例1 有50个从初中升到高中的学生.为了比较初三的成绩是否和还有定性变量该数据中,除了初三和高一的成绩之外,还有一个定性变量它是学生在高一时的家庭收入状况;它有三个水平:低、中、高,分别在数据中用1、2、3表示。 目前的问题是怎么判断这两个变量是否相关、如何相关及如何度量相关?能否以初三成绩为自变量,高一成绩为因变量来建立一个回归模型以描述这样的关系,或用于预测。5还有定性变量该数据中,除了初三和高一的成绩之外,还有一个定性还有定性变量下面是对三种收入对高一成绩和高一与初三成绩差的盒形图6可以看出收入高低对
4、高一成绩稍有影响,但不如收入对成绩的变化(高一和初三成绩之差)的影响那么明显。还有定性变量下面是对三种收入对高一成绩和高一与初三成绩差的盒问题的提出到底学生在高一的家庭收入对成绩有影响吗?是什么样的影响?是否可以取初三成绩(这是定量变量)或(和)家庭收入(定性变量)为自变量,而取高一成绩为因变量,来建立一个描述这些变量之间关系的回归模型呢?7问题的提出到底学生在高一的家庭收入对成绩有影响吗?是什么样的问题的提出例2 这是200个不同年龄和性别的人对某项服务产品的认可的数据(logi.txt)。这里年龄是连续变量,性别是有男和女(分别用1和0表示)两个水平的定性变量,而变量观点则为包含认可(用1
5、表示)和不认可(用0表示)两个水平的定性变量(见下页数据)。想要知道的是年龄和性别对观点有没有影响,有什么样的影响,以及能否用统计模型表示出这个关系。8问题的提出例2 这是200个不同年龄和性别的人对某项服务产品9910年龄和观点的散点图(左)和性别与观点的条形图; 10年龄和观点的散点图(左)和性别与观点的条形图; 例3 阿姆德比萨饼连锁店的问题 阿姆得(Armand)比萨饼连锁店坐落在美国的5个州内,它们通常的位置是在大学旁边,而且管理人员相信附近大学的人数与这些连锁店的季度销售额是有关系的。下面是10家连锁店附近大学的学生人数和季度销售收入的数据: 根据以上数据,你能否判断学生人数(x)
6、如何影响到销售收入(y)?根据一家连锁店附近大学的人数,你能够预测该家连锁店的季度销售收入吗?11例3 阿姆德比萨饼连锁店的问题 阿姆得描述学生人数和销售收入之间的关系协方差(315.56)和相关系数(0.95),散点图;根据这些你可以得到什么结论? 12描述学生人数和销售收入之间的关系协方差(315.56)和相关Types of Regression Models 13Positive Linear RelationshipNegative Linear RelationshipRelationship NOT LinearNo RelationshipTypes of Regression
7、 Models 13P某钢厂生产的某种合金钢有两个重要的质量指标:抗拉强度(kg/mm2)和延伸率(%)。该合金钢的质量标准要求:抗拉强度应大于32kg/mm2;延伸率应大于33%。根据冶金学的专业知识和实践经验,该合金钢的含碳量是影响抗拉强度和延伸率的主要因素。其中含碳量高,则抗拉强度也就会相应提高,但与此同时延伸率则会降低。为降低生产成本,提高产品质量和竞争能力,该厂质量控制部门要求该种合金钢产品的上述两项质量指标的合格率都应达到99%以上。 14质量控制应用案例某钢厂生产的某种合金钢有两个重要的质量指标:抗拉强度(kg/为达到以上质量控制要求,就需要制定该合金钢冶炼中含碳量的工艺控制标准
8、,也即要确定在冶炼中应将含碳量控制在什么范围内,可以有99%的把握使抗拉强度和延伸率这两项指标都达到要求。这是一个典型的产品质量控制问题,可以使用回归分析方法求解。 15如何制订含碳量的控制标准?为达到以上质量控制要求,就需要制定该合金钢冶炼中含碳量的工艺6.2 定量变量的相关如果两个定量变量没有关系,就谈不上建立模型或进行回归。但怎样才能发现两个变量有没有关系呢?最简单的直观办法就是画出它们的散点图。下面是四组数据的散点图;每一组数据表示了两个变量x和y的样本。166.2 定量变量的相关如果两个定量变量没有关系,就谈不上建17不相关 正线性相关 负线性相关 相关但非线性相关 17不相关 正线
9、性相关 负线性相关 相关但非线性相关 6.2 定量变量的相关但如何在数量上描述相关呢?下面引进几种对相关程度的度量。Pearson相关系数(Pearsons correlation coefficient)又叫相关系数或线性相关系数。它一般用字母r表示。它是由两个变量的样本取值得到,这是一个描述线性相关强度的量,取值于-1和1之间。当两个变量有很强的线性相关时,相关系数接近于1(正相关)或-1(负相关),而当两个变量不那么线性相关时,相关系数就接近0。186.2 定量变量的相关但如何在数量上描述相关呢?下面引进几6.2 定量变量的相关Kendall t 相关系数(Kendalls t)这里的度
10、量原理是把所有的样本点配对(如果每一个点由x和y组成的坐标(x,y)代表,一对点就是诸如(x1,y1)和(x2,y2)的点对),然后看每一对中的x和y的观测值是否同时增加(或减少)。比如由点对(x1,y1)和(x2,y2),可以算出乘积(x2-x1)(y2-y1)是否大于0;如果大于0,则说明x和y同时增长或同时下降,称这两点协同(concordant);否则就是不协同。如果样本中协同的点数目多,两个变量就更加相关一些;如果样本中不协同(discordant)的点数目多,两个变量就不很相关。196.2 定量变量的相关Kendall t 相关系数(Ken6.2 定量变量的相关Spearman 秩
11、相关系数(Spearman rank correlation coefficient 或Spearmans r)它和Pearson相关系数定义有些类似,只不过在定义中把点的坐标换成各自样本的秩(即样本点大小的“座次”)。Spearman相关系数也是取值在-1和1之间,也有类似的解释。通过它也可以进行不依赖于总体分布的非参数检验。206.2 定量变量的相关Spearman 秩相关系数(Spe6.2 定量变量的相关人们可能会问,上面的三种对相关的度量都是在其值接近1或-1时相关,而接近于0时不相关。到底如何才能够称为“接近”呢?这很难一概而论。但在计算机输出中都有和这些相关度量相应的检验和p-值;
12、因此可以根据这些结果来判断是否相关(见下面例6.1的继续)。例6.1(继续)得到初三和高一成绩的Pearson相关系数,Kendall t 相关系数和Spearman 秩相关系数分别为0.795, 0.595和0.758。这三个统计量相关的检验(零假设均为不相关)全部显著,p-值都是0.000。注意这种0.000的表示并不表示这些p-值恰好等于零,只是小数点前三位是0而已。216.2 定量变量的相关人们可能会问,上面的三种对相关的度量SPSS的相关分析相关分析(hischool.sav)利用SPSS选项:AnalizeCorrelateBivariate再把两个有关的变量(这里为j3和s1)选
13、入,选择Pearson,Spearman和Kendall就可以得出这三个相关系数和有关的检验结果了(零假设均为不相关)。22SPSS的相关分析相关分析(hischool.sav)22例1:相关系数 23例1:相关系数 236.3 定量变量的线性回归分析对例6.1中的两个变量的数据进行线性回归,就是要找到一条直线来适当地代表图1中的那些点的趋势。首先需要确定选择这条直线的标准。这里介绍最小二乘回归(least squares regression)。古汉语“二乘”是平方的意思。这就是寻找一条直线,使得所有点到该直线的竖直距离的平方和最小。用数据寻找一条直线的过程也叫做拟合(fit)一条直线。例6
14、.1(继续)根据计算,找到初三成绩和高一成绩的回归直线。计算机输出给出了截距(Constant)26.444和斜率(变量j3的系数) 0.651。246.3 定量变量的线性回归分析对例6.1中的两个变量的数据25截距=26.444; 斜率=0.65125截距=26.444; 斜率=0.6516.3 定量变量的线性回归分析这个直线实际上是对所假设的下面线性回归模型的估计(这里的e是随机误差):26我们得到的截距和斜率(26.444和0.651)是对b0和b1的估计。由于不同的样本产生不同的估计,所以估计量是个随机变量,它们也有分布,也可以用由他们构造检验统计量来检验b0和b1是不是显著。拿回归主
15、要关心的来说,假设检验问题是计算机输出也给出了这个检验:t检验统计量为9.089,而p-值为0.000。6.3 定量变量的线性回归分析这个直线实际上是对所假设的下6.3 定量变量的线性回归分析除了对系数的检验之外,还有一个说明自变量解释因变量变化百分比的度量,叫做决定系数(coefficient of determination,也叫测定系数或可决系数),用R2表示。对于例1,R2=0.632;这说明这里的自变量可以大约解释63的因变量的变化。R2越接近1,回归就越成功。由于R2有当变量数目增加而增大的缺点,人们对其进行修改;有一修正的R2(adjusted R square)。276.3 定
16、量变量的线性回归分析除了对系数的检验之外,还有一6.3 定量变量的线性回归分析此外,计算机还计算了一个在零假设下有F分布的检验统计量,它是用来检验回归拟合好坏的(零假设是因变量和自变量没有关系)。286.3 定量变量的线性回归分析此外,计算机还计算了一个在零模型的引入对于给定的学生人数,销售收入是唯一确定的一个数,还是一个随机变量?学生人数的变化如何影响到销售收入?使用的模型 29模型的引入对于给定的学生人数,销售收入是唯一确定的一个数,还简单线性回归模型30 Y 的截距斜率 随机误差因变量(响应变量,被预测变量)自变量(解释变量,预测变量)简单线性回归模型30 Y 的截距斜率 随机误差因变量
17、(响应变简单线性回归模型31i = 随机误差YX观测值观测值YX01YXiii01简单线性回归模型31i = 随机误差YX观测值观测值Y 模型的假定1) E()=0; (E(y)=x)2) 对于所有的x,Var()=.3) 是服从正态分布N(0, ) 的.4) 对于不同的x, 是相互独立的.这些假定意味着什么?32 模型的假定1) E()=0; (E(y)=33X1X2XY fy 服从在回归直线附近的正态分布对每个 x 值, y分布的方差相同.回归直线33X1X2XY fy 服从在回归直线附近的正态分布回归直线估计的回归方程如何估计参数和?最小二乘准则 34估计的回归方程如何估计参数和?34阿
18、姆德连锁店的回归直线估计参数 b1=5 b0=60回归直线你对系数的含义怎么理解? 35阿姆德连锁店的回归直线估计参数35回归方程的判定系数y的总变差的分解定义判定系数R2=SSR/SST.判定系数的含义是什么?阿姆德比萨饼连锁店的例子:R2=0.9027.判定系数和相关系数的关系。 36回归方程的判定系数y的总变差的分解36Coefficients of Determination (r2) and Correlation (r) 37r2 = 1,r2 = 1,r2 = .8,r2 = 0,YXY XY YXr = +1r = -1r = +0.9r = 0XCoefficients of
19、 Determination 的估计理解误差平方和的一个无偏估计 s2=MSE=SSE/(n-2) 38的估计38关于回归系数的假设检验检验统计量给定显著水平时,选择拒绝域 39关于回归系数的假设检验39关于回归方程整体的检验变量x的确对y有解释作用吗?(H0: =0)检验统计量 F=MSR/MSE 其中MSR=SSR/自变量的个数拒绝域 FF(1, n-2)40关于回归方程整体的检验变量x的确对y有解释作用吗?(H0: 回归方程的方差分析表41回归方程的方差分析表41阿姆德连锁店的情形 使用SPSS对阿姆德连锁店的数据建立模型,并进行分析,基于SPSS的输出结果,你对该模型有些什么认识?42
20、阿姆德连锁店的情形 42使用你建立的模型(一)问题一:对于那些附近学校人数是1万的连锁店,他们的季度销售收入一定是一样吗?这种连锁店平均的季度销售收入是多少?你能够给出一个估计吗?问题二:某家连锁店附近学生总数约1万人,你能够给出它的季度销售收入的一个估计值吗?点估计:11043使用你建立的模型(一)问题一:对于那些附近学校人数是1万的连使用你建立的模型(二)对于问题一,如何得到这种连锁店平均销售收入的一个95%的置信区间? 44( 98.58, 121.42)使用你建立的模型(二)对于问题一,如何得到这种连锁店平均销售使用你建立的模型(三)对于问题二,如何给出一个预测区间,使得这家连锁店的季
21、度销售收入落在该区间里面的概率是1-?45( 76.13, 143.87)使用你建立的模型(三)对于问题二,如何给出一个预测区间,使得两种区间的关系46xp预测区间边界均值的置信区间两种区间的关系46xp预测区间边界均值的置信区间对模型作进一步的探讨回忆我们使用的模型;对模型作了什么假定?逻辑问题:如何判断我们的问题符合这些假定?分析的方案:残差分析 47对模型作进一步的探讨回忆我们使用的模型;47通过残差你能够了解什么?对误差项作的假定适合吗? 1)等方差; 2)相互独立; 3)正态分布;哪些数据属于异常值?哪些观测属于对回归模型有很大影响的?48通过残差你能够了解什么?对误差项作的假定适合
22、吗?48残差图关于自变量的残差图;关于因变量的预测值的残差图;学生化的标准残差图: 49残差图关于自变量的残差图;49如何分析残差图如果模型是符合的,那么残差图上的散点应该落在一条水平带中间,除此之外,残差图上的点不应呈现出什么规律性。使用SPSS对阿姆德连锁店的数据产生残差图。你能得到什么结论?50如何分析残差图如果模型是符合的,那么残差图上的散点应该落在一51非线性线性X X51非线性线性X X52方差不等方差相等XX52方差不等方差相等XX53不独立独立XX53不独立独立XX异常值的检测异常值是与其它点显示的趋势不合的点。检查它是否可能是被错误输入的数据。检测异常值的方法: 散点图; 利
23、用学生化标准残差基本服从标准正态分布来检测(落在2个标准差之外时)。 54异常值的检测异常值是与其它点显示的趋势不合的点。54带有异常值的散点图示例55带有异常值的散点图示例55检测有影响的观测值什么是有影响的观测?观测的杠杆率:高杠杆率的点意味着它的自变量距离别的自变量的值距离较大的点。识别影响的观测: 杠杆率6/n的观测. 56检测有影响的观测值什么是有影响的观测?56对于建立简单线性回归模型,你知道了些什么?什么情况下需要建立简单线性回归模型?对模型的假定有哪些?如何估计模型的参数?如何检验模型及其参数的显著性?如何使用你建立的模型进行预测?如何分析你的问题符合对模型做的假定?57对于建
24、立简单线性回归模型,你知道了些什么?什么情况下需要建6.3 定量变量的线性回归分析和刚才简单的回归模型类似,一般的有k个(定量)自变量x1, x2, xk的对因变量y的线性回归模型为(称为多元回归)58这里b0, b1, bk称为回归系数。对计算机来说,计算多个自变量的回归和计算一个自变量的情况类似,计算机也会自动输出相应的检验结果。并且用数据来拟合所选的一个模型时,并不一定所有的变量都显著(并不一定所有的系数都有意义)软件有一种一边回归,一边检验的所谓逐步回归(stepwise regression)方法。该方法或者从只有常数项开始,逐个地把显著的变量加入;或者从包含所有变量的模型开始,逐步
25、把不显著的变量减去。注意不同方向逐步回归的结果也不一定相同。6.3 定量变量的线性回归分析和刚才简单的回归模型类似,一例子:RISKFAC.sav不算序号和(192个)国家有21个变量包括地区(Region)、(在城镇和乡村)使用干净水的、生活污水处理的、饮酒量(litre/yearperson)、(每万人中)内科医生数目、护士和助产士数、卫生工作者数、病床数、护士助产士和内科医生之比、卫生开支占总开支的、占政府开支的、人均卫生开支$、成人识字率、人均收入$、每千个出生中5岁前死亡人数、人口增长率、(男女的)预期寿命(年)、每10万生育的母亲死亡数59例子:RISKFAC.sav不算序号和(1
26、92个)国家有216060例子:RISKFAC.sav该数据有许多相关的变量和许多缺失值假定要用各种变量描述每千个出生中5岁前死亡人数(因变量)可以先做两两相关也可以做定量变量的两两散点图等等或者用逐步回归淘汰变量目的在于摸清关系的底细61例子:RISKFAC.sav该数据有许多相关的变量和许多缺失例子:RISKFAC.sav:相关62例子:RISKFAC.sav:相关62例子:RISKFAC.sav:逐步回归63选中女性预期寿命和农村干净水的作为自变量(第二个自变量相对不那么显著pvalue=0.019)模型:女性预期寿命模型:农村干净水的例子:RISKFAC.sav:逐步回归63选中女性预
27、期寿命和RISKFAC.sav:散点图及自变量相关性Pearson相关64RISKFAC.sav:散点图及自变量相关性Pearson相RISKFAC.sav:散点图及自变量相关性非参数度量KendallSpearman65RISKFAC.sav:散点图及自变量相关性非参数度量K介绍三个检查异常点的统计量残差(Residual).(本例用SPSS中的一种),它描述了样本点到回归直线的远近程度。杠杆值(Levarage)。 它描述距离数据总体的远近。高杠杆点对回归的参数影响较大,但其残差通常较小。Cook统计量。它结合了残差和杠杆值,因此反映了残差和杠杆二者的影响(较全面)66介绍三个检查异常点的
28、统计量残差(Residual).(本例用全模型(两个自变量:女性预期寿命和农村干净水的)全模型(两个自变量:女性预期寿命和农村干净水的)RISKFAC.sav:全模型异常点诊断:残差6896(Lesotho )23(Botswana)153(Sierra Leone )192(Zimbabwe )模型:女性预期寿命模型:农村干净水的RISKFAC.sav:全模型异常点诊断:残差6896(69模型1因变量和自变量之一的散点图X:女性预期寿命(年)Y:每千个出生中5岁前死亡人数69模型1RISKFAC.sav:只用女性预期寿命作为自变量70模型:全模型模型:农村干净水的RISKFAC.sav:只用
29、女性预期寿命作为自变量70模型:RISKFAC.sav模型1异常点诊断残差7123(Botswana)96(Lesotho)192(Zimbabwe )模型:全模型模型:农村干净水的RISKFAC.sav模型1异常点诊断残差7123(Bo72模型2因变量和自变量之一的散点图X:农村干净水使用Y:每千个出生中5岁前死亡人数72模型2RISKFAC.sav:只用农村净水使用73模型:全模型模型:女性预期寿命RISKFAC.sav:只用农村净水使用73模型:全模型74140(Romania )RISKFAC.sav模型2异常点诊断残差模型:全模型模型:女性预期寿命74140(Romania )RIS
30、KFAC.sav模型2对该例子(RISKFAC.sav)的结果解释单独用第一个自变量比单独用第二个较好模型1(相应于模型)的“异常点”为一些非洲国家;它们可能不适合用这个模型。模型2(相应于模型)的“异常点”为Romania;它可能不适合用这个模型。从散点图来看,第一个模型更加线性。两个自变量的模型的“异常点”为单独模型“异常点”的混合。其实,用一个自变量就够了。这两个自变量是相关的。当然是用第一个了。可能把异常点排除后再重新建模更好。75对该例子(RISKFAC.sav)的结果解释单独用第一个自变家电商品的需求量 Y 与其价格 X1 及居民家庭平均收入 X2 有关。下表给出了某市 10 年中
31、某家电商品需求量与价格和家庭年平均收入水平间的数据。76 求该商品年需求量 Y 关于价格 X1和家庭年平均收入 X2 的回归方程。 【案例4】需求量与价格及收入间的关系家电商品的需求量 Y 与其价格 X1 及居民家庭平均收入 X用 SPSS求解案例 4,可得回归方程如下:77 由方差分析表,Significance F = 0.0001,因而回归方程高度显著。 对回归系数的显著性检验结果为: X1 的P-value = 0.0268,X2 的 P-value = 0.0262都是一般显著。 此外还得到回归方程的标准误差:该值在求预测区间和控制范围时要用到。 案例 4 分析用 SPSS求解案例
32、4,可得回归方程如下:77 由方 预计下一年度该商品的价格水平为1800元,家庭年平均收入为30000元,希望预测该商品下一年的需求量。 假定下一年度居民家庭年平均收入估计在30000-31000元之间。 若要以90%的概率使该商品的年需求量不低于12万台,则应将价格控制在什么范围内? 78案例 4 需要进一步分析的问题 预计下一年度该商品的价格水平为1800元,家庭年平 1. 预测 在给定解释变量的一组取值 ( x01, x02 , x0P ),由回归方程可得回归值79 它是 Y0 = 0 + 1X01 + 2X02 + + pX0p+ 0 的一个点估计。 可以证明,Y0 的置信度为 1-
33、的预测区间为 预测和控制 1. 预测79 它是 Y0 = 0 + 1预计下一年度该商品的价格水平为1800元,家庭年平均收入为30000元,求该商品年需求量的置信度为90%的预测区间。解:由所得回归方程,可求得 80 该商品在该市下一年的年需求量的置信度为90%的预测区间为案例 4 的预测分析= t0.05(7)0.8618= 1.63= (11.20万台,14.46万台) 预计下一年度该商品的价格水平为1800元,家庭年平均收入为3812. 控制在多元回归情况下,由于解释变量有多个,若控制问题的提法是:当要求以 1- 的概率将 Y 控制在某一给定范围内,问应将各解释变量控制在什么范围内?显然
34、此问题可以有无穷多个解。因此多元回归控制问题的一般提法是:若要将 Y 控制在某给定范围内,在给定其中 P-1 个解释变量的取值范围时,应将另一个解释变量控制在什么范围之内?多元回归的控制分析方法与一元回归是完全类似的。 812. 控制在多元回归情况下,由于解释变量有多个,若控制问假定下一年度居民家庭的年平均收入估计在30000-31000元之间,若要以90概率使该商品在的年需求量不低于12万台,问应将价格控制在什么范围内?。解:此问题仍是单测控制问题,即要控制 X1 的取值范围,使82其中案例 4 的控制要求分析= t0.1(7)0.8618= 1.2194 假定下一年度居民家庭的年平均收入估
35、计在30000-3100083 可解得:x1 1211.167 - 1.903x1 + 0.169531 - 1.2194 12案例 4 的控制要求分析(续)83 可解得:x1 1.594 (千元)0yx11自变量中有定性变量的回归 例1的数据中,还有一个自变量是定性变量“收入”,以虚拟变量或哑元(dummy variable)的方式出现;这里收入的“低”,“中”,“高”,用1,2,3来代表.所以,如果要用这种哑元进行前面回归就没有道理了. 以例1数据为例,可以用下面的模型来描述:84自变量中有定性变量的回归 例1的数据中,还有一个自变量是定性自变量中有定性变量的回归 现在只要估计b0, b1
36、,和a1, a2, a3即可。哑元的各个参数a1, a2, a3本身只有相对意义,无法三个都估计,只能够在有约束条件下才能够得到估计。约束条件可以有很多选择,一种默认的条件是把一个参数设为0,比如a3=0,这样和它有相对意义的a1和a2就可以估计出来了。对于例1,对b0, b1, a1, a2, a3的估计分别为28.708, 0.688, -11.066, -4.679, 0。这时的拟合直线有三条,对三种家庭收入各有一条: 85自变量中有定性变量的回归 现在只要估计b0, b1,和a1,86例子:RISKFAC.sav:因变量:成人识字率,自变量:区域(属性变量)、人口增长率、人均收入86例
37、子:RISKFAC.sav:因变量:成人识字率,8787SPSS实现(hischool.sav)AnalyzeGeneral linear modelUnivariate,在Options中选择Parameter Estimates,再在主对话框中把因变量(s1)选入Dependent Variable,把定量自变量(j3)选入Covariate,把定量因变量(income)选入Factor中。然后再点击Model,在Specify Model中选Custom,再把两个有关的自变量选入右边,再在下面Building Term中选Main effect。Continue-OK,就得到结果了(系数和检验等) 88SPSS实现(hischool.sav)AnalyzeGe注意 这里进行的线性回归,仅仅是回归的一种,也是历史最悠久的一种。但是,任何模型都是某种近似;线性回归当然也不另外。它被长期广泛深入地研究主要是因为数学上相对简单。它已经成为其他回归的一个基础。总应该用批判的眼光看这些模型。89注意 这里进行的线性回归,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年内蒙古自治区赤峰市翁牛特旗乌敦套海中学初三下学期1月月考化学试题含解析
- 2026年河北省保定高碑店市初三中考仿真模拟卷(一)化学试题含解析
- 2026年陕西省西安市经开区重点名校初三下学期考试化学试题理试题分类汇编含解析
- 安徽省合肥市第四十五中学2026年初三第一次中考模拟考试化学试题理试题含解析
- 2026年国家安全八进活动进企业进网络进平台进园区进课堂
- 2026年数字重庆与智慧蓉城协同贯通共建一体化数字底座方案
- 2026年批处理大小(batch-size)调优与吞吐量提升策略
- 职业规划与自我管理:职场晋升指南
- 活动后客户反馈收集与处理方案
- 房地产开发商销售顾问面试技巧
- GB 15607-2023涂装作业安全规程粉末静电喷涂工艺安全
- DB34∕T 559-2019 中药材种子 白芷
- 数据分类与敏感信息标识
- 第五章 目的基因克隆
- OQC送检单表格模板
- 钢丝绳验收表
- 高中语文-五代史伶官传序教学设计学情分析教材分析课后反思
- 从业人员卫生知识培训
- GB/T 40822-2021道路车辆统一的诊断服务
- 《材料物理性能》配套教学课件
- 《客房服务与管理》第一章课件
评论
0/150
提交评论