下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1,一、相关分析 内容: 相关关系的图形展示:散点图(Scatter) 双变量简单相关分析:Bivariate Correlations 偏相关分析:Partial Correlations,第七节 SPSS相关与回归,2,一、相关分析散点图,散点图:以散在数据点的图形分布直观显示变量间的密切程度。 操作:GraphsScatter 选择散点图类型 Simple:简单散点图,表示一对变量间关系。 Overlay:重叠散点图,表示多对变量间关系。 Matrix:矩阵散点图,表示多个变量间的两两相关。 3-D:三维散点图,表示三个变量间的相互关系。,3,4,5,Scatter-simple,6,S
2、catter-overlay,7,Scatter-matrix,8,Scatter-3D,9,二、两变量简单相关分析,H0:两总体不相关; 选择相关系数类型; 计算系数和相应检验的概率P值; 统计结论和结果解释。 注:由于抽样数据总存在抽样误差,所以样本中两变量间相关系数不为0, 不能说明总体中两个变量间的相关系数不是0,也不能保证实际中这两个变量不相关。因此相关分析必须通过检验。,10,相关系数,相关系数是描述两个变量间的线性关系程度和方向的统计量,以数值形式精确反映两变量间相关的强弱程度。 相关系数r:-11。 r0,正相关;r0.7,线性关系较强;0.3,线性关系较弱。,11,相关系数类
3、型一,Pearson相关系数 r的检验统计量 适用于呈双变量正态分布的连续变量间的相关分析。如:身高与体重,12,相关系数类型二,Spearman等级相关系数:度量定序变量间的相关关系。它的计算采用两变量的秩(Ui,Vi)代替原始变量值(xi,yi)代入上述公式,可简化为 检验统计量 适用于完全等级化的离散变量之间的等级相关分析。如职称与收入等级。,13,相关系数类型三,Kendall tal b系数:也用来度量定序变量间的相关关系。计算是基于变量秩的同序对(U)和异序对数目(V)。 Kendall 等级相关计算分类变量间的秩相关, 当资料不服从双变量正态分布或总体分布型未知,或原始数据是用等
4、级表示时宜用Spearman 或Kendall相关.,14,SPSS基本操作,AnalyzeCorrelateBivariate Variable:选择进行相关分析的变量 Correlation Coefficents:选择相关系数类型 Test of Significance:选择检验的双尾或单尾P值。 Flag significance correlations:星号标记变量间相关性是否显著。,15,举例,打开相关回归分析高校科研研究,研究高校课题总数与投入的高级职称人年数、发表的论文数(去年)之间是否具有线性相关关系。,16,三、偏相关分析,分析两个变量间线性关系的程度往往因为第三个变量
5、的作用,使得简单相关系数不能真实地反映两个变量间的线性相关程度。 偏相关分析:就是在研究两个变量之间的线性相关关系时,控制可能对其产生影响的变量。 偏相关系数:衡量任何两个变量之间的关系而使与这两个变量有联系的其他变量都保持不变时所得到的相关系数。当控制变量个数为n时称 n阶偏相关系数,故零阶偏相关系数即简单相关系数; Partial 计算两个变量间在控制了其他变量影响下的相关系数,即偏相关系数. 例如商品需求量和价格、消费者收入三者之间的关系。,17,一阶偏相关系数的计算及检验,控制x2的线性作用后,x1与y的一阶偏相关系数为 偏相关系数的检验统计量,18,操作:AnalyzeCorrela
6、tePartial,19,回归分析概述,回归分析:是研究变量之间数量依存关系的一种统计分析方法,可以把握因变量受一个或多个自变量影响的程度,并可利用回归方程进行预测和控制。 回归分析的任务:建立回归方程。 用途:考察影响因素;预测与控制,20,1. 相关与回归的关系,相关:反映变量间线性关系的密切程度(点的疏密) 回归:反映自变量取值大小对因变量取值的影响程度(斜率大小),21,2. 回归分析的一般步骤,确定回归分析的自变量(解释变量)和因变量(被解释变量) 确定回归模型 建立回归方程 对回归方程进行检验 利用回归方程进行预测,22,3. SPSS的回归菜单,线性回归(Linear):简单线性
7、回归和多元线性回归 非线性回归:Curve Estimation和Nonlinear Regression Logistic回归:适用于应变量为分类变量的情况。分为二分类、多分类Logistic过程。 其他回归方法:线性回归的前提假设不满足时的补充方法。 主要介绍1和3,23,二、线性回归模型,线性回归分析:是描述一个因变量(dependent variable)Y 与一个或多个自变量(independent variable)X 间的线性依存关系,根据自变量数目的不同可分为一元线性回归和多元线性回归。 数学模型 实际拟合的线性回归方程为第一个模型;第二个为变量个体具体取值的模型,其中残差满足
8、:E()=0; var()= 2,24,示例:一元线性回归,打开相关回归分析高校科研数据, 利用线性回归分析投入人年数对立项课题总数的影响。,25,1. 前提条件,线性趋势:因变量与自变量是线性相关的。 独立性:因变量y的取值相互独立 正态性: 对于自变量的每一组合,y服从正态分布 方差齐性:对于自变量的每一组合, y的方差均相同 样本量要求:希望分析的自变量个数的20倍以上。,26,2. 基本概念,一元线性回归:y*=0+1x。 0 称为截距,回归方程的常数项;1为回归直线的斜率,也称回归系数。 模拟方法为最小二乘法:即保证各实测点距回归直线的纵向距离的平方和(残差平方和:(yi- yi*)
9、2)为最小。 多元线性回归: y*=0+1x1 +.+jxj,27,其他常用指标,偏回归系数:即, SPSS中表示为B,反映相应自变量上升一个单位时,因变量取值的变化幅度。 标化偏回归系数: SPSS中用Beta表示,是将自变量进行标准化变换所得的分析结果,可直接用以比较各个自变量对因变量的影响程度。 决定系数:即复(或简单)相关系数的平方,用R2表示,反映因变量变异中能被回归模型所解释的比例。,28,3. 一般分析步骤,前提条件预分析:首先应做出变量间散点图,观察变量间是否存在线性趋势。 线性回归模型的建立 进行模型检验 残差分析 强影响点的诊断 多重共线性的判断。,29,. 前提条件预分析
10、-线性趋势考察,图1 基本呈线性,可进行线性回归分析 图2 曲线关系 图3 异常点须考察 图4 异常点须特别关注,30,. 线性回归模型的建立,变量的初筛:专业筛选;单因素筛选;计算机自动筛选 计算机变量选择方法的确定: Forward前进法:是自变量不断进入回归方程的过程;首先进入的变量具有最高的线性相关系数。 Backward后退法:是变量不断剔除出方程的过程,首先剔除的是t检验值最小的一个。 Stepwise逐步回归:是上述二者的结合。 Remove:一次剔除一个Block,余同后退法。 Enter强制进入法:自变量全部纳入模型,31,. 模型的检验,模型拟合优度的检验: 决定系数R2,
11、 检验样本数据点聚集在回归线周围的密集程度。但其大小受模型中自变量个数的影响,可检验一元线性回归模型拟合的优度 调整R2:修正了模型自变量个数P对R2的影响。可用于多元线性回归模型的拟合优度检验。,32,回归方程的显著性检验:检验应变量与所有自变量的线性关系是否显著,F=回归均方/误差均方。 回归系数的显著性检验:检验总体偏回归系数i是否等于0, 在一元线性回归中,F=t2 在多元线性回归中, Fch =ti2 ,偏F统计量为某个自变量引入方程后使得回归方程F统计量改善的程度.,33,例子,打开“高校科研研究”,分析影响立项课题数的可能因素。,34,. 残差分析,残差()的正态性分析:图示法及
12、一些相关指标。 残差的独立性分析 绘制残差序列图 残差的自相关系数 DW(Durbin-Watson)检验残差总体自相关系数与0是否有显著差异,35,Durbin-Watson 检验:诊断回归模型中的误差项的独立性,其参数称为DW 或D, D 的取值范围是0D4 ,它的统计学意义如下: 当残差序列无自相关时,D 2 当残差序列为负自相关时,2D4 当残差序列为正自相关时,0D2,36,残差图示法:在直角坐标系中以y预测值为横轴,以标准化残差(或学生化残差) 绘制残差的散点图,如果散点呈现出明显的规律性,则认为存在自相关性、或非线性、异方差的问题 如果散点呈现随机分布,认为自相关存在的可能性不大
13、,独立性假设成立。,37,异方差的处理 方差稳定性变量变换; 加权最小二乘法等,38,. 强影响点的诊断,样本中的异常值和强影响点是指远离均值的数据点。 探测因变量的异常值:标准化残差、学生化残差、剔除残差;绝对值3的观测为异常值。 探测自变量中强影响点:杠杆值,hij大于2或3倍的平均值即为异常;库克距离1为异常;标准化回归系数和标准化预测值的变化;,39,强影响点的处理方法,去除强影响点的记录 变量变换 非参数分析 最小一乘法 加权最小二乘法,40,. 多重共线性的判断,多重共线性是指自变量之间存在近似的线性关系。特征为: 偏回归系数与回归方程的检验矛盾 偏回归系数与专业常识矛盾 去掉一两
14、个变量或记录,回归系数值强烈变动。 诊断方法: 容忍度(Toli=1-Ri2):Ri2是自变量xi与其他自变量间的决定系数。 方差膨胀因子(VIF=1/Toli)10,表明共线性严重 特征根:最大特征根远远大于其他特征根,说明自变量间有大量的信息重叠。 条件指数ki=SQRT( m / i ):10,表明存在共线性。,41,多重共线性的对策,增加样本量 去除某些共线性因子 主成分分析:提取主成分代入回归方程 岭回归分析(Ridge Regression) 通径分析,42,4. 基本操作:Analyze-Regression-Linear,Dependent:因变量 Independent:自变
15、量 Method:自变量筛选方法,默认为Enter Block:不同变量有不同筛选方法时可定义Block Selection Variable:变量值满足条件的样本才参与分析. Case Labels:指定图示中数据点的标志变量,43,44,45,46,47,48,49,对于呈非线性关系的变量之间的统计关系进行大体估计(但经变量变换可转化为线性关系本质线性关系)。 绘制拟合曲线并进行预测。 做为线性回归分析的预分析步骤:选择变量变换的方法。,三、曲线估计,50,常用的几种非线性模型,(一)抛物线模型(二次曲线模型) 具体形式为: 式中0、1 和2 为待估计参数。 判断某种现象是否适合应用抛物线
16、,可以利用“差分法”。其步骤如下:首先将样本观察值按X 的大小顺序排列,然后按以下两式计算X 和Y 的一阶差分Xt、Yt 以及Y 的二阶差分Y2t。 Xt=Xt-Xt-1; Yt=Yt-Yt-1 Y2t=Yt-Yt-1 当Xt 接近于一常数,而Y2t 的绝对值接近于常数时,Y 与X 之间的关系可以用抛物线模型近似加以反映。,51,(二)双曲线模型,假如Y 随着X 的增加而增加(或减少),最初增加(或减少)很快,以后逐渐放慢并趋于稳定,则可以选用双曲线来拟合。双曲线模型形式是: Y=0+1 (1/X) +,52,(三)幂函数模型,幂函数模型的一般形式是: 这类函数的优点在于:方程中的参数可以直接
17、反映因变量Y 对于某一个自变量的弹性。 所谓Y 对于Xj 的弹性,是指在其他情况不变的条件下,Xj 变动时所引起Y 变动的百分比。 弹性是一个无量纲的数值,它是经济定量分析中常用的一个尺度。它在生产函数分析和需求函数分析中,得到了广泛的应用。,53,(四)指数函数模型,指数函数模型为: 这种曲线被广泛应用于描述社会经济现象的变动趋势。例如产值、产量按一定比率增长,成本、原材料消耗按一定比例降低。,54,(五)逻辑曲线模型,逻辑曲线的方程式如下: 逻辑曲线具有以下性质。Y 是X 的非减函数,开始时随着X 的增加,Y 的增长速度也逐渐加快,但是Y 达到一定水平之后, 其增长速度又逐渐放慢。最后无论
18、X 如何增加,Y 只会趋近于L,而永远不会超过L。,55,可拟合的曲线,本质线性关系:形式上呈非线性关系,但可通过变量变换化为线性关系。 拟合原则:一般来说,涉及的变量越多,变量的幂次越高,计算量就越大,误差也将越大。一般尽量避免采用多元高次多项式。 能拟合的曲线见下页,56,57,基本操作:AnalyzeRegressionCurve Estimation,58,Independent: X2 Dependent Mth Rsq d.f. F Sigf b0 b1 b2 b3 X5 QUA .987 10 382.64 .000 252.698 -.1475 2.5E-05 X5 CUB .
19、994 9 516.46 .000 -41.314 .0754 -2.E-05 2.6E-09 X5 COM .995 11 2086.35 .000 20.9550 1.0004 X5 POW .954 11 229.58 .000 3.6E-05 1.8460,59,60,举例,打开年人均消费支出和教育数据,对居民在外就餐的趋势进行分析,预测2003年和2004年度的居民在外就餐的费用。,61,操作:GraphsSequence,62,63,Dependent variable. X4 Method. EXPONENT Listwise Deletion of Missing Data M
20、ultiple R .96856 R Square .93810 Adjusted R Square .93501 Standard Error .26294 Analysis of Variance: DF Sum of Squares Mean Square Regression 1 20.956004 20.956004 Residuals 20 1.382742 .069137 F = 303.10787 Signif F = .0000 - Variables in the Equation - Variable B SE B Beta T Sig T Time .153837 .0
21、08836 .968556 17.410 .0000 (Constant) 12.521790 1.751183 7.150 .0000 The following new variables are being created: Name Label FIT_6 Fit for X4 from CURVEFIT, MOD_6 EXPONENTIAL 1 new cases have been added.,64,四、二项Logistic回归分析,65,二项Logistic 回归分析用途,适用于进行二分类因变量的影响因素分析 用于控制混杂因素,描述自变量对因变量的独立作用下的影响程度 用于预测
22、或判别分析,66,与线性回归的不同之处,被解释变量为0/1二分类定性变量时,不适合线性回归模型分析: 被解释变量取值范围不一致 残差为二值离散型分布而非正态分布 等方差性不再满足,67,二项Logistic回归模型拟合思路,将yi=1的概率值直接拟合线性回归模型:Py=1=0+ixi 可对概率P值做变量变换,使之取值范围为- + 解释变量与被解释变量概率值的实际关系一般呈增长曲线 发生比(Odds)=p/(1-p) Logit P转换: ln() = ln(p/(1-p) = 0+ixi,68,二项Logistic回归模型中回归系数的含义,i为解释变量增加一个单位时, ln()的变化量 经变换
23、,= exp(0+ixi) 固定其他变量,研究变量x1的作用 exp(i)称为固定其他变量的作用时,变量xi增加一个单位引起的发生比之比(Odds Ratio,OR).,69,Logistic模型的参数估计,最大似然估计法,通过最大化对数似然值(log likelihood)估计参数。 最大似然估计法是一种迭代算法,它以一个预测估计值作为参数的初始值,根据算法确定能增大对数似然值的参数的方向和变动。估计了该初始函数后,对残差进行检验并用改进的函数进行重新估计,直到收敛为止(即对数似然不再显著变化)。,70,常用的检验统计量,-2 对数似然值(-2Log Likelihood,-2LL) 似然(
24、likelihood)即概率,反映该模型能较好地拟合样本数据的可能性。 对数似然值(log likelihood,LL)是它的自然对数形式,取值在0 至-之间。对数似然值通过最大似然估计的迭代算法计算而得。LL最大为0,越大意味着回归方程的拟合程度越好。因为数学上较方便,常计算-2LL。,71,比分检验(Score Test):以未包含某个(或几个)参数的模型为基础,保留模型中参数的估计值,并假设新增加的参数为0,计算似然函数的一阶偏导数及信息矩阵,二者乘积即为比分检验统计量S,样本量大时,S服从卡方分布,比分检验结果一般与似然比检验一致。,72,回归方程的显著性检验 似然比卡方检验,H0:各
25、回归系数同时为0 检验统计量:似然比卡方服从近似卡方分布 L0为解释变量未引入方程时的对数似然函数值, L为解释变量引入方程后的对数似然函数值.,73,回归方程的拟合优度检验,回归方程能够解释的被解释变量变异程度越高,拟合优度越高. Cox & Snell R2统计量= 1-(L0/L)2/n Naglkerke R2= Cox & Snell R2/(1-(L0)2/n),取值01 回归方程预测值与实际值之间的吻合程度,总体预测准确率越高,拟合优度越高. 错判矩阵 Hosmer-Lemeshow统计量服从n-2个自由度的卡方分布:当自变量较多且多为连续性变量时 残差分析,74,回归系数的显著性检验,H0:i=0 检验统计量:Wald统计量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 47169-2026烟花爆竹喷花
- 2026年无人航空物流模式压降经营成本超30%
- 2026年PCR材料在新能源车轻量化部件与5G电磁屏蔽中的应用前景
- 2026年金融机构大模型应用战略规划编制指南
- 2026届浙江省新世纪学校初三月考试题(五)生物试题试卷含解析
- 2026年新疆昌吉州奇台县初三综合练习化学试题卷(三模)含解析
- 2026年山西省运城市新绛县市级名校中考化学试题一模考试试题含解析
- 2026年老年人陷入以房养老骗局典型案例抵押理财高息诱惑风险警示
- 湖北省襄阳市保康县2026年初三五月适应性考试化学试题文试卷含解析
- 2026届福建省晋江市安海片区初三一诊练习一化学试题含解析
- 2025福建泉州丰泽城市建设集团有限公司招聘第二批招商专员3人笔试备考题库及答案解析
- 固定资产盘点流程及报告模板
- 钉纽扣的步骤课件
- 高压电安全知识培训内容课件
- 网络舆情监测课件
- 标准物质管理与核查操作流程
- DB34∕T 3840-2021 排水降噪型沥青混合料SMAp设计与施工技术规范
- 医院应急演练培训课件
- 医院全员应急培训课件
- 广西壮族五色糯米饭传统制作技艺传承人生活史研究
- smtAOI岗位试题及答案
评论
0/150
提交评论