




已阅读5页,还剩84页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
SAS 4.1 4.1 参数估计参数估计 4.2 4.2 假设检验假设检验 4.3 4.3 相关分析相关分析 4.4 4.4 回归分析回归分析 第四章第四章 SASSAS系统的基本统计分析功能系统的基本统计分析功能 参数估计参数估计 指指利用所计算样本的均值利用所计算样本的均值 、方差、方差 、 比率比率 等样本指标来估计总体的均值等样本指标来估计总体的均值 、 方差方差 、比率、比率 等总体指标。等总体指标。 总体均值的区间估计总体均值的区间估计 总体方差总体方差 已知时:已知时: 总体方差总体方差 未知时:未知时: (给定显著性水平(给定显著性水平 ) 某学校在新生中随机抽出某学校在新生中随机抽出2525名学生做名学生做IQIQ测试,测试, 测试的平均成绩为测试的平均成绩为120120分;若新生的分;若新生的IQIQ成绩服从成绩服从 正态分布,且其标准差为正态分布,且其标准差为5 5分,在显著性水平为分,在显著性水平为 0.050.05条件下,试建立条件下,试建立IQIQ平均成绩的置信区间。平均成绩的置信区间。 datadata IQSCORE1IQSCORE1; ; n= n=2525;mean=;mean=120120;sigma=;sigma=5 5;alpha=;alpha=0.050.05; ; z=probit( z=probit(1 1- alpha/- alpha/2 2);); lclc=mean-z*sigma/=mean-z*sigma/sqrt(nsqrt(n);); ucuc=mean+z*sigma/=mean+z*sigma/sqrt(nsqrt(n);); procproc printprint; ; runrun; ; 例例4.14.1 总体均值的区间估计总体均值的区间估计 (给定显著性水平(给定显著性水平 ) ( (标准正态分布左侧标准正态分布左侧p p分位数分位数) ) 例例4.24.2 若若例例4.14.1中,新生总体中,新生总体IQIQ成绩的标准差未知,其成绩的标准差未知,其 样本标准差的计算结果为样本标准差的计算结果为5 5分,在显著性水平为分,在显著性水平为 0.050.05条件下,试建立条件下,试建立IQIQ平均成绩的置信区间。平均成绩的置信区间。 datadata IQSCORE2IQSCORE2; ; n= n=2525;mean=;mean=120120; s=; s=5 5; alpha=; alpha=0.050.05; ; t=tinv( t=tinv(1 1- alpha/- alpha/2 2),n-),n-1 1);); lclc=mean-t*=mean-t*s/sqrt(ns/sqrt(n);); ucuc=mean+t*=mean+t*s/sqrt(ns/sqrt(n);); procproc printprint; ; runrun; ; 总体均值的区间估计总体均值的区间估计 (给定显著性水平(给定显著性水平 ) (t(t分布的左侧分布的左侧p p分位数分位数) ) 总体方差的区间估计总体方差的区间估计(给定显著性水平(给定显著性水平 ) 某种零件的直径服从正态分布,随机抽出某种零件的直径服从正态分布,随机抽出100100 个进行测量得到方差个进行测量得到方差 ,在显著性水平为,在显著性水平为 0.010.01条件下,试建立总体方差的置信区间。条件下,试建立总体方差的置信区间。 例例4.34.3 datadata E3E3; ; n= n=100100; s2=; s2=9 9; alpha=; alpha=0.010.01; ; chi1=cinv(alpha/ chi1=cinv(alpha/2 2,n-,n-1 1);); chi2=cinv( chi2=cinv(1 1-alpha/-alpha/2 2),n-),n-1 1);); lclc=(n-=(n-1 1)*s2/chi2; )*s2/chi2; ucuc=(n-=(n-1 1)*s2/chi1;)*s2/chi1; procproc printprint; ;runrun; ; ( (卡方卡方分布的左侧分布的左侧p p分位数分位数) ) 对于正态分布总体,当已知样本的原始数据时,对于正态分布总体,当已知样本的原始数据时, 可以利用可以利用CapabilityCapability过程过程的的IntervalsIntervals语句语句计算总计算总 体均值和方差的置信区间,或者利用体均值和方差的置信区间,或者利用MeansMeans过程过程的的 CLMCLM统计量统计量计算总体均值计算总体均值9595的置信区间。的置信区间。 procproc means data=means data=sunny.bclasssunny.bclass mean mean varvar clmclm; ; varvar height weight; height weight; runrun; ; 例例4.44.4 输出结果输出结果: : INTERVALSINTERVALS语句的选项:语句的选项: MethodMethod= =1|2|3|4|5|6 1|2|3|4|5|6 设定区间估计统计量(设定区间估计统计量(4 4为均值,为均值,6 6为为 标准差,缺省则提供标准差,缺省则提供6 6种不同统计量的置信区间);种不同统计量的置信区间); AlphaAlpha= =值值 设定显著性水平(缺省为设定显著性水平(缺省为 );); Type=Type=lower|twosided|upperlower|twosided|upper 设定估计类型(分别为置设定估计类型(分别为置 信下限、区间和上限,缺省为置信区间)。信下限、区间和上限,缺省为置信区间)。 PROCPROC CAPABILITYCAPABILITY DATA= DATA=数据集;数据集; INTERVALSINTERVALS 变量名列变量名列/ /选项;选项; RUNRUN; CAPABILITYCAPABILITY过程过程的一般形式:的一般形式: procproc capability capability datadata= =sunny.bclasssunny.bclass noprintnoprint; ; intervalsintervals height weight/ height weight/method=method=4 4, ,6 6 alpha=alpha=0.100.10; ; intervalsintervals height/ height/method=method=4 4, ,6 6 type=type=lower;lower; runrun; ; 例例4.54.5 用用SAS/INSIGHTSAS/INSIGHT作置信区间作置信区间 (调用方法:调用方法:Solutions Analysis Interactive Data Analysis Solutions Analysis Interactive Data Analysis ) 步骤步骤 选定数据集选定数据集 Analyze DistributionAnalyze Distribution 选定分析变量选定分析变量 Output Output basic confidence intervalsbasic confidence intervals 输出结果输出结果: : 用用分析员应用分析员应用作置信区间作置信区间 (调用方法:调用方法:Solutions Analysis Analyst Solutions Analysis Analyst ) 步骤步骤 选定数据集选定数据集 Statistics Hypothesis testsStatistics Hypothesis tests One-Sample t-test for a mean One-Sample t-test for a mean 选定分析变量选定分析变量 testtest intervalinterval 输出结果输出结果: : SAS 4.1 4.1 参数估计参数估计 4.2 4.2 假设检验假设检验 4.3 4.3 相关分析相关分析 4.4 4.4 回归分析回归分析 第四章第四章 SASSAS系统的基本统计分析功能系统的基本统计分析功能 假设检验假设检验 指指利用样本的实际观测资料来检验事先对总利用样本的实际观测资料来检验事先对总 体某些数量特征所作的假设是否可信的统计体某些数量特征所作的假设是否可信的统计 分析方法。分析方法。(这里只讨论单变量检验问题)(这里只讨论单变量检验问题) 正态性正态性检验检验 用用编程编程作正态性检验作正态性检验 在在PROC UNIVARIATEPROC UNIVARIATE语句中加上语句中加上NORMALNORMAL选项选项 PROC PROC UNIVARIATE UNIVARIATE DATA= SUNNY.BCLASS NORMALDATA= SUNNY.BCLASS NORMAL; ; VAR VAR HEIGHTHEIGHT ; ; RUN;RUN; 例例4.54.5 输出结果(部分)输出结果(部分) 步骤步骤 选定数据集选定数据集 Analyze DistributionAnalyze Distribution 选定分析变量选定分析变量 Output Test For Normality.Output Test For Normality. 步骤步骤 选定数据集选定数据集 Statistics Descriptive Statistics Descriptive DistributionsDistributions 选定分析变量选定分析变量 Fit Normal.Fit Normal. 用用SAS/INSIGHTSAS/INSIGHT作正态性检验作正态性检验 用用分析员应用分析员应用作正态性检验作正态性检验 两独立样本的均值检验两独立样本的均值检验 用用编程编程作两独立样本的均值检验作两独立样本的均值检验 设设 和和 分别是来自两个正态分布总分别是来自两个正态分布总 体体 和和 的独立样本,检验假设:的独立样本,检验假设: PROCPROC TTESTTTEST DATA= DATA=数据集;数据集; CLASSCLASS分类变量名;分类变量名; VARVAR分析变量名列;分析变量名列; RUNRUN; TTESTTTEST过程过程的一般形式:的一般形式: procproc ttestttest data=data=sunny.bclasssunny.bclass ; ; classclass sex; sex; varvar height weight; height weight; runrun; ; 例例4.64.6 输出结果输出结果: : 用用分析员应用分析员应用作两独立样本的均值检验作两独立样本的均值检验 步骤步骤 选定数据集选定数据集 Statistics Hypothesis testsStatistics Hypothesis tests Two-Sample t-test for means Two-Sample t-test for means 选定分析变量和分类变量选定分析变量和分类变量 OK.OK. (作均值检验前需先检验两样本方差是否相等)(作均值检验前需先检验两样本方差是否相等) (SAS/INSIGHTSAS/INSIGHT未提供两独立样本均值检验的功能)未提供两独立样本均值检验的功能) 输出结果输出结果 ? 检验两独立样本检验两独立样本的方差是否相等:的方差是否相等: 选定数据集选定数据集 Statistics Hypothesis testsStatistics Hypothesis tests Two-Sample t-test for variances Two-Sample t-test for variances 选定分析变量和分类变量选定分析变量和分类变量 OK.OK. 步骤步骤 方差检验方差检验 输出结果输出结果 若样本呈若样本呈非正态分布非正态分布,则,则t t检验检验无效,可使用非参无效,可使用非参 数检验中的数检验中的WilcoxonWilcoxon秩和秩和检验方法检验方法检验两独立样本检验两独立样本 的中心位置是否相同。的中心位置是否相同。 PROCPROC NPAR1WAY NPAR1WAY DATA= DATA=数据集数据集 WilcoxonWilcoxon; CLASSCLASS分类变量名;分类变量名; VARVAR分析变量名列;分析变量名列; RUNRUN; 编程编程 分析员分析员 应用应用 选定数据集选定数据集 Statistics ANOVAStatistics ANOVA Nonparametric One-Way ANOVA Nonparametric One-Way ANOVA 选定分析变量选定分析变量 Tests Tests WilcoxonWilcoxon. . procproc npar1waynpar1way datadata= =sunny.bclasssunny.bclass wilcoxonwilcoxon; ; classclass sex; sex; varvar age; age; runrun; ; 例例4.64.6 输出结果输出结果 配对样本的均值检验配对样本的均值检验 设设 为第为第 个样本单位实验前后的对比测量值,且个样本单位实验前后的对比测量值,且 , 为为 总体的均值,则检验假设:总体的均值,则检验假设: 先构造每对观测值的差值变量,然后利用先构造每对观测值的差值变量,然后利用MEANMEAN 或或UNIVARIATEUNIVARIATE过程检验该变量均值是否为零过程检验该变量均值是否为零. . 编程编程 分析员分析员 应用应用 选定数据集选定数据集 Statistics Hypothesis testsStatistics Hypothesis tests Two-Sample paired t-test for means Two-Sample paired t-test for means 选定分析变量选定分析变量 OK.OK. datadata tempulsetempulse; ; setset sunny.pulse; sunny.pulse; d=pre-postd=pre-post; ; runrun; ; procproc meansmeans mean mean stderrstderr prtprt maxdecmaxdec= =4 4; ; varvar d d; ; runrun; ; 输出结果输出结果 例例4.74.7 数据集数据集PULSEPULSE是对是对1515个试验者服用某种减缓心跳个试验者服用某种减缓心跳 药物前后每分钟心跳次数所作的记录(药物前后每分钟心跳次数所作的记录(PREPRE为服为服 药前,药前,POSTPOST为服药后),考察该种药物的疗效。为服药后),考察该种药物的疗效。 datadata tempulsetempulse; ; setset sunny.pulse; sunny.pulse; d=pre-postd=pre-post; ; runrun; ; procproc univariateunivariate; ; varvar d d; ; runrun; ; 例例4.84.8 输出结果输出结果( (部分部分) ) SAS 4.1 4.1 参数估计参数估计 4.2 4.2 假设检验假设检验 4.3 4.3 相关分析相关分析 4.4 4.4 回归分析回归分析 第四章第四章 SASSAS系统的基本统计分析功能系统的基本统计分析功能 相关关系相关关系 指指客观现象间确实存在,但数量上不是客观现象间确实存在,但数量上不是 严格对应的依存关系严格对应的依存关系. . 在在直线相关直线相关条件下,用以反映条件下,用以反映两变量两变量间间 线性相关线性相关密切程度的统计指标密切程度的统计指标. . 相关系数相关系数 正态分布等间隔测度的变量正态分布等间隔测度的变量X X与与Y Y之间的相关关系,之间的相关关系, 可用可用皮尔逊皮尔逊(PearsonPearson)相关系数相关系数来测算,即:来测算,即: 有序变量或不满足正态分布假设的变量有序变量或不满足正态分布假设的变量X X与与Y Y之间之间 的相关关系,可用的相关关系,可用斯皮尔曼斯皮尔曼(SpearmanSpearman)等级相关等级相关 系数系数来测算,即:来测算,即: 式中,式中, 分别为变量分别为变量 秩次,秩次, 分别为分别为 的平均。的平均。 相关系数的计算相关系数的计算 编程编程 PROCPROC CORR CORR DATA= DATA=数据集数据集 OPTIONSOPTIONS; VAR VAR 变量名列;变量名列; WITH WITH 变量名列;变量名列; PARTIAL PARTIAL 变量名列;变量名列; RUNRUN; CORRCORR过程过程的一般形式:的一般形式: 语句说明:语句说明: WITHWITH语句语句用来指定与用来指定与VARVAR语句语句配对的变量名,即配对的变量名,即 计算计算WITHWITH指定变量与指定变量与VARVAR指定变量间的相关系数;指定变量间的相关系数; PARTIALPARTIAL语句用来计算指定变量的偏相关系数。语句用来计算指定变量的偏相关系数。 常用常用选项选项有有: PEARSONPEARSON 计算皮尔逊相关系数(缺省值);计算皮尔逊相关系数(缺省值); SPEARMAN SPEARMAN 计算斯皮尔曼等级相关系数;计算斯皮尔曼等级相关系数; NOSIMPLE NOSIMPLE 不打印输出各变量的描述性统计量;不打印输出各变量的描述性统计量; NOPROB NOPROB 省略检验统计量省略检验统计量p-p-值;值; COV(COVARIANCE)COV(COVARIANCE) 打印协方差矩阵;打印协方差矩阵; NOCCORRNOCCORR 储存时省略相关系数;储存时省略相关系数; OUTP=OUTP= 指定皮尔逊相关系数存储的数据集;指定皮尔逊相关系数存储的数据集; OUTS= OUTS= 指定斯皮尔曼相关系数存储的数据集。指定斯皮尔曼相关系数存储的数据集。 数据集数据集SUNNY.CARSSUNNY.CARS是关于不同类型汽车的价格和性能是关于不同类型汽车的价格和性能 的数据资料,各变量含义如下:的数据资料,各变量含义如下: MANUFACMANUFAC( (制造商制造商) )、MODEL MODEL ( (型号型号) )、 MIDPRICE MIDPRICE ( (中间中间 价价) )、CITYMPG CITYMPG ( (市内每加仑油平均行驶哩数市内每加仑油平均行驶哩数) )、 HWYMPGHWYMPG ( (高速公路每加仑油平均行驶哩数高速公路每加仑油平均行驶哩数) )、 CYLINDERCYLINDER ( (汽缸数汽缸数) )、EGNSIZEEGNSIZE ( (配置引擎容量配置引擎容量: :升升) )、 RPM RPM ( (达到最大功率时每分钟转数达到最大功率时每分钟转数) )、 REVLTNSREVLTNS ( (最高最高 速行驶一哩时引擎转数速行驶一哩时引擎转数) )、 FUELTNKFUELTNK ( (储油箱容量:储油箱容量: 加仑加仑) )、 PERFORMPERFORM ( (使用效率:功率与车重之比使用效率:功率与车重之比) )。 例例4.94.9 输出结果输出结果 procproc corrcorr datadata=sunny.cars =sunny.cars nosimplenosimple noprobnoprob; ; varvar midpricemidprice citympgcitympg hwympghwympg cylinder cylinder egnsizeegnsize; ; withwith rpm perform; rpm perform; runrun; ; 相关系数的计算相关系数的计算 步骤步骤 SAS/INSIGHTSAS/INSIGHT方式方式 选定数据集选定数据集Analyze Analyze Rotating Plot(Z Y X)Rotating Plot(Z Y X) Scatter Plot (Y X)Scatter Plot (Y X) Multivariate(Y X)Multivariate(Y X) (制作散点图或散点图阵)(制作散点图或散点图阵) (建立旋转图)(建立旋转图) (计算相关系数)(计算相关系数) 分析员应用分析员应用方式方式 选定数据集选定数据集 Statistics DescriptiveStatistics Descriptive CorrelationsCorrelations 选定分析变量选定分析变量 OK.OK. 步骤步骤 SAS 4.1 4.1 参数估计参数估计 4.2 4.2 假设检验假设检验 4.3 4.3 相关分析相关分析 4.4 4.4 回归分析回归分析 第四章第四章 SASSAS系统的基本统计分析功能系统的基本统计分析功能 SAS 4.4 4.4 回归分析回归分析 4.4.1 4.4.1 回归分析概述回归分析概述 4.4.2 4.4.2 线性回归及其实现线性回归及其实现 4.4.3 4.4.3 非线性回归及其实现非线性回归及其实现 4.4.4 4.4.4 回归诊断回归诊断 回归分析回归分析 指根据相关关系的数量表达式(回归方指根据相关关系的数量表达式(回归方 程式)与给定的程式)与给定的自变量自变量x x,揭示揭示因变量因变量y y 在数量上的平均变化和求得因变量的预在数量上的平均变化和求得因变量的预 测值的统计分析方法测值的统计分析方法 现象之间的相互联系,在许多情况下表现为一定 的因果关系,将这些现象数量化则成为变量:其其 中一个或若干个起着影响作用的变量称为中一个或若干个起着影响作用的变量称为自变量 ,通常用,通常用X表示,它是引起另一现象变化的原因,表示,它是引起另一现象变化的原因, 是可以控制、给定的值;是可以控制、给定的值;而受自变量影响的变量而受自变量影响的变量 称为称为因变量,通常用,通常用Y表示,它是自变量变化的结表示,它是自变量变化的结 果,是不确定的值。果,是不确定的值。 常用常用SASSAS过程过程回归类型回归类型 资料类型资料类型 因因变量变量自变量自变量 REGREG线性回归线性回归数值变量数值变量数值变量数值变量 GLMGLM 协方差模型协方差模型 一般线性模型一般线性模型 数值变量数值变量 数值变量数值变量 分类变量分类变量 LOGISTICLOGISTICLogisticLogistic回归回归分类变量分类变量 数值变量数值变量 分类变量分类变量 CATMODCATMOD LogisticLogistic回归回归 PoissonPoisson回归回归 分类变量分类变量 数值变量数值变量 分类变量分类变量 NLINNLIN非线性回归非线性回归数值变量数值变量数值变量数值变量 各类回归分析的各类回归分析的SASSAS过程过程及对资料的要求及对资料的要求 SAS 4.4 4.4 回归分析回归分析 4.4.1 4.4.1 回归分析概述回归分析概述 4.4.2 4.4.2 线性回归及其实现线性回归及其实现 4.4.3 4.4.3 非线性回归及其实现非线性回归及其实现 4.4.4 4.4.4 回归诊断回归诊断 线性回归分析线性回归分析 式中:式中: 分别为因变量和自变量的第分别为因变量和自变量的第 次观测值;次观测值; 为为 待估参数;待估参数; 为残差(假设满足相互独立、正态分布、零均值为残差(假设满足相互独立、正态分布、零均值 、同方差)。、同方差)。 一元线性回归模型:一元线性回归模型: 利用最小二乘法利用最小二乘法(LSELSE)估计未知参数估计未知参数 ,有:,有: 即回归趋势方程为:即回归趋势方程为: qq只有通过统计检验的回归方程才可以用来解只有通过统计检验的回归方程才可以用来解 释释 之间的关系,并根据之间的关系,并根据 的取值对相应的的取值对相应的 进行预测;进行预测; qq检验回归方程拟合程度的统计量及参数主要检验回归方程拟合程度的统计量及参数主要 有:有:用来检验回归系数显著性的用来检验回归系数显著性的 值及其概率值及其概率 和标准差,用来检验回归方程整体拟和标准差,用来检验回归方程整体拟 合优度及显著性的合优度及显著性的 值及其概率值及其概率 、判定判定 系数系数 、标准差、标准差 、自由度、自由度 等。等。 线性回归分析线性回归分析 点预测点预测 线性回归分析线性回归分析 单个预测值的置信区间单个预测值的置信区间(CLICLI) 预测值均值(回归均值)的置信区间预测值均值(回归均值)的置信区间(CLM)(CLM) 预测预测(已知(已知 预测预测 ) 线性回归分析线性回归分析 则多元线性回归模型为:则多元线性回归模型为: 记记 利用最小二乘法(利用最小二乘法(LSELSE)估计未知参数估计未知参数 ,有:有: qq为消除自变量个数及样本容量的大小对判定为消除自变量个数及样本容量的大小对判定 系数的影响,需使用系数的影响,需使用调整后的判定系数调整后的判定系数 来反来反 映自变量对因变量的解释程度;映自变量对因变量的解释程度; qq在回归方程中,若遗漏了应加入的变量,将在回归方程中,若遗漏了应加入的变量,将 使所有的回归系数估计量产生偏差,若加入了使所有的回归系数估计量产生偏差,若加入了 不该加入的变量,又将加大所有回归系数估计不该加入的变量,又将加大所有回归系数估计 量的方差,所以建立多元回归模型需要进行量的方差,所以建立多元回归模型需要进行变变 量选择量选择,即在所有独立变量中找出合适的子集,即在所有独立变量中找出合适的子集 ,用以描述模型和进行预报。,用以描述模型和进行预报。 建立多元线性回归模型应注意的问题:建立多元线性回归模型应注意的问题: 线性回归分析线性回归分析 变量选择准则变量选择准则主要有主要有 None None 全部进入,不加选择全部进入,不加选择 Forward Forward 顺向选择法(逐个加入)顺向选择法(逐个加入) Backward Backward 反向淘汰法(全部加入后逐个剔除)反向淘汰法(全部加入后逐个剔除) Stepwise Stepwise 逐步排除法(边进边出)逐步排除法(边进边出) cp cp CpCp法(选最先满足法(选最先满足 的模型的模型) RsquareRsquare 复复相关系数平方法(对不同个数自变量相关系数平方法(对不同个数自变量 分别选择分别选择 最大的模型)最大的模型) AdjrsqAdjrsq 调整后的复相关系数平方法调整后的复相关系数平方法( (选择选择 最最 大的模型大的模型) ) 点预测点预测 线性回归分析线性回归分析 单个预测值的置信区间单个预测值的置信区间(CLICLI) 预测预测(已知(已知 , ,预测预测 ) 预测值均值(回归均值)的置信区间预测值均值(回归均值)的置信区间(CLM)(CLM) PROCPROC REG REG DATA= DATA= OPTIONSOPTIONS; VAR VAR 变量名列;变量名列; BY BY 变量名列;变量名列; FREQ FREQ 变量名列;变量名列; MODELMODEL 因变量因变量= =自变量自变量/ /OPTIONSOPTIONS; ; OUTPUT OUTPUT OUT=OUT= 关键字关键字= = ; ; RUNRUN; REGREG过程过程的一般形式:的一般形式: REGREG过程过程可以计算回归函数的各种参数、显著性可以计算回归函数的各种参数、显著性 检验、方差分析、置信区间、残差分析等。检验、方差分析、置信区间、残差分析等。 线性回归分析线性回归分析 PROC REGPROC REG过程的常用过程的常用选项选项有有: SIMPLE SIMPLE 计算并打印各变量的基本描述性统计量;计算并打印各变量的基本描述性统计量; SXORR SXORR 打印各变量的相关行列式;打印各变量的相关行列式; NOPRINTNOPRINT 不打印输出;不打印输出; OUTEST=OUTEST=数据集名数据集名 指定回归值输出的数据集;指定回归值输出的数据集; COVOUT=COVOUT=数据集名数据集名 将所估计的协方差阵存入数据集;将所估计的协方差阵存入数据集; OUTSSCP=OUTSSCP=数据集名数据集名 指定相关矩阵输出的数据集。指定相关矩阵输出的数据集。 线性回归分析线性回归分析 MODELMODEL语句常用语句常用选项选项有有: NOPRINTNOPRINT 不打印不打印MODELMODEL语句所界定的分析结果;语句所界定的分析结果; ALL ALL 打印打印MODELMODEL语句所有分析结果。语句所有分析结果。 1.1.关于报表打印的选项:关于报表打印的选项: MODELMODEL语句语句用来设定回归模型中因变量、自变量及有用来设定回归模型中因变量、自变量及有 关回归计算、估计、预测值和残差等内容。关回归计算、估计、预测值和残差等内容。 2.2.界定参数估计值的选项:界定参数估计值的选项: STBSTB 打印标准化回归系数;打印标准化回归系数; COVBCOVB 输出估计值的协方差阵;输出估计值的协方差阵; VIF VIF 输出方差膨胀因子;输出方差膨胀因子; COLLIN COLLIN 进行多元共线性分析;进行多元共线性分析; 3.3.关于预测值、预测误差的选项:关于预测值、预测误差的选项: P P 计算每一个观测值计算每一个观测值y y的期望值及其标准误;的期望值及其标准误; R R 在在P P选项选项的基础上对预测误差做进一步分析;的基础上对预测误差做进一步分析; CLI CLI 输出单个预测值输出单个预测值9595的置信区间;的置信区间; CLMCLM 输出预测值均值输出预测值均值9595的置信区间;的置信区间; INFLUENCE INFLUENCE 分析观测值对参数估计和模型预测值的分析观测值对参数估计和模型预测值的 影响。影响。 4.4.关于界定回归模型的选项:关于界定回归模型的选项: SELECTION=SELECTION=nonenone| |forwardforward| |backwardbackward| |stepwisestepwise| |cpcp | |rsquarersquare| |adjrsqadjrsq 指定自动进行变量选择的方法;指定自动进行变量选择的方法; NOINTNOINT 规定回归模型中不包含截距项规定回归模型中不包含截距项. . MODELMODEL语句常用语句常用选项选项有有: 回归线的作图回归线的作图 使用使用REGREG过程过程 在在PROC REGPROC REG语句语句中加入中加入GRAPHICSGRAPHICS选项选项,再,再 利用利用PLOTPLOT语句语句指明作图的纵轴变量和横轴变量指明作图的纵轴变量和横轴变量 使用使用GPLOTGPLOT过程过程 PROCPROC GPLOTGPLOT DATA= DATA=数据集数据集 ; PLOT PLOT 纵轴变量名纵轴变量名* *横轴变量名;横轴变量名; SYMBOLSYMBOL V=V=符号符号 C=C=颜色颜色 I=I=none|rl|rq|rcnone|rl|rq|rc 其他选项其他选项; RUNRUN; 散点间不连线散点间不连线 线性回归线性回归 三次回归三次回归 二次回归线二次回归线 procproc regreg datadata= =sunny.bclasssunny.bclass; ; modelmodel weight=height/ weight=height/CLMCLM; ; runrun; ; procproc gplotgplot datadata= =sunny.bclasssunny.bclass; ; plotplot weight*height; weight*height; symbolsymbol v=star h=0.7 i= v=star h=0.7 i=rlrl c=orange c=orange cici=blue w=2;=blue w=2; runrun; ; 例例4.104.10 根据数据集根据数据集sunny.bclasssunny.bclass,建立建立weightweight对对heightheight 的简单线性回归模型并绘出回归拟合线,同时的简单线性回归模型并绘出回归拟合线,同时 给出回归均值给出回归均值9595 的置信区间。的置信区间。 DataData new; new; inputinput height ; height ; cardscards; ; 170 173 174 175 170 173 174 175 ; ; proc sortproc sort datadata= =sunny.bclasssunny.bclass outout=sorted;=sorted; byby height; height; DataData new; new; SetSet sorted new; sorted new; proc proc regreg datadata=new;=new; modelmodel weight=height/ weight=height/p p; ; idid height; height; runrun; ; 例例4.114.11 若若4 4名同学的身高分别为名同学的身高分别为170,173,174170,173,174和和175175厘米厘米, , 根据上例所建立的回归模型预测他们的体重。根据上例所建立的回归模型预测他们的体重。 例例4.124.12 根据数据集根据数据集sunny.carssunny.cars,建立建立midpricemidprice对对变量变量 citympgcitympg,hwympghwympg,cylindercylinder,egnsizeegnsize,rpmrpm, revltnsrevltns,fueltnkfueltnk及及performperform的回归分析模型的回归分析模型( 采用逐步排除法自动选择自变量)采用逐步排除法自动选择自变量) 。 procproc regreg datadata=sunny.cars;=sunny.cars; modelmodel midpricemidprice= =citympgcitympg hwympghwympg cylinder cylinder egnsizeegnsize rpm rpm revltnsrevltns fueltnkfueltnk perform perform/selection=stepwise/selection=stepwise; ; runrun; ; 例例4.134.13 同前例要求,建立回归分析模型同前例要求,建立回归分析模型( (直接建立直接建立) )。 proc proc regreg datadata=sunny.cars;=sunny.cars; modelmodel midpricemidprice= =citympgcitympg hwympghwympg cylinder cylinder egnsizeegnsize rpm rpm revltnsrevltns fueltnkfueltnk perform; perform; runrun; ; /*/* delete delete citympgcitympg hwympghwympg fueltnkfueltnk perform; perform; print print; ; runrun; ;*/*/ 选择自变量的方法不同,可能会导致进入模选择自变量的方法不同,可能会导致进入模 型的自变量也不同。型的自变量也不同。 注意:注意: REGREG过程具有连续交互性过程具有连续交互性 ,执行了部分语句后,仍,执行了部分语句后,仍 可继续提交语句让它执行可继续提交语句让它执行 ,直至提交,直至提交quitquit语句或因语句或因 执行其它过程而终止执行其它过程而终止. . SAS/INSIGHTSAS/INSIGHT方式方式 分析员应用分析员应用方式方式 线性回归分析线性回归分析 选定数据集选定数据集 Analyze Analyze fit(YX)fit(YX) 选分析变量选分析变量 利用利用OutputOutput和和MethodMethod菜单项选择统计量菜单项选择统计量. . 选定数据集选定数据集 Statistics RegressionStatistics Regression Simple Simple linear linear Logistic Logistic (简单线性回归)(简单线性回归) (多元)(多元)线性回归)线性回归) (LogisticLogistic线性回归)线性回归) SAS 4.4 4.4 回归分析回归分析 4.4.1 4.4.1 回归分析概述回归分析概述 4.4.2 4.4.2 线性回归及其实现线性回归及其实现 4.4.3 4.4.3 非线性回归及其实现非线性回归及其实现 4.4.4 4.4.4 回归诊断回归诊断 非线性回归分析非线性回归分析 qq当两变量呈非线性关系时,可对变量作变换后再当两变量呈非线性关系时,可对变量作变换后再 作线性回归分析,也可以利用作线性回归分析,也可以利用PROC NLINPROC NLIN或或PROC PROC GLMGLM过程直接进行非线性拟合;过程直接进行非线性拟合; qq若进入回归的变量有一定的优先次序(如对多项若进入回归的变量有一定的优先次序(如对多项 式,线性项先于二次项,二次项先于三次项等),式,线性项先于二次项,二次项先于三次项等), 应该用应该用型平方和型平方和及相应的及相应的 统计量统计量;若平等地考;若平等地考 虑各个变量是否进入回归,则可用虑各个变量是否进入回归,则可用平方和平方和及其相及其相 应的应的 统计量统计量。 PROCPROC GLM GLM DATA= DATA= OPTIONS OPTIONS ; CLASS CLASS 变量名列;变量名列; MODELMODEL 因变量因变量= =自变量自变量/ /OPTIONS OPTIONS ; ; OUTPUT OUTPUT OUT=OUT= 关键字关键字= = ; ; RUNRUN; GLMGLM过程过程的一般形式:的一般形式: PROCPROC NLIN NLIN DATA= DATA= OPTIONS OPTIONS ; PARAMETERS PARAMETERS 参数名称参数名称= =起始值起始值; BOUNDSBOUNDS 参数的极限参数的极限; ; MODELMODEL 因变量因变量= =自变量自变量/ /OPTIONS OPTIONS ; ; OUTPUT OUTPUT OUT=OUT= 关键字关键字= = ; ; RUNRUN; NLINNLIN过程过程的一般形式:的一般形式: 拟合多项式回归拟合多项式回归 SAS/INSIGHTSAS/INSIGHT方式方式 进入进入INSIGHTINSIGHT方式方式并调入数据后,在下拉菜单中选:并调入数据后,在下拉菜单中选: 例例4.144.14 根据数据集根据数据集sunny.bclasssunny.bclass,建立建立weightweight对对heightheight 的四次多项式回归模型并检验。的四次多项式回归模型并检验。 1.1. AnalyzeAnalyze fit(Y X)fit(Y X); 2.2. Weight Weight Y Y; 3. 3. 点击点击2 2右侧的方块两次,使数字增为右侧的方块两次,使数字增为4 4; 4 4. . HeightHeight ExpandExpand. . 5.5. OK.OK. 6.6.在结果窗口下拉菜单中选:在结果窗口下拉菜单中选:TablesTables TypeTypeTestsTests. . 拟合多项式回归拟合多项式回归 编程编程 DataData tem; tem; setset sunny.bclasssunny.bclass; ; a2=height*height;a2=height*height; a3=height*height*height; a3=height*height*height; a4=height*height*height*height; a4=height*height*height*height; RunRun; ; procproc glmglm datadata=tem;=tem; modelmodel weight=he
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高铁乘务考试题及答案
- 高级理赔员考试题及答案
- 翻译方言考试题目及答案
- 法学概论自考试题及答案
- 对口机械理论考试题及答案
- 2025定制礼品钥匙扣合作开发合同
- 2025年黄桃项目可行性分析报告
- 电竞教练考试题及答案
- 中国堆肥处理项目商业计划书
- 2025普通民房租赁合同样本
- JT-T-1221-2018跨座式单轨轨道桥梁维护与更新技术规范
- 药用植物与生药学考试题与答案
- 江苏省建筑与装饰工程计价定额(2014)电子表格版
- 世界自然遗产地的保护与管理
- JJG 976-2024透射式烟度计
- 2021信息安全技术个人信息安全规范
- 四川大学2000年471有机化学(含答案)考研真题
- 二级及以上综合医院精神科(心理)门诊基本标准
- 《对外汉语词汇教学(第二版)》构形分析释义法
- 思想政治学科教学新论(刘强主编)第二章
- 仓库包装管理制度
评论
0/150
提交评论