统计分析系统SAS应用_第1页
统计分析系统SAS应用_第2页
统计分析系统SAS应用_第3页
统计分析系统SAS应用_第4页
统计分析系统SAS应用_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计分析系统SAS应用7、相关和回归分析概述在科学研究和生产实践中,经常需要进行两类变量之间关系的分析。例如作物产量和种植密度、害虫的发生量和气象因子、动物的体重和生长天数等,这些变量之间的关系分析即相关和回归分析。相关和回归分析是生物学研究中最为常用的统计分析方法之一。7、相关和回归分析相关和回归分析基本概念在多元统计分析中相关和回归两个概念密不可分,两者在统计学中的应用都很广泛。相关分析(Correlation Analysis)是用来考察两个变量间(x与y)的相互变化的关联关系,x与y的地位是平等的,两变量间没有因果关系。回归分析(Regression Analysis)是研究一个或多个

2、依变量与另一些自变量关系的统计方法。主要思想是用最小二乘法拟合依变量与自变量的回归模型,从而把具有不确定关系的若干变量转化为有确定关系的方程模型来近似的分析,通过自变量的变化预测依变量的变化趋势。7.1 概述相关分析计算反映各个变量之间相关密切程度和性质的统计数。回归关系一般用反映依变量和自变量之间数量关系的回归方程表示,求解方法通常采用最小二乘法。回归分析依自变量个数的多少分为一元回归和多元回归;依依变量和自变量之间关系的性质分为线性回归和非线性回归。线性相关和回归分析的SAS过程主要有相关分析(CORR)、回归分析(REG)和广义线性模型(GLM)。7.2 常用过程的实现方法1、CORR过

3、程过程格式PROC CORR 选项;VAR 变量表;WITH 变量表;PARTIAL 变量;1、CORR过程语句说明除了PROC语句为必需,其他语句都是可选的,如果省略所有的可选语句,则对所有变量作相关分析。 默认情况下,CORR过程所进行的相关分析将给出分析变量的描述性统计结果、Pearson相关系数以及每个分析变量所对应的概率值。PROC CORR语句选项设定相关系数,例如Pearson,Spearman等,缺省为Pearson相关系数。VAR语句指明分析的变量。1、CORR过程语句说明with语句设定放在左边的变量此时var语句的变量间和with语句的变量间的相关系数不给出,只输出两组变

4、量间的相关系数。With语句缺省时,将计算var语句的变量之间的两两相关系数。PARTIAL语句指明偏相关变量。设定partial变量时进行偏相关分析。相关分析结果输出包括简单统计数和相关系数及显著性。Corr过程两个变量之间相关分析的实例2、REG过程REG过程是一个通用的回归过程。它采用最小二乘法拟合线性回归模型。它还提供多种选择最优线性回归方程的方法,是一个应用最广泛的回归过程。过程格式Proc reg 选项;Model 依变量自变量/选项;Weight 变量;Print 选项;Plot y轴变量*x轴变量;2、REG过程语句选项Proc reg语句Data输入数据集Outsscp输出数

5、据集,存储平方乘积和矩阵Outest输出数据集,存储参数估计值等。Simple 给出简单统计数Corr 给出简单相关系数2、REG过程语句选项Model语句设定线性数学模型等,Selection模型选择方法包括none(全模型)、stepwise(逐步回归)、forward(逐个选入)、backward(逐个剔除)等。Weight语句指定加权系数变量Plot语句制作散点图3、GLM过程过程格式Proc glm 选项;Model 依变量自变量/选项;Run;3、GLM过程语句说明Proc glm语句设定分析所用的数据集和数据显示方式。Model语句定义模型和需要输出的统计数回归分析模型一般有以下

6、形式Model y=x; 一元线性回归模型。Model y=x1 x2 x3; 三元线性回归模型。Model y=x1 x2 x1*x2 x1*x1 x2*x2; 二元多项式回归模型。应用举例7.3 多元线性回归REG过程不仅可以完成只有一个自变量的简单直线回归,还可以作含有多个自变量的多元线性回归。作多元线性回归时REG过程的语法格式与简单直线回归的语法几乎完全相同,只要把要分析的多个自变量名放在MODEL语句中应变量后即可。因为多元线性回归时一般要作自变量的筛选,涉及到MODEL语句的选项。7.3 多元线性回归语法选项SELECTION=method,规定变量筛选的方法,method可以是

7、以下几种选项 FORWARD(或F),前进法,按照SLE规定的P值从无到有依次选一个变量进入模型; BACKWARD(或B),后退法,按照SLS规定的P值从含有全部变量的模型开始,依次剔除一个变量;STEPWISE(或S),逐步法,按照SLE的标准依次选入变量,同时对模型中现有的变量按SLS的标准剔除不显著的变量;NONE,即不选择任何选项,不作任何变量筛选,此时使用的是含有全部自变量的全回归模型。7.3 多元线性回归语法选项SELECTION=method,规定变量筛选的方法,method可以是以下几种选项 SLE=概率值,入选标准,规定变量入选模型的显著性水平,前进法的默认是0.5,逐步法

8、是0.15 SLS=概率值,剔除标准,指定变量保留在模型的显著水平,后退法默认为0.10,逐步法是0.15 标准化偏回归系数 STB 可用来比较各个自变量作用的大小 应用实例7.4 非线性回归分析7.4 非线性回归分析对于呈非线性关系的数据,有时通过适当的变量转换,即可化为线性回归方程利用REG过程求解。在SAS系统中,更为一般的方法是利用非线性回归过程(NLIN)直接进行非线性最小二乘拟合。7.4.1 NLIN过程过程格式Proc nlin 选项;Model 依变量模型表达式;Parms 参数初值;Der.参数偏导表达式;Run;7.4.1 NLIN过程语句说明PROC NLIN语句选项Da

9、ta分析数据集Method循环迭代方法包括GAUSS(高斯牛顿法),MARQUARDT(麦夸特法),NEWTON(牛顿法),GRADIENT(梯度法)和DUD(试位法)等。MODEL语句定义非线性回归模型,直接给出非线性回归方程的表达式。例如Logistic方程可以写作:y=k/(1+a*exp(-b*x))7.4.1 NLIN过程语句说明PARMS语句设定参数初始值。初始值的设定有时会对计算结果产生较大影响。当迭代不能收敛时,可以尝试使用不同的初始值重新计算。DER语句给出非线性回归方程对参数的一阶或二阶偏导。应用实例8. 聚类分析聚类分析(Cluster Analysis)是研究物以类聚的

10、一种统计分析方法。用于对事物类别尚不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。一般依样本间的距离或相似系数进行。聚类方法有很多,常用的有系统聚类法(Hierarchical Cluster)和动态聚类法(Disjoint Cluster)。8.聚类分析系统聚类法按照样本距离定义类间距离,将n个样本各自看成一类,对两类距离最小的样本合并,重新计算类间距离。如此反复进行,直到所有样本合并成为一类。最后结果用聚类系谱图反映。动态聚类法基于上限-中心点-重心的原理,首先将n个样本初步分成g类,作为聚类个数的“上限”,从中确定其“中心点”,用作迭代的起点,然后每考察一个样本观察值

11、,就把它移到最靠近的类,并算出每一类的“重心”,再考察一个观察点移动到另一类。若能减少样本对于各自中心的离差之和,则把此两类的中心同时移到新的重心,并以重新计算重心取代原来的重心,如此反复迭代,直到再也无法降低样本与重心离差之和为止,移动终止,分成g类。8. 聚类分析SAS软件主要有以下4个聚类过程:CLUSTERFASTCLUSVARCLUSTREE8.1 CLUSTER过程过程格式PROC CLUSTER 选项;VAR 变量表;COPY 变量表;RUN;8.1 CLUSTER过程语法格式PROC CLUSTER选项DATA=数据数据集OUTTREE=输出数据集,供TREE过程调用METHO

12、D=算法主要算法包括:WARD(离差平方和法),AVERAGE(类平均法),CENTROID(重心法),COMPLETE(最长距离法),SINGLE(最短距离法),MEDIAN(中间距离法),DENSITY(密度法),FLEXIBLE(可变距离法),TWOSTAGE(两段连锁密度法)8.1 CLUSTER过程语法格式VAR语句此语句列出在聚类分析中所使用的数值型变量。缺省时使用全部变量。COPY语句指明从输入数据集中拷贝一些变量到输出数据集中。8.2 TREE过程本过程利用CLUSTER过程和VARCLUSTER过程生成的数据集绘制树状结构图。过程格式PROC TREE 选项;RUN;语句说明PROC TREE选项DATA=输入数据集OUT=输出数据集Horizontal 规定树的高度为水平方向,根在左侧,如缺省,则高度轴为垂直方向,根在上部。8.3 FASTCLUS过程FASTCLUS过程叫动态聚类过程,也叫快速聚类。它是在一个变量或几个变量的欧式距离基础上对数据进行分类,这些类之间互

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论