




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、生态学统计分析方法与实践生态学统计分析方法与实践 郝彦宾郝彦宾中国科学院研究生院中国科学院研究生院第八章第八章 多变量统计分析多变量统计分析多变量统计分析 (multivariate statistical analysis) 统计资料中有多个变量(或称因素、指标)同时存在时的统计分析,是统计学的重要分支,是单变量统计的发展。 -多元回归分析 逐步回归、岭回归、多项式回归和分类数据-主成分分析-因子分析-典型相关分析-聚类分析-判别分析8.1多元回归分析多元回归分析多元回归分析(Multiple Regression Analysis) 研究一个依变量对两个或多个自变量(且自变量均为一次项)依
2、存关系的统计分析方法。解决的问题:确定各个自变量对于某一依变量的综合效应在大量自变量中,选择仅对依变量有显著效应的自变量,建立最优的多元回归方程评定各个自变量对于依变量的相对重要性确定各个自变量对某一依变量的各自效应(偏回归系数)8.1.1一般线性回归分析过程REG过程格式PROC REG 选择项; model 依变量表=自变量表/选择项; by 变量表; var 变量表; Output out=输出数据集 关键字=新变量表;lPROC REG 选择项说明: Data=数据集Outsscp=数据集 储存变量的平方和与叉积矩阵指定输出的统计信息:Simple 输出每个变量的基本统计量Corr 输
3、出model语句或var语句中所列变量的相关矩阵Usscp 输出过程所用变量的平方和与叉积矩阵All 输出所有可能的统计信息。lModel语句:Noint 指定拟合回归模型中不包括截距项(常数)Stb 输出标准偏回归系数Collin 进行自变量之间的共线性分析Predicted 或P 输出实际观察值、预测值及其残差等Residual 或R 进行残差分析DW 检验回归方程中是否存在自相关CLM 输出依变量平均数的95%的置信区间上下限CLI 输出依变量预测值95%置信区间上下限lOUTPUT语句 P、R、U95、L95、student (学生氏残差)例题:测定某生态系统土壤含氮量(x1,%)、含
4、磷量(x2,%)和其生产力的关系(y,g/m2),得结果如下,试做二元回归方程。22iiixbby标准偏回归系数:结结 果果回归方程的显著水平达到了0.0001,说明各个自变量的综合对依变量y有真实的回归关系,且自变量x1和x2对依变量y的偏回归显著水平分别达到0.0001和0.0003,说明x1和x2对依变量y有真实的回归关系。回归方程:y=-351.74+24.80 x1+9.36x2由标准偏回归系数的分析结果表明,土壤含N量每增加一个标准差单位,生产力平均增加1.3166个标准差单位;土壤含P每增加一个标准差单位,生产力平均增加0.9580个标准差单位。所以,N的增加比P的增加效应要大一
5、些。除非自变量全部取值为除非自变量全部取值为0 0,或者截距项的估计值与,或者截距项的估计值与0 0相差很小(在一元回归中反映为拟合直线可能通相差很小(在一元回归中反映为拟合直线可能通过原点),在线性回归分析中我们不用考虑对截过原点),在线性回归分析中我们不用考虑对截距项(常数项)的显著性检验是否能通过。距项(常数项)的显著性检验是否能通过。例题:某生态系统的生产力大小受到光照时数、平均年温度、降雨量和降雨时数的影响,根据多年的观测的结果,试拟合预测模型。.共线性是指某一指标量值可以表示成其它几个指标量值的共线性是指某一指标量值可以表示成其它几个指标量值的线性组合线性组合. .评估指标间存在共
6、线性的影响是导致评估结果推断上的不评估指标间存在共线性的影响是导致评估结果推断上的不稳定的稳定的原因并造成较大的推断误差原因并造成较大的推断误差 . .回归方程达到极显著水平suntime和pday的偏回归系数不显著,可从方程中剔除比较条件指数最大值所在行的系数,系数较大的那些个自变量具有加大的共线性可能出现共线性的情况:1.偏回归系数的大小和方向明显与常识不同2.从专业角度看对应变量有影响的因素,却不能入选3.去掉一两个变量,方程的回归系数值发生剧烈的变化4.整个Model的检验有统计学意义,而model包含的所有自变量均无统计学意义221(1)inpniRRnp其 中 当 有 截 距 项
7、时 为 1, 否 则 为 0;是 用 于 拟 合 模 型 的 观 测 个 数 ;是模 型 中 参 数 的 个 数 。在回归分析中,当所处理的数据与时间序列有关时,其预测误差往往是前后关联的。检验这种相关程度的大小,可选用DUEBIN-WATSON统计量。DW=2:误差间完全没有相关程度的大小。DW=0 or DW=4 :误差间有正或负的线性相关。Adjrsq:决定系数准则。Cp准则:从预测观点出发,基于残差平方和的一个准则。按Cp准则应选择除全模型外,Cp值与P(P个自变量)最接近的模型。VIF:方差膨胀因子。如果VIF10多重共线性就会严重影响参数估计值。VIF=1,表示自变量xi与其他变量
8、间不存在线性相关。AIC信息量准则:应选择使AIC最小的模型。 AIC=nln(SSEp/n)+2p 多重共线性多重共线性 对于模型 Yi=0+1X1i+2X2i+kXki+i i=1,2,n (2.8.1)其基本假设之一是解释变量X1,X2 , , Xk是互相独立的。如果某两个或多个解释变量之间出现了相关性,则如果某两个或多个解释变量之间出现了相关性,则称为称为多重共线性多重共线性。backback 完全共线性下参数估计量不存在完全共线性下参数估计量不存在多元线性模型 YX的普通最小二乘参数估计量为: () X XX Y1 (2.6.4)如果存在完全共线性,则如果存在完全共线性,则(XX)
9、(XX) -1-1不存在,无法不存在,无法得到参数的估计量。得到参数的估计量。例例如如:对一个离差形式的二元回归模型 2211xxy 如果两个解释变量完全相关,如12xx,则有221212212121221221211iiiiiiiiiiixxxxxxxxxxxXX1121iiiiiiyxyxyxYX该回归模型的正规方程为 YXBX)X(或 iiiiiyxxxx1212211 iiiiiyxxxx2222121解该线性方程组得:002122121212121211221221212222111iiiiiiiiiiiiiiiiiiiiiiixxxxxyxxyxxxxxxxxyxxxyx1为不定式
10、; 同理,2也为不定式,其值无法确定。事实上,当12xx时,原二元回归模型退化为一元回归模型: 121)(xy只能确定综合参数21的估计值:21121iiixyx. 例: 研究耗氧量模型。这是有关身体适应性测试的例子,肺活量与一些简单的锻炼测试数据的拟合,目的是为了在锻炼测试的基础上而不是在昂贵笨重的氧气消耗测试的基础上得到方程来预测适应性。这是一个对31位成年人心肺功能的调查结果,它包含的变量和测试的各项数据见表:通过在SAS/Insight软件中绘制散点图矩阵,操作步骤为:在SAS命令框中键入insight后按Enter,在SAS/Insight:Open对话单中,选择work.fitne
11、ss数据集后单击Open按钮,将在屏幕的窗口中显示当前打开的数据集work.fitness内容,再选择菜单上的Analyze/Scatter Plot(Y X)命令,在出现的Scatter Plot(Y X)对话单中,把fitness数据集中的7个变量依上面的次序全部加入Y轴和X轴的列表框中,最后单击OK。Age的变化范围ss1是按model语句中自变量的排列顺序依次计算每个自变量的平方和,也称为第一类平方和或称顺序平方和,ss2是把model语句中每个自变量排到变量列表的最后,所计算的一类平方和,称为第二类平方和。通过分析每个自变量的这两类平方和,能知道回归模型总的平方和的构成和各个自变量所
12、贡献的平方和,进而能知道哪些自变量是最重要的回归变量,哪些回归变量可能是无关紧要的,配合参数估计的t检验,最终为缩减回归变量提供依据,达到简化模型的目的。Type I SS:截距INTERCEP的Type I SS为 ny2,称为修正均值=3147.375812=69578。Type I SS(maxpulse)=RSS(model oxygen=age maxpulse )RSS(model oxygen=age);Type II SS:Type II SS(age)=RSS(model oxygen=maxpulse rstpulse runpulse runtime weight age
13、 )RSS(model oxygen= maxpulse rstpulse runpulse runtime weight)721.97=78.98+142.35+82.44+98.36+310.36+9.444RSS:RSS:离差平方和离差平方和8.1.2 8.1.2 逐步回归分析逐步回归分析作用 自动从大量可选择的变量中,选择对建立回归方程重要的变量。选择变量的方法 1.前进法(FORWARD) 事先定一个选入的标准。开始时,方程中只含常数项,按自变量对y的贡献大小由大到小依次选入方程。每选入一个自变量,则要重新计算未被剔除的各变量对y的贡献大小,直到方程中所有变量均不符合剔除标准,没有变
14、量可以剔除为止。自变量一旦被剔除,则不能再进入模型。2. 后退法(BACKWARD) 从模型含有所有变量开始,每次从模型中剔除一个对依变量贡献最小的变量。一个变量一旦被剔除,就不能在进入模型。3.逐步法(STEPWISE)(最常用) 每次引入模型一个最显著的变量,然后考虑从模型中剔除一个最不显著的变量,直到没有变量可以引入也没有变量可以剔除为止。选择自变量要靠有关专业知识选择自变量要靠有关专业知识! !4.请求R2最大准则法(Rsquare) 按给定样本的R2大小准则选择最优的自变量子集,但不能保证对总体或其他样本而言是最优的;5. Mallows的Cp统计量 (Cp)是一个误差平方总和的量度
15、。P是模型中包括截距项的参数个数,MSE是满模型时均方误差,ESSp是具有P个自变量(包括截距项)回归模型的误差平方和。作Cp与P的曲线图,Matlows建议取Cp 首次接近P的地方的模型。6. slentry= 值值指出向前选择和逐步技术中选择变指出向前选择和逐步技术中选择变量进入模型的显著水平。如果省略,那么量进入模型的显著水平。如果省略,那么stepwise过程便对向前选择技术置过程便对向前选择技术置slentry= 0.5,对逐步技术,对逐步技术置置slentry0.15。7. slstay= 值值指出向后淘汰与逐步技术中变量留指出向后淘汰与逐步技术中变量留在模型里的显著水平。如果省略
16、,则逐步技术用在模型里的显著水平。如果省略,则逐步技术用0.15,向后淘汰技术用,向后淘汰技术用0.10。逐步回归的逐步回归的SAS实现实现REG过程的语法格式和一般多元回归分析的语法相同,只是在MODEL语句的选择项要添加:SELECTIONFORWARD()SELECTIONBACKWARD(B)SELECTIONSTEPWISE(S)逐步回归的基本思想逐步回归的基本思想: :将变量一个一个引入,引入变将变量一个一个引入,引入变量的条件是偏回归平方和经检验是显著的,同时每引量的条件是偏回归平方和经检验是显著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,入一个新变量后,对已选入的
17、变量要进行逐个检验,将不显著变量剔除,这样保证最后所得的变量子集中将不显著变量剔除,这样保证最后所得的变量子集中的所有变量都是显著的。这样经若干步以后便得的所有变量都是显著的。这样经若干步以后便得“最最优优”变量子集。变量子集。 stepwise并不能保证给你“最好”的模型,甚至具有最大R2的模型也不一定是“最好”的,并且靠这些均值演变得来的模型没有一个可以保证它精确地描述了真实的生物学过程。.)2(PNMSEESSCpPMallowsMallows的的C Cp p统计量统计量, ,是一个误差平方总和的量度是一个误差平方总和的量度P P是模型中包括截距项的参数个数,是模型中包括截距项的参数个数
18、,MSEMSE是满模是满模型时均方误差,型时均方误差,ESSESSp p是具有是具有P P个自变量(包括个自变量(包括截距项)回归模型的误差平方和截距项)回归模型的误差平方和. .定性数据的多元回归定性数据的多元回归多元回归分析中,要求因变量为服从正态分布的定量变量,而自变量既可以是定量变量, 也可以是定性变量。通常定量变量的观察结果可以直接用于回归分析而定性变量需进行合理的赋值方能用于回归分析。问题:已知影响氮沉降的因素有降雨、空气温 度、空气湿度、风速和季节,试分析氮沉降和它们的关系。1.定性变量的种类:分为分类变量和有序变量两种。前者又称名义变量 或计数资料,后者又称等级资料。2. 定性
19、变量的原始记录形式:定性变量的取值称作水平。3. 回归分析中有序变量的赋值 按照各水平间合理的或易解释的距离分别赋以一定的数值这些数值可以距离不相等。4. 回归分析中分类变量的赋值 分类变量的取值是无序的,分类变量的取值1,2,3,4. 只是为了数据记录的便利而设定的代码,不能由其平均数作为该分类变量的平均水平,对资料进行描述也不能直接参与回归分析等计算 。对于二分类变量,常用0和1来编码,但赋值可以任意取值。5.哑变量(虚拟变量)的引入如果水平总数为n,应引入n-1个哑变量。例题中季节有4个水平,应引入4-1=3个哑变量。可用春天为对照分别引入3个哑变量。春天(X51=0,X52=0,X53
20、=0);夏天( X51=1,X52=0,X53=0);秋天( X51=0,X52=1,X53=0);冬天(X51=0,X52=0,X53=1);Y=1+1D+1X+Y=1+1D+1X+结论:氮沉降与降雨量和风速有关。No=0.04+0.00006X1-0.01X4-0.08X53结论:氮沉降与降雨量(X1)和风速(X4)有关, 在其他条件不变的情况下,降雨量每增加1mm,氮沉降增加0.00006个单位,风速每增加1个单位,氮沉降减少0.01个单位。和春天相比,冬季的氮沉降比较低。8.1.3 多项式回归多项式回归格式:PROC RSREG 选择项; Model 响应变量=自变量 /选择项; Ri
21、dge 选择项; Id 变量表;Weight 变量表;By 变量表;Model 响应变量=自变量 /选择项;指定模型拟合方法:Lackfit(对自变量先排序);Cover=n(指定前n个自变量为简单的线性共变量);Byout(与by语句并用)。必需语句上述分析的结果可用来解答下列的问题1. 到底多项式中的一次式二次式或相乘积对因变量 (Y) 的变异数的解释量最大?2. 这种多项式的模型是否合理?3. 多项式中哪些项是多余的?4. 多项式中哪些项的组合是最精简的?5. 多项式模型的几何表示方法是一个平面一个抛物线还是一个马鞍的形状?6. 到底 Y 的预测值是多少?例题:测定氮素的不同施用量(x1
22、,百磅/英亩)和收获期(x2,每期间隔三周)对糖甜菜根产量(y,吨/4英亩)的影响,试作y对x1、x2的二元多项式回归方程。Mi=(Xi(max)+Xi(min)/2Si=(Xi(max)-Xi(min)/2Code=(原始值-Mi)/Si模型中,一次项、二次项和交叉项达到极显著水平,由原变量建立的方程为:221211 2217.87 30.210.59.281.210.42yxxxxxx对X1和X2的因子检验,即对含有x1和x2因子的所有参数的联合检验。 本例题的数据由 John (1971) 提供。 Schneider 与 Stockett 于 1963 年做了一个实验,这个实验的目的在降
23、低一个化学药品的臭气 (ODOR)。 他们检查了三个有关的自变量温度(X1) 、瓦斯与水的比率 (X2) 以及装箱的高度 (X3), 每一个自变量以一次式二次式及两两变量的相乘积纳入回归模型中。拟合不足显著时,在模型中可能存在随机误差之外的其他变差(如因子变量的三次效应)为研究温度对某微生物菌丝生长的影响,在7种温度条件下培养微生物,其菌丝平均生长情况列于表,试建立微生物菌丝长度以温度变化的多项式回归方程。温度(x,)10 15 20 25 30 35 40菌丝长度(y,cm)1.33 1.60 3.64 5.48 6.16 4.25 0.64对15名不同程度的烟民的每日饮酒量与其心电图指标的
24、对应数据。试建立拟合这些数据的模型。趋势模型 概率P值PrF R-square Root MSECoeff VarDurbin-Waston D一阶0.00010.954918.875.431.36二阶0.00010.983513.163.792.69三阶0.00010.982613.673.942.68四阶0.00190.988616.424.733.02协方差分析协方差分析协方差分析(协方差分析(analysis of covarianceanalysis of covariance)是将回归分析与方差分析结合起来使用的一种分析方法。当定量的影响因素对观察结果有难以控制的影响,甚至还有交互
25、作用时,采用协方差分析,这些影响变量称为协变量,扣除(或消除)协变量的影响,可以得到修正后的均值估计。基本思想基本思想在试验设计中,对主要变量y研究时,希望其他可能影响和干扰y的变量保持一致以到达均衡或可比,使试验误差的估计降到最低限度,从而可以准确地获得处理因素的试验效应。但是有时,这些变量难以控制,或者根本不能控制。为此需要变量看作自变量或称协变量。建立因变量y随协变量变化的回归方程,就可以利用回归分析把因变量y中受协变量影响的因素扣除掉,从而,能够较合理地比较定性的影响因素处在不同水平下,经过回归分析手段修正以后的因变量的总体均值之间是否有显著性的差别。协方差分析需要满足的假定协方差分析
26、需要满足的假定1.1.各样本来自具有相同方差 的正态分布总体, 即要求各组方差齐性;2.协变量与主要变量y间的总体回归系数不等于0;3.各组的回归线平等,即回归系数;4.协变量是定量变量,并且和处理因素不能有交互作用。21其中x为协变量, xij为协变量在分类水平i和j上的记录值, 为所有协变量的平均值, 为相关的回归系数例1:为研究A,B,C三种N添加对生产力影响的结果,随机选取24个样方,第一年记下各个样方的生产力(x, kg),第二年将每种N随机施与8块样方,再记下其产量(y,kg),得结果如下,试分析三种N对生产力是否具有影响?处理步骤:1.测验x和y是否存在直线回归关系。即对处理内项
27、(误差项)做回归分析,若无直线回归关系,则表明资料只能用y变数值作方差分析,x变数值不能提供新的信息。若存在显著的直线回归关系,要作协方差分析2.测验矫正平均数间的差异显著性。而在协方差分析中,分组变量trt的类型1的平方和等于方差分析中的平方和60.75,分组变量trt的类型3的平方和为222.84,大于类型1的平方和,是因为类型3的平方和反映了经过共同的协变量x调整后的平方和,类型1是一种未经过调整的平方和,因为它的优先级高于协变量的调整。在协方差分析中,实验效果的检定是根据第三型的离差平方和而非第一型solution的输出结果,对模型中的截距、各分组变量和协变量的回归系数进行估计和检验,
28、在这个单因素trt的情况下,估计是以最后一个水平trtc(trt=c)为对照组,并且设置它的系数为0,因此截距intercept的估计值是分组trtc的估计值。其他2个分组trt的系数估计是每一个与trtc进行比较而得到的。字母“B”表示并非唯一的估计值。协变量x的系数是合并各组内y和x所得到的回归系数,即是由3个独立的trt分组,分别回归y和x后得到回归系数然后加权平均,其t=17.90,p 0.8的值是最好的,0.50.5。它是各。它是各f对对xi的决定系数。其值越大,的决定系数。其值越大,xi对各对各f的依赖性愈大。的依赖性愈大。第一类反应了物质和社会条件,第二类反应了播种面积,第三类反
29、应了萌发期的温度,第四类反应的是降雨量。方差最大正交旋转方差最大正交旋转: :可使每个因子上的具有最大载荷的变量可使每个因子上的具有最大载荷的变量数最小,因此可以简化对因子的解释。或者说使因子负荷数最小,因此可以简化对因子的解释。或者说使因子负荷两极分化,要么接近于两极分化,要么接近于0 0,要么接近于,要么接近于1 1。如果公共因子仍。如果公共因子仍然没有明显的意义时,可以进行斜交变换(然没有明显的意义时,可以进行斜交变换(R=promaxR=promax)。)。表达式:表达式:x1x1=-0.02F1+0.97F2+0.05F3-0.08F4=-0.02F1+0.97F2+0.05F3-0
30、.08F4 因子得分模型同时也是主成分分析的结果。为了使公因子到表达式的左边,从而进行转置。例如:F1=-0.19x1+0.01x2+0.10 x3+0.15x4+0.27x5+0.26x6+0.34x7+0.13x8+0.05x9八、因子分析应用的注意事项应用条件应用条件(1)变量是计量的,能用线性相关系数)变量是计量的,能用线性相关系数(Pearson积叉相关系数)表示它们之积叉相关系数)表示它们之间的相关性。间的相关性。(2)总体的同质性)总体的同质性样本量样本量 没有估计公式。至少要保证样本相关系数稳没有估计公式。至少要保证样本相关系数稳定可靠。定可靠。因子数目因子数目 一般认为,累积
31、贡献要达到一般认为,累积贡献要达到80%以上。但要以上。但要注意注意Heywood现象。现象。HeywoodHeywood现象现象: :公因子方差(共同度)总是在公因子方差(共同度)总是在0 0和和1 1之间,等于之间,等于1 1为为 Heywood Heywood现象。现象。原因:模型不正确的设定;存在异常值;当样本数过小,且含少于原因:模型不正确的设定;存在异常值;当样本数过小,且含少于3 3个观测变量的潜在变量。个观测变量的潜在变量。主成份分析与因子分析的联系及区别主成份分析与因子分析的联系及区别1.获得新变量(主成分变量或公因子变量),达到减少分析指标数并概括原始指标主要信息的目的。主
32、成分分析将m个原始变量提取k(km)个互不相关的主成份;因子分析是提取k个支配原始变量的公因子和1个特殊因子,各公因子之间可以相关或不相关。2.提取公因子的方法主要有主成份法和公因子法,若采用主成分法,则主成份和因子分析等价。3.因子分析提取的公因子比主成分分析提取的主成份更具有可解释性。4.两者分析的实质及重点不同。5. 主成分分析表达式左边是隐变量,右边是原变量,因子分析正好相反,左边是原变量,右边是隐变量。聚类分析聚类分析l按照一批样本(或指标)的亲疏程度进行分类分析,分类的途径是确定样本或变量间的距离或相似系数。l四个聚类过程 1.系统聚类:CLUSTER ,应用最广 2.动态聚类:F
33、ASTCLUS,用于大样本分析 3.对变量进行系统聚类或动态聚类:VARCLUS 4.TREE过程。 聚类分析无处不在聚类分析无处不在谁是银行信用卡的黄金客户?利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”!这样银行可以 制定更吸引的服务,留住客户!比如:一定额度和期限的免息透资服务!苏宁电器的贵宾打折卡!在他或她生日的时候送上一个小蛋糕! 聚类分析原理介绍聚类分析原理介绍聚类分析中“类”的特征:聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分;聚类的数目和结构都没有事先假定。聚类分析原理介绍聚类分析原理介绍聚类方法的目的是寻找数据中:潜在的自然分组结构a st
34、ructure of “natural” grouping感兴趣的关系relationship聚类分析原理介绍聚类分析原理介绍什么是自然分组结构Natural grouping ?我们看看以下的例子:有16张牌如何将他们分为 一组一组的牌呢?AKQJ聚类分析原理介绍聚类分析原理介绍分成四组每组里花色相同组与组之间花色相异AKQJ花色相同的牌为一副花色相同的牌为一副Individual suits聚类分析原理介绍聚类分析原理介绍分成四组符号相同的牌为一组AKQJ符号相同的的牌符号相同的的牌Like face cards聚类分析原理介绍聚类分析原理介绍分成两组颜色相同的牌为一组AKQJ颜色相同的配
35、对颜色相同的配对Black and red suits聚类分析原理介绍聚类分析原理介绍分成两组大小程度相近的牌分到一组AKQJ大配对和小配对大配对和小配对Major and minor suits聚类分析原理介绍聚类分析原理介绍这个例子告诉我们,分组的意义在于我们怎么定义并度量“相似性”Similar因此衍生出一系列度量相似性的算法AKQJ大配对和小配对大配对和小配对Major and minor suits聚类分析原理介绍聚类分析原理介绍相似性Similar的度量(统计学角度)距离Q型聚类(主要讨论)主要用于对样本分类常用的距离有(只适用于具有间隔尺度变量的聚类):明考夫斯基距离(包括:绝对
36、距离、欧式距离、切比雪夫距离)兰氏距离马氏距离斜交空间距离相似系数R型聚类用于对变量分类,可以用变量之间的相似系数的变形如1rij定义距离变量按测量尺度(Measurement Level)分类间隔(Interval)尺度变量连续变量,如长度、重量、速度、温度等有序(Ordinal)尺度变量 等级变量,不可加,但可比,如一等、二等、三等奖学金名义(Nominal)尺度变量 类别变量,不可加也不可比,如性别、职业等过程格式:PROC CLUSTER METHOD=聚类算法 选择项;VAR 变量表;ID 变量;COPY 变量表;FREQ 变量;RMSSTD 变量;BY 变量表;PROC CLUSTER 选项串:(1) DATA= 输入资料文件名称(2) OUTTREE= 输出资料文件名称,供tree过程调用(3) METHOD= 聚类算法 M=ave 类平均法;M=COM 最长距离法; M=WAR 离差平方和法(应用最广泛)其他选择项:STD: 对原始数据标准化(以克服变量的不同量纲和量级的影响);RMSSTD:输出标准差均方根,RSQUARE:输出R2及偏R2 ,R2值越大,偏R2 越小,聚类效果越好。PSEDO:输出伪F值(标志为PSF:用于评价
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 篮球赛活动总结
- 园林喷灌系统讲解课件
- 度假酒店商业空间设计
- 2025地铁站厅制作安装合同
- 2025标准设计印刷合同范例
- 2025房产交易居间合同
- 2025x物业管理有限公司物业管理服务合同
- 小学生公共安全教育主题班会
- 幼儿园体验与探究课程开展汇报
- 2025电影配音录制委托合同
- 任务5 制作学院网站导航条
- 卫星导航定位技术与应用知到智慧树章节测试课后答案2024年秋南京工业大学
- 开封市第二届职业技能大赛无人机装调检修项目技术文件(国赛项目)
- 开题报告:高等职业院校双师型教师评价指标体系构建研究
- 医疗救助政策
- 浙江省宁波市余姚市2024年中考英语模拟试题(含答案)
- 服务质量保障措施方案
- 机场能源管理
- 高速公路路基及土石方工程施工方案与技术措施
- 技能人才评价新职业考评员培训在线考试(四川省)
- AQ 1083-2011 煤矿建设安全规范 (正式版)
评论
0/150
提交评论