多变量统计分析详解演示文稿_第1页
多变量统计分析详解演示文稿_第2页
多变量统计分析详解演示文稿_第3页
多变量统计分析详解演示文稿_第4页
多变量统计分析详解演示文稿_第5页
已阅读5页,还剩132页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多变量统计分析详解演示文稿现在是1页\一共有137页\编辑于星期五优选多变量统计分析现在是2页\一共有137页\编辑于星期五§8.1多元回归分析多元回归分析(MultipleRegressionAnalysis)研究一个依变量对两个或多个自变量(且自变量均为一次项)依存关系的统计分析方法。解决的问题:①确定各个自变量对于某一依变量的综合效应②在大量自变量中,选择仅对依变量有显著效应的自变量,建立最优的多元回归方程③评定各个自变量对于依变量的相对重要性④确定各个自变量对某一依变量的各自效应(偏回归系数)现在是3页\一共有137页\编辑于星期五§一般线性回归分析过程REG过程格式PROCREG[选择项];model依变量表=自变量表/选择项;

by变量表;

var变量表;

Outputout=输出数据集关键字=新变量表;PROCREG[选择项]说明:Data=数据集Outsscp=数据集储存变量的平方和与叉积矩阵指定输出的统计信息:Simple输出每个变量的基本统计量Corr输出model语句或var语句中所列变量的相关矩阵Usscp输出过程所用变量的平方和与叉积矩阵All输出所有可能的统计信息。现在是4页\一共有137页\编辑于星期五Model语句:Noint指定拟合回归模型中不包括截距项(常数)Stb输出标准偏回归系数Collin进行自变量之间的共线性分析Predicted或P输出实际观察值、预测值及其残差等Residual或R进行残差分析DW检验回归方程中是否存在自相关CLM输出依变量平均数的95%的置信区间上下限CLI输出依变量预测值95%置信区间上下限OUTPUT语句

P、R、U95、L95、student(学生氏残差)现在是5页\一共有137页\编辑于星期五例题:测定某生态系统土壤含氮量(x1,%)、含磷量(x2,%)和其生产力的关系(y,g/m2),得结果如下,试做二元回归方程。现在是6页\一共有137页\编辑于星期五现在是7页\一共有137页\编辑于星期五现在是8页\一共有137页\编辑于星期五结果回归方程的显著水平达到了0.0001,说明各个自变量的综合对依变量y有真实的回归关系,且自变量x1和x2对依变量y的偏回归显著水平分别达到0.0001和0.0003,说明x1和x2对依变量y有真实的回归关系。回归方程:y=-351.74+24.80x1+9.36x2由标准偏回归系数的分析结果表明,土壤含N量每增加一个标准差单位,生产力平均增加1.3166个标准差单位;土壤含P每增加一个标准差单位,生产力平均增加0.9580个标准差单位。所以,N的增加比P的增加效应要大一些。现在是9页\一共有137页\编辑于星期五除非自变量全部取值为0,或者截距项的估计值与0相差很小(在一元回归中反映为拟合直线可能通过原点),在线性回归分析中我们不用考虑对截距项(常数项)的显著性检验是否能通过。现在是10页\一共有137页\编辑于星期五现在是11页\一共有137页\编辑于星期五例题:某生态系统的生产力大小受到光照时数、平均年温度、降雨量和降雨时数的影响,根据多年的观测的结果,试拟合预测模型。现在是12页\一共有137页\编辑于星期五…..共线性是指某一指标量值可以表示成其它几个指标量值的线性组合.评估指标间存在共线性的影响是导致评估结果推断上的不稳定的原因并造成较大的推断误差

.现在是13页\一共有137页\编辑于星期五回归方程达到极显著水平suntime和pday的偏回归系数不显著,可从方程中剔除比较条件指数最大值所在行的系数,系数较大的那些个自变量具有加大的共线性可能出现共线性的情况:1.偏回归系数的大小和方向明显与常识不同2.从专业角度看对应变量有影响的因素,却不能入选3.去掉一两个变量,方程的回归系数值发生剧烈的变化4.整个Model的检验有统计学意义,而model包含的所有自变量均无统计学意义现在是14页\一共有137页\编辑于星期五在回归分析中,当所处理的数据与时间序列有关时,其预测误差往往是前后关联的。检验这种相关程度的大小,可选用DUEBIN-WATSON统计量。DW=2:误差间完全没有相关程度的大小。DW=0orDW=4:误差间有正或负的线性相关。现在是15页\一共有137页\编辑于星期五多重共线性

对于模型

Yi=0+1X1i+2X2i++kXki+i

i=1,2,…,n(2.8.1)其基本假设之一是解释变量X1,X2,…,Xk是互相独立的。如果某两个或多个解释变量之间出现了相关性,则称为多重共线性。back现在是16页\一共有137页\编辑于星期五

完全共线性下参数估计量不存在如果存在完全共线性,则(X’X)-1不存在,无法得到参数的估计量。现在是17页\一共有137页\编辑于星期五现在是18页\一共有137页\编辑于星期五现在是19页\一共有137页\编辑于星期五现在是20页\一共有137页\编辑于星期五…..现在是21页\一共有137页\编辑于星期五现在是22页\一共有137页\编辑于星期五§8.1.2逐步回归分析作用自动从大量可选择的变量中,选择对建立回归方程重要的变量。选择变量的方法

1.前进法(FORWARD)事先定一个选入的标准。开始时,方程中只含常数项,按自变量对y的贡献大小由大到小依次选入方程。每选入一个自变量,则要重新计算未被剔除的各变量对y的贡献大小,直到方程中所有变量均不符合剔除标准,没有变量可以剔除为止。自变量一旦被剔除,则不能再进入模型。现在是23页\一共有137页\编辑于星期五2.后退法(BACKWARD)从模型含有所有变量开始,每次从模型中剔除一个对依变量贡献最小的变量。一个变量一旦被剔除,就不能在进入模型。3.逐步法(STEPWISE)(最常用)每次引入模型一个最显著的变量,然后考虑从模型中剔除一个最不显著的变量,直到没有变量可以引入也没有变量可以剔除为止。现在是24页\一共有137页\编辑于星期五逐步回归的SAS实现REG过程的语法格式和一般多元回归分析的语法相同,只是在MODEL语句的选择项要添加:SELECTION=FORWARD(F)SELECTION=BACKWARD(B)SELECTION=STEPWISE(S)现在是25页\一共有137页\编辑于星期五….现在是26页\一共有137页\编辑于星期五现在是27页\一共有137页\编辑于星期五§8.1.3多项式回归格式:PROCRSREG[选择项];Model响应变量=自变量/[选择项];Ridge[选择项];Id变量表;Weight变量表;By变量表;Model响应变量=自变量/[选择项];指定模型拟合方法:Lackfit(对自变量先排序);Cover=n(指定前n个自变量为简单的线性共变量);Byout(与by语句并用)。必需语句现在是28页\一共有137页\编辑于星期五上述分析的结果可用来解答下列的问题1.到底多项式中的一次式二次式或相乘积对因变量(Y)的变异数的解释量最大?2.这种多项式的模型是否合理?3.多项式中哪些项是多余的?4.多项式中哪些项的组合是最精简的?5.多项式模型的几何表示方法是一个平面一个抛物线还是一个马鞍的形状?6.到底Y的预测值是多少?现在是29页\一共有137页\编辑于星期五例题:测定氮素的不同施用量(x1,百磅/英亩)和收获期(x2,每期间隔三周)对糖甜菜根产量(y,吨/4英亩)的影响,试作y对x1、x2的二元多项式回归方程。现在是30页\一共有137页\编辑于星期五现在是31页\一共有137页\编辑于星期五Mi=(Xi(max)+Xi(min))/2Si=(Xi(max)-Xi(min))/2Code=(原始值-Mi)/Si现在是32页\一共有137页\编辑于星期五模型中,一次项、二次项和交叉项达到极显著水平,由原变量建立的方程为:现在是33页\一共有137页\编辑于星期五对X1和X2的因子检验,即对含有x1和x2因子的所有参数的联合检验。现在是34页\一共有137页\编辑于星期五现在是35页\一共有137页\编辑于星期五现在是36页\一共有137页\编辑于星期五本例题的数据由John(1971)提供。Schneider与Stockett于1963年做了一个实验,这个实验的目的在降低一个化学药品的臭气(ODOR)。他们检查了三个有关的自变量温度(X1)、瓦斯与水的比率(X2)以及装箱的高度(X3),每一个自变量以一次式二次式及两两变量的相乘积纳入回归模型中。现在是37页\一共有137页\编辑于星期五现在是38页\一共有137页\编辑于星期五拟合不足显著时,在模型中可能存在随机误差之外的其他变差(如因子变量的三次效应)现在是39页\一共有137页\编辑于星期五现在是40页\一共有137页\编辑于星期五为研究温度对某微生物菌丝生长的影响,在7种温度条件下培养微生物,其菌丝平均生长情况列于表,试建立微生物菌丝长度以温度变化的多项式回归方程。温度(x,℃)10152025303540菌丝长度(y,cm)1.331.603.645.486.164.250.64现在是41页\一共有137页\编辑于星期五现在是42页\一共有137页\编辑于星期五现在是43页\一共有137页\编辑于星期五现在是44页\一共有137页\编辑于星期五现在是45页\一共有137页\编辑于星期五对15名不同程度的烟民的每日饮酒量与其心电图指标的对应数据。试建立拟合这些数据的模型。现在是46页\一共有137页\编辑于星期五现在是47页\一共有137页\编辑于星期五现在是48页\一共有137页\编辑于星期五趋势模型概率P值Pr>FR-squareRootMSECoeffVarDurbin-WastonD一阶<0.00010.954918.875.431.36二阶<0.00010.983513.163.792.69三阶<0.00010.982613.673.942.68四阶0.00190.988616.424.733.02现在是49页\一共有137页\编辑于星期五分类数据回归分析过程LOGISTIC用来预测一个二分的或次序变量的值二项分类变量:成功和失败次序变量:病害发生的程度:不发生、轻度发生、中度发生、大发生。Prob(p)=e(B0+B1*X1)/(1+e(B0+B1*X1))现在是50页\一共有137页\编辑于星期五回归模型参数的意义及其解释和一般线性回归模型的区别:1.在一般线性回归模型中,如果只有一个自变量,自变量和应变量之间呈直线关系;对于二项分类logistic回归,如果只有一个自变量,那么自变量与应变量Y的概率P之间呈S型曲线关系2.在一般线性回归模型中,通过最小二乘法求解回归参数;在二项分类回归中,通过最大似然估计方法求解回归参数。现在是51页\一共有137页\编辑于星期五优势(Odds)与优势比(OddsRatios)(1)事件出现可能性大小的“自然”方式:概率(0,1)和优势(0,∞)。现在是52页\一共有137页\编辑于星期五优势比总的暴露优势:[(a+b)/(a+b+c+d)]/[(c+d)/(a+b+c+d)]=50/100=0.5病例的暴露优势:a/c对照的暴露优势:b/d病例对对照的暴露优势比:OR=(a/c)/(b/d)=1.5在实际工作中,Logistic回归不是直接解释回归系数,而是解释优势比。即:在其他变量固定不变的情况下,某一自变量Xj改变一个单位,应变量对应的优势比平均改变exp(bj)个单位。现在是53页\一共有137页\编辑于星期五过程格式PROCLOGISTIC选项串MODEL反应变量=自变量名称串/选项串OUTPUTOUT=输出文件名称关键字=变量名称串ALPHA=概率值WEIGHT变量名称BY变量名称串现在是54页\一共有137页\编辑于星期五PROCLOGISTIC选择项(1)DATA=输入文件名称(2)ORDER=DATAORDER=INTERNAL(内设值)ORDER=FORMATTED(3)DES:颠倒依变量的排列顺序这个选项界定反应变量下组别的先后次序.若ORDER=DATA则组别的先后次序以输入文件内各组出现的次序来决定.若ORDER=INTERNAL则组别以反应变量值的小大或字母排列的先后次序来决定.若ORDER=FORMATTED组别次序由外在格式决定.当省略此选项时内设值是ORDER=INTERNAL现在是55页\一共有137页\编辑于星期五

上式中Y变量的组别可用数值(如12)或文字(如FM)来表示,若组别以数值表示则数值的大小代表组别的先后次序.若以文字表示组别,则其第一个字母就决定组别先后的排序对于二分的变量可利用频率次数来界定回归分析的模型.N代表总实验的次数(或样本的大小),R代表样本中表现出研研究者有兴趣之反应的观察体个数。

现在是56页\一共有137页\编辑于星期五MODEL反应变量=自变量名称串选项串1.NOINT-要求LOGISTIC程序在塑造回归模型时不考虑截距参数;2.Selection=N|F|B|stepwise|score现在是57页\一共有137页\编辑于星期五年龄(age)、酸性磷酸酯酶(ACID)两个连续型变量、x射线(x_Ray)、病理分级(Grade)、直肠指检肿瘤位置(STAGE)三个分类变量,后三个变量赋值0、1.手术探查结果变量NODES,1:淋巴结转移,0:无转移。现在是58页\一共有137页\编辑于星期五……现在是59页\一共有137页\编辑于星期五LogitP=-2.04+2.12X_RAY+1.59STAGEOR=ebetaP=elogitp/(1+elogitp)现在是60页\一共有137页\编辑于星期五本文件(INGOTS)含四个变量它们分别是样本的总数(N)样本中尚不够软属条个数(R)金属条加热的时间(HEAT)以及金属条浸在化学溶液中的SOAK).试建立合适的回归模型。HeatSoakRN7101014103127115651131371.7017141.7043271.7444511.70172.207142.2233272.2021512.20172.8012142.8031272.8122514017409144019274116现在是61页\一共有137页\编辑于星期五现在是62页\一共有137页\编辑于星期五Logit(p)=-5.5592+(0.082)*HEAT+(0.0568)*SOAK若HEAT=7,SOAK=1则logit(p)=-4.9284由于logit(p)代表P值的对数奇数比所以P值应等于P=e-4.9284/(1+e-4.9284)=0.0072无特别意义,这两个指标最好用来比较模型的优劣愈是优良的模型其所对应的这两个指标值也愈小。现在是63页\一共有137页\编辑于星期五多变量大样本分析中,变量间存在共线性,增加了分析的复杂性。若分别分析各个指标,分析有可能是孤立的,而不是综合的;盲目地减少指标又有可能损失很多信息,得出错误结论。欲采用较少指标,反映原资料大部分信息,可采用主成分分析和因子分析。§8.2主成分与因子分析现在是64页\一共有137页\编辑于星期五

对同一组观察体的多个变量执行主成份分析,主成份分析的目的是找出一组变量之间互相依赖的程度。将这些线性相关以主成份值表示。其分析的结果包括未经标准化及标准化后的主成份值,这些主成份值可以代替变量的原始数据进行进一步的分析处理。*把多个指标化为少数几个总和指标的一种统计方法1901年由Person首先引入,被Hotelling(1933)发展现在是65页\一共有137页\编辑于星期五成绩数据(student.sav)100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。现在是66页\一共有137页\编辑于星期五从本例可能提出的问题目前的问题是,能不能把这个数据的6个变量用一两个综合变量来表示呢?这一两个综合变量包含有多少原来的信息呢?能不能利用找到的综合变量来对学生排序呢?这一类数据所涉及的问题可以推广到对企业,对学校进行分析、排序、判别和分类等问题。现在是67页\一共有137页\编辑于星期五主成分分析例中的的数据点是六维的;也就是说,每个观测值是6维空间中的一个点。我们希望把6维空间用低维空间表示。先假定只有二维,即只有两个变量,它们由横坐标和纵坐标所代表;因此每个观测值都有相应于这两个坐标轴的两个坐标值;如果这些数据形成一个椭圆形状的点阵(这在变量的二维正态的假定下是可能的)那么这个椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;在极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些点的变化了;这样,由二维到一维的降维就自然完成了。现在是68页\一共有137页\编辑于星期五当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。椭圆(球)的长短轴相差得越大,降维也越有道理。现在是69页\一共有137页\编辑于星期五现在是70页\一共有137页\编辑于星期五对于多维变量的情况和二维类似,也有高维的椭球,只不过无法直观地看见罢了。首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。注意,和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合,叫做主成分(principalcomponent)。

现在是71页\一共有137页\编辑于星期五对应m个变量的m个主成分如下:现在是72页\一共有137页\编辑于星期五选择越少的主成分,降维就越好。什么是标准呢?那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。有些文献建议,所选的主轴总长度占所有主轴长度之和的大约85%即可,其实,这只是一个大体的说法;具体选几个,要看实际情况而定。现在是73页\一共有137页\编辑于星期五过程格式PROCPRINCOMP[选项];VAR变量表;PARTIAL变量表;FREQ变量;WEIGHT变量;BY变量表;

现在是74页\一共有137页\编辑于星期五PROCPRINCOMP[选项]:(1)DATA=输入资料文件名称。指明到底对那一个SAS资料文件执行PROCPRINCOMP的分析,这个输入资料文件可以是原始数据也可以是一个相关系数矩阵(TYPE=CORR)。(2)OUT=输出资料文件名称。这一个输出资料文件包括输入资料文件的数据以及主成份值。(3)PREFIX=主成份的名字为主成份命名内设值是PRIN1PRIN2...PRINn,n为正整数主成份的名字(包括字母及数字),不得超过八个字母或数字。现在是75页\一共有137页\编辑于星期五VAR变量表指明对那些数值变量作主成份分析。PARTIAL变量表指定对偏相关或协方差矩阵进行分析的数值变量。现在是76页\一共有137页\编辑于星期五例:为了进行土壤分析,研究土壤质量,抽取了20个样本,每个样本有4个指标:泥炭含量(x1,%),粘土含量(x2,%),有机物(x3,%),PH值(x4),试做主成分分析。现在是77页\一共有137页\编辑于星期五现在是78页\一共有137页\编辑于星期五1.各主成分的累积方差贡献率≥85%2.特征值≥1这些系数称为主成分载荷(loading),它表示主成分和相应的原先变量的相关系数。相关系数(绝对值)越大,主成分对该变量的代表性也越大。现在是79页\一共有137页\编辑于星期五第一主分量的方差为1.67,PRIN1=0.7102x1’+0.7033x2’+0.0224x3’+0.0201x4’单独说明整个原始数据标准变异的41.76%,其代表变量为x1和x2。第二主分量的方差为1.15,PRIN2=0.1887x1’-0.2304x2’+0.8350x3’+0.4626x4’单独说明整个原始数据标准变异的28.68%,其代表变量为x3.第三个主分量的代表变量为x4。前三个主分量所构成的信息量占总信息量的94.46%。X1’=(x1-22.7)/8.89现在是80页\一共有137页\编辑于星期五某研究所收集了13名儿童的年龄(x1)、身高(x2)、体重(x3)、胸围(X4)和心像面积(y),试分析心像面积与年龄、身高、体重和胸围之间的关系。现在是81页\一共有137页\编辑于星期五现在是82页\一共有137页\编辑于星期五PRIN1=0.49x1’+0.49x2’+0.50x3’+0.49x4’PRIN2=0.52x1’+0.47x2’-0.39x3’-0.59sx4’现在是83页\一共有137页\编辑于星期五现在是84页\一共有137页\编辑于星期五我们以建立发电量需求模型来说明主成分分析的应用。

影响发电量需求量的指标有:(1)钢的产量;(2)生铁产量;(3)钢材产量;(4)有色金属产量;(5)凉煤产量;(6)水泥产量:(7)机械工业总产值:(8)化肥产量;(9)硫酸产量;(10)烧碱产量;(11)棉纱产量,共11个指标,收集了从1958年~1980年共23个年头的各个指标的产量和发电量,其目的是构造发电量需求模型。现在是85页\一共有137页\编辑于星期五现在是86页\一共有137页\编辑于星期五现在是87页\一共有137页\编辑于星期五把具有最小特征值的主分量所对应的特征向量中具有最大分量的变量删除掉现在是88页\一共有137页\编辑于星期五现在是89页\一共有137页\编辑于星期五现在是90页\一共有137页\编辑于星期五现在是91页\一共有137页\编辑于星期五现在是92页\一共有137页\编辑于星期五品种冬季分蘖株高每穗粒数千粒重抽穗期成熟期a11.595.326.439.204/19/032006-2-3b997.730.846.804/17/032006-6-3c7.5110.739.739.104/17/032006-3-3d9.18935.435.304/18/032006-2-3e11.68829.33704/20/032006-7-3f1387.724.644.804/19/032006-7-3g11.679.725.643.704/19/032006-5-3h10.7119.329.938.804/19/032006-5-3i11.187.732.235.604/18/032006-3-3现在是93页\一共有137页\编辑于星期五现在是94页\一共有137页\编辑于星期五现在是95页\一共有137页\编辑于星期五现在是96页\一共有137页\编辑于星期五Y1Y2现在是97页\一共有137页\编辑于星期五因子分析分为共同因子(又称公共因子)和独特因子,这两种因子都是指一个(或一组)假设的抽象的变量。共同因子:根据相关性大小,把变量分组,使得同组内的变量之间相关性较高,但不同组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为共同因子。独特因子:则指一个假设的抽象的变量,它只能用来解释一个原始的变量,与其它变量完全无关。主成份分析是指原始变量间的线性组合,它的功能在于简化原有的变量群。因子分析目的是用有限个不可观测的潜在变量来解释原变量间的相关性或协方差关系。现在是98页\一共有137页\编辑于星期五格式:PROCFACTOR[选项串];VAR变量名称串;PARTIAL变量名称串;FREQ变量名称;WEIGHT变量名称;BY变量名称串;现在是99页\一共有137页\编辑于星期五例:影响某生态系统收益的指标有9个:生态系统面积(x1,亩)、耕作面积(x2,亩)、技术推广比例(x3,%)、肥料的使用量(x4,吨)、牲畜出栏(x5,只),载畜量(x6,只),耕牛数(x7,头)、植物萌发气温(x8,℃)、萌发期降雨量(x9,mm),数据见下表,采用因子分析研究变量之间的相互关系。现在是100页\一共有137页\编辑于星期五现在是101页\一共有137页\编辑于星期五….现在是102页\一共有137页\编辑于星期五Kaiser’smeasureofSamplingAdequacy(抽样适当的Kaiser量度),MSA她包括全部变量和每个变量方面。MSA是偏相关相对于普通相关有多大的概述。>0.8的值是最好的,<0.5需要采取补救措施。要么删去一些违法变量,要么引入一些和违法变量有联系的变量。现在是103页\一共有137页\编辑于星期五因子载荷量,阐明各xi的方差在各主成份上的载荷,系数的绝对值较大的变量与相应因子的相关度较强,m个公共因子对第i个变量的贡献,称为第i个共同度(communality)或共性方差,共性方差>0.5。它是各f对xi的决定系数。其值越大,xi对各f的依赖性愈大。现在是104页\一共有137页\编辑于星期五第一类反应了物质和社会条件,第二类反应了播种面积,第三类反应了萌发期的温度,第四类反应的是降雨量。方差最大正交旋转:可使每个因子上的具有最大载荷的变量数最小,因此可以简化对因子的解释。或者说使因子负荷两极分化,要么接近于0,要么接近于1。如果公共因子仍然没有明显的意义时,可以进行斜交变换(R=promax)。表达式:x1’现在是105页\一共有137页\编辑于星期五

因子得分模型同时也是主成分分析的结果。为了使公因子到表达式的左边,从而进行转置。例如:F1=-0.19x1’+0.01x2’+0.10x3’+0.15x4’+0.27x5’+0.26x6’+0.34x7’+0.13x8’+0.05x9’现在是106页\一共有137页\编辑于星期五现在是107页\一共有137页\编辑于星期五八、因子分析应用的注意事项应用条件(1)变量是计量的,能用线性相关系数(Pearson积叉相关系数)表示它们之间的相关性。(2)总体的同质性现在是108页\一共有137页\编辑于星期五样本量没有估计公式。至少要保证样本相关系数稳定可靠。因子数目一般认为,累积贡献要达到80%以上。但要注意Heywood现象。Heywood现象:公因子方差(共同度)总是在0和1之间,等于1为Heywood现象。原因:模型不正确的设定;存在异常值;当样本数过小,且含少于3个观测变量的潜在变量。现在是109页\一共有137页\编辑于星期五主成份分析与因子分析的联系及区别1.获得新变量(主成分变量或公因子变量),达到减少分析指标数并概括原始指标主要信息的目的。主成分分析将m个原始变量提取k(k≤m)个互不相关的主成份;因子分析是提取k个支配原始变量的公因子和1个特殊因子,各公因子之间可以相关或不相关。2.提取公因子的方法主要有主成份法和公因子法,若采用主成分法,则主成份和因子分析等价。3.因子分析提取的公因子比主成分分析提取的主成份更具有可解释性。4.两者分析的实质及重点不同。5.主成分分析表达式左边是隐变量,右边是原变量,因子分析正好相反,左边是原变量,右边是隐变量。现在是110页\一共有137页\编辑于星期五聚类分析按照一批样本(或指标)的亲疏程度进行分类分析,分类的途径是确定样本或变量间的距离或相似系数。四个聚类过程

1.系统聚类:CLUSTER,应用最广

2.动态聚类:FASTCLUS,用于大样本分析

3.对变量进行系统聚类或动态聚类:VARCLUS4.TREE过程。现在是111页\一共有137页\编辑于星期五聚类分析无处不在谁是银行信用卡的黄金客户?利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”!这样银行可以……制定更吸引的服务,留住客户!比如:一定额度和期限的免息透资服务!苏宁电器的贵宾打折卡!在他或她生日的时候送上一个小蛋糕!现在是112页\一共有137页\编辑于星期五聚类分析原理介绍聚类分析中“类”的特征:聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分;聚类的数目和结构都没有事先假定。现在是113页\一共有137页\编辑于星期五聚类分析原理介绍聚类方法的目的是寻找数据中:潜在的自然分组结构astructureof“natural”grouping感兴趣的关系relationship现在是114页\一共有137页\编辑于星期五聚类分析原理介绍什么是自然分组结构Naturalgrouping?我们看看以下的例子:有16张牌如何将他们分为一组一组的牌呢?AKQJ现在是115页\一共有137页\编辑于星期五聚类分析原理介绍分成四组每组里花色相同组与组之间花色相异AKQJ花色相同的牌为一副Individualsuits现在是116页\一共有137页\编辑于星期五聚类分析原理介绍分成四组符号相同的牌为一组AKQJ符号相同的的牌Likefacecards现在是117页\一共有137页\编辑于星期五聚类分析原理介绍分成两组颜色相同的牌为一组AKQJ颜色相同的配对Blackandredsuits现在是118页\一共有137页\编辑于星期五聚类分析原理介绍分成两组大小程度相近的牌分到一组AKQJ大配对和小配对Majorandminorsuits现在是119页\一共有137页\编辑于星期五聚类分析原理介绍这个例子告诉我们,分组的意义在于我们怎么定义并度量“相似性”Similar因此衍生出一系列度量相似性的算法AKQJ大配对和小配对Majorandminorsuits现在是120页\一共有137页\编辑于星期五聚类分析原理介绍相似性Similar的度量(统计学角度)距离Q型聚类(主要讨论)主要用于对样本分类常用的距离有(只适用于具有间隔尺度变量的聚类):明考夫斯基

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论