版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、SPSS操作中的各种检验统计量和判别准则(冯登超整理2011 3.16 3.25 )专题一回归分析1 一元线性回归分析(Analyze-Regression, Linear)(1)拟合优度检验:检验样本数据聚集在样本回归直线周围的密集程度,从而判断回归方程对样本数据的代表程度。拟合优度用判定系数R2实现。0 : R2 : : : 1。R2越接近1,说明回归直线的拟合程度越好。R2越接近0,说明回归直线的拟合程度越差。(2)回归方程的显著性检验(F检验)回归方程的显著性检验是对因变量和所有自变量之间的线性关系是否显著的一种假设检验。如果零假设 H成立,H。: 1。=二=0,说明回归总体是无显著线
2、性的,即所有自变量对y没有显著的线性作用;反之说明回归总体存在线性关系。若F值大于临界值Fa (1,n 2) ,p :泪(显著性水平),则拒绝原假设(回归总体无显著线性关系),接受被选假设。若 F值小于临界值Fa (1 ,n2) , p . a (显著性水平),接受原假设,回归总体有显著线性关系。即 在 ANOVA表中,若 Sigv0.05,有显著差异,(Ho假设 为x,y之间无显著线性关系),说明自变量 x和因变量y之间确实有线性 回归关 系。回归方程的显著性检验只能检验所有回归系数是否与零有显著性差异,若无显著性差异,则接受零假设,回归总体不存在线性关系。 回归系数的显著性检验(t检验)回
3、归系数显著性检验一般采用t检验方法。如果双侧t检验中,t的绝对值大于临界值(或者(pa),则接受原假设,说明x对y没有显著影响。在一元线性回归分析中,回归方程的显著性检验可以代替回归系数的显著性检验,并且F=t2。但是,在一般的多元回归条件下两种检验要说明的问题不同,作用不同,不能相互替代。在Coefficients 表中,t为回归系数检验统计量,Sig为相伴概率值p。若 pv0.05,说明回归系数和0有显著差别,说明该回归方程有意义。在Use probalitity of F:当一个自变量的 F统计量的相伴概率值 Sig=0.10时,不能拒绝Ho,认为该变量对因变量的影响是不显著的,应从回归
4、方程中剔除。在Use F value中,表示以回归系数显著性检验中的各自变量的F统计量作为自变量进入模型或从模型剔除的准则。在变量的选择/剔除中,Entry (默认值3.84),表示当一个变量的F值=3.84时,该变量被选入模型;Removal (默认值2.71),表示当一个变量的F值=2.71时,该变量从模型中被剔除。2.多元线性回归分析研究两个或两个以上自变量对一个因变量的数量变化关系。(1)拟合优度检验2 20 :二R2 a,接受原假设H0,认为该回归系数与零无显著差异,该自变2量与因变量之间不存在显著的线性关系,它的变化无法反映因变量的线性变化,应该剔除出回归方程中。Analyze-R
5、egression-Linear Regression, 在 Correlations 表中,可以分析 各个变量之间的相关系数。相关系数越大,说明各变量越相关。Model Summary 表中, 分析R,R square,利用该值看样本回归效果。该值越 大,说明样本数据和回归方程的拟合度越高。即分析样本的回归效果。Anova表,(方差分析表),利用统计量F和相伴概率Sig,同时分析多个自变量 和因变量之间是否存在线性回归关系。Coefficients回归系数表,利用t分布的Sig值分析全部自变量和因变量之间是否存在显著线性关系。Residuals Statistics 表,分析各个残差结果。3
6、,非线性回归分析研究在非线性相关条件下,自变量对因变量的数量变化关系。其中,多项式模型在非线性回归分析中占据重要地位。当因变量和自变量之间的关系未知时,可以用适当幕次的多项式近似反映。在Graphs菜单中的 Correlate中选择 Scatter命令, Simple Scatterplot,观察散点 图, 初步决定是哪些曲线比较合适。(2)进一步判断筛选后的这些曲线中,哪种与样本观察值的拟合优度更高。利用R2分析各个曲线的拟合优度,该值越大,说明该值对应的曲线拟合优度更高。最后,再观察几种曲线预测值的曲线图,观察各类型曲线的拟合效果。最终,确定一种曲线方程。4.曲线估计当不知道该选择哪种函数
7、模型更接近样本数据时,采用曲线拟合。方法:先根据实际问题,同时选择多种模型。(2)计算R2、F检验值、相伴概率Sig。 (3)选择具有R2统计量值最大的模型作为此问题的回归模型,并作些预测Analyze-Regression-Curve Estimation, 观察 Curve Fit 表中的 R2值,分析比较后,选择该值最大的曲线模型最合适。再观察其观察值和各种函数模型条件下预测值的对比图,分析各种曲线,看看哪种曲线对观测值的拟合优度更好。然后,在输出的FIT_1 (选取曲线1时的预测结果值)、Err_1 (曲线1下的残差卜LCL_1 UCL_1为预测值95%的可信区间的下 限和上 限。别的
8、曲线类似。在Display ANOV A 表中,做回归方程的显著性检验,观察 t分布下对用的Sig值。若Sigv0.05,说明显著相关。5时间序列的曲线估计时间序列曲线估计是分析社会和经济现象中常用的一种曲线估计。通常把时间设为自变量,代表具体的经济或社会现象的变量设为因变量。Analyze-Regression-Curve Estimation ,将应变量Y 选入 Dependent 中,其他选入Independent 中,同时选中 Time 项。再选中多种曲线模型,分析Curve Fit表中的R2,取得R2值最大的曲线(说明该曲线的拟合优度最好)。同时,得到 FIT_1,FIT_2等值(不
9、同曲线函数对应的回归分析结果的预测值)。再输出曲线预测值的对比图。.含虚拟自变量的回归分析对于非数量型变量,如性别、季节等,回归模型的参数不再是固定不变的。计算时,先对定性变量做数量化处理,如 1 一男,0 一女。举例1,对于自变量只有一个定性变量,且定性变量只有两种特征时,回归模型 y = 一: o? x 2D1?;自变量中含有多个定性变量时,同时考虑定性变量及其之间的交互影响。y - -0D2 rDQ?: 4X1: 5X2;Analyze-Regression-Linear, y 选入 Dependent 中, 其它选入 Independent 中, 在 ModelANOVA表中,Summ
10、ary中,观察 R2值,该值越大,说明样本回归方程代表性越强。在观察F值和Sig值。若Sig0.05,说明自变量和因变量有线性回归关系。最后,观察Coefficients表,观察t分布的相伴系数 Sig。.若Sig值a ,接受零假设,说明在可接受的水平上的估计拟合了数据。Wald统计量:用于判别一个变量是否应该包含着模型中。Wald统计量大者(或Sig值小)显著性高,也就更重要。因此, Wald可以考察每个自变量在回归方程中的重要性。 TOC o 1-5 h z Analyze-regression-Binary Logistics, 在 Iteration History 表中,得至U 2L
11、L 的数值。在Classification Table 中,可以得出定性因变量的分类的准确性百分比;在ModelSummary 中,列出了 -2 LL, COX &Snell R square 和 Nagelkerke R Square 统计结果。Hosmer and Lemeshow Test 表中, 若S ig 0.05,说明在可接受的水平上的估计拟合了数据。Iteration History 表格中,列出各个步骤的回归结果系数;在Classition Table 中,可以分析定性应变量的准确性。 在Variables in the Equation 中,可以看出 Wald数据和 Sig.
12、Wald 数据值越大,说明该自变量在回归方程中越重要。Correlation Matrix表格中,列出各个系数和常数的相关性。数值越大,也就越相关。Casewise List中,列出残差较大的个案,标记 *,说明该个案的回归结果错误。专题二相关分析衡量事物之间、变量之间线性相关程度的强弱并用适当的统计指标表示,即为相关分析。常用方法为绘制散点图(该方法不精确)准确描述变量之间的线性相关程度 -相关系数。样本相关系数r取值范围在_1,T 其中,(1)若0 : r Correlate - Bivariate,选中双侧检验(Two-tailed ),可以检验两个变量之间的相关取向(正相关/负相关)。
13、在 Correlations中,检查r值以及对应的Sig值。如果Sig兰0.01 ,说明两变量间显著相关。若对变量间的相关程度不需要掌握的太精确,可以通过绘制变量的相关散点图直接判 断。Graphs-Scatter-Simple ,观察散点图,看看是否存在线性相关。二元定序变量的相关分析定序变量又称顺序变量,它的取值大小能够表示观测对象的某种顺序。Spearma n和Kendall tua-b等级相关系数用以衡量定序变量之间的线性相关关系。在Spearman等级相关系数的统计检验中,若个案数 n 30,将计算Z统计量(Z 近似服从正态分布),SPSS将给出正态分布表对应的相伴概率。在Kenda
14、lls tua-b等级相关系数的统计检验,若个案数n _ 30直接利用Spearman计 算(查Kendall stua-b等级相关统计量表,SPSS自动根据该表给出 Sig),若个案数30,将计 算Z统 计量(Z近似服从正态分布),SPSS将给出正态分布表对应的相伴概率。Analyze-Correlate -Bivariate,对于得至U 的 Nonparametric Correlations 表,观察相关系数和Sig.若如果Sig Correlate - Partial Partial Correlations ,将需要剔除的变量选入ControllingFor对话框中。选择 Two-t
15、ailed检验。在输出的 Partial Corr表中,将显示变量两两之间的Pearson简单相关系数,然后显示便相关分析结果,包括去除剔除了变量后的二变量的偏相关系数,Sig。对于有多个相关变量时,简单相关系数有夸大的成分,而偏相关系数更符合实际。如果Sig Correlate -Distances,可以选择变量之间的距离相关分析(Between variable )Measure栏中选择 Similarities相似性测距,点击 Measure按钮,在 弹出的 Dista nce:SimliarityMeasure, 再确定 In terval (定品巨变量),选择 Pears on co
16、rrelatio n 项。在Proximities表中,即Proximity Matrix表中,可以看到各个变量之间的相关系数(Peraso n相关系数)(2)变量之间的不相似性测量分析Analyze-correlate -distanee. Measure 中选择 Dissimilarities ,单击 Measure 按钮,选 Interval,并选择Euclidean distanee项,不对变量做标准化处理。在Proximity Matrix 表中,看到 Euclidean Distanee 距离值越大,说明变量间的相似性越小。(3)个案之间的相似性测量分析Analyze-correl
17、ate-distanee,选择between cases(做个案之间的距离相关分析),选择 Simliarities ,做相似性测量。Measure 中选择 Interval 中的 Pearson correlatior 。在Proximity Matrix表中,看到Peras on系数值,值越大,说明变量间的相似性越大。(4)个案之间的不相似性测量分析Analyze-correlate-distanee,选择 between cases,(做个案之间的距离相关分析)选择 Dissimliarities ,做相似性测量。 Measure 中选择 Interval 中的 Pearson corr
18、elation.在Proximity Matrix 表中,看到 Euclidean Distanee 距离,距离越小,说明变量间的相似 性越 大。专题3方差分析方差分析的基本思想方差分析是用于两个以及两个以上样本均数差别的显著性检验是:通过分析研究中 不同变量的变异对总变异的贡献大小,确定控制变量对研究结果影响力的大小。通过方差分析, 分析不同水平得控制变量是否对结果产生了显著影响。如果控制 变量的不同水平对结果产生了显著影响,那么它和随机变量共同作用,必然使得结果有显著 变化;如果控制变量的不同水平对结果没有显著的影响,那么结果的变化主要是由随机变量起作用,和控制变量的关系不大。根据控制变量
19、的个数,可以将方差分析分为单因素方差分析(只有一个控制变量)和多因素方差分析(多个控制变量)。单因素方差分析 单因素方差分析测试某个控制变量的不同水平是否给观察变量造成了显著差 异。对于 两组以上的均数比较,必须使用方差分析(当然方差分析也可以用于两组均数比较。方差分析一个严格的前提条件:在不同水平下,各总体均值服从方差相同的正态分布。计算采用F统计量,进行F检验。 若控制变量的不同水平对观察变量有显著影响,那么观察变量的组间离差平法和必然大,F值也就比较大; 若控制变量的不同水平没有对观察变量造成显著影响,则组内离差平方和影响会比较大,F值比较小。SPSS依据F分布表给出相应的相伴概率值 S
20、ig。若Sigva (显著性水平),就拒绝零假设,认为控制变量再不同水平下各总体均值有显著差异;反之认为无显著差异。判别准则 Analyze-Compare Means-One-way Anova, 在 option 中利用 Homogeneity of variancetest做方差相等检验。若Sig小于或等于显著性水平a,拒绝零假设,认为各水平下总体方差不等。若Sig大于显著性水平a,接受零假设,认为各水平下总体方差相等。该步骤仅能判别出控制变量的不同水平是否对观察变量差生了显著影响。若想进一步了解究竟是那一组和其他组有显著的均值差别,需要在多个样本均数间两两比较。(方差分析的前提是各个水
21、平下的总体服从方差相等的正态分布,其中正态分布的要求不是很严格,但是对于方差相等的要求比较严格)Post Hoc One-way ANOV A: Post Multiple Comparisons ,可以 选择多种比较方法 。选 择LSD和S-N-K显著性检验法。接着可以进行单因素方差分析的多项式检验(即 将组间平方和分解为线性、 高次多项式,在方差分析结果中,可以输出组间平方和,还可以显示组 间平方和的各个分解结果以及F统计量和相伴概率。在 Polynomial选项中,在 Degree下拉框中指定Lin ear,做线性分解。(组间平方和作线性分解,实质上是对结果和控制变量进行一次线性回归分析
22、,计算回归平方和,并对回归方程进行检验,给出F统计量和相伴概率Sig。若Siga (显著性水平),说明控制变量的各个观察水平无法反映结果的线性变化,即认 为控 制变量的不同水平对结果的线性影响不显著;反之,认为结果随着控制变量的不同水平的变化产生了线性变化。 输出结果表格:Test of Homogeneity of Variances ,检查 Sig 值,若果 Siga (a-0.05 ,显著性水平),认为 各个组总体方差相等,满足方差检验的前提条件。ANOVA表,Between中方差检验的F值及相伴概率 Sig。若Siga (a=0.05,显著性水 平), 拒绝零假设,说明 各水平中至少有
23、一个水平和别的水平有明显区别,或者各个水平间 都存在显著区别。表中还可看到总的离差平方和 Total Sum of Square ;控制变量不同水平造 成的组间平方和(Between (Combined ) Sum of Squares ),其中能被线性解释的平方和(Linear Term,Constrast , sum of squares ),不能被线性解释的平方和Divation ;随机变量造成的组内平方和( Within Groups Sum of Squares )。在Multiple Comparisons 表中,LSD (最小显著差法)多重比较结果,可以分析各组的 Sig值,若S
24、iga ,则各组之间存在显著差别。在 S-N-K法多重比较(通常在方差分析拒绝H0时用SNK q),观察Sig.多因素方差分析 多因素方差分析中的控制变量是在两个或两个以上,研究目的是分析多个控制 变量的 作用、多个控制变量的交互作用以及其它随机变量是否对结果产生了显著的影响。它将观察变量总的离差平方和分解为:多个控制变量单独作用引起的平方和、多个控制变量 交互作用引起的离差平方和;其它随机因素引起的离差平方和。采用F检验,其零假设 H0为多个控制变量的不同水平下,各总体均值没有显著差异。若F控制变量i的相伴概率Sig=a ,则第一个控制变量的不同水平对观察变量产生了显著影响;F控制变量2的相
25、伴概率Sig=a ,则第2个控制变量的不同水平对观察变量产生了显著影响;F控制变量1,2的相伴概率SigGeneral Linear Model 中,选择 Univariate 命令,将观察变量 y 选入 Dependent Variable(应变量),将其它控制变量 x选入Fixed Factor 。首先利用Homogeneity tests对个水平下总体进行方差相等的检验。上述步骤只能判别两个控制变量的不同水平是否对观察变量产生了显著影响。若想进一步了解究竟是哪个组和其他组有显著的均值差别,需要进行多样本均数间的两两比较。按 如下步骤,即:在 Post Hoc-Univariate:Pos
26、t Hoc Multiple Comparisons for Observed Means对话框,选择 需要进行比较分析的制变量,如“ GROUP变量”,将其添加到Post Hoc Tests for对话框中,然后选择比较方法。如 LSD和SNK显著性检验法。在 MODEL中,可以选择 FULL factorial模型,即将 观察变量的总的变异平方和分解为多个控制变量对观察变量的独立作用部分、多个控制变量交互作用部分,以及随机变量影响部分。选择 Plots 按钮, 打开 Univariate:Profile plots 对话框,在 factor 中, 选择 Profile plots 对话框中
27、的内容。若各个控制变量间没有交互作用,各水平对应的图形近似乎行,否则相交。然后,选择 Contrasts ,再选择Contrasts对话框中的内容,可以对控制变量在各个水平 上的观 察变量的差异进行对比检验。结果表格分析Leven s Test of Equality of Error V ariances 表格,它是采用 Homogeneity of variance test 计算结果,观察 Sig,若Sig0.05 ,认为各个组的总体方差相同。Tests of Between-Subjects Effects 表。该表是多因素方差分析的主要部分。采用建立 饱和模型,可以得到各组别及其交互
28、作用的Sum of Square ,观察对应的F值及Sig值。若Sig0.5,说明控制量对观察结果无显著影响。对于随机变量影响Error,分析sig.(3)对于Contrast Results( K Matrix),观察各组别间的相伴概率 SIG, 若低于显著性水 平, 则各组间的差异显著。(4) Post Hoc Tests 。在 Multiple Comparisons 中,可以看各水平的 Sig,分析是否显著。(5)最后观察Profile Plots图。若各直线之间近似平行,说明没有显著交互作用。3.3协方差分析 协方差分析是将那些很难控制的因素作为协变量,在排除协变量影响条件下,分析
29、控 制变量对观察变量的影响,从而更准确的对控制因素进行评价。协方差将那些很难控制的随机变量作为协变量,在分析中将其排除,在分析控制变量对观察变量的影响,实现对控制变量效果的准确评价。协方差分析要求协变量是连续数值型,多个协变量间相互独立,且与控制变量之间无交互影响。协方差分析中既包含定性变量(控制变量),又包含定量变量(协变量)。采用F分布,给出相应的相伴概率值Sig。若F控制变量的相伴概率Sig=a (显著性性水平),则控制变量的不同水平对观察变量产生显著影响。若F协变量的相伴概率SigGeneral Linear Model-Univariate ,将观察变量放入 Dependent Va
30、riable 中,将 控制变量放入 Fixed Factor中,将协变量放入Covariate中。Tests of Between-Subjects Effects 表,是协方差分析计算的结果。总的离差和Total Sum ofSquare ,各个控制变量和协变量的Sum of Squares 计算值,F值及Sig。若控制变量 Sig值a,说明控制变量对观察变量造成显著影响;若协变量的Sig值Compare Means ) 选择 Mean.将观测变量 y 放入 Dependent list 中,将分 组变量放入 Independent list 中,在 STATISTICS FOR First
31、 Layer 中,若选中 Anova 他病 了安定 eta ,则将为第一层次的分组计算防擦和分析。单一样本T检验单样本T检验是检验某个变量的总体均值和某指定值之间是否存在显著差异。统计的前提是样本总体服从正态分布。单样本T检验的零假设是 H0总 体均值 和指定检验值 之间不存在显 著差异。若SIGCompare Means-One-Sample T test , 将固定值填入 Test value ,将观察变 量 加入到 Test variable 中。On e-Sample Teast 表中,95% con fide nee in terval of the differe nee 包括 9
32、5% 的置信区间。 Sig a ,说明不能拒绝 HO,认为样本均值和总体均值无显著变化。两独立样本T检验独立样本是指两个样本之间彼此独立,没有任何关联。两个独立样本各自接受相同的测量,研究的目的是了解两个样本之间是否存在显著差异。前提:两个样本相互独立;样本来自的两个总体服从正态分布。两独立样本T检验的零假设HO:两总体均值之间不存在显著差异。计算过程(1)利用F检验判断两总体方差是否相同;即 采用Levene F方法检验两总体方差是否相同。利用 F统计量,根据Sig和显著性 水平a 比较。 若Siga ,说明存在显著差异,即方差不相同。(2)根据第一步结果,进行T检验。若待检验的两样本均值差
33、异小,t值较小,则说明两个样本的均值不存在显著差异;反之,t值越大,说明两样本均值存在显著差异。止匕外,若SigCompare Means-lndependent-samples ,将观察变量力入Test Variables ,在Define Groups 按钮中,一 use specified values.Independent samples test 表中,观察 F检验的 Sig值,T检验的 Sig值。两配对样本T检验根据样本数据对样本来自的两配对总体的均值是否有显著性差异进行推断。一般用于同一研究对象分别给予两种不同的处理的效果比较,以及同一研究对象处理前后的效果比较。前者推断两种效
34、果有无差别,后者推断某种处理是否有效果。T检验的零假设 HO是两总体均值之间不存在显著差异。若T检验的t值对应的SigCompare Means-Pared-Samples T test ,将配对变量加入 Paired Variables 中。Paired Samples Test表中,将分别分析t值和Sig值,确定配对样本是否有显著差异。若有,说明经过技术革新后,结果有效果。专题5统计描述1叫彳t Mean :表示某变量所有取值的集中趋势或平均水平。均值标准误差(S.E.mean ),描述样本均值和总体均值之间平均差异程度的统计量。 Analyze-Descriptive Statistic
35、s ,选择 Frequence-Statistics 。.中位数(Median ):把一组数据按递增/减的顺序排列,处于中间位置的变量值就是中位数。它代表一种位置,不会受到极端数值的影响,具有较高的稳健性。若N为偶数,中位数是N/2和N/2+1位置上的两个数值的平均数。Analyze-Descriptive Statistics , Frequencies。选择 Median。.众数(Mode ): 一组数据中出现次数最 多的变量 值。众 数描述数 据的集中 趋势。Analyze-Descriptive Statistics , Frequencies。.全距(Range ):数据的最大值和最
36、小值之间的绝对差。在相同样本容量下的两组数据, 全距大的一组数据会比全局小的一组数据更分散。An alyze-Descriptive Statistics , Freque ncies.方差(Variance )和标准差 (Standard Deviation ):方差和标准差越大,说明变量之间的差异越大,距离平均数这个中心的离散趋势越大。An alyze-Descriptive Statistics-Descriptives.四分位数(Quartiles )、十分位数(Deciles )、百分位数(Percentile? 。Q3到Q1的距离 的一般称为四分位差。四分位差越小,说明数据越集中。
37、若n+1恰好不是4的倍数,则四分位数是与该数的小数相邻的两个整数位上的标志值的平均数,权数取决于整数位的距离,越近,权数越大。如 2.75项,贝U Q1=0.25*第2项+0.75 X第3项。An alyze-Descriptive Statistics-Freque ncies.频数Frequency: 一个变量在各个变量值上的个案数。它可以得到变量取值的分布情况。An alyze-Descriptive Statistics-Freque ncies8峰度(Kurtosis ):峰度是描述某变量所有取值分布形态陡缓程度的统计量。峰度为0说明数据分布和正态分布的陡缓程度相同;峰度大于0表明比
38、正态分布的高峰更陡峭,为尖峰。峰度小于0,说明比正态分布的高峰平坦,为平顶峰。8偏度(Skewness ):描述变量取值分布的对称性。该统计量是与正态分布比较的量。偏度 =0,说明 数据分布形态与正态分布的偏度相同;偏度0,为正偏或右偏,即有一条长尾巴拖在右边;偏度小于 0,表示负偏或左偏,有一条长尾巴拖在左边。而偏度的绝对值数值越 大表示分布形态的斜偏程度越大。x P10标准化Z分数:计算公式Zo将原始数据直接转换为Z分数,常常出现负数和cr带小数点的值。对 Z分数进一步转换,使之称为正数。T分数。T =10Z50 .An alyze-Descriptive Statistics -Desc
39、riptives11探索分析:探索内容:首先检查数据是否有错误,然后获得数据分布特征;最后对数据规律进行初步观察。探索分析方法:获得统计量和图形。正态分布检验:Q-Q图。斜线为正态分布的标准线。方差的齐次性检验:Levene检验,若Sig 0.05,则拒绝方差相同假设。An alyze-Descriptive Statistics -Explore12.交叉联列表分析:检验的零假设:H0 :行列间彼此独立,不存在显著的相关关系。若SigWeight Cases,选择权重变量,在 Analyze-Descriptive Statistics Crosstabs ,选择 Statistics。13
40、多选项分析Analyze-Multiple Response, Define Sets,选中多选项变量,Variables are Coded As 选中编码方式。专题6聚类分析与判别分析人们认识某类事物时,往往先对这类事物的各个对象进行分类,以便寻找其中同于不 同的特征。统计学研究该类问题的分类方法有聚类方法和判别分析。聚类分析的实质是建立 一种分类方法,它能将一批样本数据按照它们在性质上的亲密程度,在没有先验知识情况下 自动分类。聚类分析是一种探索性的分析,在分类过程中,不必事先给出一个分类的标准,聚类分析方法不同,聚类数目也不同。 变量的聚类分析,采用层次式的判别方法,根据个别 变量的亲
41、疏程度逐次聚类。若观察值的个数多或文件庞大,采用快速聚类分析法。判别分析是对个案进行分类分析的方法,在分析时,组别的特征已知。层次聚类分析中的 Q型聚类层次聚类分析是根据观察值或变量之间的亲疏程度,将最相似的对象结合在一起,以逐次聚类的方式,将观察值分类,直到最后所有样本都聚成一类。层次聚类分析中,对样本(个案)进行分类,称为Q型聚类,它使具有 共同特点的样本聚齐在一起,以便对不同类的样本进行分析;另一种是对研究对象的观察变量进行分类,称为R型聚类,它使具有共同特征的变量聚集在一起,以便从不同类中分别选出具有代表性的变量作分析,从而减少分析变量的个数。层次聚类中,测量样本的亲疏程度是关键:一种
42、是样本数据之间的亲疏程度,一种是样本数据与小类、小类与小类之间的亲疏程度。样本数据之间的亲疏程度主要通过样本间的距离、样本间的相关系数来度量。(1)连续变量的样本距离测量方法:欧式距离Euclidean Distanee ,欧式距离平方Squared Euclidean Distanee , Chebychev距离(各个样本所有变量值之差的绝对值的最大值)。Block距离(各个样本所有变量值之差绝对值的总和);Minkowski距离(各样本所有变量值之差绝对值的p次方的总和,再求p次方根);Customized距离(各样本所有变量值之差绝对值的p次方的总和,再求q次方根);(2)连续变量的样本
43、亲疏程度的其他测量方法:Pearson相关系数,Sosine相似度(将样本各变量看作k维空间向量,然后计算各向量间夹角的余弦值。(3)顺序变量或名义变量的样本亲疏程度测量方法:Chi-square Measure ( 2统计量);2Phi-square measure (统计量)(4)样本数据与小类、小类与小类之间的亲疏程度测量方法:Nearest Neighbor最短据立法(以当前某一个样本与已经形成小类中的各样本距离的最小值作为当前样本与该小类之间的距离);最长距离法Furthest Neighbor (以当前某一个样本与已经形成小类中的各样本距离的最大值作为当前样本与该小类之间的距离);
44、类间平均链锁法Between-groups linkage(两个小类之间的距离为两个小类的所有样本间的平均距离)类内平均链锁法( Within-groups Linkage );重心法 Centroid Clustering(将两小类间的 距离定义成两小类重心间的距离。每小类的重心是该类中所有样本在各个变量上的均值代表点);离差平方和法 Ward Method (聚类中,使小类内各个样本的欧式距离总平方和增加最小的小类合并为一类。Analyze-Classify - Hierarchical Cluster,然后将聚类依据(即各个变量)拖入 Variable 中,把”编号添加到 Label c
45、ases by,输出图表如下:Proximity Matrix 表: 显示各样本的距离矩阵。Average Linkage (Between Groups )层次聚类的凝聚状态表。其中,第一列 stage表示聚类步骤;第2列第三列Cluster combined表示某步聚类分析中,哪两个样本或者类聚成了一类。第四列 Coefficients表示两个样本或类间的距离。第5, 6列表示某步聚类分析中,参与聚类的是样本还是类,0-样本,n表示第n步聚类产生的类参与了本步骤类。第7列Nextstage ,表示本步聚类运算结果在下面聚类的第几步中用到了。Cluster Membership 表格, 是样
46、本层次聚类聚为 n类是,样本的归属情况。在Vertical Icicle表格,是层次聚类分析的冰柱图。冰柱图从表格的最后一行开始观察。Dendrogram表中,是层次聚类分析的树形图。层次聚类分析中的 R型聚类R型聚类是对研究对象的观察变量进行分类,它使具有共同特征的变量聚在一起。以便可以从不同类中分别选出具有代表性的变量做分析,从而减少分析变量的个数。R型聚类是 对变量间进行距离计算。Analyze-Classify-Hierarchical cluster,在变量列表中选中观察变量,添加到 Variable 中。Case Processing Summary R型聚类分析结果,Proxim
47、ity Matrix 表一层次聚类分析 各变量的距离矩阵。若设置样本间距离公式采用Pearson相关分析,则距离有正负之分。AverageLinkage (Between Groups ) 表中, Agglomeration achedule , 分析每次聚类步骤Cluster Membership中,看到将变量层次聚类为n次时的各个变量归属情况Vertical Icicle : 层次聚类的冰状图。快速聚类分析 大样本情况下,采用快速聚类分析方法。它采用由用户指定类别数的大样本资料逐 步聚类分析。先对数据进行初始分类,然后逐步调整,得到最终分类,即K-Mean聚类。快速聚类分析也是以距离为样本
48、间亲疏程度的标志。层次聚类可以对不同的聚类类数产生一系列的聚类解,而快速聚类只能产生固定类数的聚类解,类数需要用户事先指定。快速聚类中,用户可以自己指定初始的类中心点。若用户经验丰富,可以指定比较合 理的初始类中心点,否则需要增加迭代的次数,保证最终聚类结果的准确性。重点是计算 Euclidean Distance 。Analyze-Classify-K-means Cluster ,输出结果中,Initial Cluster Centers 表: 指定需要快速聚类成n类的n个初始聚类中心。Iteration History表:快速聚类分析的迭代历史过程表。Cluster Membership
49、 表:快速聚类分析后的各个类包含样本的情况。Final Cluster Center表:快速聚类分析最终的类中心点位置。Distances between final cluster centers 表: 最终的类中心之间的欧式距离。ANOVA表:快速聚类分析后形成的各类样本间的单因素方差分析结果。F统计量和SIG值。若SIG值Classify-Discriminant,将预测变量填入 Independent中,选中 分类变量,填入 至11grouping variable 中,再指定其因变量的范围。Analysis case processing summary系统个案分析结果统计表。在 G
50、roup statistics 中,给出 组另U的统计信息。在Test of equaility of group means 中,将组别 group变量为自变量, 以原预测变量维尔因变 量, 分析预测变量在 3个不同group中的平均数差异型。利用 SIG和F值,分析各变量在 不同组中的 平均数差异是否达到显著水平。Pooled within-groups matrices 表:观察各变量的相关性和方差。Covariance Matrices 表:组间的协方差矩阵Box s Test of Equality of covariance matrices , Test results 组共变异
51、数相等的假设检验。分析 SIG. 若SIG0.01 ,达到显著性水平,说明 n组样本共变异数不相等,不符合判别分析的假设。Eigenvalues中,列出两个判别函数,判别函数特征值Eigenvalue越大,说明该函数越具有区别力。Wilks lambda :两个判别函数的显著性检验,观察 SIG,若SIG0.01 ,说明两个函数均达到显著性水平。Standardized Canonical Discriminant function coefficients:两个判另 U函数的标准化系数StructureMatrix表,即结构矩阵,是变量和判别函数的组内相关矩阵。相关系数越大,说明该变量对判别
52、函数影响越大。Functions at group centroids表:列出未标准化的两个判别函数系数,得到两个未标准化的判别函数。Prior Probabilities for Groups:列出每一组事前的概率值。Classification function coefficients : 采用 Fisher准则,得到 Fisher判别函数。在观察值分组时,将每一个观察值带入 n个组的Fisher判别函数, 以函数的大小作比较, 函数值最大的, 表明 该观察 值属于该组。Casewise Statistics表:表的2列为实际分组号,第 3列为预测分组号。最后两列列出了两个判别函数在个案
53、上的取值。Canonical Discriminant Functions ,即两个判别函数在各个个案上的得分坐标。Classificationresults ,分类结果矩阵。对角线为预测准确的数。专题7因子分析许多变量之间存在一定的相关关系,因此可以用较少的综合指标分析存在于各变量中的各类信息,而各综合指标之间是不相关的,代表各类信息的综合指标称为因子。因子分 析就是用少数几个因子描述许多指标或因素之间的联系,以较少几个因子反映原资料的大部分信息的统计学方法。因子分析特点:因子变量数量远少于原有指标变量的数量,对因子分析能够减少分析中的计算工作量;因子变量不是对原有变量的取舍,而是根据原始变
54、量的信息进行重新组够,它能反映原有变量的大部分信息。因子变量之间不存在线性相关关系;因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。即Xi在第j个公共因子变Xi的总方差解释说明比因子载荷a八(第i个原有变量和第j个因子变量的相关关系,量上的重要性)的绝对值越大,公共因子Fj和原变量为关系越强。变量共有度(公共方差):反映全部公共因子变量对原有变量例。乂用勺共同度为因子载荷矩阵A中第i行元素的平方和。若大部分变量的共同度都高于0.8 ,说明提取出的公共因子几本反映了各原始变量80%以上的信息。各个变量的共同度是衡量因子分析效果的一个指标。公共因子Fj的方差贡献反映了该因子对所有
55、原始变量总方差的解释能力,其值越高,说明因子重要程度越高。因子分析的基本步骤:(1)确定待分析的原有若干变量是否适合于因子分析;(2)构造因子变量;(3)利用旋转使得因子变量更具有解释性;(4)计算因子变量的得分。确定待分析的原有若干变量是否适合于因子分析。因子分析是从众多的原始变量中构造出少数几个具有代表意义的因子变量。潜在要求:原变量之间要有较强的相关性。因此需要对原变量做相关分析。若相关系数矩阵进行统计检验中,大部分相关系数都小于0.3 ,并且未通过统计检验,那么这些变量不适合进行因子分析。主要的统计检验方法Bartlett Test of Sphericity 巴特利特球形检验。它以变
56、量的相关系数矩阵为出发点,H0假设:相关系数矩阵是一个单位阵(对角线上元素值为1,其它为0)。它的统计量是根据相关系数矩阵的行列式得到的。若该值较大,且 Siga,接受零假设,认为相关系数矩阵可能是单位矩阵,不宜做因子分析。Anti-image correlation matrix 反映像相关矩阵检验。将偏相关系数矩阵的每个元素取反。篇相关系数是在控制了其他变量对两变量影响的条件下计算出来的相关系数。若各个变量间存在较多的重叠影响,则偏相关系数较小。因此,若 反映像相关矩阵中有些元素的绝对值比较大,则说明这些变量不适合做因子分析。KMO(Kaiser-meyer-olkin) 检验。用于比较变
57、量间简单相关和篇相关系数。若KMO值越接近1,所有变量之间的简单相关系数平方和远大于篇相关系数平方和,因此越适合因子分析。若 KMO越小,越不适合彳因子分析。0.9KMO:非常适合;0.8KMO0.9:适合;0.7KMO0.8, 一 般;0.6KMO0.7:不太适合; KMOData reduction-Factor ,在 Factor Analysis 对话框中,选择各个变量,加入 variable 中。Correlation Matrix 表:各原始变量的相关矩阵。Inverse of correlation Maxtrix ,相关系 数矩阵的逆矩阵。在KMO and Bartlett T
58、est表中,观察 KMO值,若小雨0.6,则不太适合因子分析。Bartlett球度检测,若Sig0.05 ,拒绝H0假设,认为适合因子分析。在 Anti-image Matrice表中,反映像相关矩阵检验结果,若某些值比较大,说明这些变量可能不太适合因子分析。在Communalities中,为因子分析初步结果。第二列是初始解出的变量共同度Initial。在第三列Extration是根据因子分析最终计算出的变量共同度。因为因子变量个数小于原始变量的个数, 因此每个变量的共同度必然小于1.数值用于说明能被 m个因子变量解释的方 差。Total variance explained 表是因子分析后因
59、子提取和因子旋转的结果。其中,Component列和Initial Eigenvalues列描述了因子分析初始解对原有变量总体描述情况。第 2歹!J(% of Varianee )是因子 变量的方差贡献(特征值)。它是衡量因子重要程度的指标。第3列是各因 子变量的方差贡献率(of variance ),表示该因子描述的方差占原有变量总方差的比例。第 四列是因子变量的累计方差贡献率(Cumulative % ),表示前m个因子描述的总方差占原有变量总方差的比例。第 5-7列是按一定标准提取了3个公共因子后对原变量总体的描述情况。它们反映了原变量的大部分信息。第8-10列是旋转以后得到的因子对原变
60、量总体的刻画情况。在Scree plot公共碎石图中,横坐标为公共因子数,纵坐标为公共因子的特征值。可以 从图中观 察到特征值的明显变化区域。Component Matrix 表格,最终的因子载荷矩阵A。可以根据该矩阵,书写因子分析模型:x 仁 al x F1+a2*F2+。Rotated Component Matrix 根据设定的方法对因子载荷进行旋转。未经过旋转的载荷矩阵中,因子变量在许多变量上都有较高的载荷。经过旋转后, 第一个因子变量基本清楚 (按 照载荷特征值大小进行分析。在Component Transformation Matrix 中,输出因子旋转矩阵,说明因子提取方法是主成
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026四川泸州市天立学校教师招聘7人考试参考题库及答案详解
- 公司门禁系统管理方案
- 储能电站通风设计方案
- 2026浙江宁波市鄞州人民医院医共体明楼东胜分院编外人员招聘2人考试参考试题及答案详解
- 传统农耕地复垦方案报告书
- 乡村道路建设水土保持方案报告
- 初中物理教学中科学探究的教学课题报告教学研究课题报告
- 年产60万根轨枕生产基地建设项目水土保持方案报告表
- 2026年智能家居设备市场分析报告及消费者偏好
- 道路边坡复绿工程方案
- 政治文本翻译课件
- 互联网保险业务营销宣传管理细则考试题及答案
- 一年级下册数学乐考材料-遨游太空探索奥秘【课件】
- 2025年护肤品行业白皮书
- JG/T 286-2010低温辐射电热膜
- 学校老师闭环管理制度
- 军校心理测试题目及答案
- T/TMAC 048-2022城市轨道交通车站环境检测方法
- 《地中海贫血》课件
- 银行金融知识小课堂课件
- 中国超级工程丛书课件
评论
0/150
提交评论