




已阅读5页,还剩47页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
SASSAS系统系统用于多元统计分析的过程有:用于多元统计分析的过程有: qq多多变量分析变量分析-PRINCOMPPRINCOMP(主分量分析主分量分析), , FACTORFACTOR(因因 子分析子分析), , CANCORRCANCORR(典型相关分析典型相关分析), , MDSMDS(多维标度过程多维标度过程 ), , MULTTESTMULTTEST(多重检验多重检验), , PRINQUALPRINQUAL(定性数据的主分量定性数据的主分量 分析分析), , CORRESPCORRESP(对应分析对应分析); qq判别分析判别分析-DISCRIMDISCRIM(判别分析判别分析), , CANDISCCANDISC(典型判别典型判别 ), , STEPDISCSTEPDISC(逐步判别逐步判别); qq聚类分析聚类分析-CLUSTERCLUSTER(谱系聚类谱系聚类), , FASTCLUSFASTCLUS( K K均值快均值快 速聚类速聚类), , MODECLUSMODECLUS(非参数聚类非参数聚类), , VARCLUSVARCLUS(变量聚类变量聚类 ), , TREETREE(画谱系聚类的结果谱系图并给出分类结果画谱系聚类的结果谱系图并给出分类结果). . SAS 第五章第五章 SASSAS系统多元统计分析功能系统多元统计分析功能 5.1 5.1 主成分分析与主成分分析与PRINCOMPPRINCOMP过程过程 5.2 5.2 因子分析与因子分析与FACTORFACTOR过程过程 5.3 5.3 判别分析与判别分析与STEPDISCSTEPDISC、DISCRIMDISCRIM过程过程 5.4 5.4 聚类分析与聚类分析与CLUSTERCLUSTER过程过程 主成分分析主成分分析 (Principal Component Analysis)(Principal Component Analysis) qq为了全面系统地分析和研究某些社会经济问题,为了全面系统地分析和研究某些社会经济问题, 可能必须同时考虑许多存在一定内在联系和相互关可能必须同时考虑许多存在一定内在联系和相互关 联的经济指标,这些指标所反映的信息会有某种程联的经济指标,这些指标所反映的信息会有某种程 度的重叠,但去除变量又会导致某些信息的损失;度的重叠,但去除变量又会导致某些信息的损失; qq主成分分析主成分分析通过降维的方法,把相互关联的多个通过降维的方法,把相互关联的多个 变量转变成少数互不相关的新变量变量转变成少数互不相关的新变量(即主成分,也(即主成分,也 称为综合变量)称为综合变量),各主成分由原来变量的线性关系,各主成分由原来变量的线性关系 表示,其包含信息量的多少由各自的方差测定,主表示,其包含信息量的多少由各自的方差测定,主 成分的方差越大,所包含的信息量就越多。成分的方差越大,所包含的信息量就越多。 PRINCOMPPRINCOMP过程过程的主要功能:的主要功能: qq完成主成分分析;完成主成分分析; qq主成分的个数、名称及得分是否标准化均可由用主成分的个数、名称及得分是否标准化均可由用 户自己规定;户自己规定; qq输入的数据集可以是原始数据集、相关阵或协方输入的数据集可以是原始数据集、相关阵或协方 差阵等;差阵等; qq计算结果有:简单统计量、相关阵或协方差阵,计算结果有:简单统计量、相关阵或协方差阵, 从大到小排序的特征值和相应特征向量,每个主从大到小排序的特征值和相应特征向量,每个主 成分解释的方差比例、累计比例等;成分解释的方差比例、累计比例等; qq可揭示变量间的共线关系,若某特征值特别接近可揭示变量间的共线关系,若某特征值特别接近 于于0 0,则说明变量线性相关。,则说明变量线性相关。 PROCPROC PRINCOMPPRINCOMP DATA= OPTIONSOPTIONS ; VAR VAR 变量名列;变量名列; WEIGHT WEIGHT 变量名列;变量名列; FREQ FREQ 变量名列;变量名列; PARTIAL PARTIAL 变量名列;变量名列; BY BY 变量名列;变量名列; RUNRUN; PRINCOMPPRINCOMP过程过程的一般形式:的一般形式: PROC PRINCOMPPROC PRINCOMP过程的常用过程的常用选项选项有:有: OUT= 把计算的统计量存入指定的数据集;把计算的统计量存入指定的数据集; COVARIANCE(COVARIANCE(或或COV)COV) 指定以协方差矩阵为分析数据指定以协方差矩阵为分析数据 ,缺省则以相关系数矩阵为分析数据;,缺省则以相关系数矩阵为分析数据; N=N=正整数正整数 指定要保留的主成分个数;指定要保留的主成分个数; PREFIX=PREFIX=主成分名主成分名 为主成分命名,缺省则自动命名为主成分命名,缺省则自动命名 为:为:PRIN1,PRIN2,PRIN1,PRIN2,; STANDARD (STANDARD (或或STD) STD) 对各主成分进行标准化,使各主对各主成分进行标准化,使各主 成分的方差为成分的方差为1 1; NOINT NOINT 作协方差矩阵主成分分析或相关行列主成分作协方差矩阵主成分分析或相关行列主成分 分析时,各变量不对其平均数加以修正。分析时,各变量不对其平均数加以修正。 VARVAR语句语句 指定主成分分析中使用的变量;指定主成分分析中使用的变量; WEIGHTWEIGHT语句语句 对已输入的资料附加加权数据;对已输入的资料附加加权数据; FREQFREQ语句语句 表示变量的频数;表示变量的频数; PARTIALPARTIAL语句语句 除去特定变量的线性效果后,利用偏除去特定变量的线性效果后,利用偏 相关分析或者协方差矩阵进行分析;相关分析或者协方差矩阵进行分析; BYBY语句语句 按指定变量分类(需先排序)后,对按指定变量分类(需先排序)后,对 每一个分类进行主成分分析。每一个分类进行主成分分析。 PROC PRINCOMPPROC PRINCOMP过程的常用过程的常用语句语句有:有: 例例5.15.1 已知纽约上市的三只化学产业证券已知纽约上市的三只化学产业证券(AC(AC、DPDP、 UC)UC)和两只石油产业证券和两只石油产业证券(EX(EX、TE)100TE)100周的收益率调查周的收益率调查 资料。各证券的收益率依次用资料。各证券的收益率依次用X1X1、X2X2、X3X3、X4X4、X5X5表表 示示, ,且样本的平均收益率和相关矩阵且样本的平均收益率和相关矩阵R R如下,要求对证如下,要求对证 券收益率做主成分分析并解释主成分的意义。券收益率做主成分分析并解释主成分的意义。 data onedata one(type=(type=corrcorr) ); ; _type_=_type_=corrcorr ; ; inputinput _name_name_ $ x1 x2 x3 x4 x5 ; $ x1 x2 x3 x4 x5 ; cardscards; ; x1 1 . . . . x1 1 . . . . x2 0.577 1 . . . x2 0.577 1 . . . x3 0.509 0.599 1 . . x3 0.509 0.599 1 . . x4 0.387 0.389 0.436 1 . x4 0.387 0.389 0.436 1 . x5 0.462 0.322 0.426 0.523 1 x5 0.462 0.322 0.426 0.523 1 ; ; runrun; ; proc proc princompprincomp; ; runrun; ; 相关矩阵数据的输入方法相关矩阵数据的输入方法 输出结果:输出结果: (单位特征向量矩阵)(单位特征向量矩阵) 各各主成分标准化变量的线性系数主成分标准化变量的线性系数 对主成分意义的解释:对主成分意义的解释: qq从第一主成分的系数来看,从第一主成分的系数来看,均为均为0.450.45左右的正数左右的正数 表明表明5 5个标准化变量对该主成分具有同等的重要性,个标准化变量对该主成分具有同等的重要性, 并且均成正比关系,故可认为该主成分是反映并且均成正比关系,故可认为该主成分是反映“整整 个证券市场景气个证券市场景气”的综合指标;的综合指标; qq从第二主成分的系数来看,从第二主成分的系数来看,有关化学产业证券(有关化学产业证券( X1,X2,X3X1,X2,X3)的)的系数均为负,有关石油产业证券(系数均为负,有关石油产业证券( X4,X5X4,X5)的系数均为正,说明该主成分代表化学产业的系数均为正,说明该主成分代表化学产业 证券和石油产业证券的对立关系,故可认为该主成证券和石油产业证券的对立关系,故可认为该主成 分是反映分是反映“有关产业情报有关产业情报”的综合指标。的综合指标。 用用SAS/INSIGHTSAS/INSIGHT方式进行主成分分析方式进行主成分分析 选定数据集选定数据集 AnalyzeAnalyze Multivariate(Y X)Multivariate(Y X) 将各分析变量都选为将各分析变量都选为Y Y变量变量 OutputOutput 选中主成选中主成 分分析分分析(Principal Component AnalysisPrincipal Component Analysis)复选框复选框 OKOK. . 用用分析员应用分析员应用方式进行主成分分析方式进行主成分分析 选定数据集选定数据集 StatisticsStatistics Multivariate Multivariate Principal ComponentsPrincipal Components 选择分析变量选择分析变量 OKOK. . SAS 第五章第五章 SASSAS系统多元统计分析功能系统多元统计分析功能 5.1 5.1 主成分分析与主成分分析与PRINCOMPPRINCOMP过程过程 5.2 5.2 因子分析与因子分析与FACTORFACTOR过程过程 5.3 5.3 判别分析与判别分析与STEPDISCSTEPDISC、DISCRIMDISCRIM过程过程 5.4 5.4 聚类分析与聚类分析与CLUSTERCLUSTER过程过程 因子分析因子分析(Factor Analysis) (Factor Analysis) qq因子分析因子分析是主成分分析的推广,它通过少数几个不是主成分分析的推广,它通过少数几个不 可直接测量的、独立的、专业上有意义的公因子来说可直接测量的、独立的、专业上有意义的公因子来说 明相关变量之间复杂结构关系;明相关变量之间复杂结构关系; qq因子分析与主成分分析的不同:因子分析与主成分分析的不同:后者是寻找反映多后者是寻找反映多 个指标的独立的综合指标,而前者是寻找解释多个指个指标的独立的综合指标,而前者是寻找解释多个指 标的独立的公因子,若初始因子难以合理解释,可利标的独立的公因子,若初始因子难以合理解释,可利 用因子旋转法从旋转后因子得到合理解释;用因子旋转法从旋转后因子得到合理解释; qq因子分析的主要用途:因子分析的主要用途:利用公因子来探索和解释原利用公因子来探索和解释原 多个指标对个体特征的描述,对原始变量进行分门别多个指标对个体特征的描述,对原始变量进行分门别 类的综合评价等。类的综合评价等。 FACTORFACTOR过程过程的主要功能的主要功能 qq进行因子分析、分量分析和因子旋转;进行因子分析、分量分析和因子旋转; qq对因子模型使用正交旋转和斜交旋转;对因子模型使用正交旋转和斜交旋转; qq用回归法计算得分系数,同时把因子得分值存储用回归法计算得分系数,同时把因子得分值存储 在输出数据集中。在输出数据集中。 PROCPROC FACTORFACTOR DATA= OPTIONSOPTIONS ; VAR VAR 变量名列;变量名列; PRIORS PRIORS 变量共通性的预估值;变量共通性的预估值; PARTIAL PARTIAL 变量名列;变量名列; WEIGHT WEIGHT 变量名列;变量名列; FREQ FREQ 变量名列;变量名列; BY BY 变量名列;变量名列; RUNRUN; FACTORFACTOR过程过程的一般形式的一般形式 PROC FACTORPROC FACTOR过程过程的常用选项的常用选项 1.1.关于数据存储的选项:关于数据存储的选项: OUT= 把原始资料和计算的因子存入指定数据把原始资料和计算的因子存入指定数据 集;集; OUTSTAT= 把几乎所有的因子分析结果都详尽把几乎所有的因子分析结果都详尽 地存入指定数据集。地存入指定数据集。 2.2.关于数据输出的选项:关于数据输出的选项: ALLALL( (输出输出PLOTPLOT以外的全部统计量以外的全部统计量),),CORRCORR( (输出相关系输出相关系 数数),),EIGENVECTORSEIGENVECTORS( (输出特征值输出特征值),),MSAMSA( (输出部分相关输出部分相关 系数系数),),NPLOTNPLOT( (指定指定PLOTPLOT的因子数的因子数),),RESIDUALSRESIDUALS( (输出残输出残 差的相关系数差的相关系数),),SCORESCORE( (输出因子得分输出因子得分),),SCREESCREE( (利用特利用特 征值作征值作SCREE PLOT),SCREE PLOT),SIMPLESIMPLE( (输出基础统计量输出基础统计量).). 3.3.有关提取因子的常用选项:有关提取因子的常用选项: M M(ETHOD)(ETHOD)=PRIN (PRIORS=ONE) =PRIN (PRIORS=ONE) 主成分分析法;主成分分析法; M=PRIN (PRIORS=SMC) M=PRIN (PRIORS=SMC) 主因子分析法;主因子分析法; M=ML (PRIORS=SMC) M=ML (PRIORS=SMC) 最大似然法;最大似然法; MINMIN(EIGEN)(EIGEN)=n =n 设定最小特征根的值;设定最小特征根的值; N N(FACTORS)(FACTORS)=n =n 指定初始因子的数量。指定初始因子的数量。 PROC FACTORPROC FACTOR过程过程的常用选项的常用选项 4.4.有关规定因子轴旋转方法的常用选项:有关规定因子轴旋转方法的常用选项: R R(OTATE)(OTATE)=VARIMAX=VARIMAX| |ORTHOMAXORTHOMAX| |PROMAXPROMAX| |QUARTIMAXQUARTIMAX 界定因子轴的旋转方法界定因子轴的旋转方法( (最大方差法最大方差法| |正交最大方差法正交最大方差法 | |在正交最大方差旋转基础上进行斜交旋转在正交最大方差旋转基础上进行斜交旋转| |四次方最四次方最 大法大法),内定值为),内定值为R=R=NONENONE( (不进行坐标变换不进行坐标变换) ) 。 VARVAR语句语句 指定因子分析中使用的变量;指定因子分析中使用的变量; WEIGHTWEIGHT语句语句 对已输入的资料附加加权数据;对已输入的资料附加加权数据; FREQFREQ语句语句 表示变量的频数;表示变量的频数; PARTIALPARTIAL语句语句 除去特定变量的线性效果后,利用偏除去特定变量的线性效果后,利用偏 相关分析或者协方差矩阵进行分析;相关分析或者协方差矩阵进行分析; BYBY语句语句 按指定变量分类(需先排序)后,对按指定变量分类(需先排序)后,对 每一个分类进行因子分析。每一个分类进行因子分析。 PROC FACTORPROC FACTOR过程过程的常用语句的常用语句 PROCPROC SCORE DATA= SCORE DATA= SCORE= SCORE= OUT= OUT= ; VAR VAR 用来计算得分的原始变量集合;用来计算得分的原始变量集合; RUNRUN; 计算因子得分计算因子得分 需事先在需事先在FACTORFACTOR语句中增加语句中增加SCORESCORE 和和OUTSTAT= 选项选项 data onedata one(type=(type=corrcorr) ); ; _type_=_type_=corrcorr ; ; inputinput _name_name_ $ x1 x2 x3 x4 x5 ; $ x1 x2 x3 x4 x5 ; cardscards; ; x1 1 . . . . x1 1 . . . . x2 0.577 1 . . . x2 0.577 1 . . . x3 0.509 0.599 1 . . x3 0.509 0.599 1 . . x4 0.387 0.389 0.436 1 . x4 0.387 0.389 0.436 1 . x5 0.462 0.322 0.426 0.523 1 x5 0.462 0.322 0.426 0.523 1 ; ; runrun; ; proc factor proc factor screescree nfactnfact=2=2 score score rotate rotate= =varimaxvarimax; ; varvar x1-x5x1-x5; ; runrun; ; 对对例例5.15.1中五只证券的平均收益率进行因子分析中五只证券的平均收益率进行因子分析例例5.25.2 输出结果输出结果(1 1): (初始因子载荷矩阵)(初始因子载荷矩阵) (旋转后因子载荷矩阵)(旋转后因子载荷矩阵) ( (化学产业因子化学产业因子) ) ( (石油产业因子石油产业因子) ) 特征值对因子的散点图(碎石图)特征值对因子的散点图(碎石图) 输出结果输出结果(2 2): 输出结果输出结果(3 3): SAS 第五章第五章 SASSAS系统多元统计分析功能系统多元统计分析功能 5.1 5.1 主成分分析与主成分分析与PRINCOMPPRINCOMP过程过程 5.2 5.2 因子分析与因子分析与FACTORFACTOR过程过程 5.3 5.3 判别分析与判别分析与STEPDISCSTEPDISC、DISCRIMDISCRIM过程过程 5.4 5.4 聚类分析与聚类分析与CLUSTERCLUSTER过程过程 判别分析判别分析 ( (DiscriminantDiscriminant Analysis) Analysis) qq判别分析判别分析是根据表明事物特点的变量值及其分类是根据表明事物特点的变量值及其分类 ,求出判别函数,再根据判别函数对未知所属类,求出判别函数,再根据判别函数对未知所属类 别的事物进行分类的一种分析方法;别的事物进行分类的一种分析方法; qq判别分析的步骤:判别分析的步骤:在各归属类的在各归属类的K K个独立变量个独立变量 中,选择对判别分析有显著影响的中,选择对判别分析有显著影响的P P个独立变量;个独立变量; 利用被选定的利用被选定的P P个独立变量的观测值拟合判别函个独立变量的观测值拟合判别函 数;数;计算判别函数的误判率,分析判别函数模计算判别函数的误判率,分析判别函数模 型的选择是否正确;型的选择是否正确;利用已建立的判别函数判利用已建立的判别函数判 别新样本别新样本( (观测值观测值) )的归属类别。的归属类别。 PROCPROC STEPDISC STEPDISC DATA= OPTIONSOPTIONS ; VAR VAR 变量名列;变量名列; CLASS CLASS 因因( (类类) )变量;变量; BY BY 变量名列;变量名列; RUNRUN; STEPDISCSTEPDISC过程过程的一般形式的一般形式 ( (利用逐步判别分析法对变量进行筛选利用逐步判别分析法对变量进行筛选) ) 语句说明:语句说明: CLASSCLASS语句语句 指明归属类的变量(数值变量、文字变指明归属类的变量(数值变量、文字变 量均可);量均可); BYBY语句语句 按指定变量分类(需先排序)后,对每一按指定变量分类(需先排序)后,对每一 个分类进行逐步判别分析。个分类进行逐步判别分析。 常用常用选项选项有:有: METHODMETHOD=STEPWISE=STEPWISE| |FORWARDFORWARD| |BACKWARDBACKWARD 指定筛选变指定筛选变 量的方法量的方法( (逐步排除法逐步排除法| |顺向选择法顺向选择法| |反向淘汰法反向淘汰法) ); SHORT SHORT 只显示判别分析的最后结果;只显示判别分析的最后结果; SLE=SLE=( (内定为内定为0.15) 0.15) 在顺向选择法中,规定变量被在顺向选择法中,规定变量被 纳入模型要达到的显著性水平;纳入模型要达到的显著性水平; SLS=SLS=( (内定为内定为0.15) 0.15) 在反向淘汰法中,规定某一变在反向淘汰法中,规定某一变 量留在模型内要达到的显著性水平。量留在模型内要达到的显著性水平。 STEPDISCSTEPDISC过程过程的一般形式的一般形式 PROCPROC DISCRIM DISCRIM DATA= OPTIONSOPTIONS ; CLASS CLASS 因因( (类类) )变量;变量; VAR VAR 变量名列;变量名列; PRIORSPRIORS 概率;概率; WEIGHT WEIGHT 变量名列;变量名列; TESTCLASS TESTCLASS 变量名列;变量名列; BY BY 变量名列;变量名列; RUNRUN; DISCRIMDISCRIM过程过程的一般形式的一般形式 1.1.关于资料的选项:关于资料的选项: TESTDATA= 指定用来交叉确认判别函数有效指定用来交叉确认判别函数有效 度的数据集,与度的数据集,与TESTLISTTESTLIST,TESTLISTERRTESTLISTERR选项选项或或 TESTCLASSTESTCLASS等指令合并使用;等指令合并使用; OUT= 把观测值、后验概率和分类结果存储入把观测值、后验概率和分类结果存储入 指定数据集;指定数据集; OUTSTAT= 把归属类的平均值、标准差、相关把归属类的平均值、标准差、相关 系数、判别函数系数等统计量存储入指定数据集;系数、判别函数系数等统计量存储入指定数据集; TESTOUT= 把在把在TESTDATATESTDATA中指定数据集的观测中指定数据集的观测 值、后验概率和分类结果存储入指定数据集值、后验概率和分类结果存储入指定数据集. . PROC DISCRIMPROC DISCRIM过程过程的常用选项的常用选项 2.2.关于界定判别函数种类的选项:关于界定判别函数种类的选项: METHOD=NOMALMETHOD=NOMAL| |NPAR NPAR 指定建立判别函数的方法指定建立判别函数的方法( (参数参数 方法方法| |非参数方法非参数方法) ); POOL=YES POOL=YES 利用合并协方差阵建立判别函数利用合并协方差阵建立判别函数( (线性线性) ); POOL=NO POOL=NO 利用总体协方差阵建立判别函数利用总体协方差阵建立判别函数( (二次二次) ); POOL=TEST POOL=TEST 检验总体协方差阵的齐性,检验总体协方差阵的齐性,满足齐性条件满足齐性条件 建立线性判别函数,不满足则建立二次判别函数建立线性判别函数,不满足则建立二次判别函数; SLPOOL= SLPOOL= 用于设用于设定定检验两类协方差阵齐性的显著性检验两类协方差阵齐性的显著性 水平水平. . PROC DISCRIMPROC DISCRIM过程过程的常用选项的常用选项 3.3.关于数据输出的常用选项:关于数据输出的常用选项: LISTLIST( (输出所有观测值的分类结果输出所有观测值的分类结果),),LISTERRLISTERR( (输出误判输出误判 观测值的分类结果观测值的分类结果), ), TESTLISTTESTLIST( (输出存储在输出存储在TESTDATATESTDATA 中的观测值的分类结果中的观测值的分类结果), ), TESTLISTERRTESTLISTERR( (输出存储在输出存储在 TESTDATATESTDATA中误判观测值的分类结果中误判观测值的分类结果),),BCORRBCORR( (输出各类输出各类 间的相关矩阵间的相关矩阵), ), ALLALL( (输出全部结果输出全部结果),),ANOVAANOVA( (利用多变利用多变 量方差分析各类平均值相等的假设量方差分析各类平均值相等的假设),),DISTANCEDISTANCE( (输出两输出两 类间的距离类间的距离),),SIMPLESIMPLE( (输出变量的描述统计量输出变量的描述统计量).). PROC DISCRIMPROC DISCRIM过程过程的常用选项的常用选项 CLASSCLASS语句语句 指明归属类的变量;指明归属类的变量; VARVAR语句语句 指定判别分析中使用的变量;指定判别分析中使用的变量; WEIGHTWEIGHT语句语句 对已输入的资料附加加权数据;对已输入的资料附加加权数据; PRIORSPRIORS语句语句 指定先验概率;指定先验概率; TESTCLASSTESTCLASS语句语句指定存储在指定存储在TESTDATATESTDATA中的某些变量,中的某些变量, 以检验其观测值是否存在误判的情况;以检验其观测值是否存在误判的情况; BYBY语句语句 按指定变量分类(需先排序)后,对按指定变量分类(需先排序)后,对 每一个分类进行判别分析。每一个分类进行判别分析。 PROC DISCRIMPROC DISCRIM过程过程的常用语句的常用语句 数据集数据集SUNNY.BANKRYSUNNY.BANKRY是为研究中小企业破产模型而是为研究中小企业破产模型而 收集的收集的3838个企业的相关财务数据资料,各变量含义个企业的相关财务数据资料,各变量含义 如下:如下: X1X1总总负债率负债率(Cash Flow/Total Debt);(Cash Flow/Total Debt); X2X2收益性指标收益性指标(Net Income/Total Assets); (Net Income/Total Assets); X3X3短期支付能力短期支付能力(Current Assets/Current (Current Assets/Current Liabilities);Liabilities); X4X4生产效益性指标生产效益性指标(Current Assets/Net Sales);(Current Assets/Net Sales); Y Y 类别类别(0=(0=已破产企业,已破产企业,1=1=正常运营企业正常运营企业).). 例例4.94.9 procproc stepdiscstepdisc datadata= =sunny.bankrysunny.bankry methodmethod=stepwise;=stepwise; varvar x1-x4;x1-x4; classclass y;y; runrun; ; 输出结果输出结果( (部分部分) ): procproc discrimdiscrim data data= =sunny.bankrysunny.bankry poolpool=test =test slpoolslpool=0.05 =0.05 listerrlisterr outstatoutstat=one;=one; varvar x2 x3; x2 x3; classclass y; y; runrun; ; procproc printprint datadata=one;=one; runrun; ; 输出结果输出结果( (部分部分) ): 可见,应拒绝两类的协方差矩阵相等的原假设,即两类的可见,应拒绝两类的协方差矩阵相等的原假设,即两类的 协方差矩阵不满足方差齐性的要求,应建立二次判别函数协方差矩阵不满足方差齐性的要求,应建立二次判别函数. . 输出结果输出结果( (部分部分) ): (后验概率的计算方法)(后验概率的计算方法) (误报样本信息)(误报样本信息) 误判率误判率 先验概率假设先验概率假设 现有新的现有新的8 8个企业的财务资料如下,试分个企业的财务资料如下,试分 析它们归属上述两类的后验概率并分类析它们归属上述两类的后验概率并分类 。 例例4.94.9(续)(续) OBSX1X2X3X4Y 10.040.011.500.710 2-0.06-0.061.370.400 30.07-0.011.370.340 4-0.13-0.141.420.440 50.150.062.230.561 60.160.052.310.201 70.290.061.840.381 80.540.112.330.481 datadata two; two; input input x1-x4 y; x1-x4 y; cards cards; ; 0.040.040.010.011.501.500.710.710 0 -0.06 -0.06 -0.06 -0.061.37 0.401.37 0.40 0 0 0.07 -0.01 0.07 -0.011.371.370.340.34 0 0 -0.13 -0.14 -0.13 -0.141.421.420.440.44 0 0 0.15 0.150.060.062.232.230.560.56 1 1 0.16 0.160.050.052.312.310.200.20 1 1 0.29 0.290.060.061.841.840.380.38 1 1 0.54 0.540.110.112.332.330.480.48 1 1 ; ; runrun; ; procproc discrimdiscrim datadata=one =one testdatatestdata=two =two testlisttestlist; ; classclass y; y; testclasstestclass y; y; runrun; ; 输出结果:输出结果: SAS 第五章第五章 SASSAS系统多元统计分析功能系统多元统计分析功能 5.1 5.1 主成分分析与主成分分析与PRINCOMPPRINCOMP过程过程 5.2 5.2 因子分析与因子分析与FACTORFACTOR过程过程 5.3 5.3 判别分析与判别分析与STEPDISCSTEPDISC、DISCRIMDISCRIM过程过程 5.4 5.4 聚类分析与聚类分析与CLUSTERCLUSTER过程过程 聚类分析聚类分析 (Cluster Analysis) (Cluster Analysis) qq聚类分析聚类分析是依据事物的性质和特征的不同,将具是依据事物的性质和特征的不同,将具 有相似性质或距离的个体聚为一类,具有不同性质有相似性质或距离的个体聚为一类,具有不同性质 的个体聚为不同类的分类方法;的个体聚为不同类的分类方法; qq聚类分析与判别分析的区别:聚类分析与判别分析的区别:前者是用某种方法前者是用某种方法 把分类未知的观测进行合理分类,使同一类的观测把分类未知的观测进行合理分类,使同一类的观测 比较接近,是无指导的学习;后者则是已知分类然比较接近,是无指导的学习;后者则是已知分类然 后总结出判别规律,是有指导的学习;后总结出判别规律,是有指导的学习; qqSASSAS系统系统提供了提供了谱系聚类谱系聚类( (常用常用) )、快速聚类、变量快速聚类、变量 聚类聚类等聚类过程。等聚类过程。 谱系聚类法谱系聚类法(Hierarchical Cluster Method)(Hierarchical Cluster Method) qq谱系聚类法谱系聚类法有合并聚类和分割聚类两种,前者是有合并聚类和分割聚类两种,前者是 把较有密切相似性关系的个体逐一聚类,由原来的把较有密切相似性关系的个体逐一聚类,由原来的 n n个类最后变成一个新类;后者是把非相似性关系个类最后变成一个新类;后者是把非相似性关系 的个体逐一分割出去,由原来的一个类最后变成的个体逐一分割出去,由原来的一个类最后变成n n 个新个新类,以合并聚类法较为常用;类,以合并聚类法较为常用; qq两类之间距离的定义方法主要有:两类之间距离的定义方法主要有:最短距离法最短距离法 (Single Linkage Method)(Single Linkage Method)、最长距离法最长距离法(Complete (Complete Linkage Method)Linkage Method)、类平均法类平均法(Average Linkage (Average Linkage Method)Method)、重心法重心法( (CentroridCentrorid Linkage Method) Linkage Method). . CLUSTERCLUSTER过程过程实现谱系聚类的分析过程实现谱系聚类的分析过程 PROCPROC CLUSTER CLUSTER DATA= OPTIONSOPTIONS ; VAR VAR 变量名列;变量名列; ID ID 变量名列;变量名列; COPY COPY 变量名列;变量名列; FREQ FREQ 变量名列;变量名列; BY BY 变量名列;变量名列; RUNRUN; 一般形式:一般形式: CLUSTERCLUSTER过程过程的常用选项的常用选项 1.1.关于资料的选项:关于资料的选项: OUTTREE= 把谱系聚类树输出到指定数据集把谱系聚类树输出到指定数据集 ,可用,可用TREETREE过程过程绘图并实际分类;绘图并实际分类; OUTSTAT= 把聚类分析的结果存入到指定数把聚类分析的结果存入到指定数 据集据集. . 2.2.关于聚类分析方法的选项:关于聚类分析方法的选项: STANDARDSTANDARD(STD)(STD) 对变量进行标准化;对变量进行标准化; METHOD=SINGLEMETHOD=SINGLE| |COMPLETECOMPLETE| |AVERAGEAVERAGE| |CENTRORIDCENTRORID| |EMLEML( ( 最大似然法最大似然法) )| |WARDWARD( (最小方差法最小方差法) ) 指定定义类间距离指定定义类间距离 的方法。的方法。 能能最大限度地控制情最大限度地控制情 报损失,最为常用报损失,最为常用 2.2.关于数据输出的选项:关于数据输出的选项: CCC CCC 打印聚类的基准和打印聚类的基准和R R 2 2 值;值;
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 重庆石柱土家族自治县2025年上半年事业单位公开遴选试题含答案分析
- 浙江省瑞安市2025年上半年事业单位公开遴选试题含答案分析
- 河北省南皮县2025年上半年事业单位公开遴选试题含答案分析
- 河北省满城县2025年上半年公开招聘城市协管员试题含答案分析
- 河北省涞源县2025年上半年公开招聘村务工作者试题含答案分析
- 河北省景县2025年上半年公开招聘城市协管员试题含答案分析
- 2025版区域代理销售合同示范文本
- 2025布料进出口贸易合作协议书
- 2025保温系统施工与质量保证合同范本
- 2025年资产证券化担保合同范本
- 去极端化自我剖析
- 生殖伦理培训课件
- 船舶压载水取样与检测技术
- 【种植活动中培养幼儿自主探究的实践研究4100字(论文)】
- 飞蚊症护理的课件
- 金融工程.郑振龙(全套课件560P)
- 读书分享交流会《全球通史》课件
- 古典诗歌的生命情怀
- 2017版小学科学课程标准思维导图
- 诚信展业与法律法规月演示
- 第十一章-异常分娩-1产力异常
评论
0/150
提交评论