




已阅读5页,还剩47页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
SAS系统用于多元统计分析的过程有:,多变量分析-PRINCOMP(主分量分析), FACTOR(因子分析), CANCORR(典型相关分析), MDS(多维标度过程), MULTTEST(多重检验), PRINQUAL(定性数据的主分量分析), CORRESP(对应分析); 判别分析-DISCRIM(判别分析), CANDISC(典型判别), STEPDISC(逐步判别); 聚类分析-CLUSTER(谱系聚类), FASTCLUS( K均值快速聚类), MODECLUS(非参数聚类), VARCLUS(变量聚类), TREE(画谱系聚类的结果谱系图并给出分类结果).,第五章 SAS系统多元统计分析功能,5.1 主成分分析与PRINCOMP过程 5.2 因子分析与FACTOR过程 5.3 判别分析与STEPDISC、DISCRIM过程 5.4 聚类分析与CLUSTER过程,为了全面系统地分析和研究某些社会经济问题,可能必须同时考虑许多存在一定内在联系和相互关联的经济指标,这些指标所反映的信息会有某种程度的重叠,但去除变量又会导致某些信息的损失; 主成分分析通过降维的方法,把相互关联的多个变量转变成少数互不相关的新变量(即主成分,也称为综合变量),各主成分由原来变量的线性关系表示,其包含信息量的多少由各自的方差测定,主成分的方差越大,所包含的信息量就越多。,PRINCOMP过程的主要功能:,完成主成分分析; 主成分的个数、名称及得分是否标准化均可由用户自己规定; 输入的数据集可以是原始数据集、相关阵或协方差阵等; 计算结果有:简单统计量、相关阵或协方差阵,从大到小排序的特征值和相应特征向量,每个主成分解释的方差比例、累计比例等; 可揭示变量间的共线关系,若某特征值特别接近于0,则说明变量线性相关。,PROC PRINCOMP DATA= OPTIONS ; VAR 变量名列; WEIGHT 变量名列; FREQ 变量名列; PARTIAL 变量名列; BY 变量名列; RUN;,PRINCOMP过程的一般形式:,PROC PRINCOMP过程的常用选项有:,OUT= 把计算的统计量存入指定的数据集; COVARIANCE(或COV) 指定以协方差矩阵为分析数据,缺省则以相关系数矩阵为分析数据; N=正整数 指定要保留的主成分个数; PREFIX=主成分名 为主成分命名,缺省则自动命名为:PRIN1,PRIN2,; STANDARD (或STD) 对各主成分进行标准化,使各主成分的方差为1; NOINT 作协方差矩阵主成分分析或相关行列主成分分析时,各变量不对其平均数加以修正。,VAR语句 指定主成分分析中使用的变量; WEIGHT语句 对已输入的资料附加加权数据; FREQ语句 表示变量的频数; PARTIAL语句 除去特定变量的线性效果后,利用偏 相关分析或者协方差矩阵进行分析; BY语句 按指定变量分类(需先排序)后,对 每一个分类进行主成分分析。,PROC PRINCOMP过程的常用语句有:,data one(type=corr); _type_=corr; input _name_ $ x1 x2 x3 x4 x5 ; cards; x1 1 . . . . x2 0.577 1 . . . x3 0.509 0.599 1 . . x4 0.387 0.389 0.436 1 . x5 0.462 0.322 0.426 0.523 1 ; run; proc princomp; run;,输出结果:,用SAS/INSIGHT方式进行主成分分析,用分析员应用方式进行主成分分析,第五章 SAS系统多元统计分析功能,5.1 主成分分析与PRINCOMP过程 5.2 因子分析与FACTOR过程 5.3 判别分析与STEPDISC、DISCRIM过程 5.4 聚类分析与CLUSTER过程,因子分析是主成分分析的推广,它通过少数几个不可直接测量的、独立的、专业上有意义的公因子来说明相关变量之间复杂结构关系; 因子分析与主成分分析的不同:后者是寻找反映多个指标的独立的综合指标,而前者是寻找解释多个指标的独立的公因子,若初始因子难以合理解释,可利用因子旋转法从旋转后因子得到合理解释; 因子分析的主要用途:利用公因子来探索和解释原多个指标对个体特征的描述,对原始变量进行分门别类的综合评价等。,PROC FACTOR过程的常用选项,PROC FACTOR过程的常用选项,VAR语句 指定因子分析中使用的变量; WEIGHT语句 对已输入的资料附加加权数据; FREQ语句 表示变量的频数; PARTIAL语句 除去特定变量的线性效果后,利用偏 相关分析或者协方差矩阵进行分析; BY语句 按指定变量分类(需先排序)后,对 每一个分类进行因子分析。,PROC FACTOR过程的常用语句,PROC SCORE DATA= SCORE= OUT=; VAR 用来计算得分的原始变量集合; RUN;,计算因子得分,data one(type=corr); _type_=corr; input _name_ $ x1 x2 x3 x4 x5 ; cards; x1 1 . . . . x2 0.577 1 . . . x3 0.509 0.599 1 . . x4 0.387 0.389 0.436 1 . x5 0.462 0.322 0.426 0.523 1 ; run; proc factor scree nfact=2 score rotate=varimax; var x1-x5; run;,输出结果(1):,输出结果(3):,第五章 SAS系统多元统计分析功能,5.1 主成分分析与PRINCOMP过程 5.2 因子分析与FACTOR过程 5.3 判别分析与STEPDISC、DISCRIM过程 5.4 聚类分析与CLUSTER过程,判别分析是根据表明事物特点的变量值及其分类,求出判别函数,再根据判别函数对未知所属类别的事物进行分类的一种分析方法; 判别分析的步骤:在各归属类的K个独立变量中,选择对判别分析有显著影响的P个独立变量;利用被选定的P个独立变量的观测值拟合判别函数;计算判别函数的误判率,分析判别函数模型的选择是否正确;利用已建立的判别函数判别新样本(观测值)的归属类别。,PROC STEPDISC DATA= OPTIONS ; VAR 变量名列; CLASS 因(类)变量; BY 变量名列; RUN;,STEPDISC过程的一般形式,(利用逐步判别分析法对变量进行筛选),STEPDISC过程的一般形式,PROC DISCRIM DATA= OPTIONS ; CLASS 因(类)变量; VAR 变量名列; PRIORS 概率; WEIGHT 变量名列; TESTCLASS 变量名列; BY 变量名列; RUN;,DISCRIM过程的一般形式,PROC DISCRIM过程的常用选项,PROC DISCRIM过程的常用选项,PROC DISCRIM过程的常用选项,CLASS语句 指明归属类的变量; VAR语句 指定判别分析中使用的变量; WEIGHT语句 对已输入的资料附加加权数据; PRIORS语句 指定先验概率; TESTCLASS语句指定存储在TESTDATA中的某些变量, 以检验其观测值是否存在误判的情况; BY语句 按指定变量分类(需先排序)后,对 每一个分类进行判别分析。,PROC DISCRIM过程的常用语句,proc stepdisc data=sunny.bankry method=stepwise; var x1-x4; class y; run;,输出结果(部分):,proc discrim data=sunny.bankry pool=test slpool=0.05 listerr outstat=one; var x2 x3; class y; run; proc print data=one; run;,输出结果(部分):,可见,应拒绝两类的协方差矩阵相等的原假设,即两类的协方差矩阵不满足方差齐性的要求,应建立二次判别函数.,输出结果(部分):,data two; input x1-x4 y; cards; 0.04 0.01 1.50 0.71 0 -0.06 -0.06 1.37 0.40 0 0.07 -0.01 1.37 0.34 0 -0.13 -0.14 1.42 0.44 0 0.15 0.06 2.23 0.56 1 0.16 0.05 2.31 0.20 1 0.29 0.06 1.84 0.38 1 0.54 0.11 2.33 0.48 1 ; run; proc discrim data=one testdata=two testlist; class y; testclass y; run;,输出结果:,第五章 SAS系统多元统计分析功能,5.1 主成分分析与PRINCOMP过程 5.2 因子分析与FACTOR过程 5.3 判别分析与STEPDISC、DISCRIM过程 5.4 聚类分析与CLUSTER过程,聚类分析是依据事物的性质和特征的不同,将具有相似性质或距离的个体聚为一类,具有不同性质的个体聚为不同类的分类方法; 聚类分析与判别分析的区别:前者是用某种方法把分类未知的观测进行合理分类,使同一类的观测比较接近,是无指导的学习;后者则是已知分类然后总结出判别规律,是有指导的学习; SAS系统提供了谱系聚类(常用)、快速聚类、变量聚类等聚类过程。,谱系聚类法有合并聚类和分割聚类两种,前者是把较有密切相似性关系的个体逐一聚类,由原来的n个类最后变成一个新类;后者是把非相似性关系的个体逐一分割出去,由原来的一个类最后变成n个新类,以合并聚类法较为常用; 两类之间距离的定义方法主要有:最短距离法(Single Linkage Method)、最长距离法(Complete Linkage Method)、类平均法(Average Linkage Method)、重心法(Centrorid Linkage Method).,CLUSTER过程,实现谱系聚类的分析过程,CLUSTER过程的常用选项,能最大限度地控制情报损失,最为常用,CLUSTER过程的常用选项,VAR语句 指定聚类分析中使用的变量; ID语句 指定用于识别观测值的标志变量; COPY语句 将指定的输入数据集中的变量复制到由OUTTREE=所指定的输出数据集中; BY语句 按指定
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年医学遗传学遗传病筛查知识试题答案及解析
- 2025年眼科医生视力检查技术考核模拟试题答案及解析
- 2025年中医药理论基础知识综合检测题答案及解析
- 美丽庭院的打造技巧分享
- 2025年营养保健营养保健知识及指导试题答案及解析
- 2025-2030动力总成系统集成化趋势对传统零部件厂商影响报告
- 2025-2030共享储能模式在新能源基地开发中的商业价值与风险防范报告
- 2025年新能源汽车动力电池回收产业链协同创新模式分析报告
- 2025年城市绿色照明节能减排政策与实施效果报告
- 2025年查对制度试题题库及答案
- 旧楼拆除防尘降噪专项措施
- 2025年中国毛皮服装市场调查研究报告
- 矿山开采运输管理制度
- 律师行业税务问题课件
- 2025年中医适宜技术考试练习题库(含答案)
- DB63T 1599-2025 高海拔高寒地区公路边坡生态防护技术设计规范
- 横向合同终止协议
- Module 9 great inventions Unit 3 教学设计 2024-2025学年外研版九年级英语上册
- 医院危险化学品安全管理制度
- 特殊教育《学习剪指甲》
- 投资担保合同范本7篇
评论
0/150
提交评论