第3章 SAS对应分析.doc_第1页
第3章 SAS对应分析.doc_第2页
第3章 SAS对应分析.doc_第3页
第3章 SAS对应分析.doc_第4页
第3章 SAS对应分析.doc_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第章 对应分析 第节方法的概述主成分分析、因子分析、变量聚类分析都是研究变量之间的相互关系。有时,在某些实际问题中,既要研究变量之间的关系、还要研究样品之间的关系。不仅如此,人们往往还希望能在同一个直角坐标系内同时表达出变量与样品两者之间的相互关系。实现这一目的的方法,称为对应分析(Correspondence Analysis)。对应分析,也称相应分析,它是列联表资料的加权主成分分析,用它去寻求列联表的行列变量之间联系的低维图示法。此方法的关键是利用一种数据变换方法,使含有n个样品m个变量的原始数据矩阵 变成另一个矩阵 ,并使R=ZZ(分析变量之间关系的协方差矩阵)与Q=ZZ(分析样品之间关系的协方差矩阵)具有相同的非零特征根,它们相应的特征向量之间也有密切的关系。对协方差矩阵R、Q进行加权主成分分析或因子分析,分别能提取两个最重要的公因子R1、R2与Q1、Q2。由于采取的是一种特殊变换方法,公因子 R1与Q1在本质上是相同的,同理,R2与Q2在本质上也是相同的,故可用dim1作为R1、Q1的统一标志;用dim2作为R2、Q2的统一标志,于是可将(R1,Q1)和(R2,Q2)两组数据点在由(dim1,dim2)组成的同一个直角坐标系中。这样,便于考察变量与样品之间的相互关系。第节对应分析中的变量变换方法设原始数据矩阵X=(xij)nm,i=1,2,n(n为样品数);j=1,2,m(m为变量数)。又设xi.为第i行的合计、x.j为第j列的合计、x.为全部数据的合计,则变量变换的公式为:(6.3.1)由此变换产生出矩阵Z,即 。分别对R=ZZ与Q=ZZ进行加权主成分分析或因子分析,就实现了对应分析。从这种变换可以看出:原始数据xij并非一定是频数,也可以是正实数。这说明对应分析可以处理RC列联表资料,也可处理适合作主成分分析、因子分析、聚类分析的资料。第节用CORRESP过程实现对应分析例6.3.1我们知道:疾病与人的基因型密切有关,而不同民族各种基因出现的频率不尽相同。下面是某研究者收集到的资料,试分析各种基因频率与民族之间的关系。各民族下面的小数是44种基因出现的频率。基因型 藏族(Z) 尼泊尔(N) 印度(Y) 汉族(H) 基因型 藏族(Z) 尼泊尔(N) 印度(Y) 汉族(H)A1 0.03080.01800.11900.0149B380.04650.0470 0.00300.0015A2 0.33330.10700.14800.3492B390.01020.0000 0.00900.0176A3 0.02040.01900.10100.0176B460.01020.00900.00000.1813A9 0.30370.27900.15600.1414B480.05720.15000.00300.0108A100.04090.01800.03900.0313B500.01020.01800.03700.0000A110.13540.42200.12600.2977B530.00500.0000 0.00600.0000A280.00000.01800.08300.0094B540.01530.00000.00000.0176A300.04130.00000.00000.0217B550.05720.02800.02600.0217A310.05180.03700.02200.0121B560.01020.00900.00600.0040A320.00000.01900.03900.0013B570.00500.01800.03900.0341A330.00000.06700.08300.0608B580.00000.06700.03300.0139B5 0.28280.11800.13400.0825B600.06260.02800.02200.0723B7 0.00000.01900.08000.0244B610.08990.00000.08300.1080B8 0.01020.01180.04500.0094B700.00500.00000.00800.0000B120.01020.03700.06600.0121C1 0.08990.03700.02300.1716B130.01020.07700.00600.0650C2 0.02040.00000.07300.0397B140.00000.00000.00600.0013C3 0.17980.10700.08300.3269B150.19230.25400.09600.1092C4 0.16510.07700.13400.0495B180.00500.02800.02200.0000C5 0.00000.00900.01600.0054B270.10670.00000.02600.0204C6 0.02560.24500.04500.0081B350.06260.05700.14800.0342C7 0.17120.21800.11900.1152B370.01020.01800.00900.0067C8 0.00500.00000.00400.0027数据文件名为SCWCORS.DAT,可以写成22行10列或44行列的数据矩阵,即把右边的列写在左边列数据之下,这样在计算结果中基因型的顺序就与原来的顺序一致了。SAS程序D6P4.PRGDATA b;TEXT =jy;INFILE a:scwcors.dat; SIZE =2;INPUT jy$z n y h; LABEL X=Dimension 1PROC CORRESP OUTC=ccc; Y=Dimension 2;VAR z n y h;KEEP X Y TEXT XSYS YSYS SIZE;ID jy; RUN;RUN;GOPTION DEVICE=EGA;PROC GPLOT DATA=ccc;DATA ccc;SYMBOL1 V=NONE;SET ccc;AXIS1 LENGTH=5 IN ORDER=-0.9 TO 0.9 BY 0.2;X=dim1; AXIS2 LENGTH=5 IN ORDER=-0.9 TO 0.9 BY 0.2;Y=dim2; PLOT Y*X=1 / ANNOTATE=ccc FRAME HAXIS=AXIS1XSYS =2; VAXIS=AXIS1 HREF=0 VREF=0;YSYS =2; RUN;(程序的第部分) (程序的第部分)程序修改指导如果不想绘图或没有GRAPH(绘图)模块,可只用程序第部分的前行。若数据文件的格式是22行10列,在INPUT语句的分号之前应加符号。INPUT语句中所写的变量名应与VAR语句、ID语句和TEXT语句中的变量名一致。jy(基因)、Z(藏族)、N(尼泊尔)、Y(印度)、H(汉族)。GOPTIONS是调用GPLOT过程绘图所需的设置语句,DEVICE=规定用来绘图的设备名称,若在其后写VGA或EGA,表明只在显示器上显示图形;若写打印机的型号,则表明要将图形绘在打印机上。若用户的打印机型号与GRAPH规定的型号一致,则可正常执行下去;否则,需从SAS说明书或SAS软件的帮助信息中查找与自己机型接近的型号,试验几种型号,也许能找到合适的设备代号。输出结果及其解释The Correspondence Analysis Procedure Inertia and Chi-Square Decomposition SingularPrincipal Chi- ValuesInertiasSquares Percents8 16 24 32 40 -+-+-+-+-+- 0.42302 0.17895 1.8307241.61% * 0.39266 0.15418 1.5773635.85% * 0.31137 0.09695 0.9918422.54% * - - 0.43007 4.39992 (Degrees of Freedom = 129)这里最有用的是第列,即矩阵R的特征值。将根据前两个较大的特征值分别算出与样品(基因型)轰量(民族)对应的特征向量。Column Coordinates Dim1Dim2Z-.2024900.008300N0.365818-.546045Y0.4529030.575439H-.5915000.042981这是每个变量(指Z、N、Y、H)在两个公因子上的负荷,其结果可表示为Z=-0.202490Dim1+0.008300Dim2N= 0.365818Dim1-0.546045Dim2Y= 0.452903Dim1+0.575439Dim2H=-0.591500Dim1+0.042981Dim2在以dim1与dim2作为横轴与纵轴的直角坐标系内,每个变量就是个点,如Z(藏族)点的坐标为(-0.202490,0.008300)。显然,Z(藏族)、H(汉族)两个点在第象限内;N(尼泊尔)点在第象限内、Y(印度)点在第象限内。 这个点中任何两点之间的欧氏距离如下:两民族间ZN ZY ZH NY NHYH欧氏距离0.7940.8670.3911.1251.1241.172显然,藏族与汉族之间的距离最短,说明这个民族在多数基因的出现频率上具有较高的正相关关系。说明设A、B两点的坐标分别为(a1,a2)、(b1,b2),则A、B两个民族间的欧氏距离D(A-B)计算公式为:D(A-B)(a1-b1)2+(a2-b2)21/2。(甲) Summary Statistics for the Column Points QualityMass Inertia Z0.1412950.2628680.177665 N0.9737000.2630150.271321 Y0.9814730.2273570.288838 H0.7697230.2467600.262176Quality为每个变量上两个公因子贡献率(即标有“乙”的结果中各行数值)之和(),若此值接近于,则表明对应的变量所包含的信息由两个公因子就可很好地反映出来;Mass为原始数据中各列数据之和占总合计的百分比();Inertia为每个变量对总特征值0.43007贡献的百分比(),由此列数值可看出后三个民族贡献的百分比十分接近。Partial Contributions to Inertia for the Column Points Dim1Dim2Z0.0602310.000117N0.1966930.508637Y0.2606140.488289H0.4824610.002957这是每个公因子上每个变量的贡献率(),各列数值之和为。显然,汉族对第公因子贡献最大;尼泊尔、印度这个民族对第公因子贡献最大。Indices of the Coordinates that ContributeMost to Inertia for the Column PointsDim1Dim2Best Z 0 0 1 N 2 2 2 Y 2 2 2 H 1 0 1这是各变量的坐标对特征值贡献最多的标志,贡献少、中、多依次用0,1,2来表示。(乙) Squared Cosines for the Column Points Dim1Dim2Z0.1410580.000237N0.3016360.672064Y0.3754230.606050H0.7656800.004043这是每个变量上两个公因子各自的贡献率,各行数值之壕应近似为,因为只用了两个主要的公因子,与最小特征值0.09695对应的公因子的贡献未给出,故少了一些信息。由各行数值可看出:尼泊尔、印度这个民族的信息几乎完全可由这个公因子反映出来;而藏族的信息则不能很好地由这个公因子来反映。同理,可以解释关于样品(本例为基因型)的类似输出结果。因这部分结果所占篇幅太多(从略),下面仅给出扼要的说明(实际上是本例的专业结论)。专业结论B46、C3对第公因子贡献最大;B48、C6对第公因子贡献最大。它们的点所对应的坐标(dim1,dim2)分别为:B46(- 1.24991,0.03763)、C3(-0.5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论