




已阅读5页,还剩31页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第九章对应分析,对应分析(correspondenceanalysis)是用于寻求列联表的行和列之间联系的一种低维图形表示法,它可以从直觉上揭示出同一分类变量的各个类别之间的差异,以及不同分类变量各个类别之间的对应关系。对应分析是由法国人Benzecri于1970年提出的,起初在法国和日本最为流行,然后引入美国。在对应分析中,列联表的每一行对应(通常是二维)图中的一点,每一列也对应同一图中的一点。本质上,这些点都是列联表的各行各列向一个二维欧式空间的投影,这种投影最大限度地保持了各行(或各列)之间的关系。,第九章对应分析,9.1行轮廓和列轮廓9.2独立性的检验和总惯量9.3行、列轮廓的坐标9.4对应分析图,9.1行轮廓和列轮廓,一、列联表二、对应矩阵三、行、列轮廓,一、列联表,其中,nij是第i行、第j列类别组合的频数,i=1,2,p,j=1,2,q;为第i行的频数之和,i=1,2,p;为第j列的频数之和,j=1,2,q;为所有类别组合的频数总和。,表9.1.1pq列联表,表9.1.1pq列联表,表9.1.1pq列联表,表9.1.1pq列联表,二、对应矩阵,这里,。显然有。,表9.1.2对应矩阵,称为对应矩阵。将对应矩阵表中的最后一列用r表示,即其中是元素均为1的q维向量,最后一行用表示,即其中是元素均为1的p维向量,向量r和c的元素有时称为行和列密度(masses)。,三、行、列轮廓,第i行轮廓(profile):其各元素之和等于1,即。第j列轮廓:其各元素之和等于1,即。,行轮廓矩阵,其中。,列轮廓矩阵,其中。,可见,r可以表示成各列轮廓的加权平均。类似地,即可以表示成各行轮廓的加权平均。,例9.1.1,将由n=1660个人组成的样本按心理健康状况与社会经济状况进行交叉分类,分类结果见表9.1.3。,表9.1.3心理健康状况-社会经济状况数据,将表9.1.3中的数据除以n,得到对应矩阵,列于表9.1.4中。表9.1.4给出的行密度和列密度向量为,表9.1.4从表9.1.3算得的对应矩阵,行轮廓矩阵为列轮廓矩阵为,两个马赛克图,对心理健康的每一种状况,A、B、C、D、E五个小方块的宽度显示了行轮廓,0、1、2、3四种心理健康状况的小方块高度显示了行密度。,对社会经济的每一种状况,0、1、2、3四个小方块的高度显示了列轮廓,A、B、C、D、E五种社会经济状况的小方块宽度显示了列密度。,9.2独立性的检验和总惯量,一、行、列独立的检验二、总惯量,一、行、列独立的检验,在列联表中,检验行变量和列变量相互独立假设的统计量为当独立性的原假设为真,且样本容量n充分大,期望频数时,2近似服从自由度为(p1)(q1)的卡方分布。拒绝规则为若,则拒绝独立性的原假设其中是2(p1)(q1)的上分位点。,二、总惯量,总惯量还可以行轮廓和列轮廓的形式表达如下:,其中称为第i行轮廓ri到行轮廓中心c的卡方(2)距离,它可看作是一个加权的平方欧氏距离。同样,是第j列轮廓cj到列轮廓中心r的卡方距离。故总惯量可看成是行轮廓到其中心的卡方距离的加权平均,也可看成是列轮廓到其中心的卡方距离的加权平均。它既度量了行轮廓之间的总变差,也度量了列轮廓之间的总变差。,总惯量为零的等价情形,总惯量为零与以下三种情形的任一种等价:(1),或表示为;(2)所有的行轮廓相等,即;(3)所有的列轮廓相等,即。所以,如果行变量与列变量相互独立,则我们可以期望(由样本数据构成的)列联表中所有的行有相近的轮廓,所有的列亦有相近的轮廓。,总惯量的分解,对构造标准化矩阵其元素为记k=rank(Z),有kmin(p-1,q-1),因为对Z进行奇异值分解,得,其中U=(u1,u2,uk),V=(v1,v2,vk),=diag(1,2,k),这里u1,u2,uk是一组p维正交单位向量,v1,v2,vk是一组q维正交单位向量,即有,1,2,k是Z的k个奇异值。于是,是的正特征值。因此总惯量=例9.2.1例9.1.1中,2=45.59421.026=故拒绝心理健康状况与社会经济状况相互独立的原假设(p=8.1510-6)。,9.3行、列轮廓的坐标,其中由于,从而上式常被称为广义奇异值分解。,将行轮廓矩阵R中心化(即每一行减去),得其中上式也可表达为即中心化的第i行轮廓在由b1,b2,bk构成的坐标系中的坐标为(xi1,xi2,xik),i=1,2,p。类似地,将列轮廓矩阵C中心化(即每一列减去r),得其中,上式亦可表达为即中心化的第j列轮廓在由a1,a2,ak构成的坐标系中的坐标为(yj1,yj2,yjk),j=1,2,q。由关系式知,即有于是即各行点和列点在第i坐标轴上的坐标平方的加权平均都等于,称之为第i主惯量,i=1,2,k。主惯量度量了在每一坐标轴上的有关变差的信息量,类似于主成分分析中的方差。在作图时可将行点和列点置于同一个坐标系中,并使用同一坐标刻度。由总惯量=知,总惯量可以分解为各主惯量之和。,9.4对应分析图,一、行、列轮廓的逼近二、行(列)点之间的距离三、行点和列点相近的意涵,一、行、列轮廓的逼近,的降秩到2的最优逼近为于是其中,B1=(b1,b2)。X1是由X的前2列构成的,即,故X1的第i行是中心化的第i行轮廓在由b1和b2构成的平面坐标系中的坐标,i=1,2,p。类似地,其中。Y1是由Y的前2列构成的,即,故Y1的第j行是中心化的第j列轮廓cjr在由a1和a2构成的平面坐标系中的坐标,j=1,2,q。将上述两个平面坐标系重叠在一个坐标系中,b1和a1重叠在第一维坐标轴上,具有同一主惯量,其对总惯量的贡献率为。b2和a2重叠在第二维坐标轴上,具有同一主惯量,其对总惯量的贡献率为。前二维的坐标轴对总惯量的累计贡献率为,该值如很大,则说明所作的对应分析图几乎解释了数据的所有变差(包括有关行与列之间的联系)。,二、行(列)点之间的距离,在累计贡献率足够大的对应分析图中,如果两个行(列)点接近,则表明相应的两个行(列)轮廓是类似的;反之,如果两个行(列)点远离,则表明相应的两个行(列)轮廓是非常不同的。需要指出的是,行点与列点之间并没有直接的距离关系。,三、行点和列点相近的意涵,如果一个行点和一个列点相近,则表明行、列两个变量的相应类别组合发生的频数会高于这两个变量相互独立情形下的期望值。,例9.4.1,在例9.1.1中,经计算,奇异值、主惯性以及贡献率等的计算结果列于表9.4.1中。总惯量的94.75%可由第一维来解释,前二
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年医保制度试题及答案
- 汽车配件生产线项目商业计划书
- 2025年国家公务员考试(面试)试题及答案
- 化工园区标准厂房建设项目实施方案
- 商铺租赁的协议
- 2025年小儿内科疾病诊断技巧测验答案及解析
- 2025年康复治疗运动方案设计实验竞赛答案及解析
- 2025年眼科眼部手术操作技能评估考试卷答案及解析
- 风险知识培训心得课件
- 2025合同终止协议书样本模板
- 2025全国企业员工全面质量管理知识竞赛试题及答案
- DB4419T 23-2024 建设工程施工无废工地管理规范
- 社会组织管理概论全套ppt课件(完整版)
- GB∕T 1186-2016 压缩空气用织物增强橡胶软管 规范
- 轧机设备安装施工方案
- DB31∕T 926-2015 城镇供水管道水力冲洗技术规范
- (完整版)IATF16949新版过程乌龟图的编制与详解课件
- 制药企业仓库温湿度分布的验证
- 满堂脚手架工程施工方案
- LY∕T 2705-2016 樟脑磺酸
- GB∕T 3099.4-2021 紧固件术语 控制、检查、交付、接收和质量
评论
0/150
提交评论