8.59.8多元统计分析实验报告).doc_第1页
8.59.8多元统计分析实验报告).doc_第2页
8.59.8多元统计分析实验报告).doc_第3页
8.59.8多元统计分析实验报告).doc_第4页
8.59.8多元统计分析实验报告).doc_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数学与计算科学学院实 验 报 告实验项目名称 相应与典型相关分析 所属课程名称 多元统计分析实验 实 验 类 型 验证型 实 验 日 期 2016年6月13日星期一 班 级 学 号 姓 名 成 绩 一、实验概述:【实验目的】1.掌握由样本资料用spss软件对数据进行相应分析,并能够正确分析和理解输出结果;2.掌握由样本资料用spss软件对两组变量进行典型相关分析,并能够正确分析和理解输出结果;问题1: 费希尔研究头发颜色与眼睛颜色的关系,抽查了5387人的资料如下表,试对其进行相应分析。眼睛颜色头发颜色合计金黄色红褐色深红黑蓝色32632411103718淡蓝68811658418841580浅蓝34384909412261774深蓝9848403681851315合计1455286213713911185387问题2: 某年级学生的期末考试中,有的课程闭卷考试,有的课程开卷考试。44名学生的成绩如下表:闭卷开卷闭卷开卷力学物理代数分析统计力学物理代数分析统计7782676781637880708175737166815572637068636365706353617264735167656568597068625662605862706472606245526460635455675962445050645563656358563731556057766064565440446953535342696155456246615745314962636244615262454941614964125861636749534962475449564753545346594444565561361844505781465265503532454957643069505245464953593740275461613142485468365951455156405654546565749324542555640426054493340635354252355595344484849513741634946344652534140 试对闭卷(,)和开卷(,)两组变量进行典型相关分析。【实验原理】1. 相应分析的基本原理1.1 相应分析的基本思想 相应分析,是指对两个定性变量的多种水平进行分析。设有两组因素A和B,其中因素A包含r个水平,因素B包含c个水平。对这两组因素作随机抽样调查,得到一个的二维列联表,记为。要寻求列联表列因素A和行因素B的基本分析特征和最优列联表示。相应分析即是通过列联表的转换,使得因素A 和因素B具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A、B的联系。1.2 相应分析的基本步骤(1) 建立列联表 设受制于某个载体总体的两个因素为和,其中因素包含个水平,因素包含个水平。对这两组因素作随机抽样调查,得到一个的二维列联表,记为。(2)将原始的列联资料K=(kij) r c变换成矩阵Z=(zij) r c,使得zij对因素A和列因素B具有对等性。通过变换。得,。(3)对因素B 进行因子分析。计算出的特征向量 及其相应的特征向量 计算出因素B的因子)(4)对因素A 进行因子分析。计算出的特征向量 及其相应的特征向量计算出因素A的因子(5)选取因素B 的第一、第二公因子 选取因素A 的第一、第二公因子将B因素的c个水平,A因素的r个水平同时反应到相同坐标轴的因子平面上上(6)根据因素A和因素B各个水平在平面图上的分布,描述两因素及各个水平之间的相关关系。1.3 在进行相应分析时,应注意的问题要注意通过独立性检验判定是否有必要进行相应分析。因此在进行相应分析前应做独立性检验。独立性检验中,:因素和因素是独立的;:因素和因素不独立由上面的假设所构造的统计量为 其中,拒绝区域为应该注意几个问题。第一,这里的是原始列联资料通过相应变换以后得到的资料阵的元素。说明与统计量有着内在的联系。第二,关于因素和因素各水平构成的协差阵和, ,这里表示矩阵的迹。第三,独立性检验只能判断因素和因素是否独立。如果因素和因素独立,则没有必要进行相应分析;如果因素和因素不独立,可以进一步通过相应分析考察两因素各个水平之间的相关关系。2. 典型相关分析的基本原理 典型相关分析是研究两组变量之间相关关系的一种多元统计方法。用于揭示两组变量之间的内在联系。典型相关分析的目的是识别并量化两组变量之间的联系。将两组变量相关关系的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系。2.1 典型相关分析的基本思想(1)在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。即:若设、是两组相互关联的随机变量,分别在两组变量中选取若干有代表性的综合变量Ui、Vi,使是原变量的线性组合。在的条件下,使得达到最大。(2)选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对。(3) 如此继续下去,直到两组变量之间的相关性被提取完毕为此。2.2 典型变量及其性质 在典型相关分析中,在一定条件下选取系列线性组合以反映两组变量之间的线性关系,这被选出的线性组合配对被称为典型变量。具体来说,在的条件下,使得达到最大,则称、是、的第一对典型相关变量。典型变量性质:典型相关量化了两组变量之间的联系,反映了两组变量的相关程度。1. 2. 2.3 典型相关分析中载荷分析的内容及作用作用:进行典型载荷分析有助于更好解释分析已提取的对典型变量。分析原始变量与典型变量之间相关性。内容:令 其中,为对典型变量系数向量组成的矩阵,和为对典型变量组成的向量。则这里,。记为对角元素是的对角阵,所以有类似可得: 对于经过标准化处理后得到的典型变量有:; ;对于样本典型相关分析,上述结果中的数量关系同样成立。2.4 典型相关分析中冗余分析的内容及作用 典型冗余分析的作用即分析每组变量提取出的典型变量所能解释的该组样本总方差的比例,从而定量测度典型变量所包含的原始信息量。 第一组变量样本的总方差为,第二组变量样本的总方差为。 和是样本典型相关系数矩阵,典型系数向量是矩阵的行向量,。 前对典型变量对样本总方差的贡献为 则第一组样本方差由前个典型变量解释的比例为 第二组样本方差由前个典型变量解释的比例为【实验环境】 Windows 7 SPSS Statistics二、实验内容:【实验方案】1. 将列联表中的两个变量作为相应分析的两个维度,进行相应分析寻求列联表两个因素的基本分析特征和它们的最优联立表示;2. 将两种数据的线性组合配对成为典型变量,进行典型相关分析并度量这两组变量之间联系的强度。【实验过程】(实验步骤、记录、数据、分析)一 问题1的求解步骤:1. 将数据输入在SPSS后,在窗口中选择数据加权个案,调出加权个案主界面,并将变量人数移入加权个案中的频率变量框中。点击确定(如下图)。2. 在SPSS窗口中选择分析降维对应分析,调出对应分析主界面,并将眼睛移入行框中,将头发移入列中。需定义各变量所取水平范围,“定义范围”按钮,键入最小值、最大值,然后点击按钮“更新”即可。“类型约束”中常用“无”,定义分类特殊要求中,系统默认对分类没有特殊要求。行列变量的处理方法是一样的。点击继续,如下图: 3. 点击模型,“解的维数”:在几维空间中求解,通常采用对应分析是将高维数据做低维处理,尽可能以小的维度解释多的变异,系统默认是2。“距离度量”:卡方距离和欧式距离,这里选择卡方距离,列联表的卡方距离,即卡方统计量。“标准化方法”:这里选择“行和列均值已删除”。“正态化方法”:不同的正则化方法,对应分析产生不同的结果。系统默认的是对称正则化,行是列的加权均数,可分析变量间的差异性和相似性。点击继续,如下图:4. 点击统计量,对应表:输出原始对应表,即原始二维列联表。行点概览:输出行变量的因子载荷和贡献。列点概览:输出列变量的因子载荷和贡献。行轮廓表:基于行合计的各格子的百分比。列轮廓表:基于列合计的各格子的百分比。对应表的排序:输出最优对应表。最大因子数,系统默认1。置信统计量:行点:行变量各点在各因子上的标准离差及相关系数。列点:列变量各点在各因子上的标准离差及相关系数。点击继续,如下图:5. 点击绘制:“散点图”:“双标图”即在因子坐标中,行变量和列变量的散点对应图,反映行变量和列变量在因子上的对应关系,若以主成分进行正则化,不能输出该因子负荷图。这里就选择“双标图”。点击继续,如下图:二 问题2的求解步骤:1. 1. SPSS并未提供典型相关分析的交互窗口,只能直接在synatx editor 窗口中呼叫SPSS的CANCORR程序来执行分析。并且cancorr不能读取中文名称,需将变量改为英文名称。按文件打开语法的顺序新建一个语句窗口。语句的主要格式如下,因此我们需要首先找到宏程序canonical correlation.sps的路径:2.3.2. 将路径复制,然后打开syntax的编辑器,编写如下图所示命令,在语句窗口中输入下面的语句:INCLUDE D:Program FilesSPSSEVALCanonical correlation.sps. CANCORR Set1=X1 X2 / Set2=X3 X4 X5/.3. 点击语句窗口运行全部,运行典型相关宏命令,得出结果。【实验结论】(结果)问题1的结果:对应表眼睛头发12345有效边际13263241110368326881165841884158033438490941226177449848403681851315有效边际1455251213713911185352行简要表眼睛头发12345有效边际1.477.004.353.161.0041.0002.435.073.370.119.0031.0003.193.047.512.232.0151.0004.075.037.306.518.0651.000质量.272.047.399.260.022列简要表眼睛头发12345质量1.224.012.113.079.025.1282.473.462.273.135.034.2953.236.335.425.296.220.3314.067.191.189.490.720.246有效边际1.0001.0001.0001.0001.000其中第一个即原始对应表,就是原始的二维频数分布表。接下来的是“行简要表”、“列简要表”,例如行简要表中,由对应表知,0.477=326/688。“质量”:0.272=1455/5352,其中的1455和5352分别是原始数据的统计量,质量是基于边际频数的影响量,为行或列百分比的加权均数,值越大,对形心影响越大,即越靠近形心。摘要维数惯量比例置信奇异值相关奇异值惯量卡方Sig.解释累积标准差21.445.198.833.833.012.2772.175.031.129.962.0133.095.009.0381.000总计.2381273.436.000a1.0001.000a. 12 自由度摘要表:降维数至3维(因子),是因为行列2变量中分类数最小的行变量的类数4减一个的结果。奇异值:最好应该翻译成特征值,解释行与列因子分的相关性。惯性值:等于各因子特征值的平方,例如0.198=0.445 x 0.445。卡方:原始列联表的卡方检验。“惯性比例解释”、“惯性比例累积”,解释因子的贡献率。“置信奇异值”应该翻译成“置信特征值”,因为选择的是2维解,所以只给出两个因子的结果,标准差越小,说明点估计值越准确,因子的相关系数越小,则说明因子分解越稳定。概述行点a眼睛维中的得分贡献点对维惯量维对点惯量质量12惯量1212总计1.128-.610.501.032.107.183.661.175.8362.295-.658.170.062.287.049.922.024.9463.331.045-.577.020.002.630.015.968.9834.2461.047.314.124.604.138.965.034.999有效总计1.000.2381.0001.000a. 对称标准化概述列点a头发维中的得分贡献点对维惯量维对点惯量质量12惯量1212总计1.272-.824.444.092.414.306.897.102.9992.047-.216-.277.010.005.021.098.063.1623.399-.072-.476.017.005.516.053.916.9694.260.873.259.091.445.100.966.0341.0005.0221.631.672.028.132.057.934.062.997有效总计1.000.2381.0001.000a. 对称标准化“概述行点”、“概述列点”,其中的“质量”还是上面图片中的结果,给出“维中的得分”、“贡献”,结果见上表。 根据维数 1 置换的对应表眼睛头发12345有效边际26881165841884158013263241110368333438490941226177449848403681851315有效边际1455251213713911185352因子负荷图,可以看出哪些变量属于第一因子,哪些偏向于第二因子,图形很是直观。基于第一因子的最优对应表,同因子负荷图一样,可以反映行列变量间的相关性。与原始的对应表可知,行列变量的顺序有所变动,观察可知,颜色深对应颜色深的,浅的对应浅的。问题2的结果:Run MATRIX procedure:第一组变量间的简单相关系数:Correlations for Set-1 X1 X2X1 1.0000 .4282X2 .4282 1.0000第二组变量间的简单相关系数:Correlations for Set-2 X3 X4 X5X3 1.0000 .5478 .4695X4 .5478 1.0000 .5310X5 .4695 .5310 1.0000Correlations Between Set-1 and Set-2 X3 X4 X5X1 .4679 .3496 .0301X2 .4718 .3865 .2065第一对典型变量的典型相关系数为CR1=0.617,第二对典型变量的典型相关系数为CR2=0.180.Canonical Correlations1 .6172 .180Test that remaining correlations are zero: Wilks Chi-SQ DF Sig.1 .599 20.478 6.000 .0022 .967 1.323 2.000 .516此为检验相关系数是否显著的检验,原假设:相关系数为0. 每行的检验都是对此行及以后各行所对应的典型相关系数的多元检验。 第一行看出,第一对典型变量的典型相关系数是不为0的,相关性显著。第二行sig值P=0.5160.05,在5%显著性水平下不显著。Standardized Canonical Coefficients for Set-1 1 2X1 -.672 -.880X2 -.507 .984Raw Canonical Coefficients for Set-1 1 2X1 -.049 -.064X2 -.044 .086第一个典型变量的标准化典型系数为-0.672和-0.507CV1-1=-0.672X1-0.507X2, CV1-2=-0.049X1-0.044X2Standardized Canonical Coefficients for Set-2 1 2X3 -.849 -.183X4 -.470 -.087X5 .446 1.111Raw Canonical Coefficients for Set-2 1 2X3 -.117 -.025X4 -.067 -.013X5 .026 .065CV2-1=-0.849X3-0.470X4+ 0.446X5CV2-2=-0.433X3-0.168X4 -1.075X5Canonical Loadings for Set-1 1 2X1 -.889 -.458X2 -.795 .607Cross Loadings for Set-1 1 2X1 -.548 -.083X2 -.490 .109典型负荷系数和交叉负荷系数表Canonical Loadings for Set-2 1 2X3 -.897 .291X4 -.698 .403X5 -.203 .979Cross Loadings for Set-2 1 2X3 -.554 .053X4 -.431 .073X5 -.125 .177 Redundancy Analysis:Proportion of Variance of Set-1 Explained by Its Own Can. Var. Prop VarCV1-1 .711CV1-2 .289Proportion of Variance of Set-1 Explained by Opposite Can.Var. Prop VarCV2-1 .270CV2-2 .009Proportion of Variance of Set-2 Explained by Its Own Can. Var. Prop VarCV2-1 .445CV2-2 .402Proportion of Variance of Set-2 Explained by Opposite Can. Var. Prop VarCV1-1 .169CV1-2 .013- END MATRIX -重叠系数分析Redundancyindex0.270=CR12*0.711=0.6172*0.7110.009=CR22*0.289=0.1802*0.289S1_CV001S2_CV001S1_CV002S2_CV002-7.38-10.272.172.73-6.88-10.671.522.64-5.86-10.711.421.58-5.45-10.242.531.96-5.68-9.161.232.31-5.37-9.882.211.20-4.65-9.581.131.79-3.95-8.902.772.71-5.20-8.413.151.44-5.05-9.83.02.67-4.85-9.112.46.83-3.16-9.664.242.02-4.80-8.36.791.44-4.62-9.632.03.19-4.54-10.091.56.01-4.52-8.204.041.01-3.14-8.86-.221.84-4.37-7.692.801.46-4.72-9.161.90.03-4.71-8.782.50.17-3.56-9.353.28.71-4.79-7.972.82.40-6.52-12.002.722.37-5.87-10.342.711.95-5.28-10.861.892.12-5.97-10.702.281.15-6.31-10.052.14.63-5.65-9.962.28.59-5.95-9.621.30.24-5.76-9.171.70.51-5.11-9.703.28.69-3.68-9.912.251.67-4.20-8.80.422.00

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论