




已阅读5页,还剩98页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1引言,多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科;是讨论多元随机变量的理论和方法的总称。一.发展1928年,WishartFisher,Hotelling,Roy,许宝禄等70年代初,在我国开始发展,多元统计分析(MultivariateStatisticalAnalysis),一、多元随机变量,二、内容(研究目标),(1)多元正态总体的统计推断参数估计;假设检验非参数统计推断的发展?(2)简化数据结构主成分分析;因子分析;对应分析(3)分类与分组聚类分析;判别分析(4)变量间的相互关系回归分析;典型相关分析,三.应用,教育学、医学、气象学、环境科学、地质学、考古学、服装工业、经济学、农业、社会科学、文学等各个自然科学和社会科学领域。,二、雷达图,物理,2多元随机变量的分布,1。多元正态分布2。Wishart分布3。HotellingT平方分布,其中元素,为第i个样本中第j个分量的取值。,多元随机变量,1、概率分布律、密度函数与分布函数,(1)离散型随机向量在所有可能向量值上的概率为:,其中,时,,的分布遵从随机变量的二项分布,。,2多元随机变量的分布,(2)连续型随机向量的概率分布,均匀分布设维随机向量的密度函数在某连续区域内为一常数,在该区域外为零值,则称遵从均匀分布,以,连续区域为长方形为例,密度函数为:(7.2)可以得出:均匀分布的密度常数为连续区域体积的倒数。,2多元随机变量的分布,对于维的离散型,或连续型随机向量,均可定义它的联合分布函数(或称维分布函数、累计概率函数)如下:可由联合分布函数计算概率,例如在时,有a=0;,例如在,时,有,可以证明联合分布函数具有这样一些性质:对于每个单元单调上升;对于每个变元左连续;有,2多元随机变量的分布,二、连续型的维随机向量的联合分布函数,边沿分布与条件分布,P维随机向量,的联合分布函数为,,当它的部分变元(不妨设为后,个)于无穷,且有,,则其极限函数,2多元随机变量的分布,三、随机向量的独立性,返回,对于连续型随机变量上(3)式则等价于:,对于离散型随机变量上(3)式等价于,可用,的联合分布函数及它们各自的(边沿)分布函数表为:,设随机变量、,对任意的和有(3)则称随机变量和相互独立。,(4),四、随机向量的数字特征,四、随机向量的数字特征,随机向量的数字特征主要有数学期望和协方差矩阵。,。,设维随机向量,,它的各随机分量,的数学期望存在,即有,,则,的数学期望存在,它为:,可见它也是,维向量,常称之为均向量,向量方差:,(4),又若各随机分量对,之间的协方差,存在,,,则,的协方差矩阵存在,它为:,显见其对角线元素,为,的方差,而非对角线元素,为,之间的协方差,对它标准化,得到,的相关系数:,均匀分布的数字特征,均值向量和协方差阵的性质,随机向量的数学期望和协方差矩阵性质讲解,这里的,是,各分量的线性组合,(1),(2),(3),(4),(5),(6),(7),五、多元正态分布的密度函数和数字特征回忆一元,正态分布,其密度函数为:,它还可写成如下形式:,并可推导随机变量,X数学期望为,,方差为,对此进行推广,设随机向量,P元正态分布,则其密度函数为:,多元正态分布的定义与基本性质,多元正态分布的定义与基本性质,二元正态分布,其密度函数为:,取,例子,例2.2(二元正态密度曲线和等高线)title2相关系数r=0,a1=a2=1;datanormal1;a=1;b=1;r=0;a2=sqrt(a);b2=sqrt(b);p2=2*3.1415926;d=1-r*r;d2=sqrt(d)*a2*b2;dox=-3to3by0.1;doy=-3to3by0.1;z1=exp(-x*x/a-y*y/b+2*r*x*y/(a2*b2)/d);z=z1/(p2*d2);output;end;end;keepxyz;run;,procg3ddata=normal1;ploty*x=z/name=GB0309rotate=-30/*ctop=blackcbottom=black*/xticknum=7yticknum=7;run;procgcontourdata=normal1;ploty*x=z;run;,其中,为常数向量,为一对称正定矩阵,可以证明,为随机向量,的数学期望(均向量),,为它的协方差矩阵。,,,;,,,协方差矩阵,相关矩阵,定义1:若,独立且服从,维中心化正态分布,,则随机矩阵,所服从的分布称为自由度为,的,维中心Wishart分布,记为,,其中,,,中心Wishart分布,定理1:设,i.i.d,,记,,则,(1),与,相互独立,(2),定义2:设,i.i.d,,若,,,,,,,与,独立,则称随机变量,服从第一自由度为P,第二自由度为n的中心分布,记为,分布首先是Hotelling由一元统计推广而来,故,分布又称,Hotelling,分布。,Hotelling分布,推论1:设i.i.d,,当,已知时,,推论2:设i.i.d,,当,未知,记,,,则,事实上,因,根据定义3,取,,则,,,Hotelling分布,可以证明:,上公式等价于:,上两公式给出了F分布统计量与的关系。,对于给定的检验水平,Hotelling分布与F分布的关系,3随机向量的估计与检验,1。参数简单估计2。均值的Hotelling检验3。多元方差分析,一、用样本统计量对期望与方差作简单估计例1用益寿宁治疗五名高血脂病人,治疗结果列于表1,试估计算多元统计量。,二、用样本对协方差矩阵作估计,三、用样本对相关矩阵作估计,简单估计在科研问题中,常常可以设定其对象遵从多元正态分布。多元正态分布可由其均向量和协方差矩阵完全确定,但实际工作中,这两个参数往往是未知的,需要通过样本来估计。,3两个均数向量的比较HotellingT2检验,由推论1知i.i.d,1、当,已知时的均值检验,,检验统计量,对于给定的检验水平,其否定域为,由推论2知i.i.d,2、当,未知时的均值检验,,检验统计量,对于给定的检验水平,其否定域为,范例,试讨论益寿宁有否降血脂效果?分析:若无效,意味着u=0,故假设,即,益寿宁有降血脂效果,DATAHOTE;INPUTX1X2;C=1;【单一组指标】CARDS;16-4214657-40-201071786;PROCGLM;CLASSC;MODELX1X2=C/NOUNI;MANOVAH=INTERCEPT;LSMEANSC/STDERRPDIFF;PROCCORRCOVOUTP=A;VARX1X2;PROCPRINT;RUN;,CX1StdErrPr|T|LSMEANLSMEANH0:LSMEAN=0118.200000012.20409770.2101CX2StdErrPr|T|LSMEANLSMEANH0:LSMEAN=0139.000000027.36055550.2272,结果3(常用多元统计量):,OBS_TYPE_NAME_X1X21COVX1744.70-1401.252COVX2-1401.253743.003MEAN18.2039.004STD27.2961.185N5.005.006CORRX11.00-0.847CORRX2-0.841.00,DATAHOTE;INPUTX1X2;X1=x1-20;x2=x2-40;C=1;CARDS;16-4214657-40-201071786;PROCGLM;CLASSC;MODELX1X2=C/NOUNI;MANOVAH=INTERCEPT;LSMEANSC/STDERRPDIFF;PROCCORRCOVOUTP=A;VARX1X2;PROCPRINT;RUN,单向试验,TheGLMProcedureMultivariateAnalysisofVarianceCharacteristicRootsandVectorsof:EInverse*H,whereH=TypeIIISSCPMatrixforInterceptE=ErrorSSCPMatrixCharacteristicCharacteristicVectorVEV=1RootPercentX1X20.02718214100.000.033493110.013444530.000000000.000.00373545-0.00672381MANOVATestCriteriaandExactFStatisticsfortheHypothesisofNoOverallInterceptEffectH=TypeIIISSCPMatrixforInterceptE=ErrorSSCPMatrixS=1M=0N=0.5StatisticValueFValueNumDFDenDFPrFWilksLambda0.973537180.04230.9606PillaisTrace0.026462820.04230.9606Hotelling-LawleyTrace0.027182140.04230.9606RoysGreatestRoot0.027182140.04230.9606,一单向试验,TheGLMProcedureLeastSquaresMeansStandardCX1LSMEANErrorPr|t|1-1.800000012.20409770.8899StandardCX2LSMEANErrorPr|t|1-1.000000027.36055550.9726,一单向试验,计算分析过程,DATAHOTE;INPUTX1X2X3;x1=x1-90;x2=x2-58;x3=x3-16;C=1;CARDS;7860.616.57658.112.59263.214.58159.014.08160.815.58459.514.0;PROCGLM;CLASSC;MODELX1X2x3=C/NOUNI;MANOVAH=INTERCEPT;LSMEANSC/STDERRPDIFF;PROCCORRCOVOUTP=A;VARX1X2x3;run;,SAS程序:,TheGLMProcedureClassLevelInformationClassLevelsValuesC11Numberofobservations6TheSASSystem15:53Thursday,November4,20042TheGLMProcedureMultivariateAnalysisofVarianceCharacteristicRootsandVectorsof:EInverse*H,whereH=TypeIIISSCPMatrixforInterceptE=ErrorSSCPMatrixCharacteristicCharacteristicVectorVEV=1RootPercentX1X2X384.0889324100.000.18487526-0.703215600.478374090.00000000.00-0.039575080.047504850.280740860.00000000.000.038922510.141536400.00000000,MANOVATestCriteriaandExactFStatisticsfortheHypothesisofNoOverallInterceptEffectH=TypeIIISSCPMatrixforInterceptE=ErrorSSCPMatrixS=1M=0.5N=0.5StatisticValueFValueNumDFDenDFPrFWilksLambda0.0117524184.09330.0022PillaisTrace0.9882475984.09330.0022Hotelling-LawleyTrace84.0889323884.09330.0022RoysGreatestRoot84.0889323884.09330.0022,TheGLMProcedureLeastSquaresMeansStandardCX1LSMEANErrorPr|t|1-8.000000002.294921930.0175StandardCX2LSMEANErrorPr|t|12.200000000.727094680.0292StandardCX3LSMEANErrorPr|t|1-1.500000000.562731430.0446,TheCORRProcedure3Variables:X1X2X3CovarianceMatrix,DF=5X1X2X3X131.600000008.040000000.50000000X28.040000003.172000001.31000000X30.500000001.310000001.90000000SimpleStatisticsVariableNMeanStdDevSumMinimumMaximumX16-8.000005.62139-48.00000-14.000002.00000X262.200001.7810113.200000.100005.20000X36-1.500001.37840-9.00000-3.500000.50000,PearsonCorrelationCoefficients,N=6Prob|r|underH0:Rho=0X1X2X3X11.000000.803060.064530.05440.9033X20.803061.000000.533610.05440.2755X30.064530.533611.000000.90330.2755,检验两家实验室污水化学分析结果是否一致,检验例举,令d1J=X11J-Y11J,d2J=X12J-Y12J,某市为测定其河流污水处理的状况,从河流中抽取11个样品,送(甲与乙)两家实验室检验指标生化氧(BOD)与悬浮固体(SS)量得数据如下表:,成对数据检验,成对数据检验,以单向试验法作成对检验datamogo;inputx1x2y1y2;c=1;d1=x1-y1;d2=x2-y2;cards;63725256232813186436228443529113615313475446423264230711245564435434563330292020143921;procglm;classc;MODELd1d2=C/NOUNI;MANOVAH=INTERCEPT;LSMEANSC/STDERRPDIFF;PROCCORRCOV;VARd1d2;run;PROCPRINT;RUN;,成对数据检验,H=TypeIIISSCPMatrixforInterceptE=ErrorSSCPMatrixS=1M=0N=3.5StatisticValueFValueNumDFDenDFPrFWilksLambda0.385922217.16290.0138PillaisTrace0.614077797.16290.0138Hotelling-LawleyTrace1.591195777.16290.0138RoysGreatestRoot1.591195777.16290.0138TheSASSystem16:57Wednesday,March31,20083TheGLMProcedureLeastSquaresMeansStandardcd1LSMEANErrorPr|t|1-9.909090914.273500900.0429Standardcd2LSMEANErrorPr|t|113.81818186.06602790.0459,成对数据检验,CovarianceMatrix,DF=10d1d2d1200.890909195.8181818d295.8181818404.7636364SimpleStatisticsVariableNMeanStdDevSumMinimumMaximumd111-9.9090914.17360-109.00000-27.0000016.00000d21113.8181820.11874152.00000-7.0000060.00000PearsonCorrelationCoefficients,N=11Prob|r|underH0:Rho=0d1d2d11.000000.336020.3123d20.336021.00000,成对数据检验,Obsx1x2y1y2cd1d2163725251-1912262328131-22103186436221-1842484435291-27155113615311-456347544641-10117232642301-19-487112455641166094354345619-21033302920141011201439211-19-7,设,3、当两个正态总体方差已知,时,两均值检验,,检验统计量,对于给定的检验水平,其否定域为,4、当两个正态总体方差未知,但方差相等,时,两均值检验,,检验统计量,对于给定的检验水平,其否定域为,5、当两个正态总体方差不相等,但样本容量相等,两均值检验。,检验统计量,对于给定的检验水平,其否定域为,6、当两个正态总体方差不相等,但样本容量不相等n|r|DF=20 x1x2x11.0000000.7260830.0002x20.7260831.0000000.0002,TheGLMProcedureMultivariateAnalysisofVarianceH=TypeIIISSCPMatrixforgx1x2x1540.04545455-753.0909091x2-753.09090911050.1818182CharacteristicRootsandVectorsof:EInverse*H,whereH=TypeIIISSCPMatrixforgE=ErrorSSCPMatrixCharacteristicCharacteristicVectorVEV=1RootPercentx1x20.68529770100.00-0.019316570.011693070.000000000.000.007051570.00505672,H=TypeIIISSCPMatrixforgE=ErrorSSCPMatrixS=1M=0N=8.5StatisticValueFValueNumDFDenDFPrFWilksLambda0.593366976.512190.0070PillaisTrace0.406633036.512190.0070Hotelling-LawleyTrace0.685297706.512190.0070RoysGreatestRoot0.685297706.512190.0070TheSASSystem15:53Thursday,November4,200412TheGLMProcedureLeastSquaresMeansH0:LSMean1=StandardH0:LSMEAN=0LSMean2gx1LSMEANErrorPr|t|Pr|t|a24.81818184.7681797|t|Pr|t|a47.90909097.6964626FWilksLambda0.389272199.41343180.0006PillaisTrace0.610727819.41343180.0006Hotelling-LawleyTrace1.568896609.41343180.0006RoysGreatestRoot1.568896609.41343180.0006,二双向试验,该中学全体16岁男、女身体发育状况的差别有统计学意义。,SEXHStdErrPr|T|Pr|T|H0:LSMEANLSMEANH0:LSMEAN=0LSMEAN1=LSMEAN2f154.2100001.9106490.00010.0077m161.8666671.7441760.0001SEXWStdErrPr|T|Pr|T|H0:LSMEANLSMEANH0:LSMEAN=0LSMEAN1=LSMEAN2f47.31000002.29212310.00010.8058m48.08333332.09241250.0001SEXBStdErrPr|T|Pr|T|H0:LSMEANLSMEANH0:LSMEAN=0LSMEAN1=LSMEAN2f77.85000001.95139370.00010.2033m74.37500001.78137060.0001,结果2(单变量分析及其两两比较结果,由LSMEANS语句获得):,二双向试验,7.4多个均值向量的比较多元方差分析,现从各个正态总体中抽取的样本如下:,作均值检验:,容易证明:,定义维尔克斯(Wilks)统计量,从各个总体协方差阵相同,记,定义维尔克斯(Wilks)统计量,对于给定的检验水平,其否定域为,由于该分布的重要性,统计学家一直都在研究其与其它分布的关系,并找到许多其极限分布的关系,具体结果如下表,例:调查某中学16岁男、女若干名,测量其身高、体重和胸围,结果见SAS程序。试检验该中学全体16岁男、女身体发育状况的差别有无统计学意义。,datab;inputsex$hwb;cards;m17158.581m17
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 会计制度设计期末考试题及答案
- 考点解析北师大版8年级数学上册期中试题附答案详解(综合题)
- 解析卷-人教版8年级数学下册《一次函数》重点解析试题(解析卷)
- 押题宝典执业药师资格证之《西药学专业二》模考模拟试题及参考答案详解【模拟题】
- 2025年土壤污染修复技术在土壤修复产品研发中的应用效果与成本效益分析报告001
- 2025年工业互联网平台可信执行环境(TEE)在智能安防系统中的应用分析报告
- 解析卷-北京市朝阳区日坛中学7年级数学下册第四章三角形专题测评试题(含详细解析)
- 2025年学前教育师资队伍教师团队建设与领导力提升报告
- 园林绿化作业人员模考模拟试题附答案详解【模拟题】
- 建材采购合同书要素
- 清廉经营声明函-餐饮服务
- 顺丰快递合同
- 2024年长沙航空职业技术学院单招职业技能测试题库附答案
- 新测绘法解读
- 热力发电厂课件04发电厂的热力系统
- 化疗药物外渗预防及处理-中华护理学会团体标准课件
- 空间天气预报模型
- 公安心理健康知识讲座
- 砂石料供应、运输、售后服务方案-1
- 2023年公路养护工技能鉴定操作试题
- 无损探伤工(技师、高级技师)技能鉴定考试题库大全-下(多选、判断题汇总)
评论
0/150
提交评论