多元统计分析-常用统计量及均向量的统计推断.ppt_第1页
多元统计分析-常用统计量及均向量的统计推断.ppt_第2页
多元统计分析-常用统计量及均向量的统计推断.ppt_第3页
多元统计分析-常用统计量及均向量的统计推断.ppt_第4页
多元统计分析-常用统计量及均向量的统计推断.ppt_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多元统计分析,蒋 敏卫生统计学教研室,多元分析常用统计量 与均向量的统计推断,为什么要学多元分析?,事物间的关系是错综复杂的,多元的; 研究本身是多因素的; 应用多元分析获取更丰富的信息; 提高论文的档次。,多元统计分析有哪些应用,比较 关系 预测 分类 评价,比较,比较 比较不同地区儿童生长发育情况 不同种族正常人头发中微量元素的含量 不同组别的IgG,IgM,IgA,IgE 不同组别的CD2,CD3,CD4,CD8,CD4/CD8,关系,探索病因 校正混杂因素 调整基线 探讨巯基丁氨酸(homocysteine)与血压、冠心病的关系,需调整年龄、性别、种族、已知的与冠心病有关的其他因素。

2、探索与预后有关的因素 影响黑色素瘤患者的生存时间的因素:年龄、性别、病灶部位、浸润深度,预测,疾病预后的预测 是否会患某病的预测 哪些人更容易患糖尿病? 年龄、家族史、工作性质、BMI、腰臀比等; 乳腺癌患者手术后的生存时间?年龄、家族史、并发症、复发、化疗等; 法医鉴定中死亡时间的推算:根据尸体的直肠温度、环境温度、停尸物的质地等。,分类,计算机辅助诊断系统 临床诊断 病毒鉴别 胸痛患者如何快速诊断(是否急性心肌缺血?) 对体形进行分类,制作服装 对口腔牙列进行分类,预制牙列,评价,综合评价 医院效益评价 卫生投入产出评价 健康状况评价,各种应用对应的多元统计分析方法,比较:多元方差分析 关

3、系:回归模型 预测:回归模型 分类:聚类分析与判别分析、回归模型 评价:主成分分析与因子分析,回归:多元线性回归、logisitic回归、Cox回归、Poisson回归,4 多元分析的主要内容,均向量的统计量推断 Hotelling T 2 multivariate analysis of variance (MANOVA) 多元线性回归(multivariate linear regression) 主成分分析(principal component analysis) 因子分析(factor analysis) 聚类分析(cluster analysis) 判别分析(discriminan

4、t analysis),本课程的要求,上机做练习,分析实际资料 学会看文献,判断统计分析的应用是否正确 统计软件SAS,或Stata 考试: 平时作业与考勤 期末考试:闭卷,第一讲内容:,多元分析常用统计量 多元T 检验 多元方差分析,多元分析常用统计量,均向量 方差、协方差矩阵 离均差平方和与离均差积和矩阵 相关系数矩阵,例1.1 调查某地16岁中学生12名,其身高、体重和胸围 资料见下表。,单变量时,对每个变量分别计算 和 。 多变量时,则计算每个变量的均数、方差以及变量间的协方差和相关系数。 为了清晰表达多变量间的关系,常用矩阵(matrix)表示。构成矩阵的每个数据称为元素(eleme

5、nt)。这里称为均向量、方差协方差矩阵。,1.1均向量(means vector),将各变量的均数用矩阵形式排列,称为均向量。如本例均向量为三维列向量:,其转置向量为三维行向量:,更一般地:,样本均向量为:,总体均向量为:,1.2 方差、协方差矩阵,方差:变量自身的变异; 协方差:变量与另一变量的协同变异(即:一个变量随另一个变量变化的关系)。 方差、协方差矩阵:将各指标的方差、协方差用矩阵的形式排列,得方差-协方差矩阵 (variance-covariance matrix),简称协方差阵(covariance matrix),用字母V表示。,本例:第1个变量方差为:,本例共三个方差: v2

6、2=69.6288 v33=35.3239,第1个变量与第2个变量的协方差为: 本例共三个协方差。 v13=v31=32.2318 v23=v32=45.4659,样本协方差阵,vij=vji,协方差阵是对角阵,一般地,如n个观察单位测量了m个变量,则样本协差阵为维的对称阵。记为:,对角线两侧为变量间的协方差:,,,可见,方差为协方差的特例,或协方差为更一般的形式。,其中:对角线上为各变量的方差:,,,总体协方差阵,1.3离均差平方和与离均差积和矩阵,将各变量的离均差平方和与离均差积和用矩阵排列,该矩阵称为离差阵(SSCP)。用SS或L表示。,1.4相关系数阵,X1与X2的相关系数为:,变量本

7、身的相关系数为1,因此: 将各变量间的相关系数用矩阵形式排列,称相关阵。记为R(See P.3)。,一般地,n个观察对象有m个 变量,则有mm维的样本相关阵:,其中:,correlation coefficients matrix,如事先对每个变量做标准化变换,则变换后变量的协差阵等于原变量的相关阵。,离差和离差积和相关系数矩阵,3 多元正态分布的性质,二元正态分布曲面(11=1,22=1,12=0),二元正态分布曲面(11=1,22=1,12=0),二元正态分布曲面(11=2,22=4,12=0.75),二元正态分布曲面(11=2,22=4,12=0.75),医用多元统计分析方法,二元正态分

8、布曲面(11=2,22=4,12=0.75),二元正态分布曲面剖面(11=1,22=1/2,12=0.75),m元正态分布的性质,每一个变量均服从正态分布。 变量的线性组合服从正态分布。 m 元正态分布中的任意 k (0km)个变量服从 k 元正态分布。 m元正态分布的条件分布仍服从正态分布。 协方差为0的变量间相互独立。,二元正态相关变量的参考值范围,身高(cm),体 重 (kg),多元T检验 多元配对设计均向量检验 多元成组设计两样本的均向量检验 多元方差分析 多元成组设计资料的分析 多元区组设计资料的分析 多元方差分析的正确应用,2.均向量的统计推断,2.1多元T检验(Hotelling

9、 检验),(1) Student-t 检验的简单回顾 检验一样本是否来自某已知总体,,检验水准为, 检验两样本是否来自同一总体,在许多医学问题中,做假设检验时(如检验两样本是否来自同一总体时)所依据的指标可能不只一个。例如: 儿童生长发育:身高、体重、头围、胸围 血压: 收缩压、舒张压 甲状腺功能: 血脂: 总胆固醇、甘油三酯 风湿或类风湿: 血沉、抗“O”、WBC计数,若仍用t 检验,有几个问题: 重复进行t 检验,增加犯I 型错误的概率。 忽略了变量间的相互联系。 t 检验结果不一致时,难以下一个综合结论。,例如,本例只有出现下列情况之一,才可作出明确判断: 两组间的差别均有统计学意义,且

10、大小趋势一致(三项指标都是值越大,病情越差); 两组间各指标的差别均无统计学意义。,反之,出现下列情况之一,则难以得出明确结论: 两组间各指标的差别具有统计学意义,但趋势不一致; 两组间有些指标差别有统计学意义(趋势一致或不一致),有些指标差别无统计学意义。,(2)多元配对设计均向量检验,目的:检验一样本是否来自均向量为 的m元正态总体 。,例2.1 用胸腺素治疗15例病毒性心肌炎细胞免疫功能低下症,结果见表2.1(P10)。试问,胸腺素治疗前后免疫球蛋白是否有改变?,例2.1 胸腺素治疗前后免疫球蛋白测定值,例2.1资料的单因素分析(配对t检验)结果,多元配对T检验,检验假设 检验统计量,多

11、元配对 T 检验与配对 t 检验,AT 转置矩阵 在线性代数中,矩阵A的转置是另一个矩阵AT(也写做Atr , tA或A),A-1 逆矩阵 在矩阵的运算中,单位阵E 相当于数的乘法运算中的1,那么,对于矩阵A,如果存在一个矩阵 A-1 ,使得 AA-1 =A-1A =E 则矩阵 A-1称为A 的可逆矩阵或逆阵。,Hotelling T 2 的分布,例2.1资料的分析结果,T 2 = 47.6559, F = 13.6160,P = 0.00036。 故可以认为治疗后免疫球蛋白下降。,(3)多元成组设计两样本的均向量检验,例2.2两组贫血患者的血红蛋白浓度(%, X1)及红细胞计数(万/mm3,

12、 X2) 如下表。问两组患者的贫血程度是否有差异。,例2.2两组贫血患者的血红蛋白浓度(%,X1)及红细胞计数(万/mm3,X2),检验假设 或,检验统计量,多元 T 检验与 t 检验,Hotelling T 2 的分布,例2.2两组贫血患者的血红蛋白浓度(%,X1)及红细胞计数(万/mm3,X2),例2.2计算结果:,P = 0.0030。,多元分析是单变量分析的扩展,对单变量(一元)资料 配对 t 检验是配对 Hotelling T2 检验的特例; t 检验是 Hotelling T2 检验的特例。,2.2 多元方差分析,Multivariate analysis of variance,

13、 MANOVA 一元方差分析的基本思想: 对方差(离均差平方和,SS)的分解 多元方差分析的基本思想: 对方差-协方差阵(离均差平方和-离均差积和,SSCP)的分解。,例2.3 三组贫血患者的血红蛋白浓度(%,X1)及红细胞计数(万/mm3,X2),例2.3计算结果,三组的均向量和离差矩阵,例2.3计算结果(续),三组的离差矩阵之和(组内变异) 总离差矩阵 组间离差矩阵,检验假设,多元方差分析表,Wilks统计量,组内变异在总变异中的比例。,例2.3的计算,m=2, g=3: v1=2m=4,v2=2(30-2-2)=52 P=0.001161.,(3)多元区组设计资料的分析,例2.4 为了解某溶栓药对脑梗塞患者血压的影响,观察10名患者,分别与疗前、溶后10分钟、溶后20分钟测定患者的收缩压(X,mmHg)和舒张压(Y,mmHg),结果如下表,问该溶栓药对血压有无影响?,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论