医学研究数据管理与统计分析_第1页
医学研究数据管理与统计分析_第2页
医学研究数据管理与统计分析_第3页
医学研究数据管理与统计分析_第4页
医学研究数据管理与统计分析_第5页
免费预览已结束,剩余108页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1王建明公共卫生学院流行病与卫生统计学系 SPSS软件应用(四)医学研究数据管理与分析非参数检验与参数检验参数统计方法:如检验和方差分析 特点:假定随机样本来自某种已知的分布的总体对总体分布的参数可估计或检验2非参数检验与参数检验例如:比较男女红细胞数的差别参数检验:建立无效假设H0:*, H1:*, *计算统计量:t*; P*统计推断:如果P0.05,有统计意义,认为男女红细胞数不同。通过比较 均数判断两总体是否相同3参数法的条件观测值互相独立两样本对应的总体服从正态分布(双变量正态分布)两样本方差齐性4如果数据不满足上述条件,该怎么办?方差不齐:t检验非正态分布:变量变换;稳健方法;非参数

2、法非参数法对参数的分布没有什么要求不对均数等参数检验,而是检验分布是否相同效能可能比较低当数据满足参数法条件时,效能低于参数法不满足参数法条件时,处于“优势”5非参数法分布类型检验6分布位置检验分类资料:卡方 Chi-Square二项分布 Binomial:也可连续性变量游程 Runs连续性变量:1Sample K-S(柯尔莫诺夫-斯米尔诺夫检验)检验:正态分布、均匀分布、二项分布、指数分布分布类型检验:卡方Chi-square过程该检验与一般所用的卡方检验(crosstable菜单来完成)不同用来检验变量的几个取值所占百分比是否和期望值有统计学差异。7例:在某人群中随机抽样,检测血型,分析A

3、、B、AB、O四种血型所占的比例是否相同(都是25%)比较三种饮料的受欢迎程度是否相同?可口可乐:80人百事可乐:60人非常可乐:40人8coco cola.sav旧对话框910分布类型检验:1Sample K-S过程例:某地测量101例健康男子血清总胆固醇值,问是否服从正态分布?111Sample K-S.savAnalyze Nonparametic test 1-Sample K-S1-Sample K-S采用柯尔莫诺夫-斯米尔诺夫检验来分析连续性变量是否符合某种常用分布可以检验的分布有:正态分布均匀分布Poission分布指数分布12SPSS中正态检验的模块 Explore过程:Plo

4、t直方图:Histogram(直观描述)P-P图和Q-Q图1 Sample K-S:normal 13SPSS中正态检验的模块 Explore过程:Plot直方图:Histogram(直观描述)P-P图和Q-Q图1 Sample K-S:normal 141Sample K-S.savExplore过程:正态性检验Tests of NormalityKolmogorov-SmirnovaShapiro-WilkStatisticdfSig.StatisticdfSig.血清总胆固醇.072101.200*.990101.648a. Lilliefors Significance Correct

5、ion*. This is a lower bound of the true significance.15正态QQ图正态性检验SPSS中正态检验的模块 Explore过程:Plot直方图:Histogram(直观描述)P-P图和Q-Q图1 Sample K-S:normal 16Normal正态非参数检验独立样本间的比较2 Independent SamplesMann-Whitney U 检验两个独立样本所在总体是否相同K Independent SamplesKruskal-Wallis H 检验两个或多个独立样本所在总体是否相同1718秩和检验主要适用于以下情况:数值变量资料:严重偏

6、离正态分布或者分布未知数值变量资料:完全随机设计中方差不齐有序分类资料(等级资料)注:但数据满足参数检验的条件时,若采用秩和检验,会降低统计效能(1)。非参数检验秩和检验19两组连续性变量资料的秩和检验例:某实验室观察某种抗癌新药治疗小鼠移植性肿瘤的疗效,两组各10只老鼠,以生存日期作为观察指标,试用非参数检验法检验两组小鼠生存日数有无差别?SPSS 分析命令:AnalyzeNonparametric Tests2 Independent SamplesNPar Independent samples(1).sav试验组:24 26 27 27 30 32 34 36 40 60天以上对照组:

7、46 79 10 10 12 13 16 1620两组连续性变量资料的秩和检验21Test type22两组连续性变量资料的秩和检验Mann-Whitney U检验结论:P值0.05,拒绝H0,认为两组的生存时间有差别,结合专业认为,试验组生存时间长23两组有序变量资料的秩和检验例:某研究者欲评价新药按摩乐口服液治疗高甘油三酯血症的疗效,将高甘油三酯血症患者189例随机分为两组,分别用按摩乐口服液和山楂降脂片治疗,问两种药物治疗高甘油三酯血症的疗效有何不同?疗效人数按摩乐口服液山楂降脂片合计无效177087有效251338显效273764合计69120189NPar Independent s

8、amples(2).sav能否采用交叉表过程来分析?24SPSS 分析命令:AnalyzeNonparametric Tests2 Independent Samples别忘了加权weight一下25结论:两种药物对高甘油三酯血症的疗效分布不同。两组有序变量资料的秩和检验多个独立样本的非参数检验: K Independent Samples类似与多组均数比较的方差分析,多个独立样本的非参数检验不能 采用前述的两两秩和检验来完成。可采用K Independent SamplesKruskal-Wallis H过程26例:书P.158,例9-4-2比较6个中心患者治疗前HBV DNA是否相同27多

9、个独立样本的非参数检验: K Independent Samples例9-1-1.savKruskal-Wallis Test28结论:尚不能认为各中心治疗前HBV DNA不同非参数检验配对样本间比较2 Related Samples:2配对样本的比较Wilcoxon符号秩和检验sign符号检验K Related Samples:多个相关样本比较Friedman*要求是“横”向的数据2930配对设计资料的符号秩和检验例:某研究者欲研究保健食品对小鼠抗疲劳作用,将同种属的小鼠按性别和年龄相同、体重相近配成对子,共10对,并将每对中的两只小鼠随机分到保健食品两个不同的剂量组,过一定时期将小鼠杀死,

10、测得其肝糖原含量(mg/100g)。问不同剂量组的小鼠肝糖原含量有无差别?SPSS 分析命令:AnalyzeNonparametric Tests2 Related SamplesNPar 2 related samples.sav配对设计差值的分布呈正态分布?非参数检验31配对设计资料的符号秩和检验32结论:该保健食品的不同剂量对小鼠肝糖原含量的作用不同。33我该选哪种检验方法?Wilcoxon:符号秩和检验,最常用Sign:符号检验,只利用了正负号,效能较低McNemar:配对卡方检验,只适用于两分类资料,特别适合于自身对照设计Marginal Homogeneity: McNemar法多

11、分类下的扩展Exercise34例:某医生测得12名正常人和13名病毒性肝炎患者血清转铁蛋白含量(g/L) 结果如下:问肝炎患者和正常人血清转铁蛋白含量有无差异?病毒性肝炎患者:2.34 2.47 2.22 2.31 2.36 2.38 2.15 2.57 2.19 2.25 2.28 2.31 2.42正常人: 2.61 2.71 2.73 2.64 2.68 2.81 2.76 2.55 2.91 2.85 2.71 2.64Independent Samples T Test.sav 请分别采用参数法和非参数法进行检验,比较两结果的异同。35Exercise例:为比较某新药与常规药降血脂

12、的效果,将性别相同、血清总胆固醇水平相近的高血脂患者配成对子,每对中随机抽取一个人服用新药,另一个人服用常规药。服用一段时间后,测得血清总胆固醇含量(mmol/L)如下:问新药与常规药降血清总胆固醇效果是否相同?新 药:6.57 6.46 6.27 6.89 6.21 7.61 7.60 7.04 6.68 7.42常规药:6.00 6.83 5.97 7.28 6.30 6.64 7.38 7.00 6.03 7.22 paired-sample T test.sav 请分别采用参数法(配对t检验)和非参数法进行检验,比较两结果的异同。36相关与回归两个连续变量X和Y随机变动且不分主次,可通

13、过线性相关(linear correlation)分析,刻画它们之间可能存在的线性联系的方向和程度。37线性相关的概念例:父亲身高与子女身高的相关关系38绘制散点图39计算相关系数r 的取值范围是 -1,140(1)正相关:两个相关现象间,当一个变量的数值增加(或减少)时,另一个变量的数值也随之增加(或减少),即同方向变化。(2)负相关:当一个变量的数值增加(或减少)时,而另一个变量的数值相反地呈减少(或增加)趋势变化,即反方向变化。直线相关应用条件:变量服从双变量正态分布不满足条件时怎么办?变量转换等级相关分析41SPSS中的相关分析模块双变量相关分析偏相关分析距离分析4243SPSS 分析

14、命令:AnalyzeCorrelateBivariate简单线性相关例:随机抽取15名健康成人,测定血液的凝血酶浓度(单位/毫升)及凝固时间。据此数据判断这两项指标间是否相关?Correlate and regression (1).sav44分析步骤1. 散点图2. 计算相关系数3. 对相关系数作假设检验样本相关系数r 是总体相关系数 的估计值,需进行假设检验。H0:0H1:045步骤一:绘制散点图46双击可编辑图形47步骤二:相关分析AnalyzeCorrelateBivariate48线性相关结论:凝血酶浓度与凝血时间之间呈负相关。相关系数P 值49等级相关Spearman 等级相关用r

15、s表示两变量的相关关系的密切程度及相关方向基本思想:将两变量分别从小到大编秩。对秩次进行前述的相关分析。5051SPSS 分析命令:AnalyzeCorrelateBivariate秩相关(等级相关)例:某地研究27 岁急性白血病患儿的血小板数与出血症状程度之间的相关性。Correlate(2).savCorrelation Coefficients复选框Spearman52SPSS 分析命令:AnalyzeCorrelateBivariate53秩相关(等级相关)结论:血小板数与出血症状程度之间负相关关系没有统计学意义。54Pearson vs. Spearman55绘制散点图的重要性偏相关

16、分析控制其它变量影响的情况下,分析两个变量之间的关系偏相关系数:揭示两变量之间的真实联系56例:现已测得20名糖尿病人的血糖、胰岛素及生长素的数据。请分析糖尿病人血糖浓度与生长素浓度之间有无相关关系。57pcorr.savid血糖(mmol/L)胰岛素(mU/L)生长素(ug/L)112.2115.29.51214.5416.711.43312.2711.97.53412.041412.1757.8819.82.33611.116.213.52710.431710.07813.3210.318.89919.595.913.14109.0518.79.63116.4425.15.1129.491

17、6.44.531310.16222.16148.3823.14.26158.4923.23.42167.71257.341711.3816.812.751810.8211.210.881912.4913.711.06209.2124.49.16Correlations58如果不考虑胰岛素浓度,糖尿病人血糖浓度与生长素浓度之间的相关关系有统计学意义。偏相关分析变量59控制变量Analyze Correlate Partial控制了胰岛素的影响后血糖和生长素的相关系数值大大降低。 r=0.2003,p=0.411,无统计学意义,即血糖和生长素无相关性,胰岛素为混杂因素。60偏相关控制变量Exerc

18、ise(1)数据库“例10-1-1.sav”,请分析发硒X与血硒Y有无线性相关关系?(2)数据库“例10-1-2.sav”,请分析控制身高X1后,体重X2与肺活量X3间的相关关系。61回归分析两个或两个以上变量间数量依存关系的统计方法。62线性回归曲线拟合两分类Logistic回归多分类结果变量的Logistic回归63线性回归两个连续型变量在数值上存在线性依存关系。X:自变量 independent variableY:因变量 dependent variable:y的估计值,给定自变量的取值时,根据公式算得的y的估计值a:常数项或截距。X等于0时y的估计值,即截距。b:回归系数。自变量x

19、改变一个单位, y估计值的改变量。64线性回归的前提条件LinearIndependentNormal distributionEqual varianceLINE线性趋势:自变量与应变量的关系是线性。独立性:残差间相互独立。正态性:残差服从正态分布。方差齐性:残差的方差齐。所谓残差是指观测值与预测值(拟合值)之间的差,即是实际观察值与回归估计值的差。65SPSS 分析命令:AnalyzeRegressionLinear简单线性回归分析例:随机抽取15名健康成人,测定血液的凝血酶浓度(单位/毫升)及凝固时间。请用回归分析的方法,从预测的角度来描述反应变量(Y)如何随自变量(X)的变化而变化的规

20、律性。Correlate and regression (1).sav66反应变量(Y)自变量(X)67简单线性回归分析可写出回归方程线性相关与回归的区别相关用于说明变量之间的相关关系,回归则说明因变量随自变量变化而变化的数量关系。对资料要求不同相关:双变量正态分布回归:对自变量任意固定取值,因变量服从正态分布。68线性相关与回归的联系方向一致:r和b的正负号一致假设检验等价:tr=tb ,r和b的假设检验的结果相同。用回归解释相关:决定系数R269一元线性回归与多元线性回归多元线性回归:对应变量产生影响的因素不只一个分析哪些因素对应变量产生影响;或者排除了某些混杂因素的作用,分析所关心的因素

21、对应变量的影响。70多元线性回归b1、b2称为偏回归系数。表示其它自变量取值保持不变时,y估计值的变化量。用最小二乘法估计参数71多元线性回归例:分析变量extrusn、additive、gloss、opacity 对tear_res(塑料的耐折性)的大小有无影响?72Plastic.sav73反应变量(Y)自变量(X)变量筛选方法7475SPSS分析结果决定系数R2与复相关系数R:R2表示y的总变异中,可以被回归方程所解释的比例R表示多个自变量共同对应变量的相关密切程度77方差分析方法t检验法全模型(ENTER法)上例:如果已知extrusn对tear_res的大小有影响,欲分析其它因素的效

22、应?78(1)extrusn采用enter法纳入。(2)不知其他变量影响如何,采用stepwise法纳入。模型筛选过程79两个模型变异系数的改变情况,模型可解释的变异占总变异的比例越来越大。8081方差分析方法t检验法多重共线性自变量间存在近似的线性关系,当共线性趋势明显时就会对结果产生影响。82表现:整个方程的检验有统计学意义,但所有偏回归系数无统计学意义偏回归系数大小、方向与实际专业知识不符合去掉一、两个变量,方程的回归系数值剧烈变化多重共线性的识别变量间相关系数阵共线性诊断83容忍度:越小,说明共线越严重,若某个自变量容忍度30,说明可能存在共线性哑变量设置问题虚拟变量(Dummy Va

23、riable),又称虚设变量、名义变量或哑变量。如,职业有工人、农民、教师,分别赋值0,1,2。但是0,1,2代表的实际意义又不是由小到大的关系。又如考虑季节因素时,用1,2,3,4编码,但不存在1-4数量变化的关系。所以在回归分析中直接使用是错误的,通常需进行哑变量化。86哑变量设置问题在模型中引入多个哑变量时,哑变量的个数应按下列原则确定: 如果有m种互斥的属性类型,在模型中引入(m-1)个哑变量。 例如,文化程度分小学、初中、高中、大学、研究生5类,引用4个哑变量回归分析。87哑变量设置问题STATA:设置哑变量最方便,只需在命令前加上Xi: ,在变量前加上i. 即可。SPSS:logi

24、stics回归中,有专门的选项,只需单击“Categorical”进行设置即可。但是对于多元线性回归则较复杂,需手动设置。88哑变量设置问题SPSS:用computer或recode设置一组哑变量。由于哑变量是一个整体变量,所以进行变量筛选时必须共同进退。解决的方法是:将同一因素下的哑变量进行归组,在纳入方法中选择了“ENTER”来确保这些哑变量同进同出。89哑变量设置问题例: O、A、B、AB四种血型,只需设置3个变量V1、V2、V3即可。以O型为参照,V1代表A型与O型相比的系数,V2代表B型与O型相比的系数90OABABV10100V20010V30001Exercise数据库“例10-

25、2-1.sav”:(1)试筛选对血红蛋白Y作用有统计学意义的微量元素(X1-X5)。(2)试建立利用微量元素(X1-X5)预测血红蛋白Y的回归模型。9192Multiple regression models Commonly used in epidemiologyLinearLogisticCoxPoissonLogistic模型入门线性回归模型研究的是连续性变量与一组自变量之间的关系。如果应变量是分类变量,如是否发病(病例1,对照0)或治愈/未治愈,能否用线性回归模型呢?9394是否发病,取值是两分类:0或1而方程左侧,取值可能是-+但是疾病的发病概率不同于多元线性回归方程中的 结局变量

26、,它的取值只能是1或0,是两分变量。因 此,各种疾病的发病概率对多个因素(自变量)的多元回归方程,不会是多元线性回归方程,而将是多元非线性回归方程。 用多元线形回归方程来分析一个因变量与多个自变量之间的定量关系95 如果以事件发生的概率P作为应变量行不行?不能保证在自变量的各种组合下,应变量的取值仍限制在01内96假设 (简记为P)表示暴露因素为X时个体发病的概率,称发病的概率 P与未发病的概率1P之比为比值(odds),则定义logit P 为odds的对数:logistic 回归模型我再变97 Logistic回归模型及其流行病学研究中的应用 Logistic回归分析的基本原理变量特点:因

27、变量:二分类变量,若令因变量为y,则常用y1表示“发病”,y0表示“不发病”(在病例对照研究 中,分别表示病例组和对照组)。自变量:可以为分类变量,也可以为连续变量。98 x1xm表示各危险因素、混杂因素或它们之间的交互项。 p/(1-p)为发病与不发病之比,称为比值或比数(odds)。 0为常数项,表示所有自变量都不存在时正常人群中该病的基准发病率。1m为需要估计的各自变量的偏回归系数,反映危险因素、混杂因素及交互项的效应。99 Logistic回归模型的流行病学意义 例:研究糖尿病与肥胖(x1,取值1表示“肥胖”、0表示“不肥胖”)、体力活动(x2)和糖尿病家族史(x3,取值1表示“有”、

28、2表示“无”)的关系,则所拟合的糖尿病与三个自变量之间关系的Logistic回归方程为: 100如只考虑肥胖(x1)和糖尿病的关系,则: 当x11时 :当x10时 :Logistic回归模型的意义在于其偏回归系数 可以用来计算OR值,偏回归系数 表示自变量 每变化一个单位,所引起的OR值自然对数改变量。 101Logistic回归的作用衡量危险因素与疾病间的关系;估计OR值;筛选自变量;反映自变量之间的关系。应用范围病例对照研究资料;队列研究资料(固定队列);横断面研究资料;Logistic回归模型的作用、应用范围及应用条件102应用条件足够的样本量独立性线性假设成立注意;观察时间问题,当对象的观察时间不同,或时间区别明显时,可采用Possio

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论