06分类资料的统计方法.doc_第1页
06分类资料的统计方法.doc_第2页
06分类资料的统计方法.doc_第3页
06分类资料的统计方法.doc_第4页
06分类资料的统计方法.doc_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章节 分类资料的统计方法61 分类资料统计描述与统计推断简介62 2检验的应用及SAS程序621 完全随机设计四格表资料的2检验1 例6.1在二乙基亚硝胺诱发大白鼠鼻咽癌的实验中,一组单纯用亚硝胺向鼻腔滴注(鼻滴组),另一组在鼻注基础上加肌注维生素B12,结果见表6.1,问两组发癌率有无差别?表6.1 两组大白鼠发癌率的比较处理发癌鼠数未发癌鼠数合计发癌率(%)鼻注组52(a)19(b) 71(n1)73.24鼻注+VitB12组39(c) 3(d) 42(n0)92.86合计 91(m1) 22(m0)113(N)80.532 分析:3 SAS程序:data exam6_1;input r c f;cards;1 1 52 1 2 192 1 39 2 2 3;proc freq;weight f;tables r*c/chisq ;run;4解释: TABLE OF R BY C R C Frequency* Percent * Row Pct * Col Pct * 1* 2* Total 1 * 52 * 19 * 71 * 46.02 * 16.81 * 62.83 * 73.24 * 26.76 * * 57.14 * 86.36 * 2 * 39 * 3 * 42 * 34.51 * 2.65 * 37.17 * 92.86 * 7.14 * * 42.86 * 13.64 * Total 91 22 113 80.53 19.47 100.00 STATISTICS FOR TABLE OF R BY C Statistic DF Value Prob Chi-Square 1 6.478 0.011 Likelihood Ratio Chi-Square 1 7.310 0.007 Continuity Adj. Chi-Square 1 5.287 0.021 Mantel-Haenszel Chi-Square 1 6.420 0.011 Fishers Exact Test (Left) 8.26E-03 (Right) 0.999 (2-Tail) 0.013 Phi Coefficient -0.239 Contingency Coefficient 0.233 Cramers V -0.239 Sample Size = 113Karl pearson 2p=适用于自由度 df1或df=1而n40 T5的资料Yates continous correction 2= p2不是连续分布,因而在自由度为1,1T5时,要进行校正。Likelihood2L=2Ailn(Ai/Ti) 当观察例数较多时2L2pMantel-Heazel 当理论频数T1或n40可采用精确概率法(exact probability)本例p2=6.478 P=0.011 在=0.05水平上拒绝H0,认为两组发癌率有差别,增加肌注VitB12有可能提高大白鼠的鼻咽癌发生率。4 PROC FREQ基本格式和选项的主要内容:FROC FREQ options;TABLES requests/options;WEIGHT variable;BY variables;FREQ过程产生一维至n维的频数表和列联表。对于二维表,proc freq计算统计量并给出检验,对n维表,proc freq作分层分析。1) proc FREQ语句:选项有:DATA=SAS数据集 order=DATA按输入数据集中的顺序排列 order=freq按频数下降的次序排列 order=internal按值的内部表示排列 order=fromated按外部的格式值排列2) TABLES语句: request请求式,有如下表示:TABLES A;一维表TABLES A*B;二维表TABLES(A-C)*d等同于TABLES A*d B*d C*d;TABLES A*B*C;多维表/options选项有: 一般选择项 out=SAS数据集 统计分析选择项:chisq:计算前述四种2统计量及相关的系数,对于22表给出Fisher精确检验exact:请求对大于22表进行Fisher精确检验expected:打印各格的期望频数CMH:要求Cochran-Mantel-Haenszel统计量,该统计量对行变量和列变量之间的关联进行检验,对22表,给出病例对照和队列研究的OR、RR、可信区间及齐性Breslow检验All:要求CHISQ及CMH所要求的一切Scores=RANK|TABLE|RIDIT|MODRIDIT|为Cochran-Mantel-Haenszel统计量及pearson相关所用的行及列计分指定类型。622 行列表资料的2检验1 双向无序列联表资料,即行变量和列变量均为无序的名义变量;1)例6.2 1979年某地爆发松毛虫病,333例患者按年龄以14岁为界分为二组,资料见表6.2,试考察两组病人病变类型的构成比有无差别:表6.2 某地两组松毛虫病患者型别构成比较年龄组皮炎型骨关节炎型软组织炎型混合型合计儿童组 50 481872188成人组10510 7231451555825953332)SAS程序:data exam6_2;do r=1 to 2;do c=1 to 4;input f;output;end;end;cards;50 48 18 72105 10 7 23;proc freq;weight f;tables r*c/chisq cmh nocol norow nopct;run;3)结果与解释: TABLE OF R BY C R C Frequency* 1* 2* 3* 4* Total 1 * 50 * 48 * 18 * 72 * 188 2 * 105 * 10 * 7 * 23 * 145 Total 155 58 25 95 333 STATISTICS FOR TABLE OF R BY C Statistic DF Value Prob Chi-Square 3 70.143 0.001 Likelihood Ratio Chi-Square 3 73.004 0.001 Mantel-Haenszel Chi-Square 1 45.074 0.001 Phi Coefficient 0.459 Contingency Coefficient 0.417 Cramers V 0.459 Sample Size = 333 SUMMARY STATISTICS FOR R BY C Cochran-Mantel-Haenszel Statistics (Based on Table Scores) Statistic Alternative Hypothesis DF Value Prob 1 Nonzero Correlation 1 45.074 0.001 2 Row Mean Scores Differ 1 45.074 0.001 3 General Association 3 69.933 0.001 Total Sample Size = 333本例属双向无序列联表资料,故2p=70.14 df=3 P=0.001,也可选择CMH中行变量与列变量有一般关联,本例 2MH=2p 结论:在=0.05水准上,可认为两组松毛虫病患者型别构成不同。Cochran-Mantel-Haenszel统计量有三个,对应的备择假设及针对的资料是:行变量与列变量为非零相关,双向有序列联表单向列变量为有序变量的列联表 行变量与列变量有一般关联,双向无序列联表2单向有序列联表资料:1)例6.3 下表为两组人员的眼球晶体检查结果,被检查者为接触射线组与对照组,混浊度分为5等,研究的目的是混浊程度与接触射线有无关系:表6.3两组受检者晶体混浊程度的比较 0+合计接触射线组 950541415142对照组 9361412 3 74合计18866826182162)SAS程序:data exam6_3;do r=1 to 2;do c=1 to 5;input f;output;end;end;cards;9 50 54 14 159 36 14 12 3;proc freq order=data;weight f;tables r*c/cmh nocol norow nopct;run;3)结果和解释 TABLE OF R BY C R C Frequency* 1* 2* 3* 4* 5* Total 1 * 9 * 50 * 54 * 14 * 15 * 142 2 * 9 * 36 * 14 * 12 * 3 * 74 Total 18 86 68 26 18 216 SUMMARY STATISTICS FOR R BY C Cochran-Mantel-Haenszel Statistics (Based on Table Scores) Statistic Alternative Hypothesis DF Value Prob 1 Nonzero Correlation 1 4.405 0.036 2 Row Mean Scores Differ 1 4.405 0.036 3 General Association 4 13.872 0.008 Total Sample Size = 216本例程序中使用了order=data确保列变量的水平按输入顺序给以记分,这在等级用字母表示时尤其重要,见例6.4本例应选择第二行的结果2=4.405 df=1 P=0.036 可以认为晶体混浊程度与接触射线与否有关3双向有序列联表资料:1)双向有序且属性不同的列联表:例6.4 某矿职工医院探讨矽肺不同期次患者的胸部平张肺门密度变化,把492名患者的资料归纳如表6.4,问矽肺患者肺门密度的增加与矽肺的期次有无关系?表6.4 不同期次矽肺患者肺门密度级别分布矽肺期次(times)肺门密度级别Grade合计+slight+mid+sever(first)43188 14245(second) 1 96 72169(third) 6 17 55 78合计50301141492程序:data exam6_4;input times$ grade$ f;cards;first slight 43 first mid 188 first sever 14second slight 1 second mid 96 second sever 72third slight 6 third mid 17 third sever 55;proc freq order=data;weight f;tables times*grade/chisq cmh nocol norow nopct;run;结果和解释: TABLE OF TIMES BY GRADE TIMES GRADE Frequency俿light 俶id 俿ever * Total first * 43 * 188 * 14 * 245 second * 1 * 96 * 72 * 169 third * 6 * 17 * 55 * 78 Total 50 301 141 492 STATISTICS FOR TABLE OF TIMES BY GRADE Statistic DF Value Prob Chi-Square 4 163.007 0.001 Likelihood Ratio Chi-Square 4 184.792 0.001 Mantel-Haenszel Chi-Square 1 125.510 0.001 Phi Coefficient 0.576 Contingency Coefficient 0.499 Cramers V 0.407 Sample Size = 492 SUMMARY STATISTICS FOR TIMES BY GRADE Cochran-Mantel-Haenszel Statistics (Based on Table Scores) Statistic Alternative Hypothesis DF Value Prob 1 Nonzero Correlation 1 125.510 0.001 2 Row Mean Scores Differ 2 133.095 0.001 3 General Association 4 162.676 0.001 Total Sample Size = 492程序中Order=data是确保Grade和times的水平按输入顺序给以计分,否则将按字母顺序,造成结果错误!本例2CMH=125.510 df=1 P=0.001 而2p=163.007 df=4 P=0.001可以认为肺门密度级别与矽肺期次是相关的,由资料可见,肺门密度级别增加,矽肺期次亦增加。2) 双向有序且属性相同的列联表:例6.5 应用核素法和对比法检测147例冠心病患者心脏室壁收缩运动的符合情况,结果见表6.5,问这两种方法测定结果是否一致?表6.5 两法检查室壁收缩运动的符合情况对比法核素法合计正常减弱异常正常58 2 3 63减弱 142 7 50异常 8 917 34合计675327147分析:本例两个分组变量的本质都是“测定结果”,故其专业属性是相同的,并且测定结果的档次划分也是相同的顺序的,即正常、减弱、异常。对于这种资料,研究者并不是关心两变量之间是否存在相关性,而是这两种方法测定结果的一致性如何,可计算Kappa统计量:Kappa=(Pa-Pe)/(1-Pe) Pa和Pe分别为实际和期望观察一致的比例 SAS程序:data exam6_5;do r=1 to 3;do c=1 to 3;input f;output;end;end;cards;58 2 31 42 78 9 17;proc freq;weight f;tables r*c/agree nocol norow nopct;run;结果与解释: TABLE OF R BY C R C Frequency* 1* 2* 3* Total 1 * 58 * 2 * 3 * 63 2 * 1 * 42 * 7 * 50 3 * 8 * 9 * 17 * 34 Total 67 53 27 147 STATISTICS FOR TABLE OF R BY C Test of Symmetry - Statistic = 2.856 DF = 3 Prob = 0.414 Kappa Coefficients Statistic Value ASE 95% Confidence Bounds Simple Kappa 0.681 0.050 0.583 0.779 Weighted Kappa 0.661 0.056 0.552 0.771 Sample Size = 147Kappa值有简单计算法(见上式)和加权计算法,本例用上式计算的Kappa值为0.681,95%可信区间为0.5830.779可认为对比法与核素法检查室壁收缩运动具有一致性。6.2.3 病例对照和队列研究1. 完全随机设计的病例对照研究:1) 未分层的病例对照研究例6.6 对发育情况好与差的儿童调查其副食品供给情况,结果见表6.6,试分析副食品供给不同情况对发育的影响:表6.6发育情况与副食品供给情况发育情况副食品供给合计充足不够好 68(a) 28(b) 96(n1)差 50(c) 95(d)145(n0)计118(m1)123(m0)241(N)在病例对照调查中,若暴露只有二个水平,那么所得的资料就是一个四格表,见表6.6,对于这种资料,需要对其比数比(相对危险度的一种估计值)是否为1进行检验,若比数比不为1,则计算比数比及其可信区间(以95%CI为例)计算公式:=ad/bc 或Woolf法(Logit估计)OR exp(1.96) 其中V=varln(OR)=+SAS程序:data exam6_6;input r c f;cards;1 1 68 1 2 282 1 50 2 2 95;proc freq;weight f;tables r*c/all nocol norow nopct;run;结果与解释 TABLE OF R BY C R C Frequency* 1* 2* Total 1 * 68 * 28 * 96 2 * 50 * 95 * 145 Total 118 123 241 STATISTICS FOR TABLE OF R BY C Statistic DF Value Prob Chi-Square 1 30.542 0.001 Likelihood Ratio Chi-Square 1 31.281 0.001 Continuity Adj. Chi-Square 1 29.104 0.001 Mantel-Haenszel Chi-Square 1 30.415 0.001 Fishers Exact Test (Left) 1.000 (Right) 2.46E-08 (2-Tail) 4.73E-08 Phi Coefficient 0.356 Contingency Coefficient 0.335 Cramers V 0.356 Estimates of the Relative Risk (Row1/Row2) 95% Type of Study Value Confidence Bounds Case-Control 4.614 2.642 8.059 Cohort (Col1 Risk) 2.054 1.586 2.660 Cohort (Col2 Risk) 0.445 0.319 0.621 Sample Size = 241 SUMMARY STATISTICS FOR R BY C Cochran-Mantel-Haenszel Statistics (Based on Table Scores) Statistic Alternative Hypothesis DF Value Prob 1 Nonzero Correlation 1 30.415 0.001 2 Row Mean Scores Differ 1 30.415 0.001 3 General Association 1 30.415 0.001 Estimates of the Common Relative Risk (Row1/Row2) 95% Type of Study Method Value Confidence Bounds Case-Control Mantel-Haenszel 4.614 2.680 7.945 (Odds Ratio) Logit 4.614 2.642 8.059 Cohort Mantel-Haenszel 2.054 1.590 2.653 (Col1 Risk) Logit 2.054 1.586 2.660 Cohort Mantel-Haenszel 0.445 0.334 0.594 (Col2 Risk) Logit 0.445 0.319 0.621 The confidence bounds for the M-H estimates are test-based. 本例比数比为4.614 Mantel-Haenszel估计的置信区间为2.687.94 95%说明发育情况与副食品供给是有关系的。Col1 Risk为a/n1与c/n0之比,Col2 Risk为b/n1与d/n0之比可信区间计算同前,但Total Sample Size = 2412) 分层的病例对照研究3) V=var(lnRR)=(1-)/a+(1-/c 在病例对照研究中,队列的结果没有意义。 例6.7 在婴儿营养和发育关系调查时,分别在月龄为9月、10月、11月及12月的婴儿中调查了发育好与发育差的两组儿童的副食品供给情况,得如下资料,表6.7,试对发育与副食品供应的关系作分析:表6.7 发育与副食品供应的关系R9月10月11月12月好差计好差计好差计好差计充足2320 432815 433212 44416 47不足1941 602440 642930 593820 584261103525510761421037926105这是一个分层四格表资料(i=1、2、3、4),要考虑发育与副食品供给是否有关系,即对比数比=1作假设检验,计算公共比数比及其可信区间,并对各层比数比进行齐性检验。公式:2MH= = 齐性检验2= V(ai)=(-1 =SAS程序:data exam6_7;do s=1 to 4;do c=1 to 2;do r=1 to 2;input f;output;end; end; end;cards;23 20 19 41 28 15 24 4032 12 29 30 41 6 38 20;proc freq;weight f;tables c*r/all nocol norow nopct;tables s*c*r/all nocol norow nopct;run; 结果与解释:结果列于表6.8 表6.8 例6.7的计算结果分层OR(i)OR(i)tOR(i)U2M-H12.4821.1055.574 4.8910.02723.1111.3906.965 7.7790.00532.7591.1946.371 5.7440.01743.5961.3059.909 6.5100.011年龄调整2.9161.9124.44824.6860.001合并2.7861.8594.17624.6820.0012.多个暴露水平-2K表资料的分析表6.9 某地烧热病与食用粗制棉油的病例对照研究食用油量(斤/年)67891011合计等级记分 0 1 2 3病照6316810426361计78221148504972)SAS程序:data exam6_9;do r=1 to 2;do c=0 to 3;input f;output;end;end;cards;15 53 44 2463 168 104 26;proc freq;weight f;tables r*c/all trend nocol norow nopct;run;3)结果与解释: TABLE OF R BY C Cochran-Armitage Trend Test - Statistic = 3.565 Prob (Right-sided) = 0.001 Prob (Two-sided) = 0.001 Sample Size = 497 SUMMARY STATISTICS FOR R BY CCochran-Mantel-Haenszel Statistics (Based on Table Scores)Statistic Alternative Hypothesis DF Value Prob1 Nonzero Correlation 1 12.682 0.0012 Row Mean Scores Differ 1 12.682 0.0013 General Association 3 14.967 0.002Total Sample Size = 4972MH=12.682 df=1 P=0.001 存在剂量反应关系Cochran-Armitage Trend Test统计量=3.565 P=0.0012.匹配比较资料的分析可采用Logistic回归模型计算其优势比,参见第 章。3.队列研究:前述的病例对照研究是由果及因的研究,而队列研究(定群研究)则是由因及果的研究,定群研究资料亦可用一般的2检验及2MH检验,计算相对危险度等。例6.9对609名40-76岁男性随访7年冠心病的发病资料,随访开始时观察人群分为内源性儿茶酚胺(CAT)高水平和低水平二组,试估计CAT高水平的相对危险度,95%CCI,并进行显著性检验。表6.10 CAT水平不同的40-76岁男性随访7年冠心病发病情况发病人数未发病人数合计高水平 2795122低水平 44443487合计71538609data exam610;input r c f;cards;1 1 27 1 2 952 1 44 2 2 443;proc freq;weight f;tables r*c/all nocol norow nopct;run; TABLE OF R BY C R C Frequency* 1* 2* Total 1 * 27 * 95 * 122 2 * 44 * 443 * 487 Total 71 538 609 STATISTICS FOR TABLE OF R BY CStatistic DF Value Prob Chi-Square 1 16.246 0.001 Likelihood Ratio Chi-Square 1 14.131 0.001 Continuity Adj. Chi-Square 1 15.000 0.001 Mantel-Haenszel Chi-Square 1 16.220 0.001 Fishers Exact Test (Left) 1.000 (Right) 1.37E-04 (2-Tail) 2.05E-04 Phi Coefficient 0.163 Contingency Coefficient 0.161 Cramers V 0.163 Estimates of the Relative Risk (Row1/Row2) 95%Type of Study Value Confidence Bounds Case-Control 2.861 1.688 4.851 Cohort (Col1 Risk) 2.450 1.584 3.789 Cohort (Col2 Risk) 0.856 0.776 0.945 Sample Size = 609 SUMMARY STATISTICS FOR R BY CCochran-Mantel-Haenszel Statistics (Based on Table Scores)Statistic Alternative Hypothesis DF Value Prob 1 Nonzero Correlation 1 16.220 0.001 2 Row Mean Scores Differ 1 16.220 0.001 3 General Association 1 16.220 0.001 Estimates of the Common Relative Risk (Row1/Row2) 95%Type of Study Meth

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论