




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
分类数据的统计分析与SAS程序概述1.分类数据统计分析中经常遇到分类数据,所谓分类数据是指反应变量(应变量)为分类变量而不管说明变量(自变量)是分类变量或连续变量。分类数据常常以列联表的形式表示。2.尺度
分类数据中反应变量尺度的种类是选择正确分析的关键,选择适合的数据尺度的分析方法可以得到良好的结果,如果不考虑尺度的种类,则可能导致错误的方法而得出错误的结论。分类反应变量有以下尺度:
二分类顺序尺度离散计数名义尺度分组生存时间二分类尺度:二分类尺度是两种可能的结果,如治愈、未愈;生存、死亡等顺序尺度:有时观察的结果不止两种可能性,而这些可能的结果存在顺序关系。如检验结果的-、+、++、+++及++++;临床疗效的观察为治愈、显效、有效、好转及无效等等。离散尺度:与上述尺度不同的是离散尺度本身不是阴性、阳性或等级,而是离散计数本身,如统计病人在一周内治疗的次数为0,1,2次等。名义尺度:结果大于两类,而类别之间并无顺序关系。例如血型,职业等。分组生存时间:在生存时间数据中,如癌症病人手术后的生存时间,本来是连续数据,但可以把生存时间分组,这时,反应变量为在一定时间间隔内死亡病人数,这就是分组生存时间数据。分类数据的分析策略分类数据的分析策略可分成假设检验和建立模型:假设检验是建立一个关于联系(Association)的假设。通常研究用随机化的方法进行,如把病人随机分为两组检验组别与疗效之间(列联表的行与列之间)是否有关。无效假设H0:变量间没有联系备择假设H1有三种:
1、有一般联系(Generalassociation)2、行平均分有差别(Rowmeanscorediffer)3、有相关(Nonzerocorrelation)
用建立模型的方法可求得各参数值,说明各因素的作用。通常用最大似然法估计或最小二乘法估计,如Logistic回归等。2×2表2×
2表的形式:1.观察对象为随机分配到两组;2.配对数据;3.两个独立的随机样本一个临床试验的例子组别 无效 有效 合计 A组 26370 333 B组 180102 282 合计 443172 615
(观察对象为随机分配到两组)AB合计阳性阴性阳性201030阴性32840合计521870配对四格表性别阳性阴性合计男145255400女85315400合计230570800两个随机独立样本SAS程序如下:Datachisq;
input
group$factor$f@@;Cards;AN263AY70BN180BY102;ProcFreqorder=data;
Tablesgroup*factor/chisqmeasures;
weightf;run;输出部分结果如下:
STATISTICSFORTABLEOFGROUPBYFACTORStatisticDFValueProb------------------------------------------------------Chi-Square117.3950.001LikelihoodRatioChi-Square117.3970.001ContinuityAdj.Chi-Square116.6510.001Mantel-HaenszelChi-Square117.3660.001Fisher'sExactTest(Left)1.000(Right)2.25E-05(2-Tail)3.30E-05PhiCoefficient0.168ContingencyCoefficient0.166Cramer'sV0.168SampleSize=615
EstimatesoftheRelativeRisk(Row1/Row2)95%TypeofStudyValueConfidenceBounds------------------------------------------------------Case-Control2.1291.4883.047Cohort(Col1Risk)1.2371.1151.373Cohort(Col2Risk)0.5810.4480.753
多层2×2表
在医学研究中经常遇到分层研究,如果每个层都有一个2×2表,则有多个2×2表。例如在多中心临床试验中,每个医院随机地把病人分成试验组和对照组,疗效为有效和无效,则每个医院的数据形成了一个2×2表。实例SAS程序datacat2;inputcentertreat$response$count@@;cards;1testy121testn181placeboy151placebon152testy312testn92placeboy342placebon63testy163testn143placeboy153placebon15;procfreqorder=data;weightcount;tablescenter*treat*response/chisqcmhnopercentnocolnorow;run;输出的部分结果如下:
StatisticAlternativeHypothesisDFValueProb--------------------------------------------------------------1NonzeroCorrelation10.5860.4442RowMeanScoresDiffer10.5860.4443GeneralAssociation10.5860.444EstimatesoftheCommonRelativeRisk(Row1/Row2)95%TypeofStudyMethodValueConfidenceBounds--------------------------------------------------------------Case-ControlMantel-Haenszel0.7890.4291.449(OddsRatio)Logit0.7890.4291.450CohortMantel-Haenszel0.9220.7491.135(Col1Risk)Logit0.9190.7651.105CohortMantel-Haenszel1.1390.8161.589(Col2Risk)Logit1.1190.8091.549TheconfidenceboundsfortheM-Hestimatesaretest-based.Breslow-DayTestforHomogeneityoftheOddsRatiosChi-Square=0.821DF=2Prob=0.663
行×列表
多行乘多列表(S×R)表的分析要注意行和列变量的类型。包括:
1行和列变量都是名义变量
2行为名义变量列为顺序变量
3行与列都是顺序变量实例1SAS程序datacat3;inputtype$disease$count@@;cards;oulcer98ocancer38ocontrol289aulcer67acancer41acontrol262bulcer13bcancer8bcontrol57abulcer18abcancer12abcontrol30;procfreqorder=data;weightcount;tablestype*disease/chisqnopercentnorownocol;run;部分结果如下:STATISTICSFORTABLEOFTYPEBYDISEASEStatisticDFValueProb------------------------------------------------------Chi-Square615.0730.020LikelihoodRatioChi-Square614.2230.027Mantel-HaenszelChi-Square10.5190.471PhiCoefficient0.127ContingencyCoefficient0.126Cramer'sV0.090SampleSize=933实例2SAS程序datacat4;inputtype$effect$count@@;cards;simplenone13simplesome30simplemarked18simplecontrol65asthmanone18asthmasome36asthmamarked16asthmacontrol77simpemphnone11simpemphsome23simpemphmarked6simpemphcontrol42asthemphnone36asthemphsome47asthemphmarked11asthemphcontrol94;procfreqorder=data;weightcount;tablestype*effect/chisqcmhnopercentnocolnorow;run;部分结果如下:STATISTICSFORTABLEOFTYPEBYEFFECTStatisticDFValueProb------------------------------------------------------Chi-Square911.8780.220LikelihoodRatioChi-Square911.7260.229Mantel-HaenszelChi-Square12.8180.093PhiCoefficient0.148ContingencyCoefficient0.146Cramer'sV0.085SampleSize=543SUMMARYSTATISTICSFORTYPEBYEFFECTCochran-Mantel-HaenszelStatistics(BasedonTableScores)StatisticAlternativeHypothesisDFValueProb--------------------------------------------------------------1NonzeroCorrelation12.8180.0932RowMeanScoresDiffer32.9030.4073GeneralAssociation911.8560.222TotalSampleSize=543实例3SAS程序datacat5;inputsilicosdensitycount@@;cards;11431218813142112296237231632173355;proccorrspearman;freqcount;varsilicosdensity;run;procfreq;weightcount;tablessilicos*density/cmhnopercentnorownocol;run;部分结果如下:SUMMARYSTATISTICSFORSILICOSBYDENSITYCochran-Mantel-HaenszelStatistics(BasedonTableScores)StatisticAlternativeHypothesisDFValueProb--------------------------------------------------------------1NonzeroCorrelation1125.5100.0012RowMeanScoresDiffer2133.0950.0013GeneralAssociation4162.6760.001TotalSampleSize=492Logistic回归Logistic回归是适用于反应变量(即因变量)为分类变量的回归分析,近年来在许多研究领域得到了广泛的应用。
Logistic回归按照反应变量的类型可分为:
两分类反应变量的Logistic回归;
多分类有序反应变量的Logistic回归;
多分类无序反应变量的Logistic回归。
Logistic回归按照研究设计的类型可分为:
非条件Logistic回归,即研究对象未经匹配;
1:1的条件Logistic回归,即研究对象按1:1进行匹配;
1:m或m:n的条件Logistic回归,即研
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 多系统萎缩的临床护理
- 2025编写房屋租赁合同范文
- 《经济计量模型分析与应用》课件
- 邵阳一中联考试卷及答案
- 山西期中考试卷及答案
- 三中一模政治试卷及答案
- 2025简单商铺租赁合同样本
- 砖瓦企业生产调度与物流管理考核试卷
- 生物能源在农业领域的应用与创新考核试卷
- 网络直播平台内容创新与监管考核试卷
- 内科学讲义(唐子益版)
- GB/T 4357-2022冷拉碳素弹簧钢丝
- GB/T 19845-2005机械振动船舶设备和机械部件的振动试验要求
- GB/T 14614-1993小麦粉吸水量和面团揉和性能测定法粉质仪法
- 酱酒行业发展趋势分析
- 《红楼梦》贾府平面图
- 养老机构全套服务管理流程图()
- 运用PDCA办法提高分级护理落实率
- 高级卒中中心申报操作流程
- 幼儿园幼儿小篮球活动体能测试表
- 远盛水工重力坝辅助设计系统用户使用手册
评论
0/150
提交评论