分类变量的重复测---沉毅.ppt_第1页
分类变量的重复测---沉毅.ppt_第2页
分类变量的重复测---沉毅.ppt_第3页
分类变量的重复测---沉毅.ppt_第4页
分类变量的重复测---沉毅.ppt_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分类变量的迭代测量数据分析、传染病和健康统计系申义2005.3.15,分类变量也称为定性变量,在工作中广泛使用。根据值的性质,可以分为三种类型。第一个是名义刻度的分类变量,这是按事物属性(如性别、职业等)分类的变量。为了统计计算方便,将这些不同的属性量化,例如,给男性分配1,给女性分配2等。此值只是代码,作为没有大小差异的属性。顺序尺度的第二个分类变量是根据事物出现的程度或程度指定值。如果临床试验结果显示为符号“-,”,那么文化水平将定为“文盲,小学,中学,大学,研究生”,量化处理中的1,2,3,。请注意,这里1和2的差不一定是2和3的差。第三个是人口统计中按年龄划分的群体,“0-,10-,20-,”宗地分隔(intervalscale)(例如)是典型的范例。根据数据的特性,间隔范围有时是等距离,有时不是等距离。分类变量作为反应变量反复观察的例子在工作中应用更广。本书第9章第5节介绍了2分类反应变量的迭代测量数据分析方法。本章介绍了对反应变量进行分类,重复测量数据的一般分析方法。主要介绍加权最小二乘法分析方法。第一部分是重复测量数据分析的典型2分类反应。第一节第二分类反应重复测量数据分析,第一,数据结构有n个受试者,反应变量y,r级(r=2点y称为2分类反应变量),p观察点,每个受试者可能发生的总RP类型。当R=2、p=3时,所有可能的结果总计为8个。对y使用(0,1)分配方法时,n名受试者在这8种组合中遇到的极限总和为n000到n111。有关详细分配,请参阅下面的表11.1。极限总和n000至n111是每个可能值的结果组合的观测案例数。案例总数n是限制总和。如果按每个时间点的频率分布(表11.1)整理上述示意性数据,则每个时间点的总和为n=n1=n2=n3,总示例为3n,而不是n。但实际上,观察案例数为n,观察次数为3n。一般统计方法以表11.1中的数据类型为起点进行分析。本章介绍的方法基于11.1的极限总和。第二,模型结构受试者I在时间步长j有反应变量yij,值概率为pj,(j=1,p)。此p概率P1,PP,分析是否相同的单个整体冗馀度量数据操作。导致响应频率的函数,响应函数f=f (m),在表达式中生成x为dq维的设计矩阵,d=(r-1)p,作为响应函数的线性模型。b是q维的未知参数。每个主体在不同时间点的反作用变量值是相关的,因此在合并到模型中时,必须在模型中包括此相关性。找到参数(11.1)的估算值的加权最小二乘解决方案是在考虑此相关性的情况下建立的。模型(11.1)的加权最小二乘解决方案估算公式是11.1药物对类风湿性关节炎的疗效观察。用一种药物治疗46名患有类风湿性关节炎的患者,共治疗3次。评价各治疗过程结束后的治疗效果。有效者为yij=1,否则yij=0i=1,46;J=1,2,3。信息见表11.2。表中的T1、T2和T3分别表示三种治疗过程。本研究的目的是探讨不同治疗过程的治疗差异。第三,线性模型的11.2阶段是数据的原始记录格式,在符合模型之前,必须以极限频率表格式整理。计算步骤说明如下。1.首先,在下面的SAS程序中,在边际总额计算程序中,subj是受试者编号,time1、time2和time3代表3个治疗过程。计算的边际频率见表11.3。结果极限频率矢量n及其函数极限频率矢量m为:n=(61622466) m=(6/460 . 34780 . 04350 . 08700 . 04350 . 08700 . 13040 . 1304)表示矢量n和m的因子,以NJ和mj表示。2.转换矩阵a给出的转换矩阵a的结构是将反应频率m转换为反应函数f。3 .生成反应函数f .每个时间点反应变量每个级别的极限概率。不包括反应变量最后一级的反应概率。在此范例中,有三个时间点(time1time2time3),每个时间点的反应变数都在r=2层级,因此每个时间点只有一个反应函数。分析SAS中具有三个反应函数的CATMOD过程,例如f1=0.6086957=0.1304348 0.3478261 0.0434783 0.086965。程序如下:proccatmoddata=exm p11 _ 1 order=data;RESPONSEMARGINALSmodel time 1 * time 2 * time 3=_ response _/one way cov;repeated time 3/_ RESPONSE _=time;执行;执行。程序中的RESPONSEMARGINALS语句是指定响应函数是MODEL中指定的响应变量的极限概率。结果见表11.5,表11.6,表11.7。第一和第二过程的效率为0.6087(60.87%),第三过程的效率为0.3478(34.78%)的表11.5反应函数和协方差矩阵表明了这一点。表11.6方差分析显示“时间”的有效分析结果,第三个治疗过程比前两个治疗过程效果显着。各治疗过程疗效的假设检验可以用以下公式计算:比较矩阵c:从表11.7加权最小二乘估计值分析中可以看出,时间的两个参数估计值都是正值,反映了在治疗期1,2中药物比3期更有效。程序在REPEATED语句下添加CONTRAST语句。contrast time 1v stime 3 _ response _ 21;或contrast time 1到time 3 all _ parms 021,用于检查第一个治疗期间和第三个治疗效果的等效性的检查假定为弧:2=-2-3或弧333622 3=0;H1: 22 30因为使用了参数化4=-2-3 (4表示第三种治疗效果),所以2=4相当于2=-2-3,上述SAS程序用于对数据集建模,或将模型拟合为频率计数据(表11.3)。使用的SAS程序如下:结果见表11.8。表11.8比较分析表明,第一期疗效与第三期疗效有显著差异(p=0.0161)。DATAexmpl1 _ 1input time 1 time 2 time 3 count;CARDS11116101610161012100112010401606;proccatmoddata=exm pl 1 _ 1 order=data;RESPONSEMARGINALSWEIGHTcountmodel time 1 * time 2 * time 3=_ response _/one way cov;repeated time 3/_ RESPONSE _=time;执行;执行。第二节多数据分析方法,有多数据集时要回答统计分析的三个问题:数据是否有组之间的差异。反应是否会随着时间而变化。处理组和时间之间是否存在交互。分析中使用的公式和计算步骤基本上与单个方案相匹配。以下示例说明了两个具有两分类反应变量的迭代测量数据集。对65岁以上老年人进行6年追踪调查。样本量为662名男性和1311名女性,分别调查了当年、3年、6年参加社会活动的情况。反应变量y的赋值规则见表11.9,其中y=1定期参加社会活动0不经常参与社会活动。此示例中的分组变量为性别,组数a=2。反应变量y的分类数:r=2。重复测量时间点p=3。计算步骤如下:1 .极限频率矩阵n及其极限频率矩阵m的每个组的极限频率列出了n=(n1 ,N2)的列。因此,每组的极限频率也表示频率矩阵的列m=(ml ,m2 )。此外,161维的极限频率矢量l为:l=(0 . 690 . 070 . 020 . 040 . 030 . 020 . 020 . 120 . 590 . 050 . 020 . 040 . 020 . 030 . 030编写变换矩阵a由于每组都是三个反应变量,每个反应变量有两个级别,因此生成的变换矩阵a与示例11.1中的a相同。也就是说,3 .计算反应函数f,4。分组是极限频率mg (g=1,2)的协方差矩阵V(ml)和V(M2),5。两组反应频率的协方差矩阵v (m)本例中的V(M)计算1616维矩阵,对角元素计算V(mg),非主对角元素计算0。6 .求F的协方差矩阵V(F)此示例中的V(F)为66维矩阵:7 .给定设计矩阵x示例11.2数据的设计矩阵(包括交互)参考表11.11,因此在此示例中,包含交互的设计矩阵为:8 .表达式(11.2)计算的参数估计(表11.12),9。使用比较矩阵c作为两组比较的假设检验c的结构如下:使用2=31.38、自由度=3、排程3: 2边界值表格、20.05 (3)=7.81统计地反映两个群组的差异。上述计算过程中使用的SAS程序如下:data exmpl 1 _ 2;input gender $ year 0 year 3 year 6 count ;CARDSf 11904 f 11088 f 10125 f 10051 f 0111333 f 01022 f 0030 f 0001258m 1111391m 11036m 10112m 100143m 0115m 0115m 0102100118m 000164;PROCCATMODORDER=DATAWEIGHTcountRESPONSEmarginalsmodel year 0 * year 3 * year 6=gender | _ response _/pred=freq cov;REPEATEDyear执行;执行。结果见表11.13-表11.17。输出表11.17方差分析结果性别和年份都有显著的统计重要性(p 0.0001);但是,性别*年(gender*year)之间的相互作用没有明显的统计意义(p=0.6476)。因此,从模型中删除交互组件后,模型year 0 * year 3 * year 6=gender _ response _/Fred=freq cov;结果见表11.18,表11.19。输出结果表11.19表明,性别差异和年份之间的差异具有统计意义。由于没有性观年互动,其他性对象参与特定社会活动的时间趋势相似。为了进一步验证这个结论,可以将不同时间的效果比较为两种。建议的测试假定h 0: year 3-year 0=year6-year 3,h 13360 year 3-year 0 year 6-year 3。在参数化中,year0、year3的效果显示为3和4,因此year 6的效果为-3-4。因此,上述假设在表11.19

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论