catmod 一、主要目的 PROC CATMOD程序 主要用来模式类别资料.doc_第1页
catmod 一、主要目的 PROC CATMOD程序 主要用来模式类别资料.doc_第2页
catmod 一、主要目的 PROC CATMOD程序 主要用来模式类别资料.doc_第3页
catmod 一、主要目的 PROC CATMOD程序 主要用来模式类别资料.doc_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

catmod一、主要目的PROC CATMOD程序 主要用来模式类别资料(categorical data),所采用的线性模型包括变异数分析模型、对数线性分析、逻辑回归(Logistic regression)分析,以及重复性测度的实验设计。它的原理是这样的,例如 Mij 表示在在第i个样本中,反应变量的值是第j个的个数,举例而言,如范例的表,我们有四组样本(年代及肤色有四种组合),而反映有三种(很好,普通及不好), M11在给定 所有M1j的和之下, 是一个多项式分配(Multinomial Distribution),它的参数可能与解释变量有关(例如可能跟 年代或肤色相关), 在 PROC CATMOD 中我们假设将参数作一个函数的转换后恰为解释变量的线性函数,那么到底不同年代或不同肤色会不会影响反应, 就变成了解释变量不同会不会改变多项式分配中的参数,也就变成了检定线性函数各解释变量的系数是否为0的问题.在此我们的重点放在类别资料分析的对数线性分析(Log-linear model)。现假设我们有两组变量X和Y,且皆为离散型,其饱合模式(Saturated model)为:我们可以使用最大概似法(Maximum likelihood)来估计上式中的参数,并找出其最适模型,而PROC CATMOD程序即可帮我们完成上述目的。二、引用范例为了说明PROC CATMOD程序在对数线性分析中如何使用,我们引用了一份资料,来自Stephen E. Fienberg所着之类别资料分析(The Analysis of Cross-Classified Categorical Data)中第76页,表3-16。在一项针对美国一处大城市所作的调查中,每位受访者都被问到以下的问题:目前进行中的广播网和电视网情形如何?表中的资料是根据受访者的肤色在各种反应情形下所作的分类,而且该题曾在不同的两个年代分别调查,结果如下:原始资料 反应 年代 肤色 很好 普通 不好 1959 黑 81 23 4 白 325 253 54 1971 黑 224 144 24 白 600 636 158 由此份资料看来我们想知道的是:目前的广播网和电视网是否在经过一段时间之后有明显的不同,及受访者的反应与年代是否有关?亦或与收听和收看的人种有关?或者时间和人种有交互关系?而我们可以建立的对数线性模型又为何?以下我们将使用PROC CATMOD程序来帮我们解答这一切的问题。三、使用程序首先我们将原始数据中的变量一些字母重新命名来代替:1.年代以Y代表;其中1959以59代表、1971以71代表。2.肤色以C代表;其中黑以B代表、白以W代表。3.反应以R代表;其中很好以3代表、普通以2代表、不好以1代表。4.每一格的数量则以COUNT代表。上述的Y、C和R皆是以字符串方式表示,而COUNT是以数值方式表示。现将使用程序行于下(Catmod1.sas):DATA A1;INPUT Y $ C $ R $ COUNT ;CARDS;59 B 3 81 59 B 2 23 59 B 1 459 W 3 325 59 W 2 253 59 W 1 5471 B 3 224 71 B 2 144 71 B 1 2471 W 3 600 71 W 2 636 71 W 1 158;RUN;DATA A2;PROC CATMOD DATA=A1;WEIGHT COUNT;MODEL Y*C*R=_RESPONSE_/ML PRED=FREQ;LOGLIN Y|C|R;QUIT;RUN;此段程序分成两部分:一是资料集A1,其目的是读入资料;另一是资料集A2,是以资料集A1来进行PROC CATMOD程序。以下我们只就第二部分的程序来进行解说。四、程序解说及OUTPUTPROC CATMOD DATA=A1;此段叙述句是宣告PROC CATMOD程序的开始,以资料集A1进行分析。WEIGHT COUNT;此叙述句系指明COUNT的值即代表每一格的观测次数或是加权值,在此是代表观测次数。MODEL Y*C*R=_RESPONSE_/ML PRED=FREQ;在PROC CATMOD程序中一定要宣告一个MODEL指令,不可省略,也不可多于一个。MODEL指令中有许多的线性模型可供我们使用,在此我们只使用了对数线性模型,亦即在MODEL后输入:Y*C*R=_RESPONSE_,表示我们将进行一对数线性模型。而在 / 之后的选项串中,包括了许多的选项,现将常用的列于下:1.ML:要求以最大概似法来估计参数。2.PRED=PROB或PRED=FREQ:此两者之中只能挑选一者。PROB是要求印出每一格的预测期望机率。而FREQ则是要求印出每一格的预测期望次数。3.COVB:要求印出参数估计值的共变异数矩阵。4.CORRB:要求印出参数估计值的相关系数矩阵。5.ADDCELL=正实数(如 5):如有某一格中出现零的值,其对数是无解的,为了防止此事发生,此选项会将每一格的值均加上一正实数(如 5),而不会影响使用最大概似法估计出来的结果。LOGLIN Y|C|R;此叙述句宣告了对数线性模型中各式的效果。Y|C|R表示我们的模式中应放入Y、C、R等单一因子,还有Y、C和R两两的二元交互作用项,另外还有Y、C和R的三元交互作用项。即当我们如上宣告时,所进行的模型为饱合模式:若我们在Y|C|R之后加上2则表示从三个变量中拿出两两的二元交互作用项进入模式,但不会将三元交互作用放入模式,所以模型将变为:这将会是之后我们要找出较好的模型所使用的方法。QUIT;一段程序的结束。在每一个PROC XXX程序使用完之后,其实都应加入此叙述句,使程序终止。我们将执行Catmod1.sas程序之后所出现的OUTPUT列下:由上面的OUTPUT中我们可知,由于Chi-Square与P分别代表 统计量及其P-value,检定了如下的假设:即其交互作用项是否为零,若为零表两变量无相关性,不为零表有相关性。所以年代与肤色有相关性(Chi-Square=10.51,P=0.0012),年代与反应也有相关性(Chi-Square=18.91,P=0.0001),肤色也与反应有相关性(Chi-Square=38.00,P=0.0000)。五、找出最适对数模型之前的程序是进行饱合模式,由于进行结果其三元交互作用项不须要,所以我们看看在把三元交互作用项剔除后是否会对我们的模式有帮助。我们现在考虑将二元交互作用项一个一个加入模式中,看看何者对我们的模式有帮助。判断的标准为上图中的LIKELIHOOD RATIO的值,实际上其为 值,是检定适切度(Goodness-of-fit)的统计量,若 值小则其P-value(图中Prob值)大,则接受虚无假设:此模式适合(Fit well),反之不适合(Lack-of-fit)。我们先以加入一个年代(Y)与肤色(C)的二元交互作用项来看(只列出所须之报表部分):所以我们只要比较其它模式的 值何者较小及P-value何者较大,我们即可知最适模式为何。由于程序很长所以请按此处下载。现将各个模式的 值和P-value列表如下:加入的 二元交互作用项 程序变更 值 P -value Y*C LOGLIN Y|C; 873.85 0.0000 Y*R LOGLIN Y|R; 1056.23 0.0000 C*R LOGLIN C|R; 490.07 0.0000 Y*C、Y*R LOGLIN Y|C Y|R; 49.34 0.0000 Y*C、C*R LOGLIN Y|C C|R; 24.95 0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论