




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、整理ppt对数线性模型对数线性模型多项分布对数线性模型多项分布对数线性模型PoissonPoisson对数线性模型对数线性模型 整理ppt2高维列联表和高维列联表和多项分布多项分布对数线性模型对数线性模型 前面例子原始数据是个三维列联表,对三维列联前面例子原始数据是个三维列联表,对三维列联表的检验也类似。表的检验也类似。 但高维列联表在计算机软件的选项可有所不同,但高维列联表在计算机软件的选项可有所不同,而且可以构造一个所谓而且可以构造一个所谓(多项分布多项分布)对数线性模型对数线性模型(loglinear model)来进行分析。来进行分析。 利用对数线性模型的好处是不仅可以直接进行预利用对
2、数线性模型的好处是不仅可以直接进行预测,而且可以增加测,而且可以增加定量变量作为模型的一部分。定量变量作为模型的一部分。整理ppt3多项分布对数线性模型多项分布对数线性模型 现在简单直观地通过二维表介绍一下对数线性模型,假定不同的行代表现在简单直观地通过二维表介绍一下对数线性模型,假定不同的行代表第一个变量的不同水平,而不同的列代表第二个变量的不同水平。第一个变量的不同水平,而不同的列代表第二个变量的不同水平。用用mij代表二维列联表第代表二维列联表第i行,第行,第j列的频数。列的频数。人们常假定这个频数可以用下面的人们常假定这个频数可以用下面的公式来确定:公式来确定:ln()ijijijm这
3、就是所谓的这就是所谓的多项分布多项分布对数线性模型。这里对数线性模型。这里i为行变量的第为行变量的第i个水平对个水平对ln(mij)的影响,而的影响,而j为列变量的第为列变量的第j个水平对个水平对ln(mij)的影响,这两个影响称的影响,这两个影响称为主效应(为主效应(main effect);ij代表随机误差。代表随机误差。 整理ppt4多项分布对数线性模型多项分布对数线性模型 这个模型看上去和回归模型很象,但由于对于分布的假设不同,这个模型看上去和回归模型很象,但由于对于分布的假设不同,不能简单地用线性回归的方法来套用不能简单地用线性回归的方法来套用(和和Logistic回归类似回归类似)
4、;计算过程也很不一样。当然我们把这个留给计算机去操心了。计算过程也很不一样。当然我们把这个留给计算机去操心了。只要利用数据来拟合这个模型就可以得到对于参数只要利用数据来拟合这个模型就可以得到对于参数m的估计的估计(没有意义),以及(没有意义),以及ai和和bj的的“估计估计”。 有了估计的参数,就可以预测出任何有了估计的参数,就可以预测出任何i,j水平组合的频数水平组合的频数mij了了(通过其对数)。(通过其对数)。 注意,这里的估计之所以打引号是因为一个变量的各个水平的注意,这里的估计之所以打引号是因为一个变量的各个水平的影响是相对的影响是相对的,因此因此,只有事先固定一个参数值只有事先固定
5、一个参数值(比如比如a1=0), ,或者或者设定类似于设定类似于S Sai=0=0这样的约束,才可能估计出各个的值。这样的约束,才可能估计出各个的值。没有没有约束,则这些参数是估计不出来的。约束,则这些参数是估计不出来的。 整理ppt5多项分布对数线性模型多项分布对数线性模型 二维列联表的更完全的对数线性模型为二维列联表的更完全的对数线性模型为ln()()ijijijijm 这里的这里的()ij代表第一个变量的第代表第一个变量的第i个水平和第二个变量个水平和第二个变量的第的第j个水平对个水平对ln(mij)的共同影响的共同影响(交叉效应交叉效应)。即当单独。即当单独作用时,每个变量的一个水平对
6、作用时,每个变量的一个水平对ln(mij)的影响只有的影响只有i(或或j)大,但如果这两个变量一同影响就不仅是大,但如果这两个变量一同影响就不仅是i + j ,而,而且还多出一项。且还多出一项。 这里的交叉项的诸参数的大小也是相对的,也需要这里的交叉项的诸参数的大小也是相对的,也需要约束约束条件条件来得到其来得到其“估计估计”;涉及的变量和水平越多,约束;涉及的变量和水平越多,约束也越多。也越多。整理ppt6注意,无论你对模型假定了多少种效应,注意,无论你对模型假定了多少种效应,并并不见得都有意义不见得都有意义;有些可能是多余的。本来;有些可能是多余的。本来没有交叉影响,但如果写入,也没有关系
7、,没有交叉影响,但如果写入,也没有关系,在分析过程中一般可以知道哪些影响是显著在分析过程中一般可以知道哪些影响是显著的,而那些是不显著的。的,而那些是不显著的。 整理pptPoisson分布简介分布简介 在某些固定的条件下在某些固定的条件下, 人们认为某些事件出现人们认为某些事件出现的次数服从的次数服从Poisson分布分布, 比如在某一个时间段内某比如在某一个时间段内某种疾病的发生病数种疾病的发生病数, 显微镜下的微生物数显微镜下的微生物数, 血球数血球数, 门诊病人数门诊病人数, 投保数投保数, 商店的顾客数商店的顾客数, 公共汽车到达公共汽车到达数数, 电话接通数等等电话接通数等等. 然
8、而然而, 条件是不断变化的条件是不断变化的. 因此因此, 所涉及的所涉及的Poisson分布的参数也随着变化分布的参数也随着变化.整理ppt8Poisson对数线性模型对数线性模型 假定哮喘发生服从假定哮喘发生服从Poisson分布;但是由于条件不同,分布;但是由于条件不同,Poisson分布的参数也应该随着条件的变化而改变。这里分布的参数也应该随着条件的变化而改变。这里的条件就是给出的性别、空气污染程度与年龄。当然,的条件就是给出的性别、空气污染程度与年龄。当然,如何影响以及这些条件影响是否显著则是我们所关心的。如何影响以及这些条件影响是否显著则是我们所关心的。这个模型可以写成这个模型可以写
9、成 这里这里为常数项,为常数项,i为性别为性别(i=1,2分别代表女性和男性分别代表女性和男性两个水平),两个水平),j为空气污染程度为空气污染程度(j=1,2,3代表低、中高代表低、中高三个污染水平),三个污染水平),x为连续变量年龄为连续变量年龄,而而为年龄前面为年龄前面的系数的系数,ij为为残差项残差项。 ln()ijijx整理ppt9 SPSS 中一共提供了对数线性模型的三个过程: General 过程、过程、Logit 过程过程和和Model Selection 过程过程,三者都应用对数线性模型的基本原理,但在具体的拟和方法和结果输出上有些不同,分别用于不同的研究情况。 Genera
10、l 过程适用于研究人员只对某些特定效应项某些特定效应项感兴趣的情况,属于证实证实性研究性研究。General 过程的另外一个特点是,分析中只考虑因素之间是否相关,不考虑谁是原因谁是结果,最后在结果解释时才由研究人员来做出判断。 如果因变量为两分类,就可以用Logit 过程提供的Logit 模型来分析。相比之下,它比另两个模型更像方差分析,明确分出了应变量和自变量明确分出了应变量和自变量,直接服务于分类变量之间的因果关系。 Model Selection 过程拟合的是分层对数线性模型分层对数线性模型(Hierarchical Mode)。如果在探索性分析中研究人员只是设想若干分类变量之间可能有关
11、系,但是并无明确假设,也没有具体分出哪个是因变量、哪个是自变量,此时比较适宜采用分层对数线性模型分析。整理ppt10对数线性模型- General模型 一般对数线性模型是对数线性模型中最简单的一种。 例:某医科大学附属医院用内科疗法治疗一般类型胃溃病患者80 例,治愈63 例,治疗特殊类型胃溃病患者99 例,治愈31 例,试通过此资料比较用内科疗法治疗两种胃溃病病人所得的治愈率是否相同。 影响格子中频数大小的因素有两个:组别和治疗结果,根据前面的分析可知,要比较两种类型胃溃疡病的治愈率是否相同,就是分析组别和治疗结果两个因素对单元格频数的作用是否存在交互作用。整理ppt11可以认为用内科疗法治
12、疗两种胃溃疡病人所得的治愈率是不同的。一般类型病人的治愈率高于特殊类型,或者可以说,治愈率和组别与治疗结果两个因素有关,对单元格频数的作用存在交互作用。整理ppt拟合Poisson回归模型时使用首先应当使用Weight Cases 过程,将count 指定为频数变量。整理ppt整理ppt整理ppt整理ppt整理ppt17结果分析:结果分析:模型迭代的基本情况:允许最大迭代次数为20 次,用于判断收敛的相对容忍度为0.001,本模型迭代4次后即成功收敛。表格下方的脚注给出了具体模型的信息:单元格内频数服从多项分布,具体的模型如下,即含交互作用项的饱含交互作用项的饱和模型和模型。abbaab)(l
13、n整理ppt整理ppt整理ppt这里关心的是参数6 的估计值及假设检验结果,即两个因素的交互作用是否有意义。其参数估计值为2. 095 ,P0. 05 ,认为胃溃疡类型和治疗结果两个因素之间存在交互作用,即不同胃溃疡类型有不同的治疗率。结合具体资料可以看出,一般类型胃溃疡治愈率高于特殊类型。整理ppt 输出的分别是4 个系数的协方差矩阵和相关系数矩阵。作为参照水平的参数(都赋值为0) 没有列出。 再次提醒:由于拟合的是饱和模型,故所有的残差均为0 ,因此没有输出与残差有关的图形。整理ppt22 如果选择Custom模型,分析group和result两个因素的Main effect,不包含两者的
14、交互效应,结果会怎样?从模型的拟和优度检验可见,无论是似然比2 还是普通的Pearson 2 , P值都是小于0.05 的,从饱和模型中去除交互项后所用的这个模型在拟合优度上和原饱和模型有统计学差异,即被去除的交互项实际上是存在的被去除的交互项实际上是存在的。也就是两变量间有关系,即不同类型胃溃疡病人的治愈率不同。这与饱和模型的分析结果是完全一致的。整理ppt 4 个单元格的观察频数、期望频数和校正残差的散点图矩阵散点图矩阵。 上排中间的格子是指以期望频数横坐标、实际频数为纵坐标的散点图; 第二排左边的散点图是以实际频数为横坐标、期望频数为纵坐标。 如果把这两个图作一定的旋转,就会发现它们是完
15、全一样的。 从观察频数和校正残差的散点图可看出, 4 个散点明显存在着一定的趋势,这说明残差不服从正态分布,所拟合的模型尚不能完全解释4 个格子频数的分布规律,可能还有有意义的变量未被纳入(实际上就是交互项未被纳入)。整理ppt 校正残差的正态Q-Q 图和去势正态Q-Q图,可见虽然只有4 个格子的残差,但明显存在着一定趋势,结论和前面相同。整理ppt25Poisson回归模型回归模型 SPSS 中一般对数线性模型主对话框右下侧的Distribution of Cell Counts 单选框组默认为Poisson ,即各单元格中频数服从Poisson 分布。 在上文所讨论的模型中,单元格内频数都
16、被假定成服从多项分布,此时拟合的是标准的对数线性模型。 但是如果将频数分布设定为Poisson 分布,此时拟合的又是什么模型呢?整理ppt整理ppt27 例:现收集了某一年代英国男性医生冠心病死亡与抽烟关系的年龄分组数据。请推断英国男医生冠心病死亡与抽烟、年龄是否有关?注意由于死亡与追踪人数和追踪时间均有关,故对人数进行了校正,实际上是用经过校正的观察人数作为观察单位。 由于冠心病并非传染病,且在人群中的病死率较低病死率较低,因此可以认为死亡人数服从Poisson 分布。 在清楚了模型的基本结构后,本例的操作就不再困难了,唯一比较特殊的是由于各年龄组的观察人数不同,需要在各年龄组的观察人数不同
17、,需要在Cell Structure 框中加以设定框中加以设定。整理ppt28首先对死亡数died进行加权。整理ppt由模型的拟合优度可见,当前模型和饱和模型相比没有统计学差异,说明不需要再纳入两个变量的交互项不需要再纳入两个变量的交互项了。整理ppt 模型的参数估计值,由于Poisson 回归模型都是对前瞻性研究数据进行拟合,因此可以通过对事件发生率(此处为死亡率)的比较计算出相对危险度。 本例的结果:和抽烟者相比,不抽烟者的死亡风险较低,其RR为exp (-0.5) =0.6060 。而随着年龄的增加,死亡的风险也在逐渐上升,和35 岁组(编码为1)相比,65 岁组(编码为4) 的RR值为
18、exp (3.338) = 28.163。整理ppt31对数线性模型- Logit模型 一般线性模型己经可以完成许多分析了,它的特色是对所有的变量不分因变量和自变量,一视同仁的分析。但有的时候,研究人员对研究变量间的因果关系已经了解,研究目的是分析自变量与因变量之间的关系,此时用一般对数线性模型就无法利用该信息。 在这种情况下,可以用Logit 过程提供的Logit 模型来分析。该模型明确分出因变量和自变量明确分出因变量和自变量,分析因变量和自变量之间的因果关系。 模型中将自动引入自变量与因变量的交互项自动引入自变量与因变量的交互项。在拟合结果上, Logit 模型实际上和我们熟悉的Logis
19、tic 模型等价。整理ppt32 例:要研究两种手术后并发症的严重程度与手术类型是否有关,在甲乙两个医院各观察70 、54 例子术病人。本研究分析不同手术类型和不同医院对术后并发症的影响,显然是否出现术后并发症是因变量,手术类型和医院是自变量。这一问题可以用Logistic 回归来解决,也可以用对数线性模型来解决,二者是等价的。整理ppt首先应当使用Weight Cases 过程,将count 指定为频数变量。整理ppt可见该不饱和模型的拟合优度与含所有交互项的饱和模型相比并无统计学差异,也就是说,用此模型己经可以用此模型己经可以充分反映三个变量间的关系了充分反映三个变量间的关系了。整理ppt
20、 SPSS12之后新增的输出,用于给出反应给出反应模型的解释度模型的解释度,它类似于回归模型中的决定系数,具体以熵(Entropy) 或集中度(Concentration) 来计算。 以熵为例,可见数据的总熵为83.613 ,其中被模型解释掉了2.916 ,因此通过熵测得的模型解释度为2.916/83.613 =0.035。 但是,由于这里拟合的是分类数据的模型,因此解释度指标只是近似的反映了模型的效果,就如同Logistic 模型中的伪决定系数一样。整理ppt模型中所有参数的估计值,对于自变量的任意组合分别估计了常数项。其余的11 个系数中3个有效参数均给出了标准误、Z值以及参数95% 可信
21、区间,从可信区间可见第11个参数有统计学意义的,可以这样理解,在控制了在控制了hospital 这一变量的混杂作用后,因变量这一变量的混杂作用后,因变量effect与自变量与自变量trt 之间存在交互作用。之间存在交互作用。结合具体数据可知,手术1 的术后并发症发生率低于手术2 。两所不同医院之间,术后并发症发生情况无明显差别。整理ppt整理ppt整理ppt39对数线性模型-Model Selectio SPSS 中的LoglinearModel Selection 过程可以进行对数线性模型的选择。该过程从饱和模型入手,从高阶交互项开始逐步排除无意义的参数,直到最该过程从饱和模型入手,从高阶交
22、互项开始逐步排除无意义的参数,直到最终形成一个最佳的简约模型。终形成一个最佳的简约模型。 但是分层模型只提供饱和模型的参数估计、不能输出简略模型的参数估计分层模型只提供饱和模型的参数估计、不能输出简略模型的参数估计,在用它得到最佳简约模型后,还应当采用一般模型来得到具体的参数估计和检验结果。 对广大用户来说,该过程的应用价值是最高的,因为它可以进行自动筛选自动筛选,类似于多元回归中的逐步回归,这在三维以上列联表进行联合分析时可以大大降低我们的工作量。整理ppt40 例:某医师研究工作姿势(B) 与子宫后倾(C) 有无关系,随机抽查370 名劳动强度及年龄相仿的女职工的工作姿势与子宫后倾情况,请
23、作统计分析(假定在可比性方面无问题)。 本例是由三个分类变量(A 、B 、C) 构成的三维列联表。研究者主要关心B 与C 是否有关, A是混杂因素,可考虑用Logistic 回归,也可用对数线性模型,现借助对数线性模型作分析。整理ppt整理ppt整理ppt饱和模型整理ppt检验模型中K 维交互作用及K 维以上交互作用是否有统计学意义,方法为似然比2和Pearson 2 ,可见无论哪种检验均显示三维交三维交互作用无统计学意义,互作用无统计学意义,二维交互和一维交互以上(即主效应)均有统计学意义。检验模型中K 维交互作用自身是否有统计学意义,方法为似然比2和Pearson 2 ,可见结论和上面相同。整理ppt初始模型:最高阶交互效应删除最高阶后拟合优度有无意义,显然删除三阶交互对模型无影响。拟合第1步:显示当前模型的最高阶交互项,为三个二阶交互项。当前模型拟合优度与饱和模型相比的检验,无统计学意义。拟合第1步:如果将这几个最高阶交互项从模型中删除,则拟合优度的改变有无统计学意义。可见a*b、a*c的P值大于0.05,而b*c所对应P值小于0.05,可见前两个二阶交互作用可以删除,而b*c的交互作用不能删除。整理ppt文本给出了最终模型的信息,同样是用列出模型中具体系数的方式来表示的。文本是最终模型的拟合优度检验,可见模型拟合良好现在已经得到了最佳简略模型,但
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公共关系学中的沟通模型试题及答案
- 2025-2030年棕榈油行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030年巧克力行业市场发展分析及前景趋势与投融资发展研究报告
- 2025-2030年农用无人机产业市场深度分析及发展趋势与投资战略研究报告
- 识破误区2025年工程经济试题及答案
- 公共关系学的行业应用试题及答案
- 2025酒店全面租赁合同
- 2025加盟商签订特许经营合同前的注意事项
- 广东省深圳市龙华区2025年八年级下学期语文期末试卷及答案
- 成本估算与控制试题及答案
- 高考二轮专题复习:图文转换
- 2024年甘肃省大数据中心招聘工作人员笔试真题
- 崇左市人民检察院招聘机关文员笔试真题2024
- 2025-2030煤油产业规划专项研究报告
- (二模)2025年4月潍坊市高三高考模拟考试地理试卷(含答案)
- 香港劳务服务合同协议
- 园林喷洒器企业数字化转型与智慧升级战略研究报告
- GB/T 9065.2-2025液压传动连接软管接头第2部分:24°锥形
- 高二下学期感恩母亲节主题班会课件
- 道路运输汛期教育培训
- 高一信息技术Python编程课程讲解
评论
0/150
提交评论