对数线性模型.ppt

上传人：油*** IP属地：浙江上传时间：2020-03-11 格式：PPT 页数：43 大小：1.81MB 积分：25 举报 版权申诉

已阅读5页，还剩38页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

对数线性回归多元社会统计分析一对数线性模型简介 1 对数线性模型基本思想对数线性模型分析是把列联表资料的网格频数的对数表示为各变量及其交互效应的线性模型然后运用类似方差分析的基本思想以及逻辑变换来检验各变量及其交互效应的作用大小 2 列联表的四种类型双向无序列联表单向有序列联表双向有序且属性不同的列联表双向有序且属性相同的列联表 3 列联表的优势约束条件少清晰可以快速准确进行判断 4 列联表的劣势对于多关系变量两个以上研究不能被清晰解读失去了对多变量之间的交互联系的分析进行两变量间关联分析时缺乏统计控制不能准确定量描述一个变量对另一个变量的作用幅度 5 对数线性模型多维度列联表解决之道以及模型自身特点通过数学方法方差分析逻辑变换来描述多元频数分布综合性同时囊括多个变量于一个模型之中控制性可以在控制其他变量的条件下研究两个分类变量之间的关联饱和性将多元频数分布分解成具体的各项主效应和各项交互效应以及高阶效应不会漏项饱和模型与不饱和模型定量性以发生比的形式来表示自变量的类型不同反映在因变量频数分布上的差异可检验性不仅可以对所有参数估计进行检验使抽样数据可以推论总体且能够通过不同模型的统计检验结果对备选模型进行筛选和评价进而确定具有最大解释能力且最简单的模型消除抽样波动所带来的明显的不规则性 6 对数线性模型的缺点对数线性模型更强调的是变量之间的交互效应它不能直接将因变量用自变量的函数表示出来对数线性模型抽象复杂特别是高维模型不如线性回归模型易理解二对数线性模型的基本原理 1 与方差分析相关的在多元方差分析中以二元方差为例每一个观测值yij Ai的效果 Bj的效果 AB ij交互作用 ij 2 比数比比数比是对数线性模型的基础而比数比又是由比数计算而来那么什么叫做比数呢比数是一个事件发生的概率与其不发生概率之比测量了一个事件发生的可能性这个数值越高说明结果2相对于结果1发生的可能性就越高 Fij代表某模型fij的期望值令 ij代表与单元格 i j 有关的期望概率上表可转化为 1 12 11 2 22 21同理我们可以测量两个两个类别间的比值称作比数比 1 2 22 21 12 21 F11F22 F12F21一个大于1的比数比意味着行变量和列变量的第二个或者第一个存在正相关等于1无关小于1负相关比数比的不变性不随1 总样本量2 行边缘分布3 列边缘分布的变化而变化所以只要关心比数比的估值那么适用于简单随机样本的最大似然估计就可以被直接应用到分层样本中了 3 与逻辑变换有关的对数线性模型的出现令R表示行 C表示列 fij表示第i行第j列的观测频次那么期望频次Fij被设定为一个乘积的函数Fij Ri Cj RCij 代表概率里面的总概率值1 R和 C分别代表R和C的边缘效应 RC代表R与C的二维交互效应而交互效应实质上测量的就是R与C之间的比数比当 RCij 1的时候就是我们熟悉的独立模型相乘形式的不好计算我们将其取对数上两式的数学变换使各种效应项相乘的关系被转换成相加的关系使各项效应独立化了常数效应 A因素效应 B因素效应主效应 A B两因素的交互效应主效应和多元交互列表涉及因素数量相等交互效应的总数则为所有因素各阶组合数之和对数线性模型有一个限制条件模型中每一项效应的各类参数之和等于0 如果每项效应中只有一类的参数未知那么可以由已知参数推算出来通过上组式子我们可以计算出线性模型等式右侧的所有参数值 A因素效应是行平均值与总平均值之差B因素效应是列平均值与总平均值之差交互效应计算结果表示在除去所有其他分布效应之后两个因素之间的净关联常数项只受样本规模和交互单元数的影响主效应项反映的是各因素内部类别频数分布的特征是在总平均频数基础上的补差如果模型中所有交互效应都等于0 我们将会看到虽然每行列频数不同但行列频数分布比例却是相同的都等于原来分类变量的类别分布比例泊松分布多项分布乘积多项分布所以我们不能直接应用最小二乘法对模型总体参数进行估计但幸运的是三个抽样模型下的极大似然估计是等同的但是可以通过迭代再加权最小二乘法可是运算起来比较繁琐 4 分布 5 估计参数估计通俗的来讲根据抽样结果来合理地科学的猜测一下总体的参数大概是什么或者是在什么范围点估计就是用样本计算出来的一个参数来估计未知参数区间估计就是通过样本计算出来一个范围来对位置参数进行估计极大似然法与最小二乘法的区别于联系最小二乘法所要解决的问题是为了选出似的模型输出与系统输出尽可能接近的参数估计用误差平方和即离差平方和的大小来表示接近程度使离差平方和最小的参数值即为估计值简单来说已知点自己拟合模型也即分布函数概率密度函数的积分进行预测极大似然估计所要解决的问题是选择参数使已知数据在某种意义下最可能出现某种意义指的是似然函数最大此处似然函数就是概率密度函数也就是经常提到的模型已知参数未定二者的区别就是后者需要知道概率密度函数最小二乘法要的是求出最优的那个参数而极大似然要求出概率最大最可能出现的参数举个例子生活中我们一个着眼最合理是哪一个一个着眼于最可能的是哪一个极大似然法当总体服从正态分布时二者是一样的对于最小二乘法当从模型总体随机抽取n组样本观测值后最合理的参数估计量应该使得模型能最好地拟合样本数据而对于最大似然法当从模型总体随机抽取n组样本观测值后最合理的参数估计量应该是使得从模型中抽取该n组样本观测值的概率最大密度函数和似然函数带着参数的密度函数是相同的但前者视参数是固定的且数据时变化的后者视参数变化的且数据时固定的 1 写出似然函数 2 对似然函数取对数并整理 3 求导数 4 解似然方程三对数线性模型的假设检验 1 假设检验的作用统计推论中包括参数估计与假设检验两部分上面我们已经介绍了参数估计那估计的可信度有多少还要经过假设检验不经过统计检验研究者便不能肯定得到的参数估计是不是仅仅源于抽样误差因而不能肯定在总体中是否存在相同情况所有结论只能限于这个样本之内不能肯定再抽一个样本能否得到类似结果 2 统计量似然卡方比根据相关计算看原假设是否成立贝叶斯信息标准不同模型而言越小的BIC越好 3 对数线性模型的统计检验四种主要检验 1 对于假设模型的整体检验 2 分层效应的检验 3 单项效应的检验 4 单个参数估计的检验对数线性模型的统计检验 1 对于假设模型的整体检验采用似然比卡方检验 likelihood ratiochi squaretest 标为L2 在样本量较大时 L2与皮尔逊卡方统计量的值十分接近 L2优越性 1 期望频数采用似然估计方法因而更加稳健 2 可以被分解成若干部分即各项效应都有对应的似然卡方值并且它们的似然卡方值之和等于整个模型的似然卡方比值对数线性模型的统计检验公式其中为估计交互频数原假设检验模型的频数估计与观测频数无差异也可以理解为检验模型和饱和模型无差异无关假设对数线性模型的统计检验饱和对数线性模型可以完美无缺的再现观测频数因此不需要对饱和模型进行整体性检验 DF等于0 意味着所检验的模型与饱和模型之间的效应项目没有差别对数线性模型的统计检验真正有意义的是检验非饱和模型简略模型 reducedmodel 如果简略模型仍然可以比较准确的拟合观测数据其拟合程度与饱和模型无显著差异说明剔除的效应对于拟合意义不大科学的简约性原则研究目的不是为了再现观测频数而是通过在模型中加入和减少交互效应项的试验以寻求真正重要的因素从饱和模型开始逐步剔除不重要的交互效应项在保证拟合程度不受较大影响的前提下直到形成效应项最少的模型找到最关键因素对数线性模型的统计检验举例说明由图可知自由度变为1 L2由0增大到10 284 显著性水平为0 01 P 拒绝原假设说明简略模型和饱和模型存在十分显著的差异即拟合程度受到很大影响显著不能剔除该交互因素在因素很多的复杂饱和模型中通过此方法删减多个不显著效应项来形成简略模型对数线性模型的统计检验整体检验的不足之处整体检验显著只能说明撤销的效应项中起码有一项是有显著作用的但不能确定是哪一项显著所以整体检验在实际对数线性模型分析中主要服务于整个检验模型的检验情况而确定各项效应时则是通过单项效应的检验且对于一个多阶多项效应的复杂模型采用整体检验方式就意味着逐项效应的剔除测试这样分析过程效率太低对数线性模型的统计检验 2 分层效应检验当研究中涉及的因素较多时不仅主效应项会增加交互效应项增加得更快例如四个因素的模型主效应4个二阶交互效应6项三阶交互效应4项四阶交互效应1项如此逐项检验筛选重要目标就太繁琐了且在一般情况下高阶交互效应不太容易显著因此采用按阶次集体检验交互效应项的方法十分间接有效对数线性模型的统计检验分层效应检验有两种一某一阶及更高阶所有交互效应项的集体检验它的检验是否显著表明这一阶及以上各阶中是否至少有一项是重要的二某一阶所有交互效应的集体检验它的检验是否显著表明这一阶所有交互效应中是否至少有一项是重要的前者检验比后者综合性更强对数线性模型的统计检验案例二阶以上简略模型一阶以上一阶二阶对数线性模型的统计检验分层检验提供了模型L2的分解第一种分层检验中一阶及以上所有效应都从模型中删除就会使简略模型的L2增加到13 142 而第二种分层检验告诉我们这个L2的增量是一阶效应L22 858与二阶效应L210 284之和对数线性模型的统计检验分层效应检验的不足整体检验或分层检验的结果只能说明所有效应中或某一组效应中至少有一项效应具有显著重要影响但并不能明确知道究竟是哪一项显著为了了解到底是哪些具体项目显著还需要采用单项效应的单独检验对数线性模型的统计检验 3 单项效应的检验SPSS的单项效应检验只是在分层模型中对饱和模型分析时提供它反映的是如果从模型中撤销一个效应以后对L2变化的检验称为偏关联检验 testsofPARTIALassociations 对数线性模型的统计检验偏关联检验没有最高阶项对于例子而言两个主效应显著概率都大于0 05偏关联检验实际上是对饱和模型的L2与删除该项效应后简略模型L2之间的增量的检验可以视为分层检验的进一步分解 2 858 1 602 1 257 对数线性模型的统计检验单项效应检验的不足在制定对数线性模型时一个因素中可能不只两个类别单项效应检验只是肯定这项效应中起码有一类与其他类存在明显差别但并不能提供究竟是哪一类

人人文库> 全部分类> 教育资料 > 幼儿教育

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

对数线性模型.ppt

文档简介

温馨提示

最新文档

评论

对数线性模型.ppt

文档简介

温馨提示

最新文档

评论

相关文档