版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
定性数据的建模分析:对数线性模型与Logistic回归CONTENTS目录01引言与学习目标02对数线性模型基础03对数线性模型的SPSS实现与案例分析04Logistic回归模型基础CONTENTS目录05分组数据的Logistic回归模型06未分组数据的Logistic回归模型07Logistic回归的方法步骤与扩展08总结与思考引言与学习目标01定性数据的特点定性数据是离散型数据,常以列联表形式呈现,描述分类变量间的关系,如收入水平与产品满意度的交叉分组数据。列联表分析的局限性列联表分析无法系统评价变量间联系,不能估计交互作用大小,难以深入揭示变量间复杂关系。建模方法的必要性对数线性模型可将方差分析方法应用于列联表,分析变量间交互效应;Logistic回归适用于因变量为二分类的情况,克服判别分析的严格假设,二者为定性数据建模提供有效工具。本章核心价值通过学习对数线性模型和Logistic回归,掌握定性数据的建模分析方法,提升对离散型数据关系的描述、解释和预测能力,为实际问题分析提供支持。定性数据与建模需求本章学习目标01掌握对数线性模型的基本原理理解对数线性模型将概率取对数后分解为因素主效应和交互效应的原理,以及模型饱和与非饱和的判定条件。02掌握对数线性模型的建模方法学会基于列联表数据,通过参数估计和检验,分析变量间主效应和交互效应,如利用SPSS软件实现模型分析。03掌握Logistic回归分析结果的解释能够解释Logistic回归中的系数含义、优势比率,以及模型拟合优度检验结果,如通过wald统计量判断自变量显著性。04理解判别分析与Logistic回归的优缺点判别分析依赖多元正态性和等协方差阵假设,Logistic回归无此限制且结果稳定,对自变量类型要求宽松,更具实用性。05掌握通过SPSS软件实现Logistic回归熟练操作SPSS软件进行数据准备、模型参数设置、结果输出与解读,如完成分组或未分组数据的Logistic回归分析。2026/5/14对数线性模型基础02对数线性模型的基本原理
对数线性模型的定义对数线性模型是用于离散型数据或交叉列联表数据的统计分析工具,可将方差分析和线性模型方法应用于交叉列联表,以描述和分析定性变量间的关系。
模型的核心作用弥补列联表分析的不足,能系统评价变量间联系,估计变量间交互作用大小,是处理定性变量关系问题的有效方法。
概率对数变换与分解思想先将概率取对数,再进行分解处理,通过建立对数线性关系,将复杂的定性变量关系转化为可分析的线性模型结构。2026/5/142×2维频数表与概率表频数表展示交叉分类下的观测频数,如A因素与B因素不同水平组合的n11、n12等;概率表则对应各组合的概率πij,边际概率πi·、π·j及总和为1。对数线性模型公式推导通过对概率取对数并分解,得到模型ηij=Ai+Bj+(AB)ij,其中Ai对应lnπi·,Bj对应lnπ·j,(AB)ij对应ln(πij/(πi·π·j))。与双因素方差分析模型类比模型结构类似有交互效应的双因素方差分析,αi、βj为A、B因素的主效应,γij为交互效应,满足各效应和为零的约束条件。2×2维交叉列联表与模型结构模型参数估计与效应判断
参数估计方法以交叉列联表频率为概率的无偏估计,将频率取对数后代入模型,通过公式计算交互效应γij的估计值,调整i、j取值上限可适用于非双水平因素。
交互效应γij的判断γij>0表明两因素对应水平存在正效应,γij<0为负效应;γij=0时因素相互独立。如例9.1中,高收入与满意的γij=-0.260为负效应。
饱和模型与非饱和模型若所有γij=0,模型为非饱和模型(因素独立);否则为饱和模型(因素有交互效应)。饱和模型中实际频数与期望频数相同,残差为0。2026/5/14对数线性模型的SPSS实现与案例分析03数据准备与SPSS操作步骤
数据输入格式以3×2维交叉列联表(收入情况:高/中/低;满意情况:满意/不满意)为例,数据需按“频数-收入情况-满意情况”三列输入SPSS,如收入1(高)、满意1对应频数53,收入1、满意2对应频数38等,共6行数据。
激活频数操作通过Data→WeightCases菜单,选中“Weightcasesby”,将“频数”变量选入FrequencyVariable框,点击OK完成激活,确保分析时以频数为权重,否则结果会出错。
Loglinear模块参数设置依次选择Analyze→Loglinear→ModelSelection,将“收入情况”“满意情况”选入Factor(s)框,分别定义范围(收入1-3,满意1-2);“频数”选入CellWeights框;Options中勾选SaturatedModel的ParameterEstimates,点击OK执行分析。2026/5/14输出结果解读(一):模型信息与拟合优度
模型基本信息输出显示有效样本量792,分为6类(3×2交叉),收入情况3水平、满意情况2水平,分析效应包含主效应及交互效应(收入情况※满意情况)。
收敛情况系统经1次迭代后达到收敛,相邻两次估计之差≤0.001,表明模型迭代收敛速度快,结果稳定。
拟合优度检验饱和模型下,观测频数与期望频数完全一致(如高收入满意组均为53.5),残差及标准化残差均为0;似然比卡方与Pearson卡方值均为0,自由度0,提示模型完全拟合数据。2026/5/14输出结果解读(二):效应检验与参数估计K-way效应检验
K-way及Higher-orderEffects检验显示,1维及以上效应(主效应+交互效应)的似然比卡方=662.843(Sig=0.000),2维交互效应卡方=22.087(Sig=0.000),均拒绝原假设,表明主效应与交互效应显著。参数估计结果
收入情况主效应:高收入=-0.683,中收入=0.883,低收入=-0.200;满意情况主效应:满意=0.425,不满意=-0.425;交互效应:高收入满意=-0.260,中收入满意=0.269,低收入满意=-0.009。效应方向与大小判断
参数值为正表示正效应,负为负效应。如中收入满意交互效应为正(0.269),表明中等收入对满意度有促进作用;高收入满意为负(-0.260),表明高收入对满意度有抑制作用。2026/5/14案例分析结论顾客满意度整体偏向满意(β满意=0.425);收入阶层满意度差异显著,中收入最高(α中收入=0.883),高收入最低(α高收入=-0.683);交互效应显示中等收入对满意度有正效应,高、低收入有负效应,企业核心消费群体为中等收入者。模型应用价值对数线性模型可系统分析定性变量间的主效应与交互效应,克服列联表分析无法量化交互作用的局限,适用于市场调研、社会调查等领域,帮助识别关键影响因素及群体差异。实践注意事项应用时需确保数据格式正确并激活频数,根据研究目的选择饱和或非饱和模型;通过参数估计值的正负与大小可直观判断效应方向及强度,为决策提供量化依据。案例结论与应用启示Logistic回归模型基础04Logit变换与模型构建直接处理概率的局限性因变量为二元变量时,概率π的取值范围为[0,1],难以用线性模型描述其与自变量的关系;且当π接近0或1时,微小变化不易被普通方法捕捉。Logit变换的定义引入Logit变换Q=ln(π/(1-π)),将π从[0,1]区间映射到(-∞,+∞),解决了线性模型的取值限制问题,对π在0或1附近的微小变化敏感。Logistic线性回归模型表达式假设Q与自变量线性相关,即ln(π/(1-π))=β₀+β₁x₁+...+βₖxₖ,反变换后得到Logistic回归模型π=1/(1+e^-(β₀+β₁x₁+...+βₖxₖ)),克服了线性模型的局限。2026/5/14假设条件对比判别分析依赖严格的多元正态性和等协方差阵假设,实际中常难以满足;Logistic回归无此假设,结果在假设不满足时仍稳定。适用场景差异判别分析适用于被解释变量为多组的情况;Logistic回归在被解释变量为两组时更受欢迎,且对自变量类型(度量/非度量)无限制。优缺点总结Logistic回归优势:无需严格假设、结果稳定、类似回归分析易解释、可包含非线性效果和诊断;判别分析在满足假设时分类精度可能较高,但假设限制严格。Logistic回归与判别分析的比较模型估计与拟合度评价
极大似然估计法通过迭代寻找使似然函数最大化的参数估计值,不同于多元回归的最小二乘法,适用于Logistic变换的非线性特征。
拟合度指标-2LL用-2倍似然比值的自然对数(-2LL)衡量模型拟合度,值越小拟合越好;完全拟合时-2LL=0,实际中通过比较不同模型的-2LL值判断改进效果。
Wald统计量的作用用于检验回归系数的显著性,Wald值越大(sig.值越小),系数越显著;不同于多元回归的t检验,专门适用于Logistic回归的参数检验。2026/5/14分组数据的Logistic回归模型05分组数据模型的改进与Logit变换
01回归模型的两方面改进针对0-1型因变量问题,回归函数改用限制在[0,1]区间内的连续曲线,如Logistic函数;因变量用yi等于1的比例代替本身作为因变量,因E(yi)=πi是自变量为xi时yi等于1的比例。
02Logistic函数形式与图形Logistic函数形式为特定表达式,其图形呈S形。图9-1和图9-2分别展示了不同Logistic函数的图形,体现其在[0,1]区间内单调递增的特征。
03购房意向数据的Logit变换计算以例9-2购房意向数据为例,计算实际购房比例πi=mi/ni,再进行Logit变换π9i=ln(πi/(1-πi))。如序号1,年家庭收入1.5(10万元),签订意向书人数25,实际购房人数8,πi=0.32,π9i=-0.75377。2026/5/14建立线性回归模型对例9-2数据,令π9i=β0+β1xi+εi,构建普通一元线性回归模型。以Logit变换后的π9i为因变量,年家庭收入x为自变量。经验回归方程与检验结果得到经验回归方程:9=-0.886+0.156x,判定系数r²=0.9243,显著性检验P值≈0,模型高度显著,表明年家庭收入与Logit变换后的购房比例线性关系强。购房比例预测应用利用模型预测,当x0=8(年家庭收入80万元)时,代入方程得π9=-0.886+0.156×8=0.362,再还原为购房比例,预计实际购房比例为59%,即签订意向书的该收入家庭购房概率为59%。普通最小二乘估计与结果解读加权最小二乘估计与异方差处理分组数据模型的异方差性分组数据的Logistic回归模型存在异方差性,式(9.7)的回归模型不是等方差的,当ni较大时,πi的近似方差为特定形式,需采用加权最小二乘估计处理。加权最小二乘估计的权数选择选取权数wi=niπi(1-πi),其中ni为签订意向书人数,πi为实际购房比例。如例9-2中序号1,wi=25×0.32×(1-0.32)=5.440,通过权数调整消除异方差影响。SPSS加权回归操作及结果对比在SPSS中依次选择Analyze→Regression→Linear,将逻辑变换、年家庭收入、权重分别选入对应框。输出结果显示,加权后模型R²=0.881,调整后R²=0.864,对x0=8预测购房比例为58.5%,与未加权结果接近,提升了模型精度。2026/5/14未分组数据的Logistic回归模型06未分组数据模型的极大似然估计
似然函数构建设y为0-1型变量,n组观测数据为(xi1,xi2,…,xk;yi),yi概率函数为P(yi)=πi^yi(1-πi)^(1-yi),似然函数L=∏[πi^yi(1-πi)^(1-yi)]。
对数似然函数对似然函数取自然对数得lnL=∑[yilnπi+(1-yi)ln(1-πi)],代入Logistic函数πi=1/[1+exp(-(β0+β1xi1+…+βkxik))],转化为含参数的函数。
极大似然估计求解通过数值计算迭代寻找使lnL最大化的参数估计值,SPSS软件内置该求解功能,无需手动计算复杂偏导数方程组。2026/5/14案例分析:公共交通方式选择
变量设置因变量y:1=乘坐公交车,0=骑自行车;自变量包括连续型变量年龄(岁)、周收入(元),分类变量性别(1=男性,0=女性)。
数据概况调查对象为工薪族群体,共28组观测数据,示例数据:序号1(女,18岁,850元,y=0)、序号7(女,36岁,1500元,y=1)等。
建模目的分析年龄、周收入、性别对公共交通方式选择的影响,建立Logistic回归模型预测乘坐公交车的概率。2026/5/14SPSS操作与结果解读(一):变量筛选SPSS操作流程依次选择Analyze→Regression→BinaryLogistic,将y选入Dependent框,性别、年龄、周收入选入Covariates框,点击OK运行。初始模型Wald检验周收入Wald值=0.661,sig=0.416(>0.05),不显著;性别Wald=4.669(sig=0.031)、年龄Wald=2.486(sig=0.115),考虑剔除周收入。变量剔除过程移除周收入后重新建模,性别和年龄的显著性提高,模型更简洁,符合变量筛选原则。2026/5/14SPSS操作与结果解读(二):最终模型与解释
最终模型输出性别B=-2.224(Wald=4.506,sig=0.034),年龄B=0.102(Wald=4.986,sig=0.026),常数项B=-2.629。
回归系数与优势比解释单击此处添加项正文
结论最终模型显示性别和年龄显著影响交通方式选择:女性更倾向乘公交,年龄越大乘公交比例越高。2026/5/14Logistic回归的方法步骤与扩展07Logistic回归的建模步骤变量选择因变量为分组变量(限于两组),自变量可选择定量或定性变量(需编码),无需满足各组协方差阵相等假定,数据稳健性较强。数据拆分将样品分为两部分:一部分用于估计Logistic函数(分析样品),另一部分用于检验模型判别精度(保留样品)。模型假定与参数估计假定自变量间无高度相关,因变量发生概率模型为Logistic模型,采用极大似然估计法估计参数,通过Wald统计量检验参数显著性。拟合评估与结果解释通过似然比值(-2LL)评估模型拟合度,依据参数的显著性、符号及大小解释自变量对因变量的影响,如正系数对应优势比率增大。模型验证利用保留样品验证模型判别精度,结合逻辑框图(图9-3)展示从变量选择到模型验证的完整流程。2026/5/14分组数据的特殊处理与权函数选择
Logit变换修正公式当分组数据中存在mi=0或mi=ni(即πi=0或1)时,采用修正公式计算样本频率:πi=(mi+0.5)/(ni+1),避免Logit变换无意义。
异方差性与加权最小二乘分组数据Logistic回归存在异方差,权函数通常选择wi=niπi(1-πi),通过加权最小二乘估计消除异方差影响,提升模型精度。
二阶段最小二乘法确定权函数第一阶段:用普通最小二乘拟合回归模型;第二阶段:根据第一阶段结果估计组比例πi,以wi=niπi(1-πi)做加权最小二乘,优化权函数确定过程。2026/5/14模型定义与应用场景多元Logistic回归适用于因变量为多组(大于两组)的情况,如疾病严重程度(轻、中、重)与患者年龄、性别等因素的关系分析。模型推广基础作为二元Logistic回归的推广,其构建基础、偏差使用及统计推断与二元模型有所不同,可通过逼近法配合多个二元Logistic回归模型实现。复杂性与研究价值多元模型因变量水平增加导致分析复杂度提升,但在医学、社会科学等领域具有重要应用价值,具体方法可参考相关文献[5][7]。多元Logistic回归简介总结与思考08知识体系梳理与关键要点回顾
对数线性模型核心知识对数线性模型用于离散型数据或列联表数据的统计分析,可描述定性变量间关系及交互作用。其基本公式为ηij=Ai+Bj+(AB)ij,Ai、Bj为主效应,(AB)ij为交互效应。通过对概率取对数并分解处理,当交互效应yij均为0时为非饱和模型(因素独立),否则为饱和模型。
Logistic回归核心知识Logistic回归适用于因变量为二元变量的情况,通过Logit变换将概率π转换为Q=ln(π/(1-π)),使其在(-∞,+∞)上变化。模型形式为Q=β0+β1x1+…+βkxk,采用极大似然估计法估计参数,通过优势比率(Exp(B))解释自变量对因变量发生概率的影响,Wald统计量用于检验系数显著性。2026/5/14知识体系梳理与关键要点回顾两种方法适用场景对比对数线性模型主要用于分析多个定性变量间的关系及交互作用,适用于列联表数据;Logistic回归用于研究因变量(二元)与自变量(定量或定性)的关系,预测事件发生概率。当被解释变量为两组时,Logistic回归因无需严格的多元正态性和等协方差阵假设,且对自变量类型无要求,更具优势。SPSS操作关键步骤与结果解读对数线性模型SPSS操作:激活频数(Data→WeightCases),选择Analyze→Loglinear→Modelselection,定义变量范围,选择参数估计选项。结果解读关注交互效应yij的正负及大小、模型拟合优度检验(饱和模型残差为0)。Logistic回归SPSS操作:Analyze→Regression→BinaryLogistic,选入因变量和协变量,结果解读关注Wald值、Sig.值、Exp(B)及回归方程的实际意义。2026/5/14简述对数线性模型应用的原理对数线性模型应用原理:将列联表中概率取对数,分解为因素主效应和交互效应,模仿方差分析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- CNG加气机设备维护保养检查表
- 农村电商运营(AIGC实践版) 课件全套 第1-10章 农村电商与农村电商运营 - 农村电商运营实战
- 脑瘤基因编辑技术进展
- 《直播电商经营者落实食品安全主体责任评价规范》标准报审稿编制说明
- 专题1 幼儿园教育活动概述(教案)-《幼儿园教育活动设计与指导》(高教社第二版)高考备考(山东省)
- 2026年测试人际关系的测试题及答案
- 2026年hpv检测试题及答案
- 2026年汽车仪表检测试题及答案
- 浙教版八年级下册第5节 磁生电教学设计及反思
- 2026年古代心理小测试题及答案
- 特种设备考核奖惩制度
- 油漆车间安全培训
- 第25讲-理解为王:化学反应原理综合题解法策略
- 设备管理体系要求2023
- 2025南京溧水区招聘社保员2人(公共基础知识)测试题附答案解析
- GB/T 17981-2025空气调节系统经济运行
- 水利水电工程全过程工程咨询服务规程
- 小散工程安全生产指引
- 2025年中国铁路武汉局集团有限公司招聘99人(三)笔试参考题库附带答案详解
- 风场行车安全培训内容课件
- 钢筋原材检测课件
评论
0/150
提交评论