定性数据的建模分析.ppt_第1页
定性数据的建模分析.ppt_第2页
定性数据的建模分析.ppt_第3页
定性数据的建模分析.ppt_第4页
定性数据的建模分析.ppt_第5页
免费预览已结束,剩余55页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2020 3 13 中国人民大学六西格玛质量管理研究中心 1 第八章定性数据的建模分析 目录上页下页返回结束 第三章我们曾讨论过定性数据的列联表分析 对数线性模型是进一步用于离散型数据或整理成列联表格式的数据的统计分析工具 它可以把方差分析和线性模型的一些方法应用到对交叉列联表的分析中 从而对定性变量间的关系作更进一步的描述和分析 列联表分析无法系统地评价变量间的联系 也无法估计变量间交互作用的大小 而对数线性模型是处理这些问题的最佳方法 当被解释变量是非度量变量时 可以用判别分析 然而当被解释变量只有两组时 Logistic回归由于多种原因更受欢迎 首先 判别分析依赖于严格的多元正态性和相等协差阵的假设 这在很多情况下是达不到的 2020 3 13 中国人民大学六西格玛质量管理研究中心 2 第八章定性数据的建模分析 目录上页下页返回结束 Logistic回归没有类似的假设 而且这些假设不满足时 结果非常稳定 其次 即使满足假定 许多研究者仍偏好Logistic回归 因为它类似于回归分析 两者都有直接的统计检验 都能包含非线性效果和大范围的诊断 因为这些和更多技术原因 Logistic回归等同于两组的判别分析 在很多情况下更加适用 再者 Logistic回归对于自变量没有要求 度量变量或者非度量变量都可以进行回归 这样 本章仅介绍定性数据建模的对数线性模型和Logistic回归方法 2020 3 13 中国人民大学六西格玛质量管理研究中心 3 8 1对数线性模型基本理论和方法 目录上页下页返回结束 本节将利用2 2维的交叉列联表来说明对数线性模型的基本理论和方法 同时利用SPSS软件对真实的经济定性数据作分析 从2 2维的交叉列联表的概率表 介绍对数线性模型的基本理论和方法 2020 3 13 中国人民大学六西格玛质量管理研究中心 4 8 1对数线性模型基本理论和方法 目录上页下页返回结束 2020 3 13 中国人民大学六西格玛质量管理研究中心 5 8 1对数线性模型基本理论和方法 目录上页下页返回结束 对上面三式各取其平均数为 该式的结构与有交互效应 且各水平均为二的双因素方差分析模型的结构相似 因此模仿方差分析 可以有如下关系式 2020 3 13 中国人民大学六西格玛质量管理研究中心 6 8 1对数线性模型基本理论和方法 目录上页下页返回结束 若记 2020 3 13 中国人民大学六西格玛质量管理研究中心 7 8 1对数线性模型基本理论和方法 目录上页下页返回结束 8 2 2020 3 13 中国人民大学六西格玛质量管理研究中心 8 8 1对数线性模型基本理论和方法 目录上页下页返回结束 2020 3 13 中国人民大学六西格玛质量管理研究中心 9 8 1对数线性模型基本理论和方法 目录上页下页返回结束 在实际分析中 概率表中各项值 以交叉列联表计算得的频率表的对应项为无偏估计值 公式表示为 2020 3 13 中国人民大学六西格玛质量管理研究中心 10 8 1对数线性模型基本理论和方法 目录上页下页返回结束 即可得的估计值 实际分析中 二维数据表并不是每个因素都是双水平的 在分析中 把公式的的取值上限调整即可 2020 3 13 中国人民大学六西格玛质量管理研究中心 11 8 2对数线性模型分析的上机实践 目录上页下页返回结束 可以使用SPSS软件来实现对数线性模型分析 这里举一个例子是3 2维的交叉列联表的分析 我们用SPSS软件中的Loglinear模块实现分析 例8 1 某企业想了解顾客对其产品是否满意 同时还想了解不同收入的人群对其产品的满意程度是否相同 在随机发放的1000份问卷中收回有效问卷792份 根据收入高低和满意回答的交叉分组数据如表8 1 2020 3 13 中国人民大学六西格玛质量管理研究中心 12 8 2对数线性模型分析的上机实践 目录上页下页返回结束 表8 1 2020 3 13 中国人民大学六西格玛质量管理研究中心 13 8 2对数线性模型分析的上机实践 目录上页下页返回结束 首先要准备数据 上面的交叉列连表的数据要输入到spss的表格里去 具体应当是入下 2020 3 13 中国人民大学六西格玛质量管理研究中心 14 8 2对数线性模型分析的上机实践 目录上页下页返回结束 2020 3 13 中国人民大学六西格玛质量管理研究中心 15 8 2对数线性模型分析的上机实践 目录上页下页返回结束 按上面的形势输入数据后 还不能马上进行对数线性模型分析 必须先激活频数 即让频数有效 具体步骤是 使用SPSS软件 从主菜单中 以Data WeightCases 顺序 打开WeightCases对话框 选中Weightcasesby单选框 从变量列表中选出 频数 变量 点击 钮 使之进入FrequencyVariable框 然后点击OK钮 回到数据表格 这时分析前的准备工作就完成了 这一部很重要 如果频数没有被激活 对数线性模型的模块仍会执行命令 但是得出的结果是错误的 所以使用时一定要小心 2020 3 13 中国人民大学六西格玛质量管理研究中心 16 8 2对数线性模型分析的上机实践 目录上页下页返回结束 数据准备工作完成后 就可以进行下一步的分析了 从主菜单中 按Analyze Loglinear ModelSelection 的流程可打开ModelSelectionLoglinearAnalysis对话框 从左侧变量栏里选中 收入情况 点击 钮使之进入Factor s 框 这时该框下面的DefineRange 钮就会从灰色变为黑色 点击弹出LoglinearAnalysis DefineRange对话框 可以定义变量的范围 即该变量的水平范围 本例中 收入情况 共有三种类型 代号分别是1 2 3 所以在Minimum处键入1 在Maximum处键入3 2020 3 13 中国人民大学六西格玛质量管理研究中心 17 8 2对数线性模型分析的上机实践 目录上页下页返回结束 点击Continue钮 返回ModelSelectionLoglinearAnalysis对话框 按同样方法 把 满意情况 变量选入 并定以其范围为1 2 然后选中 频数 变量 点击 钮使之进入CellWeight框 最后 点击Options 钮 进入LoglinearAnalysis Options对话框 选择DisplayforSaturatedModel栏下的Parameterestimates项 点击Continue钮返回ModelSelectionLoglinearAnalysis对话框 其他选项保持默认值 最后点击OK钮即完成分析步骤 2020 3 13 中国人民大学六西格玛质量管理研究中心 18 8 2对数线性模型分析的上机实践 目录上页下页返回结束 2020 3 13 中国人民大学六西格玛质量管理研究中心 19 8 2对数线性模型分析的上机实践 目录上页下页返回结束 首先显示系统对792例资料进行分析 这792例资料可分为6类 3 2 模型中共有二个分类变量 其中 收入情况 变量为3水平 满意情况 情况变量为2水平 分析的效应除了两个分类变量 还有两者的交互作用 收入情况 满意情况 系统经1次叠代后 即达到相邻二次估计之差不大于规定的0 001 2020 3 13 中国人民大学六西格玛质量管理研究中心 20 8 2对数线性模型分析的上机实践 目录上页下页返回结束 2020 3 13 中国人民大学六西格玛质量管理研究中心 21 8 2对数线性模型分析的上机实践 目录上页下页返回结束 2020 3 13 中国人民大学六西格玛质量管理研究中心 22 8 2对数线性模型分析的上机实践 目录上页下页返回结束 这是对模型是否有交互效应和高阶效应进行检验 原假设是高阶效应为0 即没有高阶效应 检验结果认为拒绝原假设 存在交互效应和高阶效应 在Note里 表示对饱和模型的观测单元进行了变换 2020 3 13 中国人民大学六西格玛质量管理研究中心 23 8 2对数线性模型分析的上机实践 目录上页下页返回结束 2020 3 13 中国人民大学六西格玛质量管理研究中心 24 8 2对数线性模型分析的上机实践 目录上页下页返回结束 为了唯一地估计参数 系统强行限定同一分类变量的各水平参数之和为0 故根据上表结果可推得各参数为 2020 3 13 中国人民大学六西格玛质量管理研究中心 25 8 2对数线性模型分析的上机实践 目录上页下页返回结束 2020 3 13 中国人民大学六西格玛质量管理研究中心 26 8 2对数线性模型分析的上机实践 目录上页下页返回结束 参数值为正 表示正效应 反之为负效应 零为无效应 分析提供的信息是 1 为正值 说明接受调查了的多数顾客对其产品还是满意的 2 说明各收入阶层的顾客对其产品的满意程度是不同的 其中 高收入的顾客满意程度最低 而中层收入的顾客满意程度最高 3 通过对企业顾客的收入情况和满意情况交互效应的研究 为负值表示高收入与对产品的满意程度是负效应的 为正表示中等收入者与对其产品的满意程度是正效应的 同理 低收入人群对其产品的满意程度也是负效应的 该企业的产品主要的消费阶层是中等收入者 同时中等收入者对其产品的满意程度也最好 2020 3 13 中国人民大学六西格玛质量管理研究中心 27 8 3Logistic回归基本理论和方法 目录上页下页返回结束 2020 3 13 中国人民大学六西格玛质量管理研究中心 28 8 3Logistic回归基本理论和方法 目录上页下页返回结束 2020 3 13 中国人民大学六西格玛质量管理研究中心 29 8 3Logistic回归基本理论和方法 目录上页下页返回结束 2020 3 13 中国人民大学六西格玛质量管理研究中心 30 8 3Logistic回归基本理论和方法 目录上页下页返回结束 Logistic回归不同于一般回归分析的地方在于它直接预测出了事件发生的概率 尽管这个概率值是个度量尺度 Logistic回归与多元回归还是有着很大的差异 概率值可以是0 1之间的任何值 但是预测值必须落入0 1的区间 这样 Logistic回归假定解释变量与被解释变量之间的关系类似于S形曲线 而且 不能从普通回归的角度来分析Logistic回归 因为这样做会违反几个假定 首先 离散变量的误差形式服从贝努里分布 而不是正态分布 这样使得基于正态性假设的统计检验无效 其次 二值变量的方差不是常数 会造成异方差性 Logistic回归是专门处理这些问题的 它的解释变量与被解释变量之间独特的关系使得在估计 评价拟合度和解释系数方面有不同的方法 2020 3 13 中国人民大学六西格玛质量管理研究中心 31 8 3Logistic回归基本理论和方法 目录上页下页返回结束 估计Logistic回归模型与估计多元回归模型的方法是不同的 多元回归采用最小二乘估计 将解释变量的真实值与预测值差异的平方和最小化 而Logistic变换的非线性特征使得在估计模型的时候采用极大似然估计的叠代方法 找到系数的 最可能 的估计 这样在计算整个模型拟合度的时候 就采用似然值而不是离差平方和 2020 3 13 中国人民大学六西格玛质量管理研究中心 32 8 3Logistic回归基本理论和方法 目录上页下页返回结束 2020 3 13 中国人民大学六西格玛质量管理研究中心 33 8 3Logistic回归基本理论和方法 目录上页下页返回结束 前面已提到Logistic回归在估计系数时 是用的极大似然估计法 就象多元回归中的残差平方和 Logistic回归对模型拟合好坏通过似然值来测量 实际上是用 2乘以似然值的自然对数即 2Log似然值 简记为 2LL 一个好的模型应该有较小的 2LL 如果一个模型完全拟合 则似然值为 这时 2LL达到最小 为0 Logistic回归对于系数的检验采用的是与多元回归中t检验不同的统计量 称为Wald统计量 有关Logistic回归的参数估计和假设检验详见参考文献 8 2020 3 13 中国人民大学六西格玛质量管理研究中心 34 8 3Logistic回归基本理论和方法 目录上页下页返回结束 2020 3 13 中国人民大学六西格玛质量管理研究中心 35 8 3Logistic回归基本理论和方法 目录上页下页返回结束 2020 3 13 中国人民大学六西格玛质量管理研究中心 36 8 3Logistic回归基本理论和方法 目录上页下页返回结束 2020 3 13 中国人民大学六西格玛质量管理研究中心 37 8 3Logistic回归基本理论和方法 目录上页下页返回结束 2020 3 13 中国人民大学六西格玛质量管理研究中心 38 8 3Logistic回归基本理论和方法 目录上页下页返回结束 例8 2 在一次住房展销会上 与房地产商签定初步购房意向书的共有n 325名顾客中 在随后的3个月的时间内 只有一部分顾客确实购买了房屋 购买了房屋的顾客记为1 没有购买房屋的顾客记为0 以顾客的年家庭收入 万元 为自变量x 对如下的数据 建立Logistic回归模型 2020 3 13 中国人民大学六西格玛质量管理研究中心 39 8 3Logistic回归基本理论和方法 目录上页下页返回结束 表8 2 2020 3 13 中国人民大学六西格玛质量管理研究中心 40 8 3Logistic回归基本理论和方法 目录上页下页返回结束 2020 3 13 中国人民大学六西格玛质量管理研究中心 41 8 3Logistic回归基本理论和方法 目录上页下页返回结束 2020 3 13 中国人民大学六西格玛质量管理研究中心 42 8 3Logistic回归基本理论和方法 目录上页下页返回结束 2020 3 13 中国人民大学六西格玛质量管理研究中心 43 8 3Logistic回归基本理论和方法 目录上页下页返回结束 2020 3 13 中国人民大学六西格玛质量管理研究中心 44 8 3Logistic回归基本理论和方法 目录上页下页返回结束 表8 3 2020 3 13 中国人民大学六西格玛质量管理研究中心 45 8 3Logistic回归基本理论和方法 目录上页下页返回结束 2020 3 13 中国人民大学六西格玛质量管理研究中心 46 8 3Logistic回归基本理论和方法 目录上页下页返回结束 得年收入8万元的家庭预计实际购房比例为58 5 这个结果与未加权的结果很接近 以上的例子是只有一个自变量的情况 分组数据的Logistic回归模型可以很方便的推广到多个自变量的情况 在此就不举例说明了 分组数据的Logistic回归只适用于大样本的分组数据 对小样本的未分组数据不适用 并且以组数c为回归拟合的样本量 使拟合的精度低 实际上 我们可以用极大似然估计直接拟合未分组数据的Logistic回归模型 以下就介绍这个方法 二 未分组数据的Logistic回归模型 2020 3 13 中国人民大学六西格玛质量管理研究中心 47 8 3Logistic回归基本理论和方法 目录上页下页返回结束 2020 3 13 中国人民大学六西格玛质量管理研究中心 48 8 3Logistic回归基本理论和方法 目录上页下页返回结束 2020 3 13 中国人民大学六西格玛质量管理研究中心 49 8 3Logistic回归基本理论和方法 目录上页下页返回结束 2020 3 13 中国人民大学六西格玛质量管理研究中心 50 8 3Logistic回归基本理论和方法 目录上页下页返回结束 2020 3 13 中国人民大学六西格玛质量管理研究中心 51 8 3Logistic回归基本理论和方法 目录上页下页返回结束 表8 4 2020 3 13 中国人民大学六西格玛质量管理研究中心 52 8 3Logistic回归基本理论和方法 目录上页下页返回结束 表8 4 续 2020 3 13 中国人民大学六西格玛质量管理研究中心 53 8 3Logistic回归基本理论和方法 目录上页下页返回结束 依次点选SPSS软件的Statistics Regression Logistic命令 进入Logistic回归对话框 选入变量 点选OK运行 以下表8 5是部分运行结果 表8 5 2020 3 13 中国人民大学六西格玛质量管理研究中心 54 8 3Logistic回归基本理论和方法 目录上页下页返回结束 表8 5中SEX 性别 AGE 年龄 X2 月收入 是3个自变量 Wald是回归系数检验的统计量值 8 16 Sig是Wald检验的显著性概率 R是偏相关系数 可以看到 X2 月收入 不显著 决定将其剔除 用y对性别与年龄两个自变量做回归 输出结果见8 6 2020 3 13 中国人民大学六西格玛质量管理研究中心 55 8 3Logistic回归基本理论和方法 目录上页下页返回结束 表8 6 可以看到 SEX AGE两个自变量都是显著的 因而最终的回归方程为 2020 3 13 中国人民大学六西格玛质量管理研究中心 56 8 3Logistic回归基本理论和方法 目录上页下页返回结束 以上方程式表明 女性乘公共汽车的比例高于男性 年龄越高乘车的比例也越高 SPSS软件没有给出Logistic回归的标准化回归系数 对于Logistic回归 回归系数也没有普通线性回归那样的解释 因而计算标准化回归系数并不重要 如果要考虑每个自变量在回归方程中的重要性 不妨直接比较Wald值 或Sig值 Wald值大者 或Sig值小者 显著性高 也就更重要 当然这里假定自变量间没

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论