




已阅读5页,还剩35页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2020 1 27 本章重点 1 什么是对应分析 2 理解对应分析的基本思想3 对应分析的基本步骤 结合SPSS软件进行案例分析 对应分析 1 2020 1 27 可编辑 社会科学的数量研究中经常会对品质型 属性 变量进行分析 研究两个或多个品质型变量之间的相关关系 例如 利用储户储蓄数据研究储户收入水平与所选择的储蓄种类间是否存在联系 该问题中收入水平和储蓄种类均是品质型变量 其中收入水平为定序变量 储蓄种类为定类变量 例如 分析顾客职业与购买汽车的品牌之间的关系 研究不同客户群对汽车的喜爱偏好 该问题中顾客职业和汽车品牌均是定类的品质型变量 如何研究品质型变量间的关系 2 2020 1 27 可编辑 1交叉列联表 描述属性变量 定类或定序尺度变量 的各种状态或是相关关系 通过列联表的卡方检验进一步探究列联表中变量间的联系 3 2020 1 27 可编辑 问题在于 当属性变量A和B的状态较多时 很难透过列联表作出直观地揭示出变量之间的联系以及变量各分类之间的联系 主要表现在 首先 由于变量的分类值较多使得交叉列联表行列数剧增 列联表庞大 不易于对列联表的直观观察 更主要的是 由于列联表的单元格数较多 极不易于揭示列联表中行列变量之间的联系 其次 在变量分类值较多但样本量却不足够大时 生产的交叉列联表中会出现数据 稀疏 现象 不易于卡方检验等分析方法的运用 怎么办 4 2020 1 27 可编辑 怎样简化列联表的结构 利用降维的思想 如因子分析和主成分分析 但因子分析的缺陷是在于无法同时进行R型因子分析和Q型因子分析 怎么办 对应分析 5 2020 1 27 可编辑 对应分析的基本理论 1 什么是对应分析 对应分析是利用 降维 的方法 以两变量的交叉列联表为研究对象 通过图形的方式 直接揭示变量之间以及变量的不同类别之间的联系 特别适合于多分类属性变量研究的一种多元统计分析方法 6 2020 1 27 可编辑 2 对应分析的基本思想 首先 编制两品质型变量的交叉列联表 将交叉列联表中的每个数据单元看成两变量在相应类别上的对应点 然后 对应分析将变量及变量之间的联系同时反映在一张二维或三维的散点图上 并使联系密切的类别点较集中 联系疏远的类别点较分散 最后 通过观察对应分布图就能直观地把握变量类别之间的联系 7 2020 1 27 可编辑 3 对应分析的一大特点 可以在一张二维图上同时表示出两类属性变量的各种状态 以直观描述原始数据结构 对应分析的关键问题是 如何将多个类别点表示在低维空间中 以便于直接观察如何确定各类别点的坐标 以易于鉴别类别间联系的强弱 8 2020 1 27 可编辑 对应分析的基本步骤 一 编制交叉列联表并计算概率矩阵 二 根据概率矩阵 确定数据点坐标三 行变量和列变量的分类降维处理四 绘制行列变量分类的对应分布图 对应分析采用与因子分析类似的方法降低维数 采用与多维尺度分析类似的方法绘制图形 9 2020 1 27 可编辑 一 编制交叉列联表并计算概率矩阵P 编制两品质变量的交叉列联表 涉及的两变量分别称为行变量和列变量 例如 编制收入水平与储蓄品种的交叉列联表 其中 行变量为收入水平 r个类 列变量为储蓄品种 c个类 于是得到一个r c的矩阵X 即 将矩阵X化为概率矩阵P 即 10 2020 1 27 可编辑 将P矩阵的r行看成r个样本 并将这r个样本看成c维空间中的r个数据点 且各数据点的坐标定义为 二 根据概率矩阵P确定数据点坐标 如果某两个数据点相距较近 则表明行变量的相应两个类别在列变量所有类别上的频数分布差异均不明显 如 若中等收入水平点与中高收入水平点距离较近 则意味着中等收入水平和中高收入水平对储蓄品种的选择具有相似性 反之则差异明显 11 2020 1 27 可编辑 同理 将P矩阵的c列看成c个样本 并将这c个样本看成r维空间中的c个数据点 且各数据点的坐标定义为 如果某两个数据点相距较近 则表明列变量的相应两个类别在行变量所有类别上的频数分布差异均不明显 如 若一年定期储蓄点与活期储蓄点距离较近 则意味着一年定期储蓄和活期对不同收入水平的储户具有选择上的相似性 反之则不具有选择上的相似性 12 2020 1 27 可编辑 对列变量实施分类降维将P矩阵的c列看作c个变量 计算c个变量的协方差矩阵A 从协方差矩阵A出发 计算协方差矩阵A的特征根以及协方差矩阵A的特征根对应的特征向量根据累计方差贡献率确定最终提取特征根的个数 通常k取2 并计算出相应的因子载荷矩阵F 即 三 行变量和列变量的分类降维处理 其中 因子载荷是列变量的某分类在某个因子上的载荷 反映了他们之间的相关关系 与因子分析类似 可通过变量 列变量某分类 的共同度测度其方差的解释程度和信息的丢失程度 可通过因子的方差贡献测度因子的重要程度 13 2020 1 27 可编辑 对行变量实施分类降维将P矩阵的r行看作r个变量 计算r个变量的协方差矩阵B 从协方差矩阵B出发 计算协方差矩阵B的特征根和特征向量 根据累计方差贡献率确定最终提取特征根的个数 通常k取2 并计算出相应的因子载荷矩阵G 即 其中 因子载荷是行变量的某分类在某个因子上的载荷 反映了他们之间的相关关系 与因子分析类似 可通过变量 行变量某分类 的共同度测度其方差的解释程度和信息的丢失程度 可通过因子的方差贡献测度因子的重要程度 14 2020 1 27 可编辑 因因子载荷F和G中元素 其取值范围是相同的 且元素数量大小的含义也类似因此可将F和G分别看成c个二维点和r个二维点绘制在一个共同的坐标平面中 形成对应分布图 各点的坐标即为相应的因子载荷 四 绘制行列变量分类的对应分布图 通过以上步骤 实现了对行列变量多类别的降维 并以因子载荷为坐标 将行列变量的多个分类点直观地表示在对应分布图中 实现了品质变量各类别间差异的量化 通过观察对应分布图中各数据点的远近就能够判断各类别之间的联系 15 2020 1 27 可编辑 对应分析的基本操作和案例 对应分析的基本操作 SPSS Analyze datareduction correspondenceanalysis 16 2020 1 27 可编辑 案例1 客户对购买户型的偏好分析 现收集到购买商品房的客户背景资料和房屋购买情况的数据 根据这些数据分析不同客户对户型购买的偏好 见数据 对应分析 SAV 17 2020 1 27 可编辑 1 SPSS操作弹出对应分析对话框 分析Analyze 降维datareduction 对应分析correspondenceanalysis 对应分析对话框 行变量的选择 列变量的选择 行变量的取值定义 列变量的取值定义 18 2020 1 27 可编辑 行列变量分类值定义窗口 单击 定义范围definerange 在Minimumvalue框输入分类最小值 在Maximum框输入分类最大值单击Update 分类值一次显示在窗口下方的框中 表示不在对分类值重新分组 表示指定将哪些分类值合并为一类 表示指定某些分类值不参与分析 19 2020 1 27 可编辑 对应分析的Model窗口 进行模型参数设置 输入行列变量分类最终提取的因子个数 该数可根据累计方差贡献率给定 或指定2 默认 以便于将各分类点表示在二维平面上 指定分类点间距离的定义方式 对品质变量通常选卡方 ChiSquare 即可 其它定距变量选欧氏距离 Euclidean 数据的标准化处理方式 NormalizationMethod框中指定数据正态化的方式 当希望重点分析行列变量各类别之间的联系 而非每个变量各类别之间的差异时选 对称Symmetrical 当希望重点分析行变量各类别之间的差异时选 主要行RowPrincipal 当希望重点分析列变量各类别之间的差异时选 主要列ColumnPrincipal 当希望同时分析行列变量各类别之间的差异时选 主要Principal 20 2020 1 27 21 2020 1 27 可编辑 对应分析的Statistics窗口 单击Statistics按钮指定输出哪些统计量 Correspondencetable表示输出行列变量的交叉列联表 Overviewofrowpoints表示输出行变量分类的因子载荷以及方差贡献等 Overviewofcolumnpoints表示输出行变量分类的因子载荷以及方差贡献等 交叉列联表 Rowprofiles表示输出频数的行百分比 Columnprofiles表示输出频数的列百分比 22 2020 1 27 可编辑 单击Plots按钮指定输出哪些图形 对应分析的Plots窗口 输出散点图 输出行列变量的对应分析图 输出行变量各类别在第一和第二因子上的载荷图 输出列变量各类别在第一和第二因子上的载荷图 指定散点图中数据点标签的长度 输出线性图 输出行变量各分类的因子载荷线图 输出列变量各分类的因子载荷线图 23 2020 1 27 可编辑 分析结果 对应分析模型的版权信息 对应分析模块是荷兰Leiden大学DTTS课题组的研究成果 由于SPSS套用了该模块 所以每次分析结果中均显示它的版权信息 24 2020 1 27 可编辑 家庭年收入与购买户型的交叉列联表 表中数据为相应的频数 ActiveMargin为边缘频数 是相应的合计数据 由表中可看出 719名客户中 大多数的家庭年收入在5000 10000元 10000 25000万和25000 50000元之间 大多数家庭选择购买了两室一厅 三室一厅和三室两厅 尽管该表大致可以发现客户以及客户的购买倾向 但没有揭示出哪类家庭偏好哪种户型的规律 交叉列联表 25 2020 1 27 可编辑 行频数表 该表是对交叉列联表的补充 显示了各频数在行向上的百分比 较交叉列联表更清晰 可以看出 购买两室一厅 三室一厅 三室两厅的家庭分别占总家庭的23 2 25 7 26 7 三室两厅购买比例最高 购买四室三厅单卫的比例最低 仅为0 3 26 2020 1 27 可编辑 列频数表 该表也是对交叉列联表的补充 显示了各频数在列向上的百分比 较交叉列联表更直观清晰 可以看出 购买商品房的客户中 年收入在10000 25000元的家庭比例最高 占到49 4 家庭年收入在75000元以上的家庭所占比例最低 仅为1 9 27 2020 1 27 可编辑 特征根 总惯量 表 该表第1列列出了特征根的编号 由对应分析的基本原理可知 提取的特征根个数为min r c 1 这里因家庭收入有6个水平 户型有11种 因此提取的特征根数应为min 6 11 1 5 第2列是异常值 它的平方是惯量 第3列是惯量 也即特征根 其中第1个特征根的值最大 意味着它解释各类别差异的能力最强 地位最重要 其他特征根的重要性依次下降 第4 5列是对交叉列联表作卡方检验的卡方观测值154 016和相应的概率p值0 000 概率p值小于显著性水平0 05 所以拒绝零假设 认为行变量和列变量有显著的相关关系 第6 7列是各个特征根的方差贡献率 累积方差贡献率 28 2020 1 27 可编辑 行变量各分类降维的情况表 该表第2列是行变量各类别的百分比 第3列 第4列是行变量各分类在第1 第2因子上的因子载荷 第5列为各特征根 第6 第7列是行变量各分类对第1 第2因子值差异的影响程度 如家庭年收入中的25000 50000类对第1个因子值的差异影响最大 36 5 5000元以下类对第2因子值的差异影响最大 47 6 第8 9 10列是第1 2因子对行变量各分类差异的解释程度以及累积解释程度 如对5000元以下类第1因子解释了21 7 的差异 第2因子解释了50 6 的差异 两因子共解释了72 3 的差异 50000 75000元类的信息丢失较为严重 29 2020 1 27 可编辑 列变量各分类降维的情况表 该表各列含义与行变量各分类降维的情况表类似 略 30 2020 1 27 可编辑 家庭年收入在第1因子上的载荷线型图 家庭年收入在第2因子上的载荷线型图 75000以上类的载荷最高 5000元以下类的载荷最高 31 2020 1 27 可编辑 购买户型在第1因子上的载荷线型图 购买户型在第2因子上的载荷线型图 更大户型类的载荷最高 三室三厅类的载荷最高 32 2020 1 27 可编辑 家庭收入在第1 第2因子上载荷的散点图 借助该图可分析家庭收入各类间的差异性 由图可以看出 5000元以下类 75000元以上类比较特别 可分别自成一类 其余类别可粗略看成一类 差异不显著 33 2020 1 27 可编辑 购买户型在第1 第2因子上载荷的散点图 借助该图可分析购买户型各类间的差异性 由图可以看出 可将一室一厅 三室三厅 更大户型可分别自成一类 四室三厅单卫和四室三厅双卫看成一类 其余户型可粗略看成一类 34 2020 1 27 可编辑 家庭年收入与购买户型的对应分布图 通过该图可分析家庭年收入与购买各类间的倾向性 由图可看出 家庭年收入在75000元以上的客户较偏爱更大户型 家庭年收入在5000元以下的客户较偏爱一室一厅户型 家庭年收入在50000 75000元的客户较偏爱四室三厅双卫户型 其余家庭年收入类别对户型的选择差异不十分显著 基本集中在两室一厅 两室两厅 三室一厅 三室两厅等户型上 由此可知这些户型对这些收入类的家庭来说差异并不明显 可根据居民的普遍收入状况 从成本核算方面多设计利润较高的户型 另外 三室三厅问津的人不多 35 2020 1 27 可编辑 对应分析能够有效分析变量各类别间及两变量各类别间的联系 如果同时分析多变量类别间的关系 对应分析就显得力不从心 假如依据该例数据研究家庭年收入 家庭类型 单身 两口之家 三口之家 与父母同住 户主年龄与户型选
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年烟草四川公司招聘考试真题及答案
- 中级计量经济学知到智慧树答案
- 计算机三级(信息安全技术)考试题(含答案)
- 中外名建筑赏析知到智慧树答案
- 中西方文化比较知到智慧树答案
- 中西医结合基础思路研究与方法知到智慧树答案
- 中学生物实验教学知到智慧树答案
- 2025版水电安装工程合同履行与维护合同
- 2025年仓储配送一体化大数据分析服务合同
- 2025版土地储备项目合作开发中介服务合同
- 勉县一中小升初数学试卷
- 2025一建《建设工程经济》计算、时间、数字考点笔记
- 校园基孔肯雅热防控措施课件
- 第1课 中国古代政治制度的形成与发展 课件 统编版高中历史选择性必修1
- 药师考试历年真题综合测试试卷(含答案)
- 2025年村级防疫员考试模拟试题及答案
- 快餐公司门店设备夜间关闭管理制度
- 以童心为笔:基于儿童心理发展需求的小学校园公共活动空间设计
- 生猪屠宰兽医卫生检验人员理论考试题库及答案
- 《护理伦理学》教学大纲(本科)
- 板带轧机刚度对热轧板形的影响
评论
0/150
提交评论