版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、zf,本章重点: 1、什么是对应分析? 2、理解对应分析的基本思想 3、对应分析的基本步骤 、结合SPSS软件进行案例分析,对应分析,社会科学的数量研究中经常会对品质型(属性) 变量进行分析,研究两个或多个品质型变量之间的相关关系。 例如:利用储户储蓄数据研究储户收入水平与所选择的储蓄种类间是否存在联系;(该问题中收入水平和储蓄种类均是品质型变量,其中收入水平为定序变量,储蓄种类为定类变量) 例如:分析顾客职业与购买汽车的品牌之间的关系,研究不同客户群对汽车的喜爱偏好。(该问题中顾客职业和汽车品牌均是定类的品质型变量,如何研究品质型变量间的关系,zf,2,1 交叉列联表,描述属性变量(定类或定
2、序尺度变量)的各种状态或是相关关系,通过列联表的卡方检验进一步探究列联表中变量间的联系,zf,3,问题在于:当属性变量A和B的状态较多时,很难透过列联表作出直观地揭示出变量之间的联系以及变量各分类之间的联系。主要表现在: 首先,由于变量的分类值较多使得交叉列联表行列数剧增,列联表庞大,不易于对列联表的直观观察。更主要的是,由于列联表的单元格数较多,极不易于揭示列联表中行列变量之间的联系。 其次,在变量分类值较多但样本量却不足够大时,生产的交叉列联表中会出现数据“稀疏”现象,不易于卡方检验等分析方法的运用,怎么办,zf,4,怎样简化列联表的结构? 利用降维的思想。如因子分析和主成分分析。但因子分
3、析的缺陷是在于无法同时进行R型因子分析和Q型因子分析。 怎么办,对应分析,zf,5,对应分析的基本理论,1)什么是对应分析? 对应分析是利用“降维”的方法,以两变量的交叉列联表为研究对象,通过图形的方式,直接揭示变量之间以及变量的不同类别之间的联系,特别适合于多分类属性变量研究的一种多元统计分析方法,zf,6,2)对应分析的基本思想: 首先,编制两品质型变量的交叉列联表,将交叉列联表中的每个数据单元看成两变量在相应类别上的对应点; 然后,对应分析将变量及变量之间的联系同时反映在一张二维或三维的散点图上,并使联系密切的类别点较集中,联系疏远的类别点较分散; 最后,通过观察对应分布图就能直观地把握
4、变量类别之间的联系,zf,7,3)对应分析的一大特点: 可以在一张二维图上同时表示出两类属性变量的各种状态,以直观描述原始数据结构。 对应分析的关键问题是: 如何将多个类别点表示在低维空间中,以便于直接观察 如何确定各类别点的坐标,以易于鉴别类别间联系的强弱,zf,8,对应分析的基本步骤,一、编制交叉列联表并计算概率矩阵 二、根据概率矩阵确定数据点坐标 三、行变量和列变量的分类降维处理 四、绘制行列变量分类的对应分布图,对应分析采用与因子分析类似的方法降低维数,采用与多维尺度分析类似的方法绘制图形,zf,9,一、编制交叉列联表并计算概率矩阵P,编制两品质变量的交叉列联表,涉及的两变量分别称为行
5、变量和列变量。 例如:编制收入水平与储蓄品种的交叉列联表。其中,行变量为收入水平(r个类),列变量为储蓄品种(c个类)。于是得到一个rc的矩阵X,即: 将矩阵X化为概率矩阵P,即,zf,10,将P矩阵的r行看成r个样本,并将这r个样本看成c维空间中的r个数据点,且各数据点的坐标定义为,二、根据概率矩阵P确定数据点坐标,如果某两个数据点相距较近,则表明行变量的相应两个类别在列变量所有类别上的频数分布差异均不明显。 如:若中等收入水平点与中高收入水平点距离较近,则意味着中等收入水平和中高收入水平对储蓄品种的选择具有相似性;反之则差异明显,zf,11,同理,将P矩阵的c列看成c个样本,并将这c个样本
6、看成r维空间中的c个数据点,且各数据点的坐标定义为,如果某两个数据点相距较近,则表明列变量的相应两个类别在行变量所有类别上的频数分布差异均不明显。 如:若一年定期储蓄点与活期储蓄点距离较近,则意味着一年定期储蓄和活期对不同收入水平的储户具有选择上的相似性;反之则不具有选择上的相似性,zf,12,对列变量实施分类降维 将P矩阵的c列看作c个变量,计算c个变量的协方差矩阵A。 从协方差矩阵A出发,计算协方差矩阵A的特征根 以及协方差矩阵A的特征根对应的特征向量 根据累计方差贡献率确定最终提取特征根的个数,通常k取2,并计算出相应的因子载荷矩阵F,即,三、行变量和列变量的分类降维处理,其中,因子载荷
7、是列变量的某分类在某个因子上的载荷,反映了他们之间的相关关系。与因子分析类似,可通过变量(列变量某分类)的共同度测度其方差的解释程度和信息的丢失程度;可通过因子的方差贡献测度因子的重要程度,zf,13,对行变量实施分类降维 将P矩阵的r行看作r个变量,计算r个变量的协方差矩阵B。 从协方差矩阵B出发,计算协方差矩阵B的特征根和特征向量。 根据累计方差贡献率确定最终提取特征根的个数,通常k取2,并计算出相应的因子载荷矩阵G,即,其中,因子载荷是行变量的某分类在某个因子上的载荷,反映了他们之间的相关关系。与因子分析类似,可通过变量(行变量某分类)的共同度测度其方差的解释程度和信息的丢失程度;可通过
8、因子的方差贡献测度因子的重要程度,zf,14,因因子载荷F和G中元素,其取值范围是相同的,且元素数量大小的含义也类似 因此可将F和G分别看成c个二维点和r个二维点绘制在一个共同的坐标平面中,形成对应分布图,各点的坐标即为相应的因子载荷,四、绘制行列变量分类的对应分布图,通过以上步骤,实现了对行列变量多类别的降维,并以因子载荷为坐标,将行列变量的多个分类点直观地表示在对应分布图中,实现了品质变量各类别间差异的量化。通过观察对应分布图中各数据点的远近就能够判断各类别之间的联系,zf,15,对应分析的基本操作和案例,对应分析的基本操作(SPSS): Analyze data reduction co
9、rrespondence analysis,zf,16,案例1:客户对购买户型的偏好分析,现收集到购买商品房的客户背景资料和房屋购买情况的数据,根据这些数据分析不同客户对户型购买的偏好.(见数据 “对应分析.SAV”,zf,17,1、SPSS操作弹出对应分析对话框:分析Analyze 降维data reduction 对应分析correspondence analysis,对应分析对话框,行变量的选择,列变量的选择,行变量的取值定义,列变量的取值定义,zf,18,行列变量分类值定义窗口,单击“定义范围define range”; 在Minimum value框输入分类最小值; 在Maximum
10、框输入分类最大值 单击Update,分类值一次显示在窗口下方的框中,表示不在对分类值重新分组,表示指定将哪些分类值合并为一类,表示指定某些分类值不参与分析,zf,19,对应分析的Model窗口:进行模型参数设置,输入行列变量分类最终提取的因子个数;该数可根据累计方差贡献率给定,或指定2(默认)以便于将各分类点表示在二维平面上,指定分类点间距离的定义方式,对品质变量通常选卡方(Chi Square)即可;其它定距变量选欧氏距离(Euclidean,数据的标准化处理方式,Normalization Method框中指定数据正态化的方式;当希望重点分析行列变量各类别之间的联系,而非每个变量各类别之间
11、的差异时选对称Symmetrical;当希望重点分析行变量各类别之间的差异时选主要行Row Principal;当希望重点分析列变量各类别之间的差异时选主要列Column Principal;当希望同时分析行列变量各类别之间的差异时选主要Principal,zf,20,对应分析的Statistics窗口,单击Statistics按钮指定输出哪些统计量,Correspondence table表示输出行列变量的交叉列联表,Overview of row points表示输出行变量分类的因子载荷以及方差贡献等,Overview of column points表示输出行变量分类的因子载荷以及方差贡
12、献等;交叉列联表,Row profiles表示输出频数的行百分比,Column profiles表示输出频数的列百分比,zf,21,单击Plots按钮指定输出哪些图形,对应分析的Plots窗口,输出散点图,输出行列变量的对应分析图,输出行变量各类别在第一和第二因子上的载荷图,输出列变量各类别在第一和第二因子上的载荷图,指定散点图中数据点标签的长度,输出线性图,输出行变量各分类的因子载荷线图,输出列变量各分类的因子载荷线图,zf,22,分析结果,对应分析模型的版权信息。对应分析模块是荷兰Leiden大学DTTS课题组的研究成果。由于SPSS套用了该模块,所以每次分析结果中均显示它的版权信息,zf
13、,23,家庭年收入与购买户型的交叉列联表。表中数据为相应的频数。Active Margin为边缘频数,是相应的合计数据。 由表中可看出,719名客户中,大多数的家庭年收入在500010000元、1000025000万和2500050000元之间。大多数家庭选择购买了两室一厅、三室一厅和三室两厅,尽管该表大致可以发现客户以及客户的购买倾向,但没有揭示出哪类家庭偏好哪种户型的规律,交叉列联表,zf,24,行频数表,该表是对交叉列联表的补充,显示了各频数在行向上的百分比,较交叉列联表更清晰。 可以看出,购买两室一厅、三室一厅、三室两厅的家庭分别占总家庭的23.2、25.7、26.7,三室两厅购买比例
14、最高;购买四室三厅单卫的比例最低,仅为0.3,zf,25,列频数表,该表也是对交叉列联表的补充,显示了各频数在列向上的百分比,较交叉列联表更直观清晰。 可以看出,购买商品房的客户中,年收入在1000025000元的家庭比例最高,占到49.4。家庭年收入在75000元以上的家庭所占比例最低,仅为1.9,zf,26,特征根(总惯量)表,该表第1列列出了特征根的编号。由对应分析的基本原理可知,提取的特征根个数为min(r, c)-1,这里因家庭收入有6个水平,户型有11种,因此提取的特征根数应为min(6, 11)-15; 第2列是异常值,它的平方是惯量; 第3列是惯量,也即特征根。其中第1个特征根
15、的值最大,意味着它解释各类别差异的能力最强,地位最重要,其他特征根的重要性依次下降; 第4、5列是对交叉列联表作卡方检验的卡方观测值154.016和相应的概率p值0.000,概率p值小于显著性水平0.05,所以拒绝零假设,认为行变量和列变量有显著的相关关系; 第6、7列是各个特征根的方差贡献率、累积方差贡献率,zf,27,行变量各分类降维的情况表,该表第2列是行变量各类别的百分比; 第3列、第4列是行变量各分类在第1、第2因子上的因子载荷; 第5列为各特征根; 第6、第7列是行变量各分类对第1、第2因子值差异的影响程度;如家庭年收入中的2500050000类对第1个因子值的差异影响最大(36.
16、5),5000元以下类对第2因子值的差异影响最大(47.6)。 第8、9、10列是第1、2因子对行变量各分类差异的解释程度以及累积解释程度;如对5000元以下类第1因子解释了21.7的差异,第2因子解释了50.6的差异,两因子共解释了72.3的差异。5000075000元类的信息丢失较为严重,zf,28,列变量各分类降维的情况表,该表各列含义与行变量各分类降维的情况表类似,略,zf,29,家庭年收入在第1因子上的载荷线型图,家庭年收入在第2因子上的载荷线型图,75000以上类的载荷最高,5000元以下类的载荷最高,zf,30,购买户型在第1因子上的载荷线型图,购买户型在第2因子上的载荷线型图,
17、更大户型类的载荷最高,三室三厅类的载荷最高,zf,31,家庭收入在第1、第2因子上载荷的散点图,借助该图可分析家庭收入各类间的差异性。 由图可以看出,5000元以下类、75000元以上类比较特别,可分别自成一类;其余类别可粗略看成一类,差异不显著,zf,32,购买户型在第1、第2因子上载荷的散点图,借助该图可分析购买户型各类间的差异性。 由图可以看出,可将一室一厅、三室三厅、更大户型可分别自成一类;四室三厅单卫和四室三厅双卫看成一类;其余户型可粗略看成一类,zf,33,家庭年收入与购买户型的对应分布图,通过该图可分析家庭年收入与购买各类间的倾向性。 由图可看出,家庭年收入在75000元以上的客
18、户较偏爱更大户型;家庭年收入在5000元以下的客户较偏爱一室一厅户型;家庭年收入在5000075000元的客户较偏爱四室三厅双卫户型;其余家庭年收入类别对户型的选择差异不十分显著,基本集中在两室一厅、两室两厅、三室一厅、三室两厅等户型上,由此可知这些户型对这些收入类的家庭来说差异并不明显。 可根据居民的普遍收入状况,从成本核算方面多设计利润较高的户型。另外,三室三厅问津的人不多,zf,34,对应分析能够有效分析变量各类别间及两变量各类别间的联系。如果同时分析多变量类别间的关系,对应分析就显得力不从心。 假如依据该例数据研究家庭年收入、家庭类型(单身、两口之家、三口之家、与父母同住)、户主年龄与户型选择方面的关系,力
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 长春职业技术大学《国际经济学》2025-2026学年期末试卷
- 长春科技学院《语文教学原理与策略》2025-2026学年期末试卷
- 延边职业技术学院《环境保护法》2025-2026学年期末试卷
- 延边大学《行政诉讼法》2025-2026学年期末试卷
- 长春汽车职业技术大学《学前教育政策与法规》2025-2026学年期末试卷
- 长春大学旅游学院《财务管理学》2025-2026学年期末试卷
- 长春建筑学院《高级英语》2025-2026学年期末试卷
- 2026道德与法治二年级拓展空间 文学家故事
- 2026六年级道德与法治下册 国际组织的作用
- 砖厂安全生产要求讲解
- 2026年及未来5年市场数据中国IC封装载板行业发展全景监测及投资前景展望报告
- 2026年河北邢台市中考数学试题及答案
- 2026年高考地理高分冲刺学习指南
- 第二单元 辽宋夏金元时期:民族关系发展和社会变化 单元总结 - 学生版
- 国开2026年《公共政策概论》形成性考核任务1-4答案
- 2026年3月版-安全环境职业健康法律法规、规章、标准文件清单
- 2026贵州贵阳经济开发区招聘工作人员20名考试参考题库及答案解析
- 收入预测工作制度
- 2026年全国普通话等级考试全真模拟试卷及答案(共六套)
- 光伏发电工程建设标准工艺手册
- 2026年会考计算机测试题及答案
评论
0/150
提交评论