(社会学专业论文)对应分析原理及其在社会学上的应用.pdf_第1页
(社会学专业论文)对应分析原理及其在社会学上的应用.pdf_第2页
(社会学专业论文)对应分析原理及其在社会学上的应用.pdf_第3页
(社会学专业论文)对应分析原理及其在社会学上的应用.pdf_第4页
(社会学专业论文)对应分析原理及其在社会学上的应用.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(社会学专业论文)对应分析原理及其在社会学上的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ab s t r a c t c a t e g o ricald a taisv 。 令c o . ” 刀 。 ninth e 丘 el ds of soc 诫 sc i e n c e . t b o se七 a d l t i o na】 t ec bni q u esthat 肠v e beenusedtoana l yze 加. 山 拍 u y sc al eddsta.su c h ascon t in g enc y table胡dfo g 一 linear m od成 are b ar dtod e a r l yre v cal 邝 la t i ons hips曰 叮 o ng th e v a 们 口 bl es阳d re la ti o nshi ps印 . o ngth e v 颐a b lec at ego ri es. c o n s p 0 n d enc e ana 】 y s isis a 山 冰 滋 p t i ves ta l 肠 石 c a 】 t ec h 叮 q u e for n o . 山 功 i v a ri a b l esa . d isg a in in g d e v el o p m ent c 胜 叮 即d y,it bav 川 9 阮 司v a n ta geo f 娜n 沈 沈 旧 血g g ra p hi c a 】 l y the di 场 即 叨 c esamo n g c 掀 e g o n esinthe s a r n e v a ri a b 1 e and the c 0 rr es pon d in g re 】 a ti o nshj p s amo ngcat egories 迁 田 t曰 如 t血 由 伍 泊 拍 tv a n abl 翻 . h enc e , itisa山 山 戈 别刀 p l eandconv面e n t m u 】 ti v az 勿 testati stical m e th od. t 七 j s引 巨 t i s ticaiana l y s l s tec腼q ue h as抚en widely 助目inn 切 口 y fo 此 i gncou n tries , inc 恤 da, how eve r, it iss t 山inth e p re 】 功 j narys ta ge, 卯p u k 叮运the 6 el dso f eco nomy 即dp s y c b o l o gy, fe w erinsocfo fo gy. t 七 . p 四 四se o fti 五 sth es isis to gi v eatenta ti v en 浇 健 汾 代 hin iton th esu bj ect o f 伪毗 卯” d ence ana 】 y s isp n 口 c i p leand即p l ic ation insocfo lo gy, and址ipp eopl e 皿d e rs ta n d th j 月 s tati stical m e th o d,m 附 加即由n d y,l et皿 . 叮 y soc 诫 即 h o l a rsr e a 】 让 e itshugeapplic ationvalue. a n eta p r e 场 吐 访 呵 dstaana 】 y s is , the a u 吐 旧 r 血ds吐 旧 t con 油g enc y tableisl 让 画 t edto 盆 。 ta n d扣 。 e 日 盯 刀 旧 由 .co能l ation betweendi ffi沈n tc a t e gori c 习 v a n abl es ,山 。 叨厅 阔 四n d 皿c 姗 ly sis, bow e v er,isnot o 川 y abletosol姆th es e prob lems , but al so c an g et加 l b n 刀 a t i o 刀让 以 t wou l dnot be 卿司ed by con 石 n g enc yta bl e . obvi ous ly, c o n s pon d e n c e ana l ys臼isane ffec 眨 v e tool fo r d eal 吨 衍山口t e g o ricaldata . b ec 介 of its avo i 山 m c eof buil d in gm ode ls , co们 匡 活 pondenc eana 】 y s isismo 传5 11 刀 p l eb u t 传 恤 ti v el y r 口 o r 记 阴 gh th 叨 fo g 七 n 江m 闻d . itm ay be b e lp 佃 inds吹宜 访 名 mo d e ls 吐 以m 亡 n t 丘 川 由 e r cons记 。 旧 石 叨勿 。 山 erm e t b 侧 如 . a t th e end o f th e p a 声 气山 e a u th o r 川 朋 。 习 t esits咪 明 d in te 印 re ta t i o n wi山two e xa m p l esp r es en 血g c h 山 e s e p 。 , p le 祖 bebav ior anda tti 加 目 esinth e cou r s e o f re fo 皿 叨do pe钊 口 9 , ino nl ertos 腼 gtben 朋d e rs 恤d m g 油app lica t l o n v a l 此inthe fi e l d o f soc i o l o 舒 k e y w b 心:c o t e gori c a l dsta c o d t in g e d c y ta b l . c o n 51 幻 n d .c e a na】 y sis log 一 血ear m od. 1 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本: 学校有权保存学位论文的印 刷本和电子版, 并采用影印、 缩印、 扫描、 数字化或其它手段保存论文: 学校有权提供目 录检索以及提供 本学位论文全文或者部分的阅览服务: 学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版: 在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学 位 论 文 作 者 签 名 : 阶今 行 万 ! 年夕月 ) 。 日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 降 , 弓 创 解密时间:年月日 一 各密级的最长保密年限及书写格式规定如下: 内部 5 年 ( 最长5 年,可少于5 年) 秘密1 0 年 ( 最长 1 0 年,可少于1 0 年) 机密2 0 年 ( 最长2 0 年,可少于2 0 年) 南开大学学位论文原创 性声明 本人郑重声明: 所呈交的学位论文, 是本人在导师指导下, 进行 研究工作所取得的成果。 除文中己 经注明引用的内容外, 本学位论文 的研究成果不包含任何他人创作的、 已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体, 均己 在文中以明确方式标明. 本学位论文原创性声明的法律责任 由本人承担。 学 位 论 文 作 者 签 名 阳5 创 , 成 了年 月 孙日 第 一 章引言 第一章引言 第一节问题的提出 社会科学研究经常要涉及名义测度等级的分类变量。无论是在社会领 域,还是在经济、政治领域进行的调查,都经常会按照分类选择设计问题, 比如教育程度、经济状况、职业所属、个人意向等。根据相关统计。 , 美国 在1 9 75年进行的 总体 社 会调查( g 田 e 司5 沁 ia l s urvey) 中 一 共有31 。 个变 量, 其中有107 个二分类变量和1 4 8 个多分类变量, 分类变量占了所有变量 的82%。因此, 研究分类变量已构成社会科学研究的重要组成部分。 在统计分析中, 对分类变量间关系的考察, 更多的是采用交互分析和对 数线 性 模型 ( log 一 l in 叨) . 频 数 或 频率 的 交 互表 分析 是 分 类变量 分 析中 最简 单 的统计方法。当分类变量类别较少时,通过这种简单统计,就可以看出行、 列变量间的一些关系, 但当每个变量都划分成许多类别或分类变量个数较多 时,比如我们想要了解不同职业的人们对自 我阶层认同的差异, 通过抽样收 集到数据, 再经过交互分析后就可以形成一个复杂的列联表, 虽然通过卡方 检验能够得出职业与阶层认同间分布是否差异的结论, 但是却很难直观地揭 示出两者之间的对应关系及职业与各个不同的阶层属性之间的联系, 而往往 研究者最希望从这张表中了解到哪些职业的人们具有相类似的自我阶层认 同。 在这种情况下, 对数线性模型对类别间的联系进行精确建模,量化变量 间的联系, 通过假设检验来推断总体中分类变量各类别间究竟有无关联, 虽 然非常精确, 但是相应的模型建构却非常复杂, 结果的解释也很困难。 假若 行、 列变量都是定类变量, 并且他们之间存在着某种联系, 也就是如果卡方 检验显著的话, 我们就可以使用另外一种多元分析方法一一对应分析, 它采 用分布图的形式直观、 简洁地呈现分类变量各种状态之间的相互关系及不同 分类变量之间的相互关系,不仅能够进行假设检验,得到确切的统计结论, w i l l i 。 瓦n i l l 叭 m a 刊 贻 wo o l ds t e 远 m u l vana 匕人 ” 卜 , . : m e 山 。 山. 记 人 即l i ca 如二 n. .y o 比: wi 吻, 1 9 84 第 1 章引言 而且不需复杂的建模过程, 操作简单, 结果的解释也很容易, 并且可以提供 一目了然的图示效果,普通用户都能容易掌握。 第二节 研究背景 对应分析是一种运用几何学知识研究多元定性变量数据的描述性统计 分析方法.它的思想来源于法国,首先由死c 抽 川 加。 和k u d er在1 9 3 3 年提 出 , h ir 邪 hfe以1 9 3 5) 首次 对其 进 行数学 上的 阐 述。 19世纪60年代晚 期, 这 种方法在法国得到发展,统计学家 b e n 双 沁 n和他的同事在全国普及这种技 术“ c o 川 祠 四 n d 砂入 皿 妙 515”这词是法语 “ analy sis 伽toriell e 翻 .川 祠 闪 回” 的翻译, 这一技术被 统计 类和心里测验 类文献广 泛采用, 不 过 采用了 各 种不同 的 表达, 比 如 双 偶 标 度( dual sc al ins) , 互 平均 法( m e th od ofrecip roca l av 。 旧 g e), 最 佳 尺 度( op l in 旧 1 , 冶 1 吨) , 典 型 列 联 表 分 析(c an oul司 幽妙 s isofc o n t in g e n c ytables), 类的判别分析 ( c atego ri c ald isc而 如 恤 an t 翅卜 5 油 ),同质性分析 ( 肠 m o g ensi tyanal y s is ),定性数据的定量化 ( q ua n ti 玩ati o n for卑 口 l i ta ti v e d a ta ) , 以 及协同 线 性回归( s unu h an eo u s l mear r e gr es s io n ) . 。 n i s hi sa to ( 1 9 5 0 ) , 6 花 阳 a c r 城 1 9 8 4 ) , l eeuw(l 9 7 3 ) , t en en ha us耐 y o 助9 ( 1 985) 等对不同 取名的 对应分析进行了 详细描述. b 。 双 伐 滋等人首次采 用了 对应分 析( 。口 留 冈 。 d e n c e a n a ly si s)这个 名 字, 由 于 他们的 著 作 被 大量 引 用, 对 应 分析也 成 为了 这 类方 法中比 较 通 用的 名 字。 。 邝 e 朋 口 城 19 7 8) 全面 翻译了法语版的对应分析,并于 1 9 84年把它引入英语国家,此后对应分析 逐步成为多元统计分析中的一个重要方法。 nis hi sato在1986罗列了1 侧 洲 ) 多 篇 1 9 7 5 se1 9 8 6年发表的文献,这些参考文献都直接或间接地与对应分析的 主旨 有关. 现在随着国际交流和统计软件的逐渐普及, 对应分析的优势为越 来越多的人所了解,也愈加受到人们的青睐. 在国外, 对应分析技术已几乎深入到了 学科的各个领域。 社会学上最著 名的应用则是布尔迪厄的 区分: 对趣味判断的社会批判, 在这本书中他 应用对应分析研究了趣味与各种经济资本、 文化资本的相依关系, 其他的应 h o 价 na 残 d. l , f 口 业g 瓦 co厅 阔 po 回 e o a . ly s 该 g 哪h 认 知 i r 即 c a 枉 准 o n c a l data加ma 浅 d 如 gr e , . . 限 h . j o u mal of栩 回 rk 成 j n g肠 比 ea r c 叹1 986, n 灿 沁 ” 恤宜 i o n of v o l 之3 . no . 3: 2 1 3 一 2 2 7 第 一 章引言 用如研究行为背后的动机、 个人需求层次结构、 第三世界城市化进程、 学历 与种族分布规律、 亲属类型与社会支持类型的关系等; 经济学上的研究更多 集中 于市 场 调查 领域, 如g 几 姆 。 etal (l 9 8 3) 把 这一 技 术用 于家 庭 购买 角 色 差 异的跨文化研究,b c n z e c n描述了两个对应分析在市场导向上的应用,一个 是评估竟争 龙 通过运用对应分 牙 么手 为一新的香 烟品 牌命名, 不仅如 此, 亦可以 同类群体来进行市场划分, 也可以把它用于产品定位 研究、 广告效应监侧、品牌名称测试;医学上的应用如 f is b 州1 940 附人的 眼睛颜色和头发颜色的 关系 研究, c “ 城 1 9 84) 对止痛药的 分类问 题的 研 究;心理学上,如个人气质研究.除此以外,在生态学、考古学、气象学、 地质学、建筑学、教育学、 生物化学、 微生物学和宗教研究等领域都可以发 现对应分析技术的科学研究。 国内对这一统计分析方法的应用尚且处于始发阶段, 现阶段主要应用于 经济、 医学等方面, 而对它的介绍则更多的停留在代数算法层次上, 这必将 涉及众多数学专业知识, 对于外专业的研究人员来说, 要充分理解其中的运 算并非易事。 第三节研究目的、研究方法和研究框架 1 .3.1 研究目的 对应分析是由荷兰此i d en大学d t s s 课题研制并于s p s s ll.0 之后新增 的一个应用程序。 。在这之前用于执行对应分析的计算机程序有 l 七 b 耐 和 m o nneau(l 982) 编写的基 于f o r t r a n程序的spa d 系统, g “ 戈 加 以 c 沈于19 84 开发的高级编程语言g ens t a t , 以及s a s 研究所于1 9 82年开发的s as 软 件,其中的 ma t r 民程序用于执行对应分析。这些相关统计软件都需要研 究人员自己 编写程序、 设定参数, 这就给研究工作带来了一些困难, 在一定 程度上也限制了国内社会科学在这一领域研究的进展. 因此本文选取“ 对应 分析原理及其在社会学上的应用即 一题进行一次尝试性的研究, 针对国内研 究只注重阐述对应分析的数学运算的局限性, 本文将对对应分析技术加以全 张文 彤. s p s s 统 计分 析教 程 . 北京 : 北 京希望电 子出 版社 , 2 002 第章引言 面的介绍,以期帮助人们了解这一技术的基本原理、假设条件、优缺点和 s p s s对它的使用,更重要地是以服务社会学为目的,来进一步推动社会学 在我国的发展,提高社会学解决社会实际问题的综合分析能力。 1 . 3 .2 研究方法 一是采用文献研究法, 通过文献回顾了 解国内外学者在这一领域的研究 成果, 从总体上把握对应分析的基本思想; 二是通过比较法, 将对应分析与 和对数线性模型加以比较, 在具体的实例中来了解对应分析技术研究社会现 象的独特价值。 1 3 .3 研究框架 本文共分为六个章节。 第一章是引言部分, 概括说明选题的背景、 研究 的目的和方法, 并简单回顾了对应分析的历史: 第二章先从总体上来阐述对 应分析这种统计方法, 包括对其概念、 基本特征和假设条件的说明,再具体 叙述了对应分析的基本理论, 最后涉及到如何处理三个或三个定类变量的问 题, 因而专门对多元对应分析进行了介绍; 第三章针对列联表的局限性进行 分析, 突出对应分析处理定类变量的独特优势; 第四章将对应分析与对数线 性模型加以比较, 研究它们在处理定类变量上的差异, 指出对应分析非常有 助于探测那些值得用其他方法进一步加以 考虑的模型; 第五章就对应分析和 多元对应分析在社会科学领域的应用列举了两个案例, 一个是对不同就业身 份群体的利益表达方式研究, 另一个是转型期间社会阶层结构研究; 第六章 是本文的结论部分, 说明对应分析在使用数据类型上的灵活性, 并总结对应 分析的优势和劣势。 第二章 什么是对应分析 第二章什么是对应分析 第一节对应分析的定义和假设条件 2 . 1 . 1 对应分析的定义 对应分析 方 法 ( c o 叮 阅 即 ndenceanal y s l s ) 又称 相 应分析, 是近 年来新 发展 起来的 一 种多 元相 依 变 量( 加 仍 川 印 即 d 皿e ) 统 计 分 析技术, 它 通过分 析由定性变量构成的交互汇总表来揭示变最之间的联系。 当以变量的一系列 类别以及这些类别的分布图来描述变量之间的联系时, 使用这一分析技术可 以揭示同一变量的各个类别之间的差异以及不同变量各个类别之间的对应 关系气 对应分析主要用于分析二维列联表或可以表示为二维表格的数据, 它依 靠主成分分析中的降维手段, 可以在低维空间中,更直观、明了的观察和分 析行和列变量之间的相互关系。 通过对应分析, 可以将行变量和列变量的分 布特点,以及行列变量各个类别之间的关系同时反映在一个二维分布图上。 行变量的不同类别, 如果具有相同特点, 那么其在对应图上的分布就会彼此 靠近,距离越短说明差别越小, 相似程度越明显;列变量不同类别的分布状 况也一样. 不仅如此,如果行变量和列变量的某些类别间关系密切的话, 它 们在分布图上的分布也会彼此靠近, 彼此的距离越近, 说明这两个类别的对 应关系就越强;反之则越弱。 对应分析主要有以下特点: 同时考虑多个属性变量来揭示大多变量值之 间的多重关联; 对应分析的多变量特性能够揭示那些通过一系列的两两比较 也不能探索到的变量间的关系; 对应分析不仅能够说明己有的关系, 而且能 够展示变量是如何相关联的; 对应分析产生的联合分布图能够揭示出不同变 量各个类别间的结构关系; 对应分析的数据类型需求非常灵活, 只要进入分 郭志刚主 编. 社会统计分析方法 s pss软件应用. 北京: 中国 人民 大学出 版社, 2 加4 46 1 46 2 第二章 什么是对应分析 析的没有负数或零就可以。 对应分析的最大特点是可以把两类属性变量的各种状态同时在一张二 维图上表示,以简洁、明了的方式描述原始数据结构。 分布图的纵横两个维 度具有相同的解释力, 非常方便分析和观察各种关系, 这是其他能以图形方 式表达的多变量统计方法所不具备的。 另外, 它还省去了因子选择和因子轴 旋转等复杂的数学运算及中间过程, 可以从因子载荷图上对样本进行直观的 分类,而且能够指示分类的主要参数 ( 主因子)以及分类的依据,是一种直 观、简单、方便的多元统计方法气 2 . 1 2 对应分析的假设条件 对应分析不像其他统计分析方法, 对数据类型、 变量之间的关系有严格 的限制, 但它要求调查对象必须有代表性, 研究对象要有可比性, 变量的类 别应当涵盖所有可能出现的情况。 对于所要分析的数据, 需要具备以下一些 假设条件礼 1 、被调查者回答问题时并不都从同一角度 ( 或维度)做出判断 在意愿、 满意度等调查中, 被调查者都通常会从两个维度进行评判。 这 两个维度一个是主观维度, 一个是客观维度。 主观判断是指人们主观的看法, 对同一事物的评价不同的人会得出不同的结论,而客观判断却不会因人而 异。 每一个被调查者不都从同一角度作出判断这一假设是说, 被调查者并不 都是用同样的主观或客观维度及指标作为判断的依据, 虽然主要的指标很可 能会一样, 但不完全一样.比如, 在调查人们生活的满意度时, 有的调查对 象从收入的角度考虑得多一些, 而另外一些可能更注重家庭关系的和谐. 还 有的人注重有没有较好的工作、 住房等, 这样大家作出判断的角度就不一样 了。 在这里, 收入可能是所有人都要考虑的指标之一, 但如果所有调查者都 以收入水平作为惟一的考虑角度,收入这样一个指标就反映了生活满意度, 那么也就没有必要再进行对应分析了。 v ad 而v . ka加 诚o lsav . kaln 匡 n a. m i chal l , 乃 阳 面 众 . u scof 即p u la 6 的皿 能 t 吮川 旧 d ies . mo l ecu lara 叼g . 湘口 i g e n e tt c s , 1 995 , 郭志刚主编. 社会统计分析方法一一s p s s软件应用. 北京: 月 6 卜 闷石 2 d n a6 n 梦 印ri m i明 自 r h u m 明 2 4 7 : 4 8 8 确9 3 中国人民大学出版社. 2 侧 月 . 第二章 什么是对应分析 2 、所有被访者对于某一维度重要性的评价不必一样 比如生活满意度的评价中, 有的人认为收入水平最重要: 但另一些人可 能认为收入多少并不重要,而家庭和谐才是生活满意度的最重要因素。 3 、被调查者的评判角度和看法可以改变 被访者做出评价时所考虑的角度、 对每个维度重要性的看法会随着时间 推移而改变, 不一定保持同一看法. 现在对收入和生活很满意的人过两年也 可能会回答不满意。 在实际调查过程中,每个被调查者通常会从各自选择的角度来回答问 题, 对满意程度、 喜好与否等作出评判. 对应分析就是要找出被调查者的比 较一致的看法,以及他们在回答问题时主要是从哪些角度考虑的. 、表中的每个单元格不能为零或负数 对应分析的基础是交叉汇总表, 表中的每一个单元格都代表被调查者选 择某一答案的频数, 也表示行、 列的对应关系。 如果有频数为零的单元格出 现,应该对变量的分类进行合并,去掉有频数为零的单元格类别。 第二节 对应分析的基本理论 2. 2 , 1 相关概念 1 、行剖面与列剖面 ( r o wlc o l u 田 pro 川e ) 行变量和列变量的各个状态出现的概率 ( 百分比) 在结果的分布图中就 表现为欧式空间上的行向量点和列向量点, 这些点的集合就称为行剖面和列 剖面。 对应分析利用降维思想, 既可以 把行变量的各个状态表现在一张二维图 上, 又可以把列变量的各个状态表现在一张二维图上, 而这两张二维图的坐 标轴有相同的意义, 即同时可以 把行变量的各个取值与列变量的各个取值在 一张二维图上表示出来。 2 、 奇 异值( 施gu. arv a lu e ) 奇异值代表某一维度行分值与列分值的相关关系, 相当于相关分析里的 相关系数。 行分值指的就是行变量每一类别在坐标图上的坐标, 列分值亦如 第二章 什么是对应分析 此。 分 值的大小( 在坐标上的距离) 受每 一类别所占比 重( m 毗油1 阮句 e) 的影响,是每一类别到重心点 ( c o n tr o i d) 的加权结果,各坐标点之间的距 离就是卡方距离.当标准化方式改变时, 分值也会随着改变气 3 、总惯量 ( to回, . e d 加) 惯量 与 特征 值 ( ei g e n v a l此) 是同 一 个 概念, 它 表 示的 是 每个 维度对 变 量各个类别之间差异的解释量, 则总惯量表示的就是所有维度能解释的所有 差异。 总惯量的概念类似于主成分分析或因子分析中方差总和的概念。 一般 的分布图都使用两 个维 度, 这两个维度就分别 对应于两个主惯量 ( p 钧 叱 i p a l 加 州如) , 表 示在 坐标 轴方向 上的差 异。 主惯量 就是 对 行剖面 和列剖 面做主 成分分析时得到的特征值,奇异值的平方就是惯量或特征值。 2. 2. 2 基本原理 对应分析的基本思想就是将一个列联表中的行和列中各元素的比例结 构描 绘为一张散点图。 一般的 交叉表了检验很难 清晰地表 达二维表两个变量 的本质关系, 而对应分析则不仅使行因素间、 列因素间关系得以展现, 也使 行、列因素间相互关系的分析成为可能气 在因子分析中, 如果 研究的 对象是样本, 则 采用q型因 子分析, 如果研 究的对象是变量, 则采用r型因子分析, 这两种分析方法往往是相互对立的, 必须分别进行处理, 如果要考查变量和样本之间的内在联系, 因子分析就比 较困 难, 而 对应分 析 就克 服了 上 述缺点, 它把q 一 模 式 和r 一 模式因 子 分析 结合 起来, 这 样 只要 知 道r型的 分析 结果 就可以 推出q型的 分析结 果, 这 就克 服了q型 分 析 计 算量 大的 困 难, 更重 要 的 是 它 可以 以 较少的 重 要的 几 个 公共因子的综合指标去研究对象在成因上或空间上的联系。 对应分析的技术核心就是高维度空间的向量向低维度空间的投影, 它可 以把样本及其变量在高维空间中的点同时投影到具有相同坐标轴的较低维 ( 通常为二维) 因子空间中, 又能基本保留样本、 变量以 及样本与变量间的 关系, 这就有可能在较低维空间中研究样本以及变量的分类, 并有利于较直 郭志刚 主 编. 社会 统计 分 析 方 法 一 一s p s s 软 件 应用 . 北 京: 中 国人民 大学出 版社 , 2 以 ” . 4 6 卜闷 石2 旧 陌 “ 翻 义 i j . p . c o 打 已 5 脚. 记 。 , “六 刀 . lysis h a nd伙 ” l n 口 脚 y 酬 匕 m a 代 姆 i dekk 风1 992 第二章 什么是 对应分析 观 地讨论样本与变量的关系 气 对变量进行对应分析需要对数据进行转换和标准化,进行奇异值分解、 求维度、协方差,计算概率、距离、惯量 ( 特征值)、解释比例和分值等, 再描绘形成分布图。在对应分析图中,若代表行变量某个类别或等级的点, 与代表列变量某个类别或等级的点在同一方位上距离较近, 则表明二者有较 强的关联性: 若距离较远或不在同一方位, 则表明两者关联性较弱或无关联 性。 对应分析中有多种标准化的方式, 可以依据分析的重点选择不同的标准 化,则相应的结果中显示的分析图也会不同。 对应分析的最大维度为类别最小的变量的类别数减1 ,通常后面的几个 维度的作用很小, 所以一般情况下选择两个维度, 但是如果变量的类别划分 很多, 单依靠两维不能有效地解释大部分的变差, 这就需要增加维度。 但是, 不是维度越多越好, 虽然维度的增加可以增大可以解释的比例, 但是对结果 的解释会显得很复杂, 解释起来的难度也会加大. 所以, 对应分析选择维度 的原则就是用最少的维度尽可能解释更多的差异。 2. 2. 3 操作步骤与方法 由于受计算机技术和相应统计软件的限制, 以往的文献都会花大量的篇 幅说明对应分析中的数据处理,而使用 sps s ll. 0以后的版本就把这些中间 过程都省略掉了, 只需将相应的行、列变量选入, 选择其中的选项, 就可以 直接输出概括性的结果以及对应分析图。 在这里, 为了充分地理解对应分析 的输出结果, 本文将把一些最基本的分析过程加以陈述, 并帮助理解其中的 关键概念。 对应分析的具体计算步骤如下气 1 、 设原始资料矩阵为 xll xlz 石1 之 云 冷 石1 石2踢 叶 丽 娜 , 庄世 坚 . 水 质检测 项目 及 其侧点 优化的 对应 分析. 环 境科 学学 报, 1 991 , 1 1 ( 2): 90 % 余 锦华 , 杨维 权 编著. 多 元 统 计分 析与 应用 . 广 州 : 中山 大学出 版社 . 2 005 . 2 35一 2 39 第二章 什么是对应分析 其中n 为 样 本, p 为 指 标, 勒为 第1 个 样 本第j 个 指标 观察 值, xij0。 2 、将x按行、列求和,并求出总和,并记 行和为沁二 j , 卜1 , 2, , n 戈 ,宁白j:i 列 和 为 炭 二 艺 戈,j = 1 ,2 ,p 戈 .宁自j:l 一 x,. ,艺间 一一 总 和 为 t 一 艺 艺 凡 1 = ij = 1 3 、计算 “ 中心一对称. 凡 j 一 气 戈 j 矩 阵 李 zl j 卜 、 p , 其 中 j t 与= 卜1 ,2 ,:n , j 月,2 , ,p 4 、 进 行r 型 因 子 分 析 。 计 算a = 2 2 的 特 征 根 入 ) 凡 ) 人。 按 其 累 积 百 分 比( 艺凡 /玄 凡 ) x loo % 二 80 % . 取 前 二 个 特 征 根 , 即 取 m 个 公 因 子 , 计 算其相应的单位化特征向量e 。 ,. 耘 ,从而得到r型因子载荷阵: fif2矛 ) 月 x. x2 与 气 。 仄 、 , 仄 ep . 仄 弓 2 仄 气仄 2 仄 气 . 仄 气 . 仄 、仄 并在两两因子轴平面上作变量的点图。 5 、 进行q型 因子 分析. 对4 中a 的 前m个 特征 根 计 算 相应 于b 矩阵的 特 征 向 量e.= z 马(i:1, 2 , 二,m ) . 并 将e,单 位 化 , 从 而 得 到q 型 因 子 载 第二章什么是对应分析 荷矩阵: gg2 * t i r2 介 , 厂 仄 可仄 厂 汉 叮仄 可仄 与 仄 峪仄 心仄 心仄 在r型因子平面作相应的样本点图。 6 、根据具体情况进行解释与推断 。 第三节多元对应分析 对应分析的基本形式是对一个由 属性变量构成的二维交叉表进行分析, 但是在很多情况下, 我们想要考察的是多个分类变量类别取值间的联系, 例 如子辈职业与父辈职业、 管理级别和教育水平间的关系, 此时, 我们可以采 用多 元 对应分析( m l d tiple corr 阅 po n d e n c e 人 明 ly sis) 。 简单 对应分析只能处 理两个分类变量, 平常所说的对应分析指得是简单对应分析, 而多元对应分 析则可以 对三个或三个以上的分类变量构成的交互表进行分析。 多元对应分 析实际上是对对应分析的多变量延伸,是对复合列联表的综合分析。 。 对应 分析也是一种实用的分析探索性数据的统计手段, 能够适用于那些通过初步 分析就可以识别出存在于变量间各种稳定关系的情况. 对应分析和多元对应分析都是基于这样一个普遍的思想, 就是先从一群 繁杂的数据中分离出内部的结构, 然后再解释这种结构。 从广义上来说, 它 们的目的是一样的, 两者都可以为进一步的研究打下基础, 而且它们也可以 产生其他的重要信息。比如, 对不同的职业身份的人们进行聚类,不仅可以 得到不同的细分类别, 而且可以对不同职业的各种特征属性加以解释。 在对 应分析中, 单元和变量之间的对应是很重要的, 但是在多元对应分析中并没 有这方面的规定。 这两者的另外一个区别之处是, 它们对绝对频率和相对频 率的重视程度不一样。在多元对应分析中原则上需要在两者之间做出权衡, gi石 , 月卜 ” . nonlom u l tiv颐魄a ” a l 州5. l l wi l ey, 1 991 第二章 什么是 对应分析 而在对应分析中多是执行相对频率, 尽管绝对频率在计算权重时要用到。 最 后,多元对应分析的算法也和简单对应分析不同. 它会首先对各变量进行最 优尺度变换,以尽量凸现类别间差异, 然后再按照标准的对应分析算法进行 计算, 这使得即使在两变量的 情况下, 这两 个过程的结果也不会完全等价气 张文彤主编. s p s s 统计分析高 级教 程. 北京: 北京高 等教 育出 版社, 2 0 04: 2 94 第三章传统处理定类数据方法的局限性研究 第三章传统处理定类数据方法的局限性研究 第一节列联表的局限性 对分类变量最常见。 最简便的统计分析方法是使用由频数或频率构成的 交互列联表分析. 列联表是将观测样本按照两个或两个以上定性变量分类而 成的数据表。表的大小由变量的类别数而定,通常以r x c 标志一个列联表, r 代表横行的类别数,c代表纵列的类别数,这是最常见的二维列联表的表 示方法, 如研究性别与求职意愿的差异, 父辈职业对子辈职业的影响. 若分 类 变 量 在 两 个以 上, 则为多 维 列联 表( inulti d . n e ns i 池i con l i n g c o c y table) . 列联统计分析所要分析的是变量之间的关系, 最主要的就是判断所要考察的 属性变量之间有无关联,以及有多大的关联程度. 列联 表 变量 之间 相关 性的 检 验最常 用的 分析 方 法是了( c 巨 . sq 吟 ) 检 验, 但 是 广 检 验 不 是 万能 的, 在 具 体 的 使 用中 需 要 满 足 一 定的 条 件:( 1) 在2 *2列联表中, 要求所有期望频次都要大于5 ; (2) 在r. c 中期望频次小 于5 的格数不应超过总格数的20%, 或者所有格的期望频次不能低于 1 , 否 则测 验结 果 会出 现 偏 差. 倘若在数 据收 集中 确实出 现了 期望 频次 不 符合广 检 验条件的, 通常的处理方式是把期望频数小的行或列的观测值合并, 再重新 计算期望值。 值得注意的是, 这种合并方式实际上重新调整了 样本分布, 违 反了数据收集的随机性原则, 所以, 样本对总体的推论效度必定也受到影响。 对 于多 维 度 列 联 表, 利用广 检验 进行 分 析时 , 除了 采取降 维合 并 法, 还可以 实行分层分析, 不难想象,分层也同样会遇到合并方法面临的问题,因为只 要分 层的 层数 增加, 观测 频数 被 分 配 给 每 个变 量 值的 数目 就 会减少. 广 检 验 的条件也会越来越难以满足,甚至会出现一整列或行的频数都为0 的情况。 要使分层表能够满足最初的样本分配标准, 势必会成倍加大样本容量, 而对 于调查的经济性来说,很显然这井不是一个很好的选择。 除此以 外, 列联分析在测量行列变量的相关关系时也存在局限性。 如果 广 检 验 显 著 , 说 明 变 量 间 存 在 相关 度. 反 映 列 联 强 度的 指 标 有户 系 数, c系 数, v系数,之 系数,r 系数。由各自的计算公式可以发现,随着r x c 表的 第三章传统处理定类数据方法的局限性研究 格数 增多, 护 值 就 随 之 增 加, 沪 是 没 有 上限的: c 系 数 虽 然 没 有沪 系 数 无 上限 的缺点,但是在变量全相关时,永远达不到1 :v系数的取值范围在0 和 1 之间, 能够克服前两种系数的缺点, 但是它缺乏p r e性质。几 系数和1 系数 是分析列联强度时应用最广的两个测量指标,它们拥有 p re 特性,但也存 在不足: 对于几 系数, 只要列联表各列的众值处于同一行,又 系数永远为0, 这 与广 检验 发生了 冲 突, 因 为 一 旦检 验 确定 存 在相 关 性, 相关 系数 就 不 应该 为0 ;其次,两者都存在着列联表间条件分布相同。但是由于绝对频次不同 而相关系数不同的情况, 这是不符合实际的, 因为只要两个列联表具有完全 相同的条件分布,它们就应该具有相同的相关系数。 第二节对应分析是处理定类数据的有效工具 对 应 分析的 原 理 和广 检验、 列联 系 数完全 不同 . 对应 分 析 首 先 对列 阵作 对 应 变换, 并对 其 进行r-型 和令型 因子 分 析, 分别得 到r 型 和q型因 子载 荷矩阵, 并据此在二维因子坐标系中做出因子平面点聚图, 即对应分析图叭 从二维列联表中我们可以很容易观察到变量之间的具体联系, 但是随着 列联表的维度或是变量类别的增多, 列联表的结构将会变得越来越复杂, 要 想具体观察到行变量的某个或某些类别与列变量的某个或某些类别的关系, 单纯靠频数和百分比是无济于事的。而对应分析法能够简化这种复杂的关 系,并且得以具体、准确、直观地揭示出行列变量的结构差异。 当 列 联表 所分 析的 变 量中 有 定 序层次 的, 如果 采 用了 检 验, 只能 反 映 变 量间的差异是否具有统计学意义, 而无法反映程度差异的对应关系, 而采用 对应分析则可以获得这部分信息, 使得结论能够深层次地揭示出变量间渐进 的关系。 对应分 析同 样 可以 进 行了 检 验, 与 列 联分析 不同 的 是, 它 不 仅能 够定 量 描述变量间的相关程度, 能够揭示同一变量各个类别间的差异以 及不同变量 各个类别间的对应关系, 而且能以图形化的结果显示, 使得各种复杂的关系 都可以一目了然。 从以下的例子中我们可以发现两者的区别以及对应分析的 优势所在。 李 克 均 , 时 松和 , 胡 东生 , 列 联表的 行 列关 联 度与 对应分析 . 中国 卫生 统 计 , 2 以 陌 , 2 3 ( 3) : 2 6 1 第四章对应分析与对数线性模型的比较 第四章对应分析与对数线性模型的比较 第 一节 对数线性模型简介( l o g- li n e ar模型) 对数线性模型也是一种用于分析离散型数据或是列联表式数据的多元 统计方法。 同其他线性分析方法不同, 它基本上不要求变量有因变量和自 变 量之分。 ,所以不能像线性回归那样用自 变量来预测因变量的变化,但它仍 然可以用一个通用的数学方程式来线性描述分类变量的所有取值情况以及 变量之间的相互关联。 在对数线性模型中, 所有的变量都统称为因素。 模型 的方程建立首先需要对各因素的取值 ( 频数) 取对数,再由 对数频数的各项 影响效应组成线性方程。 在模型中, 每一个因素都对应一个因素效应, 因素效应也称为主效应或 边际 效 应 ( ma词ina喀 汕1 已 饰 ec t ) , 反映 地是 变量自 身的 频数 分布影响, 除 此之外, 模型中还应有各项因素组成的交互效应, 它所反映的是变量之间相 互联系产生的效应。对数线性模型方法中的效应 ( e 任 比 t )指的是对单元频 数的影响, 频数取对数之后就分解为了主效应以及交互效应。 无论是简单的 列联表还是复杂的列联表, 所有频数之间的关联都可以分解为这两种不同类 型的效应.比如,一张简单的二维交互表, 它的主效应有2 个, 交互效应只 有1 个.当变量数不断增加时, 主效应项也会不断地增多, 而交互效应的项 数会增加得非 常快。如对一张三维交互表作对数线性分析,它有3 个因素, 则有3 个主效应项,3 个二阶交互项,1 个三阶交互项;四个因素组成的交 互表中则有4 个主效应项,6个二阶交互项, 4 个三阶层交互项,1 个四阶 交互项。对数线性模型要求每一个效应项的各类参数之和为0 ,所以知道某 个效应项的其他各类参数, 最后一类未知的参数就可以推导出来了。 对数线 性模型除了可以帮助建立所要分析的定类数据的线性模型关系, 还提供了参 数估计和参数检验的功能。效应项的参数值大于0 ,表明存在正效应,小于 对数 线 性模 型有 三种 模型 类型, 其中且 叼t 模型 要求 不同 的 分 类 变量间 必 须 有因果 关系 假 设, 第四章对应分析与对数线性模型的比较 0 ,则说明存在负效应。通过参数检验,可以判断参数估计是否具有推论总 体的价值。 对数线性模型提供四种主要的统计检验: 对于假设模型的整体检 验、对于分层效应的检验、对于单项效应的检验以及对于参数估计的检验。 第二节 对应分析与对数线性模型的比 较 虽然对数线性模型和对应分析都是分析定类变量的有效方法, 但两者的 应用原理差别相当得大, 下面通过实例的形式来介绍和应用对数线性模型并 具体考察它与对应分析的区别. 以上一节所引用的北京市三类人口的住房满 意度调查数据为例。 4. 2 . 1 对数线性模型原理 表4.1 北京市三类人口的住房满意度 人口类型 流动人口迁移人口当地居民边缘合 住房满意度 71403451232 ;:6 2241393319154 14书285117145 3532735414833927 很满意 满意 一般 不满意 很不满意 边缘合 4 2 . l i 模型建构 对数线型模型有多种类型, 在拟合模型时是从包括了所有可能的参数的 饱和模型 佃吐 侧 口 抚 刁口 众 如 1 )入手,从高阶交互项开始,逐步排除不重要的 效应项,直到形成一个最佳拟合效果的简约模型。 设住房满意度变量为a因素,人口类型为b因素.由这两个离散变量 构成的对数线性饱和模型为: 第四章对应分析与对数线性模型的比较 城 、 ) = 几 + 军 + a,a 刃 , 其中 , 1 月, 2. , , 1 , j 司, 2. 二, 1 和j 分别 代表a 因 素 与b 因 素的 分 类。 在本例中,卜5 , 卜3 。 nij 为 列 联 表 中 各 单 元 格 的 频 数 . 兄 为常数效应, 是所有频数取自 然对数后的均数, 也即总平均效应, 其 计算公式为: 几 = 2 艺in( n 。 ) / i j j 一 ij 司 军为因 素a 在第1 类型 的 主 效 应, a因 素 效 应的 计 算公 式 为: =客 帅 p 刁 一 兮为b 因 素 在 第 j 类 型 的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论