



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、交叉列联表分析用于分析属性数据1.属性变量与属性数据分析从变量的测量水平来看分为两类:连续变量和属性(Categorical)变量,属性变量又可分为有序的(Ordinal)和无序的变量。对属性数据进行分析,将达到以下几方面的目的:1)产生汇总分类数据一一列联表;2)检验属性变量间的独立性(无关联性);3)计算属性变量间的关联性统计量;4)对高维数据进行分层分析和建模。在实际中,我们经常遇到判断两个或多个属性变量之间是否独立的问题,如:吸烟与患肺癌是否有关?色盲与性别是否有关?上网时间与学习成绩是否有关等等.解决这类问题常用到建立列联表,利用72统计量作显著性检验来完成.2 .歹 U 联表(Co
2、ntingencyTable)列联表是由两个以上的属性变量进行交叉分类的频数分布表。设二维随机变量(X,Y),X可能取得值为XI,X2,xr,Y可能取得值为y1,y2,ys现从总体中抽取容量为 n 的样本,其中事件(X=XiY=yj)sr发生的频率为nij(i=1,2,r,j=1,2,s,)记ni=Znij,n.j=Znij,j=1i1rsrs则有 n=zznij=nijn.,将这些数据排列成如下的表:imjai1j1这是一张 rxs 列联表.3 .属性变量的关联性分析对于不同的属性变量,从列联表中可以得到它们联合分布的信息。但有时还想知道形成列联表的行和列变量间是否有某种关联性,即一个变量取
3、不同数值时,另一个变量的分布是否有显著的不同,这就是属性变量关联性分析的内容。属性变量关联性检验的假设为H0:变量之间无关联性;H1:变量之间有关联性由于变量之间无关联性说明变量互相独立,所以原假设和备择假设可以写为:H0:变量之间独立;H1:变量之间不独立检验Ho:X与Y独立.记 P(X=Xi,列=yj)=Pij,i=1,2,r,j=1,2,s,P(X=Xi)=pi,i=1,2,,r,P(Y=yj)=p.j,j=1,2,,s.由离散性随机变量相互独立的定义,则原假设等价于Ho:pij=pi.p.j,i=1,2,r,j=1,2,s.若pij已知,我们可以建立皮尔逊?2统计量/27.(nij-n
4、pij)iwijmnpij由皮尔逊定理知,厘2的极限分布为?2(rs1).但这里pjj未知,因此用它A的极大似然估计p0代替,这时检验统计量为2rs(nij-npi.).hAiWJmnpij在 Ho成立的条件下,pij=pi.p.j,即等价于用pi.和p.j的极大似然估计AApi和pj的积去代替.可以求得An八npi.=,i=1,2,r,pJ=,j=1,2,s,1nn2j-nPi.p,nPi凡2,一,的极限分布为72(rs_(r+s2)-1)=厘2(r-1)(s-1).对给定的显著性水平a,当72z2_a(r-1)(s-1),则拒绝Ho,否则接受Ho.特别,当 r=s=2 时,得到 2X2 列
5、联表,常被称为四格表,是应用最广的一种列联表.这时检验统计量为22(n1n22一n12n21)=nnm田1n*它的极限分布为 72(1).对于二维随机变量(X,Y)是连续取值的情况,我们可采用如下方法将其离散化.1将X的取值范围(-8,+8)分成 r 个互不相交的区间,将Y的取值范围(-8,+8)分成 s 个互不相交的区间,于是整个平面分成了 rs 个互不相交的小矩形;2求出样本落入小矩形中的频数niji=1,2,r,j=1,2,s;建立统计量22、72;9nij=nZZ1,(Tjvnin,j/7p.=ijnin.ji=1,2,r,j=1,2,s,从而得到统计量rs(ni=、.:一i4ij2n
6、ij在 Ho成立时且 n 充分大时,72的极限分布为72(r1)(s1),拒绝域的确定同离散型的情况.3.属性变量的关联度计算/2检验的结果只能说明变量之间是否独立,如果不独立,并不能由其中当 r=s=2 即 2X2 列联表时-1中1,其它 0V 中1,|中越接近 1,它们之间关联性越强,反之越弱。主要用于 2X2 列联表例 1(教材 p116 例 4.4)为了了解吸烟与患慢性气管炎的关系,对 339 名 50 岁以上的人作了调查,具体数据如下表:患病if 吸烟 V患病未患病合计吸烟43162205不吸烟13121134合计56283339利用交叉列连表分析,研究吸烟习惯与患慢性气管炎的关系。
7、解检验 H。:吸烟与患慢性气管炎无关.已给数据构成一个四格表,n=339,n11=43,n12=162,n21=13,n22=121,n1205,n/=13,n2=134,n=121,则222(nnn22n12n21)339(43121-16213)=n给定 a=0.05,查表得彳“(1)=3.8417.469,所以拒绝 H0,即认为吸烟习0.95惯与患慢性气管炎有关.但中系数=0.148 较小,表示相关性不是太大利用 SPSS 软件完成练习 1 数据文件“电信用户.sav”中记录了某电信运营商经营的各种情况,比如服务类型、设备租用、无线使用等。选择其中 4 个变量:custcat(顾客服务)、ed(顾客受教育程度)、income(家庭收入)、ininc(电信消费),考察顾客与服务经营的情况(1) 对变量 custcat 和 ed 进行频数分析;(2) 分别考察 ed 对 income 的影响,custcat 对 ininc
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论