版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第11章列联表
(定类变量与定类变量)11.1什么是列联表11.2列联表的检验11.3列联强度11.1
什么是列联表
一、两个定类变量的一般情况某单位对休闲时间作了一项调查,下面是问卷中的两个问题。1、您的年龄()岁?2、您最喜爱的电视节目的类型是()?戏曲B.歌舞C.球赛
*注:45岁以下为青年人
45岁~60岁为中年人
60岁以上为老年人
Yx
老年中年青年戏曲歌舞球赛201025203521020根据不同年龄和喜爱电视节目的类型进行了统计分类(见下表)称为3X3列联表一般的,两个变量x和y,把x分为c类,y分为r类,这样得到的数据按照两个定类变量进行交叉分类的频次分布表,即二维列联表,简称列联表.见下表。每个表示所具有的频次.
xyYx
老年中年青年戏曲歌舞球赛201025203521020列联表是通过各间格的频次或相对频次,研究变量之间是否存在关系,即变量X的分类是否与变量Y的分类有关
似乎可以得出结论:看电视节目的类型与年龄有关。思考:这样得出的结论有何不妥之处?①结论不全面:没有考虑到“歌舞”、“球赛”的情况;没有考虑“中年人”的情况。②如果调查资料是来自于样本的,未排除随机误差的影响,不一定具有推论总体的意义,故需检验。(一)联合分布二、列联表中变量的分布
回顾:2.2分布
社会统计学中,分布指一个概念或变量的各个情况出现的次数。分布的一般形式为:
(X1,n1)其中,X1,X2,Xn是变量X的(X2,n2)一切可能取值,n1,n2,n3为其对
应数值。(Xn,nn)
n代表不同的含义是表示不同的分布。当n表示频次时为频分布。当n表示概率时为概率分布。当n表示百分比时称为百分比分布或频率分布或相对频次分布。统计表和统计图是变量分布的不同表现形式。
联合分布
单变量频次分布二变量联合频次分布当集合对中的表示频次时,则列联表称为联合频次分布表;表示概率时称为联合概率分布表。
xy联合频次分布联合概率分布xyx1x2x3xcy1y2yrP11P21P31Pc1
P12P22P32Pc2P1rP2rP3rPcr
P*1
P*2P*rP1*P2*P3*Pc*
?1当联合频次分布表示的是总体调查时(普查),联合概率分布表可以通过联合频次分布表求得。(二)边缘分布
如果对联合分布进行简化研究,只研究其中某一变量的分布,而不管另一变量的取值,就得到边缘分布.边缘分布共有两个:关于y的边缘分布和关于x的边缘分布.关于y的边缘分布P*1P*2P*r其中,P*j=N*j/Ny1y2yrP(y)y把联合分布中的概率按行加总起来,就得到关于Y的边缘分布。关于x的边缘分布P1*P2*Pc*其中,Pi*=Ni*/Nx1x2xcP(x)x(三)条件分布如果将一个变量控制起来取固定值,再看另一变量的分布,就得到一个条件分布。如下:yy1y2yrP(y)2.理论上有c+r个条件分布。思考:现实中,是否c+r个条件分布都是合理的?3.虽然理论上存在x的条件分布,但实际上,控制因变量没有意义。通常构造的是控制X的取值,关于y的条件分布。关于y的条件分布yy1y2yrP(y)yy1y2yrP(y)yy1y2yrP(y)条件分布中的每一项都是以边缘分布的为分母;而联合分布中各项都是以N为分母。例题见教材page279【例1】三、列联表中变量的相互独立性
老年中年青年边缘和戏曲歌舞球赛20/27=0.7410/40=0.252/57=0.0432/124=0.265/27=0.1820/40=0.5035/57=0.6160/124=0.482/27=0.0810/40=0.2520/57=0.3532/124=0.26y的条件分布和边缘分布思考:通过上表的数据,对于变量x和y的关系,你能得出什么结论?越老的越爱看戏曲,越年轻的越爱看歌舞、球赛。即变量y(喜爱的节目)与变量x(代际)是有关的。
老年中年青年边缘和戏曲歌舞球赛0.740.740.740.740.180.180.180.180.080.080.080.08若统计结果如下:思考:此时又能得出什么结论?变量y(喜爱的节目)与变量x(代际)是没有关系的。此时,必然存在变量的条件分布与边缘分布相同。列联表中变量的相互独立两变量相互独立的条件11.2
列联表的检验原假设其中二、检验统计量(一)相关概念1、实测频次:在一次抽样中,列联表每个间格所对应的实际频次。Yx
老年中年青年戏曲歌舞球赛2010252035210202、期望频次(Expectedfrepuencies):如果总体中两个变量没有关系(即为真)时,列联表每个间格所应有的频次。(二)实测频次与期望频次的比较如果总体中为真,那么实测频次列联表的格值与期望频次列联表中的格值相差不多的可能性较大。反之,如果两表的格值差距很大,则原假设成立的可能性很小。(三)统计量其中例见page285【例2】关于列联表统计量的讨论对于列联表(correctedChi-square)☆在进行卡方检验,利用连续型随机变量卡方分布计算概率时,常常偏低,特别是自由度为1时偏差较大。Yates提出了一个修正公式,修正后的卡方值记作☆此时,如果样本小的话(小于30),尤其是表中某格的期望频次小于5时,最好用费希尔的精确检验法。(Fisher’sExactTest,见Blalock)
2.对于的要求
<5的格数不超过总格数的20%;不能有<1的情况。否则将导致分析的偏差。处理办法:增大样本量(以增加期望频次)或合并行或列。
(例见page289表10-21)3、☆列联表的检验是通过频次而不是通过相对频次的比较进行的(例见page290表10-23、表10-24、表10-25、表10-26).
☆相对频次相同的列联表,在检验中其显著性并不相同。特别是当总体中两变量相关性不强时,如果样本量较小,很可能呈现无显著性差异。
☆当样本容量增加K倍时,如果相对频次不变,卡方值也将增加K倍。4、列联表就其检验的内容来看是双边检验。但从形式上看,很像右侧单边检验。练习我们的研究假设是:“不同类的专业卫生技术人员会对当地的卫生事业的发展有不同的满意程度”。为加以验证,我们从某地全部专业卫生技术人员中抽取一个随机样本(n=490),人员类型与满意度的交互分类表如下。取显著性水平为0.05,统计结果能否支持我们的看法?
态度
卫生人员
总数西医
医士
护士
中医
满意一般不满意1083114554333141130422820799184总数2841185434490专业卫生技术人员对卫生事业发展的态度答案:拒绝原假设,认为不同类的技术人员对当地卫生事业发展满意度是不同的。另一个结论:定类-定序二变量也适用此方法,即将定序变量视为定类变量来研究。Spss使用【例1】《当代中国人精神生活调查研究》Q39您觉得哪一代人的精神生活最丰富最充实?(单选)
1、第一代人(参加建国、建党的那一代)。2、第二代人(建国前后参加工作,大跃进的主力)。3、第三代人(建国前后出生,年轻时参加过“学雷锋”“红卫兵”“上山下乡”)。4、第四代人(50年代末60年代初出生,文革时期读中小学)。5、第五代人(文革期间出生,文革以后读高中、上大学)。
6、第六代人(八、九十年代出生,对信用卡、无厘头、QQ习以为常)。Spss使用【例2】《当代中国人精神生活调查研究》Q15您认为读书在您的生活中处于什么样的地位?(请从以下选项中选取一项)1、非常重要2、比较重要3、一般4、不太重要5、很不重要6、说不清楚11.3
列联强度1.我们可以通过卡方检验确定变量间是否存在关系;2.但是,对大样本而言,即使变量间关系微弱,确定它的显著性也不难;3.在大样本情况下,仅仅确定变量间存在显著性关系并无很大意义;4.对大样本来说,更重要的问题是:“如果有关系,其强度多大?”5.在大多数社会研究中,我们的兴趣主要不在于寻找彼此有关系的变量,而是要确定哪些关系是重要的。
一、变量间的相关[例]将频次分布转换为条件分布
男女赞成不赞成20703030边缘和50100
男女赞成不赞成20/50=40%70/100=70%30/50=60%30/100=30%讨论:1、何种情况下,变量间的关系较强?何种情况,变量间的关系较弱?百分比的差值越大,表示变量间的关系越强。2、局限性:当自变量的取值超过两类时,就存在以哪个取值作为基准的问题,列联表的比较就会产生困难。
Xyx1x2y1y2abcda+bc+da+cb+da+b+c+d当变量x和y无关时,有当变量x和y有关时,则下面两个系数讨论的基础都是
的符号并无实际意义。系数取值范围【-1,+1】意味着各实测频次全部落在对角线上,此时|
|=1,表明变量X与Y
之间完全相关。
XyX1X2y1a0a+by20dc+da+cb+dnXyX1X2y10ba+by2c0c+da+cb+dn完全相关表示一类全部赞成而另一类全部反对.
丹麦人与法国人以同样的眼光看待陌生人吗?一次抽样调查中就“你认为大多数人都可信赖呢?还是认为与人相处要处处小心?”这一问题,获得数据如下表。
要求:判定“国籍”与“态度”两变量间的相关性。丹麦法国合计信任625206831怀疑3607631123合计98596919542×2列联表例题分析Q系数
新药安慰药未感冒感冒5028022只要a,b,c,d中有一个是0,则【例】比较选择适合自变量的不同取值都会影响到因变量的情况;适合实验性研究。
(一)以值为基础的测量法(二)以PRE为基础的测量法以值为基础的测量法以值为基础的测量法
可见,不仅可以检验二变量是否独立,还可以反映相关的程度,值越大,二变量间的关系强.
列联表的系数是系数当i=1,2;j=1,2时的一个特例。(见p296表10-33)列联表中.而随着格数的增加,增大,值没有上限.为了便于比较不同变量间关系的强弱,引出C系数.3、C系数虽然克服了系数无上限的缺点,但在两个变量完全相关时,却永远不能达到1。为此又出现了V系数:
、C、V的比较☆同一个列联表,
、C、V的结果会不同;☆不同的列联表,
、C、V的结果也不同;☆在对不同列联表变量之间的相关程度进行比较时不同列联表中的行与行、列与列的个数要相同,并且采用同一种系数。练习根据以下的抽样调查,求V系数和C系数。
已婚丧偶边缘和很满意较满意一般不满意22(12.8)10(19.2)
19(16.4)22(24.6)
11(18.8)36(28.2)
8(12.0)22(18.0)32414730边缘和6090150以PRE值为基础的测量法1.以为基础的测量法只适合定类变量,而PRE具有普遍意义.2.我们可以通过社会现象间关系,从一个现象预测另一个现象。变量间的相关程度,可以通过不知道y与x有关系时,预测y时的全部误差与知道y与x有关时,用x去预测y的误差的相对差值的大小度量。这种方法称为减少误差比例法PRE(Proportionalreductioninerror).其中,E1表示不知y与x有关时,预测y的全部误差;E2表示知道y与x有关后,用x预测y的全部误差;
表示知道y与x有关后,预测y所减少的误差.PRE则表示所减少的相对误差.E1、E2的具体定义,不仅在不同层次的变量有所不同,而且对于同一层次的变量,也可以有所不同。讨论请同学们讨论PRE的取值范围及其意义。E1=124-60=64E2=(27-20)+(40-20)+(57-35)
=124-(20+20+35)=49
老中青戏曲歌舞球赛201025203521020326032
274057124
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医院护理服务中的康复护理
- 压疮预防:护理工作的综合评价
- 压疮护理的团队协作
- 产后护理中的社会医学新视角
- 2026 育儿儿童环保创意深度宣传课件
- 2026年幼儿园想象线条
- 剖宫产新生儿脐带护理查房
- 2026年花样篮球幼儿园
- 2026年幼儿园运动书籍
- 2026年q的课件幼儿园
- 2024-2025学年四川省成都市石室联中教育集团八年级(下)期中数学试卷
- 国开2026年《公共政策概论》形成性考核任务1-4答案
- 消防工程从入门到精通
- YDT 5102-2024 通信线路工程技术规范
- 福建省危险性较大的分部分项工程安全管理标准
- ic m710说明书中文版
- Wagstaff低液位自动控制铸造
- GB/T 9787-1988热轧等边角钢尺寸、外形、重量及允许偏差
- 统编版小学语文小升初专项训练 汉语拼音选择题
- 沙漠掘金(经典版)-沙漠掘金攻略
- 教科版四年级科学下册3《观察土壤》优质教案(2套)
评论
0/150
提交评论