列联表中的相关性测量.doc_第1页
列联表中的相关性测量.doc_第2页
列联表中的相关性测量.doc_第3页
列联表中的相关性测量.doc_第4页
列联表中的相关性测量.doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章 列联表中的相关性测量第一节 列联表相关测量的有关问题一、交互分类和列联表来自某个总体的样本,同时按两个或两个以上的标准进行分类。分类的资料可以排列成一个行、列交织的表,称为列联表,也叫交互分类表。如:妇女的教育水平与志愿 愿 望(Y)教育水平(X)合计高低幸福家庭12595220理想工作65105170合 计190200390列联表可以清楚反映在X变化的条件下,Y的次数分布情况。因此,列联表又称为条件次数表。列和:行边缘次数行和:列边缘次数表中的次数:条件次数,表示在自变量的每个条件,因变量各个值的数目。合计合计二、条件频率妇女的教育水平与志愿(%)愿 望(Y)教育水平(X)高低幸福家庭65.7947.50理想工作34.2152.50100.00100.00愿 望(Y)教育水平(X)高低幸福家庭56.8243.18100.00理想工作38.2461.76100.00第二节 McNmar检验这种检验方法适用于非独立样本的2*2表,即单因素两水平。 Cochran检验是该检验方法在多样本条件下的推广。例 为了评估一位政党候选人竞选活动的效果,由60个选民组成的随机样本在候选人演说之前和之后,询问的问题是“对该候选人是投赞成还是反对”受试者演说前演说后受试者演说前演说后受试者演说前演说后111210141112112211420031023004311401241144005012500451160026114611711270047018012811480091129004901100130115011110031115100121132005201130133115311141134005400150135115511161036005600170137115700180138015800191139115911200040006000后(-)后(+)前(+)225前(-)2013McNmar检验思路:在竞争演说前后有15个人改变了观点,我们分析的焦点在改变了观点的15个人。竞争演说无效应竞争演说有效应在原假设为真的条件下,认为n个人改变观点的人是随机的选择“+”或“-”。可以认为,选择“+”的人数是服从B(n,0.5)分布。(n为前后改变了选择的样本点)。则检验的p值:0.000488 或 故拒绝原假设,竞争演说有显著的正效应。注:当样本容量(改变观点或发生改变)大于50 时,可以将检验用于McNmar检验。后(-)后(+)前(+)aba+b前(-)cdc+dSa+cb+da+b+c+d因为 而 在原假设为真时,则上式为等价的公式为当,则拒绝原假设。第三节 列联表中的检验及相关测量一、 四格表资料的2检验 (两个样本率比较)两因素两水平,两因素是否相互独立。1、 两个样本率资料的四格表形式xyaba+bcdc+dSa+cb+da+b+c+d如果X与Y相互没有关系,有 a(a+b)(a+c)/(a+b+c+d)=e11b(a+b)(b+d)/(a+b+c+d)=e12c(a+c)(c+d)/(a+b+c+d)=e21d(b+d)(c+d)/(a+b+c+d)=e22故设计统计量 2、2检验的基本思想2值反映了实际频数和理论频数的吻合程度。2值越小,说明实际频数与理论频数越吻合,2值越大,说明实际频数与理论频数差异越大。如果检验假设成立,则实际频数与理论频数之差一般不会很大,即出现大的2值的概率是小的。若在无效假设下,出现了大的2值的概率P(检验水准),我们就怀疑假设的成立,因此拒绝它。另外2值的大小,还与自由度有关。故考虑2值大小的意义时要同时考虑自由度。二、 行(r)列(c)表资料的2检验两因素多水平的情形。1、如果x与y相互独立,则有,所以有2的相关测量方法 相关系数 例如 的绝对值最小的为零,为零时说明X与Y之间无关。 三、三个因素的多水平的情况设有3个因素,每个因素的水平分别为r,c和l。其中例 对一些交通事故的保险结果表明出事故率和赔保历史与教育程度等因素有关。有资料如下:赔保历史教育程度小学以下初中高中大学及以上从未赔过2811305050赔过一次25690105赔过两次以上1073064利用该数据你可以得到什么信息。利用你知道的检验方法进行检验。解1:采用34的2检验来检验相关性。:教育程度水平与赔保历史数目不相关:教育程度水平与赔保历史数目相关2811305050511理论频数322.948125.36833.0971529.5868525690105361理论频数228.149288.5672223.3817520.901861073064147理论频数92.9028536.064779.5210998.511286X64425066591019,故拒绝原假设,认为教育程度水平与赔保历史数目有关第四节 熵和似然比检验一、熵从统计的观点看,一个事件A的发生如果给人们带来了信息,则应该认为它是一个随机事件。显而易见,一件为人们所完全预料的事件(如必然事件),不会给人们带来信息。假定A和B是两个随机事件,有P(A)大于P(B),人们的常识是概率小的事件带给人们更多的信息。所以B事件的信息比 A事件多。必然事件的信息为0。定义熵:一个离散的随机变量x,定义为x的熵。是随机变量xai的概率,该概率接近1,它的“确定性”程度越大;接近0,它的“确定性”程度就差。当1,则,当0,则,所以我们用来反映x取值的分散程度,该值越大,不确定的成分越多。两个随机变量X和Y的联合熵:三个随机变量X,Y和Z的联合熵:熵反映随机变量的不确定性。当随机变量之间相互独立时,则不确定的因素越多,则联合熵较大。三、 似然比检验似然比是列联表中所涉及的变量相互独立时的似然函数的最大值与不相互独立时的似然函数的最大值之比。似然比统计量常常用来检验变量间的独立性。似然比检验的原假设是设有两个随机变量X和Y,X取r个值,Y取c个值。现从中抽取一个容量为n的样本。有的频数为。由于当两个随机变量X和Y相互独立时,有则两个随机变量X和Y相互独立时,的极大似然估计为:两个随机变量X和Y不相互独立时,的极大似然估计为: 则似然比为: 似然比统计量为当很大,说明样本更有可能来于X和Y相互独立的总体,其似然函数更大,故支持原假设。2、两个变量的联合熵和似然比检验的关系当两个变量X和Y不独立时,联合熵当两个变量X和Y独立时,联合熵则,当很大,说明该样本支持X和Y相互独立,因为这时有更大的信息量。前面例题的熵和似然比检验2811305050511实际概率0.2757610.1275760.049067710.0490680.501472理论概率0.3169260.123030.032480030.02903525690105361实际概率0.2512270.0883220.009813540.0049070.354269理论概率0.2238950.0869160.022945780.0205121073064147实际概

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论