独立性检验_第1页
独立性检验_第2页
独立性检验_第3页
独立性检验_第4页
独立性检验_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

3.2 独立性检验的基本思想与初步应用,一、概念,这种变量的不同取“值”表示个体所属的不同类别,这类变量称为分类变量,分类变量,对于性别变量,取值为:男、女,分类变量在现实生活中是大量存在的,如是否吸烟,是否患肺癌,宗教信仰,国别,年龄,出生月份等等。,说明:这里所说的“变量”和值不一定取得的是具体的数值,为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人),二、问题探究,那么,吸烟是否对患肺癌有影响?,直观上可以得出结论:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大。,0.54%,2.28%,分析,1.频率分析,列联表:象上表一样,列出两个分类变量的频数表,称为列联表。上表称为22列联表。,通过频率分析,可以直观地分析两个分类变量的结论。,列联表就是一种频率分析表。通过样本的每个分类变量的不同类别的事件发生的频率大小,比较分析这分类变量之间是否有关联关系。,患肺癌比例,不患肺癌比例,等高条形图(频率分布条形图),等高条形图是按分类变量的不同类别事件的频率大小作出的等高的图形。,与表格比较,图形更能直观地反映相关数据地的总体状况。,2.图形分析,结论:通过数据和图表分析,可以直观判断,得到结论是:吸烟与患肺癌有关.,结论的可靠程度如何?,利用统计分析回答这一问题。,三、独立性检验,设H0:吸烟和患肺癌之间没有关系,用 A 表示“不吸烟”, B 表示“不患肺癌”,则 H0:吸烟和患肺癌之间没有关系,“吸烟”与“患肺癌”独立,H0,等价于,等价于,事件AB恰好发生的频数a,事件A发生的频数a+b,事件B发生的频数a+c.,A 表示“不吸烟”, B 表示“不患肺癌”,用字母代替数据,得列联表,(样本容量),H0成立,(a+b+c+d)a(a+b)(a+c),引入一个随机变量,为了使不同样本容量的数据有统一的评判标准,读作:“卡方”,通过公式计算,k=,k为K2的观测值。这个值告诉我们什么呢?,1.计算K2的值,已知在 成立的情况下,概率不会超过,即在 成立的情况下,K2 大于6.635概率非常小,近似为0.01,是一个小概率事件。,现在的K2=56.632的观测值远大于6.635,所以有理由断定H0不成立,即认为“吸烟与患肺癌有关系”。即有99的把握认为“吸烟与患肺癌有关系”,利用上述随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验思想。,2.如何判断K2的观测值是大还是小?,需确定一个正数k0,它的判断规则: 如果k k0,则认为“两个分类变量之间有关系”,否则就认为“两个分类变量之间没有关系”。 称k0为一个判断规则的临界值。,当k k0时,解释为有(1P(K2k0))100的把握认为“两个分类变量之间有关系”;,当k6.635,就有99的把握认为“X与Y有关系”;如果k3.841,就有95的把握认为“X与Y有关系”;如果k2.706,就认为没有充分证据显示“X与Y有关系”。,例1.为考察高中生性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:,性别与喜欢数学课程列联表,由表中数据计算得 ,高中生的性别与是否喜欢数学课程之间是否有关系?为什么?,a,c,d,b,四、应用,解:因为,就有95的把握认为高中生的性别与喜欢数学课之间有关系。,题后感悟解独立性检验问题的基本步骤(1)认真读题,指出相关数据,得出22列联表;(2)根据22列联表中的数据,计算K2的观测值k;(3)通过观测值k与临界值k0的比较;(4)在犯错误的概率不超过的前提下能否推断“X与Y有关系”,独立性检验基本的思想类似反证法,(1)假设结论不成立,即“两个分类变量没有关系”.(2)在此假设下随机变量 K2 应该很小,如果由观测数据计算得到K2的观测值k很大,则在一定程度上说明假设不合理.(3)根据随机变量K2的含义,可以通过评价该假设不合理的程度,由实际计算出的,说明假设不合理的程度为99.9%,即“两个分类变量有关系”这一结论成立的可信度为约为99.9%.,优化设计 随堂练习1,2,3,4,题型一两分类变量关系的直观分析,为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:,【解】等高条形图如图所示:其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率由图可以直观地看出铅中毒病人与对照组相比较尿棕色素为阳性差异明显,因此铅中毒病人与尿棕色素为阳性存在关联关系,【点评】在判断两个变量是否有关系时,通过作出等高条形图,能直观地反映数据的情况,从中清晰地看出各个频数的相对大小,粗略判断两个分类变量是否有关系要注意的是这种判断不能精确地给出其犯错误的概率,跟踪训练1在一次恶劣气候的飞行航程中,调查男女乘客在机上晕机的情况如下表所示画出等高条形图,判断在恶劣气候飞行中男性比女性是否更容易晕机?,根据所给的数据,能否在犯错误的概率不超过0.1的前提下认为在天气恶劣的飞行过程中,男乘客比女乘客更容易晕机?,解:由数据的列联表可以得到等高条形图为:从上图中可以发现男性中晕机的人的频率与女性中晕机的人的频率相差较大,故我们认为性别和是否晕机是有关系的,且在恶劣气候飞行中男性比女性更容易晕机,因此,在犯错误的概率不超过0.1的前提下,认为在天气恶劣的飞行过程中,男乘客比女乘客更容易晕机。,1K2的计算公式中字母取值勿取错;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论