独立性检验的基本思想及其初步应用课件_第1页
独立性检验的基本思想及其初步应用课件_第2页
独立性检验的基本思想及其初步应用课件_第3页
独立性检验的基本思想及其初步应用课件_第4页
独立性检验的基本思想及其初步应用课件_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

3.2独立性检验的基本思想

及其初步应用(第1课时)广东省高州市第三中学陈许聪1

我们经常听到这样的结论:吸烟会容易得肺癌;身高会受到遗传因素的影响;是否喜欢理科和性别有关系。等等。

为了回答这两个问题,就需要同学们认真学习本节课的内容:统计学中的独立性检验的基本思想及其初步应用问题1:这些结论是怎样得出的呢?问题2:你能有“多大把握”认为这些结论是正确的呢?引入新课:那么21、分类变量——变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量

这个表格是为了调查吸烟是否对患肺癌有影响的一个调查表,那么在这里“是否吸烟”和“是否患肺癌”都是分类变量,而且这个表格中还给出了分类变量的频数,比如说…一、有关概念例如,性别,这个变量有什么取值呢?又比如,宗教信仰,国籍等。不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965

这个表格在统计学中又称之为什么呢?再看一个例子:32、列联表——像表中这样列出的两个分类变量的频数表,

问题3:在这个表格中的数据能告诉我们什么样的结论?

在高中阶段我们只研究像下表中那样的2×2列联表:不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计98749199652×2列联表

方法一:

(1)在不吸烟者中患肺癌的比重是

(2)在吸烟者中患肺癌的比重是0.54%2.28%你的结论是:

这组数据如果放到图表中,更能直观的感受到它们的差异!

称为列联表4方法二:通过等高条形图直观判断:等高条形图患肺癌比例不患肺癌比例

从这个等高条形图中,我们更直观地看出吸烟者中患肺癌的比重与不吸烟者中患肺癌的比重有明显差异,从而说明吸烟与患肺癌很有可能是有关系的。思考:这种判断可靠吗?以上方法只回答了我们课前提出的问题1,对于问题2中“把握度”问题还没有解决,也就是说,你能有多大把握认为“吸烟与患肺癌有关”呢?什么是“把握度”?5

1、思想

二、独立性检验的思想

吸烟与患肺癌列联表不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d则:因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;|ad-bc|越大,说明吸烟与患肺癌之间关系越强.

我们知道上面例子表中的数据是从某次调查中随机抽样得来的,带有随机性,为了使统计数据更具一般性,我们把表中数字用字母代替,得到如下用字母表示的列联表:

假设H0:吸烟与患肺癌没有关系即|ad-bc|≈06

为了使不同样本容量的数据有统一的评判标准,基于上面的分析,我们引入一个随机变量

显然,K2的大小变化与|ad-bc|是同步的思考:这个K2的观测值56.632是大还是小?评价标准是什么?这个值到底能告诉我们什么呢?(讨论)

那么上面例子,在假设H0成立,即“吸烟与患肺癌没有关系”成立的前提下,K2应该很小.分析:K2越小,|ad-bc|也越小,说明吸烟与患肺癌之间关系越弱;K2越大,

|ad-bc|也越大,说明吸烟与患肺癌之间关系越强.

(其中n=a+b+c+d为样本容量)

把表中数据代入K2公式,计算得到K2的观测值为7事先给定评价标准k0(临界值)例如取k0=6.635

这个99%就是我们课前提到的一个“把握度”,这个“把握度”会因事先给定的临界值(评价标准)不同而不同。即在假设H0成立的情况下,K2的观测值超过6.635的概率非常小,近似为0.01,是一个小概率事件,也就是说H0这个假设几乎不可能发生的。而统计学家经过研究后发现,在假设H0成立的情况下

P(K2≥6.635)≈0.01(如何理解?)那么K2的观测值远远大于6.635“H0发生”(即吸烟与患肺癌没有关系)的概率是0.01,而“H0不发生”(即吸烟与患肺癌有关系)的概率是0.99因此,我们可以有99%的把握认为吸烟与患肺癌有关系。81/26/20249经过统计学家多年的研究,总结得出如下临界值表:(如何查表?)10.8287.8796.6355.0243.8412.7062.0721.3230.7080.445

k0.0010.0050.0100.0250.050.100.150.50.400.50思考:上面例子中还可以选用哪个临界值(评价标准)?这时的“把握度”又是多少?如何下结论?102、步骤:(3)查临界值表,比较k与k0的大小得出结论。(2)利用公式计算K2的观测值k;(1)写出2×2列联表,确定临界值k0;

(事先给定或默认值2.706)

上面这种利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验。这个检验过程就是独立性检验的思想。11例1

在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶。能否在犯错误的概率不超过0.010的前提下认为秃顶与患心脏病有关系?解:根据题目所给数据得到如下列联表:患心脏病不患心脏病总计秃顶214175389不秃顶4515971048总计6657721437根据联表中的数据,得到因此,在犯错的概率不超过0.01的前提下认为“秃顶与患心脏病”有关系,即有99%的把握认为“秃顶与患心脏病有关”。三、独立性检验思想的初步应用依题意查表可得临界值k0=6.63512讨论:这种独立性检验的思想和以前我们学习的哪种证明方法比较类似?试比较一下这两种原理。反证法原理在假设H0下,如果推出一个矛盾,就证明了H0不成立独立性检验原理在假设H0下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不超过这个小概率。反证法原理与独立性检验原理的比较的比较131、在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()A、若K的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99个患肺病B、从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患肺病C、若从统计量中求出有9

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论