【教案】8.3.1分类变量与列联表教学设计-高二下学期数学人教A版(2019)选择性必修第三册_第1页
【教案】8.3.1分类变量与列联表教学设计-高二下学期数学人教A版(2019)选择性必修第三册_第2页
【教案】8.3.1分类变量与列联表教学设计-高二下学期数学人教A版(2019)选择性必修第三册_第3页
【教案】8.3.1分类变量与列联表教学设计-高二下学期数学人教A版(2019)选择性必修第三册_第4页
【教案】8.3.1分类变量与列联表教学设计-高二下学期数学人教A版(2019)选择性必修第三册_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、8.3 列联表与独立性检验8.3.1 分类变量与列联表一、教学内容与内容解析1. 内容:分类变量的概念、2×2列联表、等高条形图2. 内容解析:(1) 引入分类变量的必要性:在当今大数据时代和“互联网 + ”的大背景下, 本节课对提升学生的数据分析素养和提高学生的信息处理能力起到一个至关重要的作用. “独立性检验”是在考察两个分类变量之间是否具有相关性的背景下提出的. 因此,教材上首先提到了分类变量的概念,并给出了考察两个分类变量之间是否相关的一种简单的思路,即利用随机抽样获得一定的样本数据,再利用随机事件发生的频率稳定于概率的原理,求出相关概率进行比较,或借助更加直观的方法等高条形

2、图, 为后续引出相对更精确的解决办法独立性检验做铺垫.(2) 分类变量:分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售业”、“旅游业”、“汽车制造业”等. 教材首先举例说明了前面两节讨论的变量都是数值变量, 通过数值变量与分类变量的对比,引出分类变量.从而引出我们本节课主要讨论分类变量的关联性问题.(3) 2×2列联表:实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存. 教材通过举例的方法介绍了什么是2×2列联表. 2&#

3、215;2列联表给出了成对分类变量数据的交叉分类频数. (4) 等高条形图:教材介绍了如何通过不同的统计软件绘制等高条形图,并让学生感受利用等高堆积条形图可以更加直观地展示分类变量的关联性. 3. 教学重点:(1) 通过案例的分析研究,展现统计中数据分析的全过程.(2) 让学生体会分析分类变量关联性的方法,并意识到这种分析得到的结果有可能是错误的.二、教学目标与目标解析1. 目标:(1)了解分类变量与数值变量的区别.(2)了解回归与相关的区别.(3)通过实例,理解通过比较相关比率,利用2×2列联表或等高图可以初步检验两个随机变量的独立性.(4)通过对建立回归分析模型步骤的回忆,获得分

4、析统计案例的一般性过程;能够将研究统计案例的一般化步骤应用到新的统计案例中.(5)理解通过比较相关比率判断随机变量独立性得到的结果有可能会犯错误.2. 目标解析:达成上述目标的标志分别是:(1)会判断一个变量是否是分类变量、是否是数值变量.(2)面对不同的数据分析案例,知道什么时候用回归分析,什么时候用相关分析.(3)会通过比较相关比率,判断两个随机变量的独立性.(4)会对简单的数据分析案例进行初步独立性分析.(5)明白通过比较相关比率判断随机变量独立性得到的结果有可能会犯错误,为下节课独立性检验做准备.三、教学问题诊断解析1. 问题诊断(1)回归和相关的区别是初学者容易感到迷惑的地方.也是本

5、章内容的重点,我们要从课前预习、课中设问、课后反思的不同学习阶段突出重点、突破难点.(2)通过频率分析法和图形分析法,得到的结论有可能是错误的,是同学们的理解难点,这里通过合理设问突破难点.2. 教学难点分析清楚回归与相关的区别.四、教学支持条件分析本节课研究的是2019人教A版普通高中教科书·数学 (选择性必修·第三册)第八章“成对数据的统计分析”,第三节“列联表与独立性检验”的内容,是在前面学生学习的普通高中教科书· 数学(必修·第二册)(第九章“统计”) 中的统计知识的进一步应用, 并与本册教材前面提到的事件的独立性一节关系紧密. 本节课是在学生学

6、习完回归分析之后的内容,所以可以将上一节课的统计研究方法进行总结,并应用到本节课的统计案例中来. 五、教学过程设计引导语 在现实生活中,人们经常需要回答例如吸烟是否会增加患肺癌的风险,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别等等这样一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题,本节将要学习的独立性检验方法为我们提供了解决这类问题的方案. 1. 概念解析1数值变量:是说明事物数字特征的一个名称,其取值是数值型数据.其大小和运算都有实际意义,如人的身高、树的胸径、树的高度等.分类变量:是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个

7、分类变量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售业”、“旅游业”、“汽车制造业”等. 补充 1:分类变量的取值可以用实数表示,例如,男性、女性可以用1,0表示,在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意义,本节我们主要讨论取值于0,1的分类变量的关联性问题.补充 2:前面两节所讨论的变量,如人的身高、树的胸径、树的高度、短跑100m世界纪录和创纪录的时间等,都是数值变量,数值变量的取值为实数.其大小和运算都有实际含义.补充3:回归分析法和相关分析法是统计学中的两种重要方法,前者用于由一个变量的变化去推测另一个变量的变化,通常用于数值变量的研究

8、,后者研究随机变量之间的相关关系,通常用于分类变量的研究.设计意图理解数值变量与分类变量的区别对理解回归分析法与相关分析法的区别起着至关要的作用,概念解析1的设计意图即是帮助理解回归分析法与相关分析法的区别,为突破这一教学难点做铺垫.2. 问题探究1问题1. 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查,全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼. 你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?补充4:这是一个简单的统计问题,

9、最直接的解答方法是,比较经常锻炼的学生在女生和男生中的比率,为了方便,我们设f0=经常锻炼的女生数女生总数, f1=经常锻炼的男生数男生总数那么,只要求出f0和f1的值,通过比较这两个值的大小,就可以知道女生和男生在锻炼的经常性方面是否有差异,由所给的数据,经计算得到f0=3315230.633, f1=4736010.787. 由f1 - f0  0.787-0.633=0.154可知,男生经常锻炼的比率比女生高出15.4个百分点.所以该校的女生和男生在体育锻练的经常性方面有差异,而且男生更经常锻炼.设计意图给出本节课第一个重点,判断两个分类变量之间关联关系的方法1频率分析法.补充

10、5:除此之外,上面的问题还可以通过建立一个古典概型,使用条件概率的语言,给出另外一种解答方法.用表示该校全体学生构成的集合,这是我们所关心的对象的总体,考虑以为样本空间的古典概型,并定义一对分类变量X和Y如下:对于中的每一名学生,分别令X=0,该生为女生1,该生为男生,Y=0,该生不经常锻炼1,该生经常锻炼   ,“性别对体育锻炼的经常性没有影响”可以描述为P(Y=1|X=0)=P(Y=1|X=1);“性别对体育锻炼的经常性有影响”可以描述为P(Y=1|X=0)P(Y=1|X=1). 我们希望通过比较条件概率P(Y=1|X=0)和P(Y=1|X=1)回答上面的问题

11、.按照条概率的直观解释,如果从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率是P(Y=1|X=0),而该男生属于经常锻炼群体的概率是P(Y=1|X=1).为了清楚起见,我们用表格整理数据性别锻炼合计不经常(Y=0)经常(Y=1)女生(X=0)192331523男生(X=1)128473601合计3208041124我们用X=0,Y=1表示事件X=0和Y=1的积事件,用X=1,Y=1表示事件X=1和Y=1的积事件,根据古典概型和条件概率的计算公式,我们有P(Y=1|X=0)=n(X=0,Y=1)n(X=0)=3315230.633;P(Y=1|X=1)=n(X=1,Y=1)

12、n(X=1)=4736010.787由P(Y=1|X=1)>P(Y=1|X=0),可以做出判断,在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼.设计意图给出本节课第二个重点,判断两个分类变量之间关联关系方法1的另外一种表述方法使用条件概率的语言,给出解答.3. 概念解析2在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将下表这种形式的数据统计表称为2×2列联表(contingency table).2×2列联表给出了成对分类变量数据的交叉分类频数

13、,以右表为例,它包含了X和Y的如下信息:最后一行的前两个数分别是事件Y=0和Y=1中样本点的个数;最后一列的前两个数分别是事件X=0和X=1中样本点的个数;中间的四个格中的数是表格的核心部分,给出了事件X=x,Y=y(x,y=0,1)中样本点的个数;右下角格中的数是样本空间中样本点的总数.性别锻炼合计不经常(Y=0)经常(Y=1)女生(X=0)192331523男生(X=1)128473601合计3208041124设计意图给出本节课第三个重点,举例说明什么是2×2列联表.4. 典例解析例1.为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下

14、数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀,试分析两校学生中数学成绩优秀率之间是否存在差异.解:用表示两所学校的全体学生构成的集合.考虑以为样本空间的古典概型.对于中每一名学生,定义分类变量X和Y如下:X=0,该生来自甲校1,该生来自乙校,y=0,该生数学成绩不优秀1,该生数学成绩优秀    ,学校数学成绩合计不优秀(Y=0)优秀(Y=1)甲校(X=0)331043乙校(X=1)38745合计711788我们将所给数据整理成表(单位:人)表是关于分类变量X和Y的抽样数据的2×2列联表:最后一行的前两个数分别是

15、事件(Y=0)和(Y=1)的频数;最后一列的前两个数分别是事件(X=0)和(X=1)的频数;中间的四个格中的数是事件(X=x,Y=y)(x,y=0,1)的频数;甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为33 43 0.7674和10 43  0.2326;乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为38 45  0.8444和7 45  0.1556设计意图(1)巩固判断两个分类变量之间关联关系的方法1频率分析法.(2)引出判断两个分类变量之间关联关系的方法1图形分析法.(3)由于频率和概率之间存在误

16、差,所以此例题可以说明方法一的局限性,为引出第二节课,独立性检验做铺垫.补充6.我们可以用等高堆积条形图直观地展示上述计算结果,如图所示上边绿色和粉色条的长度分别是乙校学生中数学成绩不优秀和数学成绩优秀的频率;下边绿色和粉色条的长度分别是甲校学生中数学成绩不优秀和数学成绩优秀的频率,由此可以直观地看出,甲校学生数学成绩的优秀率比乙校学生的高.通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率,依据频率稳定于概率的原理,我们可以推断P(Y=1|X=0)>P(Y=1|X=1).也就是说,如果从甲校和乙校各随机选取一名学生,那么甲校学生数学成绩优秀的概

17、率大于乙校学生数学成绩优秀的概率,因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.设计意图给出本节课重点,判断两个分类变量之间关联关系的方法1图形分析法.补充7.如何画出等高堆积条形图?根据教材提示,用R软件及Excel软件得到等高条形图,这里给同学们展示如何通过Excel软件画出等高条形图.设计意图提高学生Excel软件应用能力.5总结:两个分类变量之间关联关系的定性分析的方法:(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变量之间是否有关联关系.如可以通过列联表中aa+b与cc+d值的大小粗略地判断分类变量X

18、和Y之间有无关系.一般其值相差越大,分类变量有关系的可能性越大.(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变量间是否互相影响,常用等高堆积条形图展示列联表数据的频率特征.将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图.等高堆积条形图可以展示列联表数据的频率特征,能够直观地反映出两个分类变量间是否相互影响.【设计意图】总结本节课重点,为引出下节课做准备.问题探究2.你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?有可能因为“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有

19、可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大. 因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算. 后面,我们将讨论犯这种错误的概率大小问题. 学习“独立性检验”.【设计意图】引发学生思考,承前启后.六、板书设计一、概念:数值变量 分类变量2×2列联表等高堆积条形图二、两个分类变量之间关联关系的定性分析的方法:(1)频率分析法(2)图形分析法探究一:例一:(规范解答)七、目标检测设计检测 1 如图列联表中,的值分别为( )总计2348总计78121A54,43B53,43C53,42D54,42检测 2 假设有两个分类变量X和Y,它们的取值分别为x1,x2和y1,y2,其2×2列联表如下:y1y2总计x1ababx2cdcd总计acbdabcd在下列数据中,对同一样本能说明X与Y有关的可能性最大的一组为()Aa5,b7,c6,d5Ba

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论