(教案)第一章统计案例复习_第1页
(教案)第一章统计案例复习_第2页
(教案)第一章统计案例复习_第3页
(教案)第一章统计案例复习_第4页
(教案)第一章统计案例复习_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章统计案例复习稿件授课教师: 王宏 郭懿一、复习导言本章主要内容独立性检验的思想与回归分析的应用,主要通过案例体会运用统计方法解决实际问题的思想与方法。统计案例是实用性很强的知识,以统计案例为背景命题应用性试题,考查基础知识和基本方法的同时,考查运用所学知识解决实际问题的能力,还体现以知识为依托,突出对思想方法的考查。所以高考要注意统计应用问题的考查。二、要求1、通过对典型案例的探究,进一步了解回归的基本思想、方法及初步应用,会用判断线性回归模型的拟合效果。2、理解独立性检验的基本思想,掌握假设检验的思想在独立性检验中的应用,能解决一些统计案例。三、要点精析(一)回归分析1、回归分析是处理

2、变量之间_的一种统计方法,若两个变量之间具有线性相关关系,则称相应的回归分析为线性回归分析。2、线性回归方程_,其中,称为回归系数,_称为样本的中心点,回归直线经过样本点的中心。【答案】1.相关关系; 2.; (二)相关关系与相关检验1、相关关系是非随机变量与随机变量之间的关系,如人的身高与年龄,商品的销售额与广告费等关系都是相关关系,它是一种_,而不是函数关系。2、样本相关系数:用来对变量x与Y作相关性检验的统计量,用r来表示。r=_.3、r的性质:具有相关关系的两个变量之间关系的强弱是通过相关系数来衡量的,当r>0时,表明两个变量_;当r<0时,表明两个变量_。越接近于1,表明

3、两个变量的线性相关性越强;越接近于0,表明两个变量之间几乎不存在线性相关关系;通常当大于_时,我们认为两个变量之间存在着很强的线性相关关系;当小于0.75时寻求直线没有意义。4.相关性检验:对变量x与Y是否线性相关进行的检验称为_。其步骤如下:作统计假设:假设x与Y不具有线性相关关系;根据小概率0.05与n-2在附表中查出r的一个临界值;计算r的值;作统计推断:若,则有_的把握认为x与Y具有线性相关关系,即拒绝假设;若,则接受假设。【答案】:1. 非确定性关系;2.;3. 正相关; 负相关; 0.75; 4. 相关性检验; 95%.(三)回归效果三个统计量1、总偏差平方和_,它是所有单个样本值

4、与样本均值的差的平方和,表示的是总的效应。2、残差平方和:数据点与它在回归直线上的相应位置的差异称为残差,将所得的残差值平方相加得_,称之为残差平方和,代表了随机误差的效应。3、回归平方和:_,它是解释变量的效应。【答案】:1. ;2.; 3. 。(四)残差分析的方法1、相关指数法,可以用相关指数来刻画回归效果,其计算公式:=_,的值越大 ,说明残差平方和越小,模型的拟合效果越好。2、作残差图,如果残差点比较均匀地落在_中,说明选用的模型比较合适,这样的带状区域越窄,说明选用模型的拟合精确度越高。由于误差e受许多条件的影响,也受我们所选用的线性模型的影响,因此线性模型往往只是一种近似的模型。【

5、答案】1. 1- ; 2. 水平带状区域;(五)2×2列联表1、含义:用于检验2×2列联表中的两个事件A与B是否独立的一种统计学中常用的检验方法,称为_。一般地,假设有两个分类变量X和Y,它们的取值分别为和,其样本的频数列联表(2×2列联表)为: 总计 a b a+b c d c+d 总计 a+c b+da+b+c+d若要推断的论述为:“X与Y有关系”,可以按如下步骤判断产量的可能性:(1)通过_可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度。在三维柱形图中,主对角线上两个柱形高的乘积ad与副对角线上两个柱形高的乘积bc相乘越大

6、,成立的可能性就越大。在二维条形图中,可以估计图形满足X=的个体中具有Y=的个体所占的比例_,也可以估计满足条件X=的个体中具有Y=的个体所占的比例,两个比例相差越大,成立的可能性就越大。(2)用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度,具体步骤为:假设两个分类变量X与Y无关;统计学中一个非常有用的统计量,读作:卡方,计算出随机变量的观测值K=_;把k的值与临界值比较确定X与Y有关系的程度。(3)步骤:统计假设:假设事件A与B独立,即事件A与B无关;计算的值;统计决断:若>3.841,则有_的把握说事件A与B有关;若>6.635,则有_的把握说事

7、件A与B有关;若,认为事件A与B无关。【答案】:1. 独立性检验;三维柱形图和二维条形图;2. 3. 95%;99%。四、题型解析类型一线性回归方程的实际应用例1 在某化学试验中,测得如下表所示的6组数据,其中x(min)表示化学反应进行的时间,y(mg)表示未转化的物质的量x/min 1 2 3 4 5 6y/mg 39.8 32.2 25.4 20.3 16.2 13.3 (1)设y与x之间具有关系,试根据测量数据估计c和d的值;(2)估计化学反应进行到10min时未转化的物质的量。解:(1)在的两边取自然对数,可以得到lny=lnc+xlnd,设lny=z,lnc=a,lnd=b,则z=

8、a+bx,又由已知数据可以得到下表:x/min 1 2 3 4 5 6y/mg 39.8 32.2 25.4 20.3 16.2 13.3z=lny 3.684 3.472 3.235 3.011 2.785 2.588由公式得,z关于x的线性回归方程为,即,所以,根据测量数据估计c=49.6898,d=0.8010.(2)由(1)知y与x之间的关系为,当x=10时,所以当化学反应进行到10min时,未转化的物质的量为5.4mg. 点评:在实际问题中,有时两个变量之间并不是线性相关关系,这就需要我们根据已有的知识或散点图选择适当的曲线方程,然后通过适当的变量代换,把非线性问题转化为线性回归问题

9、,从而确定未知参数,建立相应的回归方程。类型二独立性检验的应用例2 在国家实施西部开发战略前,一新闻单位在应届大学毕业生中随机抽取1000人作问卷调查,只有80人志愿加入西部建设,而国家公布实施西部开发战略后,随机抽取1200名应届大学毕业生作问卷调查,有400人志愿加入国家西部建设。问实施西部开发战略的公布是否对应届大学毕业生的选择产生影响?分析:本题是一道信息题,独立性检验在应用于很大领域时需要通过建立模型实现信息迁移,即将信息转化为2×2列联表形式,再通过计算统计量得出相应的结论。解:根据题意,列出2×2列联表,如下: 自愿者 非志愿者 总计西部开发战略公布前 80

10、920 1000西部开发战略公布后 400 800 1200总计 480 1720 2200由公式计算统计量得:,因为205.22>6.635,所以有99%的把握认为实数西部开发战略的公布对应届大学毕业生的选择产生了影响。点评:即使不进行独立性检验,我们也能正确判断出“开发战略“起了作用,但利用统计量所得结果更具有说服力,还可以说明西部开发战略具有很大的带动作用。例3、某同学对一些人进行了喜爱运动与身体健康的关系的调查,在填写列联表时,不慎写错了几个数据,他一气之下将写错的数全都涂掉了,残表如下: 喜爱运动 不喜爱运动 总计 身体健康 30 A 50 身体不健康 B 10 60 总计 C

11、 D E请问借助这个残表能判断出运动与身体健康有关吗?解:根据列联表的特点,由30+A=50得A=20,B+10=60得B=50,30+B=C因此C=80,A+10=D得D=30,又C+D=E,得E=110. 即完整的列联表如下: 喜爱运动 不喜爱运动 总计 身体健康 30 20 50 身体不健康 50 10 60 总计 80 30 110由于,所以借助这个列表我们有99%的把握认为喜爱运河与身体健康有关。 点评:本题考查列联表的性质(即列联表中各数据之间的关系),虽然本题不难,但考查的方式及命题角度值得我们重视。类型三创新探索性问题例4、有两个分类变量X与Y,其一组观测值如下面的2×

12、;2列联表所示: a 20-a 15-a 30+a其中,a,15-a均为大于5的整数,则a取何值时,有90%的把握认为“X与Y之间有关系”?分析:要有90%的把握认为“X与Y之间有关系“,需要检测随机变量的观测值大于2.706,故所求得的观测值后解不等式即可。 解:要有90%的把握认为“X与Y之间有关系“,需要随机变量的观测值大于2.706,因为a+(20-a)=20,(15-a)+(30+a)=45,a+(15-a)=15,(20-a)+(30+a)=50,a+(20-a)+(15-a)+(30+a)=65,则,解之可得a>7.19或a<2.04,而由原题知a>5且15-a

13、>5,即a=6,7,8,9故当a=8或9时,有90%的把握认为X与Y之间有关系。 点评:本题是已知的范围逆向求a,注意还要考虑a的可能取值,也可以先得出a的四个可能取值,再代入求来验证找出满足要求的a的值。类型四综合交汇以及图表信息题例5.某学校课题组为了研究学生的数学成绩与物理成绩之间的关系,随机抽取高二年级20名学生某次考试成绩(满分100分)如下表所示: 若单科成绩85分以上(含85分),则该科成绩为优秀(1)根据上表完成下面的2×2列联表(译位:人): (2)根据题(1)中表格的数据计算,有多大的把握,认为学生的数学成绩与物理成绩 之间有关系?分析:通过认识图表、填写图

14、表,把问题转化为2×2列联表独立性检验问题。利用已知条件来判断两个分类变量是否具有关系,可以先假设两个变量之间没有关系,再计算的值,如果的值越大,说明两个变量之间有关系的可能性也就越大,再参考临界值,从而判断两个变量有关系的可信程度。解析:(1):2列联表为(单位:人)(2)解:提出假设H:学生数学成绩与物理成绩之间没有关系:根据列联表可以求得:,当H成立时,P(K,所以我们有99.5%的把握认为:学生的数学成绩与物理成绩之间有关系。 点评:在利用统计变量进行独立性检验时,应该注意准确代数和正确计算,再把计算的结果与有关临界值相比较,正确下结论。 例6.某体育训练队共有队员40人,下

15、表为跳高、跳远成绩的分布表,成绩分为15个档次,例如表中所示跳高成绩为4分,跳远成绩为2分的队员有5人。将全部队员的姓名卡混合在一起,任取一张,该卡队员的跳高成绩为x,跳远成绩为y,设x,y为随机变量(注:没有相同姓名的队员)y x 跳 远 5 4 3 2 1 跳 高 5 1 3 1 0 1 4 1 0 2 5 1 3 2 1 0 4 3 2 1 1 6 0 3 1 0 0 1 1 3(1)求x4的概率及x4且的概率;(2)若跳远、跳高成绩相等时的人数分别为c,d,试问:c,d是否具有线性相关关系?若有,求出回归直线方程;若没有,请说明理由。 分析:本题是图表信息题,通过阅读图表、绘制图表解决

16、实际问题,能够体现统计的重要思想,即数据处理能力。解:(1)由于队员总数为40,当x4时,即跳高成绩为4分时的队员共9人,于是,x4的概率为;x4且时,即跳高成绩为4分,跳远成绩不低于3分的队员共有3人,于是,x4且的概率为(2)将跳远、跳高成绩及人数整理如下表: 成绩 5 4 3 2 1 跳远c 5 5 10 10 10 跳高d 6 9 10 10 5易得,那么,可见变量d与c不具有线性相关性。点评:本题的第一问是古典概型,第二问是线性回归。本题将这两个内容恰到好处的融为一体。五、备考策略1.统计的基本思维模式是归纳的,它的特征之一是通过部分数据来推测全体数据的性质,因此,统计推断是可能犯错误的,也就是说,我们从数据上体现的只是统计上的关系,而不是因果关系。独立性检验的基本思想类似于反证法,为了探求事件A与B是否有关,首先列出事件A与B的2×2列联表,利用公式计算出统计量,将的数值与两个临界值3.841与6.635进行对比,然后作出统计推断。利用2×2列联表,不仅能考查两个变量之间是否有关,而且还能较精确地给出这种判断的可靠性程度。因此,独立性检验在生物统计、医学统计、处理社会问题

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论