版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 吸烟与肺癌列联表吸烟与肺癌列联表不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟77757775424278177817吸烟吸烟20992099494921482148总计总计98749874919199659965为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了地调查了99659965人,得到如下结果(单位:人)人,得到如下结果(单位:人)列联表列联表在不吸烟者中患肺癌的比重是在不吸烟者中患肺癌的比重是 在吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是 说明:吸烟者和不吸烟者患肺癌的可能性存在差异,说明:吸烟者和不吸烟者患肺癌的可能性存在
2、差异,吸烟者患肺癌的可能性大吸烟者患肺癌的可能性大0.54%0.54%2.28%2.28%1)通过图形直观判断两个分类变量是否相关:通过图形直观判断两个分类变量是否相关:三维柱三维柱状图状图2) 通过图形直观判断两个分类变量是否相关:通过图形直观判断两个分类变量是否相关:二维条二维条形图形图3)通过图形直观判断两个分类变量是否相关:通过图形直观判断两个分类变量是否相关:患肺癌患肺癌比例比例不患肺癌不患肺癌比例比例等高条等高条形图形图 独立性检验H H0 0: 吸烟吸烟和和患肺癌患肺癌之间没有关系之间没有关系 H H1 1: 吸烟吸烟和和患患肺癌肺癌之间有关系之间有关系通过数据和图表分析,得到通
3、过数据和图表分析,得到结论是:结论是:吸烟与患肺癌有关吸烟与患肺癌有关结论的可靠结论的可靠程度如何?程度如何? 用用 A A 表示表示“不吸烟不吸烟”, B B 表示表示“不患肺癌不患肺癌”则则 H0: 吸烟和患肺癌之间没有关系 “吸烟吸烟”与与“患肺癌患肺癌”独立独立, ,即即A A与与B B独立独立P P( (A AB B) )= = P P( (A A) )P P( (B B) )等价于等价于等价于等价于 吸烟与肺癌列联表吸烟与肺癌列联表不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟a ab ba+ba+b吸烟吸烟c cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da
4、+b+c+da a + + b ba a + + c ca aP P( (A A) ), ,P P( (B B) ), ,P P( (A AB B) )n nn nn n其其 中中 n n = = a a + + b b + + c c + + d da a a+ +b b+ +c c+ +d da a+ +b b ( (a a+ +c c) ), ,adbcaa+ba+caa+ba+cnnnnnn2 22 2n n(a ad d- -b bc c)K K = =( (a a+ +b b) )( (c c+ +d d) )( (a a+ +c c) )( (b b+ +d d) ) 独立性检验
5、0.adbca ad d- -b bc c 越越小小,说说明明吸吸烟烟与与患患肺肺癌癌之之间间的的关关系系越越弱弱,ad-bc 越大,说明吸烟与患肺癌之间的关系越强ad-bc 越大,说明吸烟与患肺癌之间的关系越强引入一个随机变量引入一个随机变量作为检验在多大程度上可以认为作为检验在多大程度上可以认为“两个变量两个变量有关系有关系”的标准的标准 。1)1)如果如果P(P(m10.828)= 0.00110.828)= 0.001表示有表示有99.9%99.9%的把握认为的把握认为”X X与与Y”Y”有关有关系系; ;2)2)如果如果P(m7.879)= 0.005P(m7.879)= 0.005
6、表示有表示有99.5%99.5%的把握认为的把握认为”X X与与Y”Y”有关系有关系; ;3)3)如果如果P(m6.635)= 0.01P(m6.635)= 0.01表示有表示有99%99%的把握认为的把握认为”X X与与Y”Y”有关系有关系; ;4)4)如果如果P(m5.024)= 0.025P(m5.024)= 0.025表示有表示有97.5%97.5%的把握认为的把握认为”X X与与Y”Y”有关系有关系; ;5)5)如果如果P(m3.841)= 0.05P(m3.841)= 0.05表示有表示有95%95%的把握认为的把握认为”X X与与Y”Y”有关系有关系; ;6)6)如果如果P(m2
7、.706)= 0.010P(m2.706)= 0.010表示有表示有90%90%的把握认为的把握认为”X X与与Y”Y”有关系有关系; ;7)7)如果如果m m2.706),2.706),就认为没有充分的证据显示就认为没有充分的证据显示”X X与与Y”Y”有关系有关系; ;设有两个分类变量设有两个分类变量X X和和Y Y它们的值域分别为它们的值域分别为xx1 1,x,x2 2 和和yy1 1,y,y2 2 其样本频数列表其样本频数列表( (称为称为2 22 2列联表列联表) ) 为为y y1 1y y2 2总计总计x x1 1a ab ba+ba+bx x2 2c cd dc+dc+d总计总计
8、a+ca+cb+db+da+b+c+da+b+c+d22列联表22()()()()n ad bcKa b c d a c b d()2 2P(k m)P(k m)适用观测数据适用观测数据a a、b b、c c、d d不小于不小于5 5P(x0)0.500.400.250.150.100.050.025 0.010 0.005 0.001x00.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828210.828K 26.635K 22.706K 22.706K 0.1%0.1%把握认把握认为为A A与与B B无关无关1%1%把握认为
9、把握认为A A与与B B无关无关99.9%99.9%把握认把握认为为A A与与B B有关有关99%99%把握认把握认为为A A与与B B有关有关90%90%把握认把握认为为A A与与B B有关有关10%10%把握认为把握认为A A与与B B无关无关没有充分的依据显示没有充分的依据显示A A与与B B有关,有关,但也不能显示但也不能显示A A与与B B无关无关例如例如 独立性检验 吸烟与肺癌列联表吸烟与肺癌列联表不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟7775427817吸烟吸烟2099492148总计总计9874919965通过公式计算通过公式计算2242 209956.6327817
10、 2148 9874 91K9965(7775 49) 独立性检验已知在已知在 成立的情况下,成立的情况下,0H2(6.635)0.01P K 即在即在 成立的情况下,成立的情况下,K K2 2 大于大于6.6356.635概率非常概率非常小,近似为小,近似为0.010.010H现在的现在的K K2 2=56.632=56.632的观测值远大于的观测值远大于6.6356.635所以有理由断定所以有理由断定H H0 0不成立不成立, ,即认为即认为”吸烟与吸烟与患肺癌有关系患肺癌有关系”如下列联表根据题目所给数据得到解秃顶与患心脏病列联表表1131437772665104859745138917
11、5214总计不秃顶秃顶总计患其他病患心脏病例例1.1.在某医院在某医院, ,因为患心脏病而住院的因为患心脏病而住院的665665名男性名男性病人中病人中, ,有有214214人秃顶人秃顶, ,而另外而另外772772名不是因为患心名不是因为患心脏病而住院的男性病人中有脏病而住院的男性病人中有175175人秃顶人秃顶. .分别利用分别利用图形和独立性检验方法判断是否有关图形和独立性检验方法判断是否有关? ?你所得的你所得的结论在什么范围内有效结论在什么范围内有效? ?42.3图图患患心心脏脏病病患患其其他他病病秃秃顶顶不秃顶不秃顶.,.42.3秃顶与患心脏病有关为某种程度上认以在可的乘积要大一些
12、高度体线上两个柱底面副对角较来说比所示如图维柱形图相应的三.635.6373.1677266510483894511755972141437K,11322得到中的数据根据列联表.%99秃顶与患心脏病有关的把握认为所以有.,住院的病人群体因此所得到的结论适合的病人因为这组数据来自住院例例2 2. .为考察高中生性别与是否喜欢数学课为考察高中生性别与是否喜欢数学课程之间的关系程之间的关系, ,在某城市的某校高中生中随在某城市的某校高中生中随机抽取机抽取300300名学生名学生, ,得到如下列联表得到如下列联表: : 性别与喜欢数学课程列联表性别与喜欢数学课程列联表喜欢数学课程喜欢数学课程不喜欢数学
13、课程不喜欢数学课程 总计总计 男男 37 37 85 85 122 122 女女 35 35 143 143 178 178 总计总计 72 72 228 228 300 300由表中数据计算得由表中数据计算得 , ,高中生的高中生的性别与是否喜欢数学课程之间是否有关系性别与是否喜欢数学课程之间是否有关系? ?为什么为什么? ?2 2K K 4 4. .5 51 13 3acdb:,.%95具体过程如下验的基本思想据是独立性检作出这种判断的依课之间有关系性别与喜欢数学以上把握认为可以有约解.dcbabdacdccbaa,dccbaa,.d, c, b, a应很大即相差很多应该数学课的人数比例与
14、女生中喜欢例的比课学数欢中喜生则男系有关课学数欢如果性别与是否喜生人数数、不喜欢数学课的女数学课的女生人数、喜欢不喜欢数学课的男生人的男生人数、表示样本中喜欢数学课分别用,dbcadcbadcba乘以常数因子将上式等号右边的式子 22,n adbcKabcdacbd 然然后后平平方方得得. ,K. dcban2成立的可能性越大欢数学课之间有关系性别与喜越大因此其中.%95,%.5,.A,513.4K.A,05.0841.3KP841.3KA, ,222喜欢数学课之间有关系性别与的把握认为约有所以可能性约为并且这种判断出错的成立欢数学课之间有关系性别与喜我们应该断定据假设检验的基本原理根发生这表
15、明小概率事件据计算得而由样本数是一个小概率事件因此事件的概率为由于事件没有关系性别与喜欢数学课之间假设另一方面独立性检验基本的思想类似独立性检验基本的思想类似反证法反证法( (1)1)假设结论不成立假设结论不成立, ,即即“两个分类变量没有关系两个分类变量没有关系”. .(2)(2)在此假设下随机变量在此假设下随机变量 K K2 2 应该很能小应该很能小, ,如果由观测数据如果由观测数据计算得到计算得到K K2 2的观测值的观测值k k很大很大, ,则在一定程度上说明假设则在一定程度上说明假设不合理不合理. .(3)(3)根据随机变量根据随机变量K K2 2的含义的含义, ,可以通过可以通过评
16、价该假设不合理的程度评价该假设不合理的程度, ,由实际计算出的由实际计算出的, ,说明假设合理的程度为说明假设合理的程度为99.9%,99.9%,即即“两个分类变量有关两个分类变量有关系系”这一结论成立的可信度为约为这一结论成立的可信度为约为99.9%.99.9%.练习:练习: 书书 P 97作业:作业: 书书 P 97 1 , 2 同步同步 P42-43必修必修3(3(第二章第二章 统计统计) )知识结构知识结构 收集数据收集数据 ( (随机抽样随机抽样) )整理、分析数据整理、分析数据估计、推断估计、推断简单随机抽简单随机抽样样分层抽样分层抽样系统抽样系统抽样用样本估计总体用样本估计总体变
17、量间的相关关系变量间的相关关系 用样本用样本的频率的频率分布估分布估计总体计总体分布分布 用样本用样本数字特数字特征估计征估计总体数总体数字特征字特征线性回归分析线性回归分析统计的基本思想统计的基本思想y = f(x)y = f(x)y = f(x)y = f(x)y = f(x)y = f(x)实际实际样本样本模模 拟拟抽抽 样样分分 析析问题问题1 1:正方形的面积正方形的面积y y与正方形的边长与正方形的边长x x之间之间 的的函数关系函数关系是是y = xy = x2 2确定性关系确定性关系问题问题2 2:某水田水稻产量某水田水稻产量y y与施肥量与施肥量x x之间是否之间是否 -有一
18、个确定性的关系?有一个确定性的关系?例如:例如:在在 7 7 块并排、形状大小相同的试验田块并排、形状大小相同的试验田上上 进行施肥量对水稻产量影响的试验,得到进行施肥量对水稻产量影响的试验,得到如下所示的一组数据:如下所示的一组数据:施化肥量施化肥量x x 15 20 25 30 35 40 45 15 20 25 30 35 40 45水稻产量水稻产量y y 330 345 365 405 445 450 455 330 345 365 405 445 450 455复习、变量之间的两种关系复习、变量之间的两种关系自变量取值一定时,因变量的取值带有一定随自变量取值一定时,因变量的取值带有一
19、定随机性的两个变量之间的关系叫做机性的两个变量之间的关系叫做相关关系相关关系。1 1、定义:、定义: 1 1):相关关系是一种不确定性关系;):相关关系是一种不确定性关系;注注对具有相关关系的两个变量进行对具有相关关系的两个变量进行统计分析的方法叫统计分析的方法叫回归分析回归分析。2 2):):2 2、现实生活中存在着大量的相关关系。、现实生活中存在着大量的相关关系。10 20 30 40 5010 20 30 40 50500500450450400400350350300300发现:图中各点,大致分布在某条直线附近。发现:图中各点,大致分布在某条直线附近。探索探索2 2:在这些点附近可画直
20、线不止一条,:在这些点附近可画直线不止一条, 哪条直线最能代表哪条直线最能代表x x与与y y之间的关系呢?之间的关系呢?x xy y施化肥量施化肥量水稻产量水稻产量施化肥量施化肥量x x 15 20 25 30 35 40 45 15 20 25 30 35 40 45水稻产量水稻产量y y 330 345 365 405 445 450 455 330 345 365 405 445 450 455散点图散点图探索探索1 1:水稻产量:水稻产量y y与施肥量与施肥量x x之间大致有何规之间大致有何规律?律?10 20 30 40 50500450400350300 xy施化肥量施化肥量水稻
21、产量水稻产量n n2 2i ii ii i= =1 1Q Q( (a a, ,b b) )= =( (y y - -b bx x - -a a) ) 取取最最小小值值时时, ,a a, ,b b的的值值. .iiii(x ,y )(x ,y )i ii i(x ,y )(x ,y )|i ii i| |y y - -y y推导过程可参阅推导过程可参阅P80最小二乘法:最小二乘法: y = bx+a(x,y)(x,y)称为样本点的中心称为样本点的中心。n n( (x x- - x x) )( (y y- - y y) )i ii ii i= =1 1b b = =n n2 2( (x x- -
22、x x) )i ii i= =1 1a a = = y y - - b bx x. .n nn n1 11 1其其 中中 x x = =x x , ,y y = =y y . .i ii in nn ni i= =1 1i i= =1 1n niiiii=1i=1n n2 22 2i ii=1i=1x y -nxyx y -nxy=,=,x-nxx-nx3 3、对两个变量进行的线性分析叫做、对两个变量进行的线性分析叫做线性线性回归分析回归分析。2 2、回归直线方程:、回归直线方程:n nn ni ii ii ii ii i= =1 1i i= =1 1n nn n2 22 22 2i ii i
23、i i= =1 1i i= =1 1( (x x - -x x) )( (y y - -y y) )x x- -n nx xy yb b = = =, ,( (x x - -x x) )x x - -n nx xa a = = y y- -b bx xy y2.2.相应的直线叫做相应的直线叫做回归直线回归直线。1 1、所求直线方程、所求直线方程 叫做叫做回归直回归直 -线方程线方程;其中;其中 y = bx+ay = bx+a相关系数相关系数v 1. 1.计算公式计算公式v2 2相关系数的性质相关系数的性质v(1)|r|1(1)|r|1v(2)|r|(2)|r|越接近于越接近于1 1,相关程度
24、越大;,相关程度越大;|r|r|越接越接近于近于0 0,相关程度越小,相关程度越小v问题:达到怎样程度,问题:达到怎样程度,x x、y y才线性相关呢?才线性相关呢?它们的相关程度怎样呢?它们的相关程度怎样呢?n ni ii ii i= =1 1n nn n2 22 2i ii ii i= =1 1i i= =1 1( (x x - - x x) )( (y y - - y y) )r r = =( (x x - - x x) )( (y y - - y y) )正相关正相关负相关负相关n ni ii ii i= =1 1n nn n2 22 2i ii ii i= =1 1i i= =1 1
25、( (x x - -x x) )( (y y - -y y) )( (x x - -x x) ) ( (y y - -y y) )r 相关系数相关系数正相关;负相关正相关;负相关通常:通常:r-1,-r-1,-0.75-0.75-负相关很强负相关很强; ; r0.75,1r0.75,1正相关很强正相关很强; ; r-0.75,-0.3-r-0.75,-0.3-负相关一般负相关一般; ; r0.3, 0.75r0.3, 0.75正相关一般正相关一般; ; r-0.25, r-0.25, 0.25-0.25-相关性较弱相关性较弱; ; 对对r r进行显进行显著性检验著性检验 10 20 30 40
26、 5010 20 30 40 50500500450450400400350350300300 xy施化肥量施化肥量水稻产量水稻产量施化肥量施化肥量x x 15 20 25 30 35 40 45 15 20 25 30 35 40 45水稻产量水稻产量y y 330 345 365 405 445 450 455 330 345 365 405 445 450 455解解: 1.画出散点图画出散点图2.求出求出= 4.75, = 256.79= 4.75, = 256.79ba3.写出回归方程写出回归方程 y = 4.75x+256.79y = 4.75x+256.794.计算相关系数计算相
27、关系数r r = = 0 0. .9 97 71 18 8回归分析的内容与步骤:回归分析的内容与步骤:统计检验通过后,最后是统计检验通过后,最后是利用回归模型,根据自变量去估计、利用回归模型,根据自变量去估计、预测因变量预测因变量。 回归分析通过一个变量或一些变量的变化解释回归分析通过一个变量或一些变量的变化解释另一变量的变化。另一变量的变化。 其主要内容和步骤是:其主要内容和步骤是:首先根据理论和对问题的分析判断,首先根据理论和对问题的分析判断,将变量分为自变量和因变将变量分为自变量和因变量量;其次,设法其次,设法找出合适的数学方程式(即回归模型)找出合适的数学方程式(即回归模型)描述变量间
28、描述变量间的关系;的关系;由于涉及到的变量具有不确定性,接着还要由于涉及到的变量具有不确定性,接着还要对回归模型进行对回归模型进行统计检验统计检验;案例案例1 1 从某大学中随机选出从某大学中随机选出8 8名女大学生,其身名女大学生,其身高和体重数据如下表:高和体重数据如下表:编号编号1 12 23 34 45 56 67 78 8身高身高165165165165157157170170175175165165155155170170体重体重48485757505054546464616143435959求根据一名女大学生的身高预报她的体重的求根据一名女大学生的身高预报她的体重的回归方程,并预
29、报一名身高为回归方程,并预报一名身高为172172的女的女大学生的体重。大学生的体重。172.85849. 0 xy分析:由于问题中分析:由于问题中要求根据身高预报要求根据身高预报体重,因此选取身体重,因此选取身高为自变量,体重高为自变量,体重为因变量为因变量学学身身高高1 17 72 2c cm m女女大大生生体体重重y y = = 0 0. .8 84 49 91 17 72 2- -8 85 5. .7 71 12 2 = = 6 60 0. .3 31 16 6( (k kg g) )2.2.回归方程:回归方程:1. 散点图;散点图;本例中本例中, r=0.7980.75这表明体重与身
30、高有很强的线性相关关这表明体重与身高有很强的线性相关关系,从而也表明我们建立的回归模型是有意义的。系,从而也表明我们建立的回归模型是有意义的。探究:探究:身高为身高为172cm的女大学生的体重一定是的女大学生的体重一定是60.316kg吗?如果不是,你能解析一下原因吗?吗?如果不是,你能解析一下原因吗?答:身高为答:身高为172cm的女大学生的体重不一定是的女大学生的体重不一定是60.316kg,但一般可以认为她的体重接近于,但一般可以认为她的体重接近于60.316kg。即,用这个回归方程不能给出每个身高为即,用这个回归方程不能给出每个身高为172cm的女大学生的体重的预测值,只能给出她们平均
31、的女大学生的体重的预测值,只能给出她们平均体重的值。体重的值。(1 1)由图形观察可以看出,样本点呈条状分)由图形观察可以看出,样本点呈条状分布,身高和体重有比较好的线性相关关系,因布,身高和体重有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系。此可以用线性回归方程刻画它们之间的关系。 y y(2 2)从散点图还可以看到,样本点散布在某一条)从散点图还可以看到,样本点散布在某一条直线的附近,而不是一条直线上,所以不能用一次直线的附近,而不是一条直线上,所以不能用一次函数来描述它们之间的关系。这时我函数来描述它们之间的关系。这时我们用下面的线性回归模型来描述身高和体重的关系:们用下面的线性回归模型来描述身高和体重的关系:+ +其中和为模型的其中和为模型的未知参数未知参数,e e是是y y与与 之间的误差之间的误差, ,通常通常称为称为随机误差随机误差。 y2 2它它的的均均值值E E( (e e) )= = 0 0, ,方方差差D D( (e e) )= = 0 0线性回归模型线性回归模型 + +2 2E E( (e e) )= = 0 0, , D D( (e e) )= = y+ +其中和为模
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医疗设备效益提升的瓶颈与突破策略
- 医疗设备服务价格策略与成本控制
- 医疗设备报废处置的供应链优化策略
- 医疗设备供应链中的绿色包装应用方案
- 医学伦理与医疗法律知识
- 2026年内蒙古机电职业技术学院单招职业适应性测试题库及参考答案详解一套
- 哈尔滨多棱镜课件
- 2026年遂宁工程职业学院单招职业技能测试题库含答案详解
- 2026年安顺职业技术学院单招职业适应性考试题库及参考答案详解1套
- 2026年湖南科技职业学院单招职业倾向性测试题库参考答案详解
- 游戏动漫人体结构造型手绘技法
- 消毒供应中心护理质量课件
- 2024年浙江义乌市商城集团招聘笔试参考题库含答案解析
- 大学《中国特色社会主义理论体系》期末复习章节重点及试题解析
- 拓展课水晶滴胶的制作
- 读后续写+The+lost+gold+piece+课件【高效课堂精讲精研】 高三英语二轮复习
- 捷盟-03-京唐港组织设计与岗位管理方案0528-定稿
- 产品过程检验与试验检验规程
- 物业二次装修管理规定
- GB/T 22234-2008基于GHS的化学品标签规范
- GB/T 18894-2016电子文件归档与电子档案管理规范
评论
0/150
提交评论