




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、变虽间的相关关系与统计案例【知识要点】1. 相关关系的判断如果散点图中点的分布从整体上看大致在一条直线的附近,我们说变量x和y具有线性相关关系.n(Xi X)(yi y)(2)样本数据(Xi,yi)(i= 1,2,n)的相关系数r i i 当r 0时,1nnJ (x X)2 ' (yi y)2 i 1 i 1两变量正相关,当r 0时,两变量负相关,当|r| 1且|r|越接近于1,相关程度越高,当|r | 1且|r |越接近于0,相关程度越低.2. 回归方程的求法求回归方程的方法是最小二乘法,即使得样本数据的点到回归直线的距离的平方和最小.假设变量x与y具有线性相关关系,有 n个样本数据
2、(xi, yi) (i = 1,2,n),那么回归方程y bx a中斜率和截距的最小二乘估计公式分别为:nn_(x X)(yi ;) i 1xyi nxy -b nz ,a y bx222(x x)x nxi 1i 1-1 n -1 n广一、其中x , Xi , y - yi , (x, y)称为样本点的中央.【重点】 回归直线y bx a必过样本点的中央(x, y),这个结论既是检验所求回归直线 方程是否准确的依据,也是求参数的一个依据.3. 独立性检验设X, Y为两个变量,它们的取值分别为x,x2)和( y1, y2,其样本频数列联表(2汲y1y2总计x1aba+ bx2cdc+ d总计a
3、 + cb+ da + b+ c+ d列联表)如下:P(K2 k)0. 0500. 0100. 001k3. 8416. 63510. 8282利用随机变量k2 (其中n a b c d为样本容量)来判断 两个变量有关系的方法称为独立性检验.【例题解析】题型一变量间的相关关系【例1】对四组数据进行统计,获得如下列图的散点图,关于其相关系数的比较,正确的选项是悟XjK贩弟,厕 mil弟酎r4 v r2< 0< r3< ri D . r2< r4< 0v rv r3A . r2< r4< 0< r3< ri B. r4< r2< 0
4、v rv r3 C.解析:选 A 易知题中图1与图3是正相关,图2与图是负相关,且图1与图中的样本点集中分布在一条直线附近,贝U2vr4v 0v r3 vri.【变式1】四名同学根据各自的样本数据研究变量x, y之间的相关关系,并求得回归直线方程,分别得到以下四个结论: y与x负相关且y= 2.347x 6.423; y与x负相关且y= 3.476x+ 5.648 ; y与x正相关且y = 5.437x+ 8.493 ; y与x正相关且y= 4.326x 4.578.其中一定不正确的结论的序号是C.解析:选D 正相关指的是y随x的增大而增大,负相关指的是y随x的增大而减小,故不正确的为,应选D
5、.相关关系的直观判断方法就是作出散点图,假设散点图呈带状且区域较窄,说明两个变量解析:选B 由表中数据画出散点图,如图,a<0, b<0有一定的线性相关性,假设呈曲线型也是有相关性,假设呈图形区域且分布较乱那么不具备相关性.y*0X.由散点图可知 b<0, a>0,选B.y = 0.8x- 155,那么实数 m【例3】对于以下表格所示五个散点,求得的线性回归方程为的值为x196197200203204y1367mA.8B. 8.2C. 8.4D. 8.5解析:选 A - = 196 + 197+ 20°+ 2°3+ 204 =200,刀=1 + 3
6、+ ? + 7+ m 555 样本中央点为200,17m ,将样本中央点 200, 17 m代入y= 0.8x155,可得m =,5,58.故A正确.题型二回归方程的求法【例4】某城市理论预测 2021年到2021年人口总数与年份的关系如下表所示年 612021+101234人口散y十万5711191请根据上表提供的数据,求最小二乘法求出关于的线性回归方程;2据此估计2021年该城市人口总数n参考公式:$nxy,$ ; bx22x nxi 1解:(1)Q x 2, y 10,5292-2c2,2x i = 0123430i 15xiyi = 0 籽+1 >7+2 X8+3 XI1+4 X
7、I9=132, i 1nxi yi nx y_t?=3.2 , a? y bx 3.6 故y关于x的线性回归方程为 ?=3.2x+3.6n 22x nx i 1当x=5时,?=3.2*5+3.6即?=19.6据此估计2021年该城市人口总数约为196万.【例5】某保险公司有一款保险产品的历史户获益率获益率=获益州费收入的频率分布直方图如下列图:I 试估计平均获益率;"根据经验假设每份保单的保费在20元的根底上每增加 x元,对应的销量y 万份与x元有较强线性相关关系,从历史销售记录中抽样得到如下5组x与y的对应数据:频率组距3. 02. 52. 01. 51.00.5x元2535404
8、555销量y 万份7.36.36.05.94.3001 020"30050.6 获益率第19题图i根据数据计算出销量 y 万份与x 元的回归方程为ii 假设把回归方程v b 乂均当作y与X的线性关系,用I 中求出的平均获益率估计 y x a此产品的获益率,每份保单的保费定为多少元时此产品可获得最大获益,并求出该最大获益n n_Xi xy yxyi nxy _参考公示:bn 4, a y b x222x,xx,nxi 1i 1解析:I 区间中值依次为:0.05, 0.15, 0.25, 0.35, 0.45, 0.55,取值概率依次为:0.1, 0.2, 0.25, 0.3, 0.1
9、, 0.05,平均获益率为x2535404555yi7.56.36.05.94.3x, 40-15-50515yi 6.01.50.30-0.1-1.7(xi40)( yi 6.0)-22.5-1.50-0.5-25.5(xi 40)22552502525555_ _. _ _,一._、2x 40=0, y 6.0=0, (x 40)( yi 6.0)=-50, (x, 40)500i 1i 10.05 0.10 0.15 0.20 0.25 0.25 0.35 0.30 0.45 0.10 0.55 0.05 0.275(n) (i)nxi y nx y i 12 一2x nxi 16.00
10、.10(x40)即 y 0.10x 10.050 0.10,a y bx 0 500(ii)设每份保单的保费为 20 x元,那么销量为y 0.10x 10.0,那么保费获益为f(x) (20 x)( 0.10x 10.0)万元,f(x)0.1x2 8x 2000.1(x 40)2 360当x 40元时,保费收入最大为 360万元,保险公司预计获益为360 0.275=99万元.题型三独立性检验【例6】为考察棉花种子经过处理跟生病之间的关系得到下表数据:种子处理种子未处理总计得病32101133不得病61213274总计93314407根据以上数据,那么种子经过处理与是否生病 (填 有或 无关.
11、解析:在假设无关的情况下,根据题意K2= a+ b二广令:可以得到无关的概率大于50%,所以种子经过处理跟是否生病有关的概率小于50%,所以可以认为种子经过处理与是否生病无关.答案:无【例7】某高校为调查学生喜欢 应用统计课程是否与性别有关, 随机抽取了选修课程的 55名学生,得到数据如下表:喜欢应用统计课程/、喜欢应用统计课程总计男生20525女生102030总计302555(1) 判断是否有99.5%的把握认为喜欢应用统计课程与性别有关?(2) 用分层抽样的方法从喜欢统计课程的学生中抽取6名学生做进一步调查,将这 6名学生作为一个样本,从中任选2人,求恰有1个男生和1个女生的概率.卜面的临
12、界值表供参考:P(K2 冰)0.150.100.050.250.0100.0050.001k2.0722.7063.8415.0246.6357.87910.828(参考公式:k2=n ad bcc+ d,其中 n = a+ b+ c+ d) b+ d解:由公式9 55 X 20 X20 10 X5 2K2=.30 >25 X25 X3011.978>7.879所以有99.5%的把握认为喜欢 应用统计课程与性别有关.(2)设所抽样本中有 m个男生,那么&=芫,得m= 4,所以样本中有4个男生,2个女生, 30 20分别记作 Bi,B2,B3,B4,G1,G2.从中任选2人的
13、根本领件有(B1,B2),(Bi,B3),(Bi,B4),(B1 ,G1) ,(Bi,G2) ,(B2,B3),(B2,B4), (B2,Gi) , (B2 , G2), (B3, B4) , (B3, G),(B3,G2),(B4,Gi),(B4,G2) ,(G1,G2),共 15 个,其中恰有1个男生和1个女生的事件有(Bi,Gi),(Bi,G2) ,(B2,Gi),(B2,G2),(B3,G1), (B3, G2), (B4, G1), (B4, G2),共 8 个.所以恰有1个男生和1个女生的概率为 金.15【变式1】经过对计量K请完成上面的列联表; 根据列联表的数据,问是否有95%的
14、把握认为 数学成绩与班级有关系; 假设按下面的方法从甲班数学成绩优秀的学生中抽取1人:把甲班数学成绩优秀的10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数和被记为抽取人 的编号,求抽到的编号为 6或10的概率.的研究,得到了假设干个临界值如下:P0.1$0.100 050 025Q.QIO2 Vt2!一做3 25.024当K2的观测值K 3.841时,我们(A )A.在犯错误的概率不超过0.05的前提可认为 A与B有关B.在犯错误的概率不超过0.05的前提可认为 A与B无关C.在犯错误的概率不超过0.01的前提可认为 A与B有关D.没有充分理由说明事件A与B有关系【变式2】
15、某校高三子啊一次模拟测试后,为了解数学成绩是否与班级有关,对甲乙两个班数学成绩(总分值150分)进行分析,根据不小于 120分为优秀,120分以下为非优秀的标准 3、一,一 ,统计成绩,从全班 100人中随机抽取1人数学成绩优秀的概率为 兰,调查结果如下表10所示.优秀非伉秀危计甲理It乙步3.台11100H叩一n.)附* =fa+4r)U+d)(a+c)(fi+d)p W)0,05O,C1k18116.635IL奉题以买际生活为背景.建吏散学模塑,主:将伐统计案例中的独苴性冷翳眨知识W,JT将古典概率知识棒透于其中,写查学生姓理数锯、分析般据的水平. 试题集折1 (H相据睡时所会条件.M汁蜂
16、出两期矗孕成缩t忙秀的怠人数为3山从而确定乙爵教学 成锄优旁的人数,谖而犒到甲瞄靠学成纹半优秀的人数;(2)再根据¥的计算公式*机出k值,时比 友中船1削断H其联性、CD利用列华法芥古聪概型概率公式.即可建解优奇总计甲班104050乙班203050合计3070100(2)根据列联表中的数据,导到"=竺拦竺胃竺壬4762 > 1841,因此有95%的把握认为“成绩与班携育关系R . (4分)(3)记事件.到6号或】.号*为羿件A财所有的基木事件有顷、(1.2). 1.3k、(6,6).共36个,(2分)其中事件 A 包含的根本领件有a,5)t(Z4),(X3), (4,
17、2,.(5,1).(i6t 5.5, (ML共 8 个.所以 P(A) =|, (2 分)ijJvF lF【变式3】为了解人们对新公布的生育二孩放开政策的热度,现在某市进行调查.对5,65岁的人群随机抽取了人,得到如下统计表和各年龄段抽取人数的频率分布直方图:(I )求,p的值,并由频率分布直方图估计被调查人群的平均年龄;(n )根据以上统计数据填下面 2 X2列联表,并根据列联表的独立性检验,判断能否有99%的把握认为以45岁为分界点的不同人群对 生育二孩放开政策的支持度有关系?年龄不低于45岁的人数年龄低于45岁的人数合计支持不支持合计P(K2 k)0. 0500. 0100. 001k3
18、. 8416. 63510. 828K2n(ad bc)2c)(b d)(a b)(c d)(a其中nab解:(I )从5,15)岁这一年龄组中抽取的人数为40.8且频率为0.01010 0.1 ,5. . n 50 ;又第二组的频率为0.2 ,那么第二组人数为0.110 人,p 0.510平均数 x 0.1 10 0.2 20 0.3 30 0.2 40 0.1 50 0.1 60 33 (岁)2 25 17 17 7225K 2 32 181152没有99%的把握认为以6.27 6.635,45岁为分界点的不同人群对生育二孩放开政策的支持度有(n ) 2 2列联表如下:年龄不低于45岁的人
19、数年龄低于45岁的人数合计支持32932不支持71118合计10405023a, b , c , d .不吸烟患肺癌的15人,那么应抽取吸烟患肺癌的 4人,记为人,记为A .从5人中随机抽取2人,关系.【例8】为研究患肺癌与是否吸烟有关,做了一次相关调查,其中局部数据丧失,但可以确、,.,一.一一 4定的是不吸烟人数与吸烟人数相同,吸烟患肺癌人数占吸烟总人数的-;不吸烟的人数中,5患肺癌与不患肺癌的比为 1:4.(1) 假设吸烟不患肺癌的有 4人,现从患肺癌的人中用分层抽样的方法抽取5人,再从这5人中随机抽取2人进行调查,求这两人都是吸烟患肺癌的概率;(2) 假设研究得到在犯错误概率不超过0.
20、001的前提下,认为患肺癌与吸烟有关,那么吸烟的人数至少有多少?2附:K2 ,其中 n a b c d .P(K > k°)0.1000.0500.0100.001kc2.7063.8416.63510.828解:(1)设吸烟人数为x,依题意有1x 4,所以吸烟的人有20人,故有吸烟患肺癌的有 516人,不患肺癌的有4人.用分层抽样的方法抽取所有可能的结果有(a,b), (a,c) , (a,d), (a,A) , (b,c) , (b,d) , (b,A) , (c,d) , (c,A),一、-一 -63 r 、(d,A),共10种,那么这两人都是吸烟患肺癌的情形共有6种,P
21、 ,即这两人都是10 5一、,3吸烟患肺癌的概率为 3 6分5(2)方法一:设吸烟人数为5x,由题意可得列联表如下:患肺癌不患肺癌合计吸烟4xx5x不吸烟x4x5x总计5x5x10x22、22 10x(16x x )由表得,K 4 3.6x,由题意 3.6x > 10.828 , x > 3.008,(5x)x为整数,x的最小值为4.那么5x 20,即吸烟人数至少为 20人方法二:设吸烟人数为 x,由题意可得列联表如下:患肺癌不患肺癌合计吸烟4 x51 x5x不吸烟1 x54 x5x总计xx2x2x(16x21 x2)2由表得,K2 一25425 18x,由题意 18x >
22、10.828 , x > 15.04 , : x 为整(x)42525数且为5的倍数,- x的最小值为20即吸烟人数至少为20人.【高考真题】【1】【2021课标1,文19】为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:抽取次序12345678零件尺寸9. 9510.129. 969. 9610.019. 929. 9810.04抽取次序910111213141516零件尺寸10.269. 9110.1310.029. 2210. 0410.059. 95经计算得x1
23、 16Xi16 i i9.97, s J (x X)2 J( x2 16X2) 0.212,16i/ 1i 116(i 8.5)22.78 ,其中x为抽取的第i个零件的尺寸,18.439,(Xi X)(i 8.5)i 1i 1,2, ,16.(1)求(Xi,i) (i 1,2,16)的相关系数r ,并答复是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(假设| r | 0.25 ,那么可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2) 一天内抽检零件中,如果出现了尺寸在(X 3s,X 3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对
24、当天的生产过程进行检查.(i )从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ii)在(X 3s,x 3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0 . 01)n(X X)(Yi y) i 1附:样本(Xi, yi) (i 1,2, n)的相关系数r 官 _ j n,"(X X)L(y y)2J0.008 0.09 -【答案】(1) r 0.18,可以;(2) ( i )需要;(ii )均值与标准差估计值分别为10. 02,0. 09.【解析】试题分析:(1)依公式求r; (2) (i)由x 9.97, s 0.212
25、,得抽取的第 13个零件的尺寸在(X 3s,x 3s)以外,因此需对当天的生产过程进行检查;( ii)剔除第13个数据,那么均值的估计值为10. 02,方差为0. 09.试题解析:(D由样本数据得=企的相*系数为r = -上 0 一 18,2 0.212>/l&x 18439JEG 8 5)V f-aV m由于|广|<025 ,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)(1) a于无=9.97,次0.212 ,由样本教据可以看出抽取的第13个零件的尺寸在(无一3皿+羚以外- 因此需对当天的生产过程进行检查(ii)剔除离群值,即第13个数据,
26、剩下数据的平均数为(16 9 97 9 22) 10 02 ,这15条生产线当天生产的零件尺寸的均值的估计值为10. 02.162.2.2-Xi2 16 0.2122 16 9.972 1591.134,i 1122剔除第13个数据,剩下数据的样本万差为一(1591.134 9.22 15 10.02 ) 0.008,15这条生产线当天生产的零件尺寸的标准差的估计值为J0而8 0.09.【2】【2021课标II,文19】海水养殖场进行某水产品的新、旧网箱养殖方法的产量比照,收获时各随机抽取了 100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(2)填写下面列联表,并根据列
27、联表判断是否有99%的把握认 为箱产量与养殖方法有关:箱f v 50kg箱产量> 50kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对两种养殖方法的优劣进行较.附:P (瑚 >A)0.0500.0100.001k3.8416.63510.828K2n(ad bc)2(a b)(c d )(a c)(b d)【答案】1 0.62. 2有把握3新养殖法优于旧养殖法【解析】试旭殍折M D *侦颊卒皎有直方匡中小书方玲面积等于那么/税率.计算冉的概率拘致JE眉入M盅表 格.代A土方公式,计705 ,对睽参奔期居可明萍有网的¥阿幻3先从均值比Hi方个,主叱大 越好,再丛故提
28、分布情及右褪定也越弟中越.好,尊上可得新齐殖法伐于旧养箜法MW: i旧养殖的庙产量他孑网编们蜓率为e0A«Q14+OO24TO C3J0W 书=.曰因此,主rr a的粼卒估计值豹0#卫一箱f v 50kg箱产量 50kg旧养殖法6238新养殖法3466k2=2根据箱产量的频率分布直方图得列联表200 (62 66-34 38)100 100 96 104R15.705由于15.705 6.635,故有99%的把握认为箱产量与养殖方法有关3箱产量的频率分布直方图平均值或中位数在45kg到50kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法
29、的箱产量较高且稳定,从而新养殖法优于旧养殖法【3】2021年全国III卷高考以下列图是我国2021年至2021年生活垃圾无害化处理量单位:亿吨的折线图可"码f逢;牛捌代战T分虬叶府牛铃网H上翻以巴屋女搂尊茫9H-(I)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;y关于t的回归方程(系数精确到0.01),预测2021年我国生活垃圾无害化处理量.附注:7yii 19.32 ,7ti yi40.17 ,17(yi y)20.55,2.646.i 1n参考公式:相关系数(tiF)( y y)回归方程ybt中斜率和截距的最小二乘估计公式分别为:n¥岳y bt
30、.) (ti t)(yb (ti t)2i 1试题解析"I由折线图中数据和附注中M考数抿旱f = 4 , (it 28i-lES 一孑=ok,F-l _-89 jp-1M2 $9 r 寿 0.99 .0,55x2x2,646剧疗与r的相关系数近彳她0-兆,说明*与w的线性才睇程度相当高,从而可以用绣性回归模型拟合y与*的关系,a? ybt所以,9 32-1.331 及(I )得 b71.331 0.103 4 0.92y关于t的回归方程为:? 0.92将2021年对应的t 9代入回归方程得:7_(tit)(% y)i 172(ti t)2i 10.10t .2.892810分0.92
31、 0.10 9 1.82.0.103,12分所以预测2021年我国生活垃圾无害化处理量将约1.82亿吨.【4】【2021高考新课标1,文19】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x 单位:千元对年销售量 y 单位:t和年利润z 单位:千元的影响,对近8年的宣传费为和年销售量丫 i 1,2,L ,8数据作了初步处理,得到下面的散点图及一 些统计量的值.r xir yUr w82(xi x)i 18,一、2(Wi w)i 18(xi x)(yi y)i 18(Wi w)(yi y)i 146.656.36.8289.81.61469108.8 ur 1 8表中 W = %;
32、39;x , w = W 8 i 1I 根据散点图判断,y a bx与y c d我,哪一个适宜作为年销售量y关于年宣传费x的回归方程类型给出判断即可,不必说明理由;II根据I的判断结果及表中数据,建立 y关于x的回归方程;III 这种产品的年利润z与x, y的关系为z 0.2y x ,根据II的结果答复下列问题:i当年宣传费x 90时,年销售量及年利润的预报值时多少?ii当年宣传费x为何值时,年利润的预报值最大?附:对于一组数据U1,V1,U2, V2, ,Un,Vn,其回归线v U的斜率和截距的最小二乘估计分别为: nUi uVi v史 n,虹 v uUi U2i 1【答案】I y c d& 适合作为年销售 y关于年宣传费用 x的回归方程类型口y 100.6 68& (m) 46.24【解析】(i)由散点图可以判断,y c适合作为年销售 y关于年宣传费用 x的回归方程类型.2分8(Wi w)(yi y)()令 w .<x,先建立
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 延边州中医院失禁分级评估考核
- 呼伦贝尔市人民医院自身抗体检测考核
- 晋中市中医院机器人手术编码考核
- 矿用防爆电机项目可行性研究报告范文
- 中国聚酰亚胺纤维项目创业计划书
- 赤峰市人民医院辐射防护监测考核
- 佳木斯市中医院感染科护理科研考核
- 呼和浩特市中医院腹部超声造影考核
- 中国大豆酶解蛋白项目商业计划书
- 中国福美钠项目经营分析报告
- 运动损伤预防的数字化分析与训练
- 2025张掖市民乐县辅警考试试卷真题
- 线上离婚协议书
- 广东省六校联考2025届高三下学期5月联考试题 物理 含答案
- 医疗设备数字化管理的技术与应用研究
- (高清版)DG∕TJ 08-2068-2019 超高压喷射注浆技术标准
- 《甲状腺功能减退》课件
- 质量管理 体系
- 学校研学协议书模板
- 冰雪文化在推动冰雪经济发展中的重要作用
- 某集团内部工程建设项目审计管理暂行办法
评论
0/150
提交评论