版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、变量间的相关关系与统计案例【知识要点】1相关关系的判断如果散点图中点的分布从整体上看大致在一条直线的附近,我们说变量x和y具有线性相关关系.n(Xi x)(yi y)样本数据(Xi,yJ(i = 1,2,,n)的相关系数ri i当r 0时,In, ni1(Xi X)2 i1(yi y)2两变量正相关,当r 0时,两变量负相关,当|r| 1且|r|越接近于1,相关程度越高,当|r | 1且|r|越接近于0,相关程度越低.2回归方程的求法求回归方程的方法是最小二乘法,即使得样本数据的点到回归直线的距离的平方和最小.若变量x与y具有线性相关关系,有n个样本数据(xi, yi) (i = 1,2,,n
2、),则回归方程y bx a中斜率和截距的最小二乘估计公式分别为:nn_(x x)(y 勺)xyi nxy - 一b Jn4厂,a y bx2 2 _2(x x)x nxi 1,其中xXi,i 11 一一yi, (x,y)称为样本点的中心.n i 1【重点】 回归直线y bx a必过样本点的中心(x, y),这个结论既是检验所求回归直线 方程是否准确的依据,也是求参数的一个依据.3.独立性检验设X,Y为两个变量,它们的取值分别为列联表)如下:x1,X2和y1,y2,其样本频数列联表(2 >2y1y2总计X1aba+ bX2cdc+ d总计a + cb+ da + b+ c+ dP(K2 k
3、)0. 0500. 0100. 001k3. 8416. 63510. 828利用随机变量k2n(ad bb(其中n a b c d为样本容量)来判断 两(a b)(c d)(a c)(b d)个变量有关系”的方法称为独立性检验.【例题解析】题型一变量间的相关关系【例1】对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A . 2<4< 0v gv ri* I 14 li » U » 3&Hl黑駅敷眉命戋氐(曲F> B. 4<2 v 0v ri v3 C.4 v r2V 0v r3V riD . 2< r4&
4、lt; 0v ri v3解析:选 A 易知题中图 与图是正相关,图 与图是负相关,且图(1)与图中的样本点集中分布在一条直线附近,则r2Vr4V 0v r3vri.【变式i】四名同学根据各自的样本数据研究变量x, y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:A y与x负相关且y= 2.347X 6.423 ;A y与x负相关且y= 3.476X+ 5.648 ;A y与x正相关且y= 5.437X+ 8.493 ;A y与x正相关且y= 4.326x 4.578.其中一定不正确的结论的序号是()A.B .C.D.解析:选D 正相关指的是y随x的增大而增大,负相关指的是y随x的增
5、大而减小,故不正确的为,故选D.相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具备相关性.【例2】(20i4湖北高考)根据如下样本数据解析:选B 由表中数据画出散点图,如图,a<0, b<0由散点图可知 b<0 , a>0,选B.y = 0.8x i55,则实数 m【例3】对于下列表格所示五个散点,已知求得的线性回归方程为的值为()x196197200203204y1367mA.8B. 8.2C. 8.4D. 8.5解析:选 A T = 196 + 197 + 20
6、76;+ 203 + 204 = 2oo,=仆 3 + 6 + 7+ m =卑卫555样本中心点为200,17Jm ,将样本中心点 200,17 m代入y= 0.8x155,可得m =,5,58.故A正确.题型二回归方程的求法【例4】某城市理论预测 2011年到2015年人口总数与年份的关系如下表所示年B 2O1I-H (年01234人口数y(十万)57R1119(1)请根据上表提供的数据,求最小二乘法求出关于的线性回归方程;(2)据此估计2016年该城市人口总数.n参考公式:$,$2nxx Yi nxyi 1n2Xii 1解:(1)Q x 2, y10 ,5Xi y i = 0 )5+1 &
7、gt;7+2 X8+3 XI1+4 XI9=132 ,i 1529小2 影 ,2x i = 01 23 430i 1nXi yi nx y_一=3.2 , a? y bx 3.6 故y关于x的线性回归方程为 ?=3.2x+3.6n 2 2x nxi 1当x=5时,?=3.2*5+3.6即?=19.6据此估计2016年该城市人口总数约为196万.【例5】某保险公司有一款保险产品的历史户获益率(获益率=获益需费收入)的频率分布直方图如图所示:(I )试估计平均获益率;(n)根据经验若每份保单的保费在20元的基础上每增加X元,对应的销量y (万份)与x(元)有较强线性相关关系,从历史销售记录中抽样得
8、到如下5组x与y的对应数据:JL频率组距3. 02. 52. 01. 51.00.5x(元)2535404555销量y (万份)7.36.36.05.94.300. 10. 20.30. 40.50. 6 获益率第19题图(i)根据数据计算出销量y (万份)与x (元)的回归方程为(ii )若把回归方程y bx a当作y与x的线性关系,用(I)中求出的平均获益率估计 此产品的获益率,每份保单的保费定为多少元时此产品可获得最大获益,并求出该最大获益参考公示:bn n(Xi x)(yi y)Xiyi nxynna y bx2 2 - 2 (N x)xinxi 1i 1解析:(I)区间中值依次为:0
9、.05, 0.15, 0.25, 0.35, 0.45, 0.55,取值概率依次为:0.1, 0.2, 0.25, 0.3, 0.1 , 0.05,平均获益率为x2535404555yi7.56.36.05.94.3xi 40-15-50515yi 6.01.50.30-0.1-1.7(Xi40)( yi 6.0)-22.5-1.50-0.5-25.5(x 40)22552502525555x 40=0 ,yi6.0=0, (x 40)( yii 16.0)=-50,i 12(Xi 40)5000.05 0.10 0.15 0.20 0.25 0.25 0.35 0.30 0.45 0.10
10、0.55 0.05 0.275(n)( i)Xi yii 1nx y_2nx505000.10, a y b x 0则 y 6.00.10(x 40)即 y0.10x 10.0(ii)设每份保单的保费为20 x元,则销量为y 0.10x 10.0,则保费获益为f(x) (20 x)( 0.10x 10.0)万元,f(x)0.1 x2 8x 2000.1(x 40)2 360当x 40元时,保费收入最大为360万元,保险公司预计获益为360 0.275=99万元解析:在假设无关的情况下,根据题意心卡n ad be 2 c+d a+eb+ d0.16题型三独立性检验【例6】为考察棉花种子经过处理跟
11、生病之间的关系得到下表数据:种子处理种子未处理总计得病32101133不得病61213274总计93314407根据以上数据,则种子经过处理与是否生病 (填 有”或 无”关.可以得到无关的概率大于50%,所以种子经过处理跟是否生病有关的概率小于50%,所以可以认为种子经过处理与是否生病无关.答案:无【例7】某高校为调查学生喜欢 应用统计”课程是否与性别有关, 随机抽取了选修课程的 55 名学生,得到数据如下表:喜欢应用统计”课程不喜欢应用统计”课程总计男生20525女生102030总计302555(1) 判断是否有99.5%的把握认为喜欢应用统计”课程与性别有关?(2) 用分层抽样的方法从喜欢
12、统计课程的学生中抽取6名学生做进一步调查,将这6名学生作为一个样本,从中任选2人,求恰有1个男生和1个女生的概率.F面的临界值表供参考:P(K2 沫)0.150.100.050.250.0100.0050.001k2.0722.7063.8415.0246.6357.87910.828(参考公式:K2=a + b;+ :dbC+ cb+ d ,其中 n = a+ b+ c+ d)解:由公式K2= 55 :鶯茫鸟J $- 11.978>7.87930 >25 X25 X30所以有99.5%的把握认为喜欢 应用统计”课程与性别有关.(2)设所抽样本中有m个男生,则30= 20得m= 4
13、,所以样本中有4个男生,2个女生,分别记作 Bi, B2, B3, B4, G1, G2.从中任选2人的基本事件有(Bl, B2), (B1, B3), (Bi, B4),(B1 , G1) , (B1, G2), (B2, B3), (B2, B4), (B2, G1),(B2,G2), (B,B4),(B3, G1) , (B3,G2) , (B4 , G1) , (B4 , G2) , (G1 , G2),共 15 个,其中恰有1个男生和1个女生的事件有(B1 , G1) ,(B1 ,G2) , (B2 ,G1) ,(B2 , G2) , (B3 ,G1) , (B3 , G2) , (
14、B4 , G1) , (B4 , G2),共 8 个.所以恰有1个男生和1个女生的概率为 辛.15【变式1】经过对计量K2的研究,得到了若干个临界值如下:P (宀30.1$0.100 050 025Q.QIO2 &72J細5*24当K2的观测值K 3.841时,我们(A )A.在犯错误的概率不超过0.05的前提可认为A与B有关B.在犯错误的概率不超过0.05的前提可认为A与B无关C.在犯错误的概率不超过0.01的前提可认为A与B有关D.没有充分理由说明事件A与B有关系【变式2】某校高三子啊一次模拟考试后,为了解数学成绩是否与班级有关,对甲乙两个班数学成绩(满分150分)进行分析,按照不
15、小于 120分为优秀,120分以下为非优秀的标准3统计成绩,已知从全班 100人中随机抽取1人数学成绩优秀的概率为 ,调查结果如下表10所示.优秀非优秀总计It乙坯合1100(1 )请完成上面的列联表;(2) 根据列联表的数据,问是否有95%的把握认为 数学成绩与班级有关系”;(3) 若按下面的方法从甲班数学成绩优秀的学生中抽取1人:把甲班数学成绩优秀的 10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数和被记为抽取人 的编号,求抽到的编号为 6或10的概率.fa+fr)(c+d)(a+c)(fi+d)P(K»k)0.G5O,C1k18116.635IL【命JK意圏
16、】不匪以实际生话为育咸.建龙麹学欖規,T:柠代轨计集啊中的翹言件和拮眄知识点. 并将古典概奉知讥浊造于乓中”誓査学生处理數折、分折独崛的能力.I试题鲜析1仃)粗据題中所経件.可计澤出两麹島学成缔匱番的楂人雜为30.从而确宦乙凱独学 成绩伉秀的人數进画傅到甲髓載学啟细半优帚的人畫;(2)再廉番肿立的计第公式*林出也值,对比 花中盟1W”削斷耳其联性.CD利用列毕注护世入古鹽糊咀鴨率处氏”即呵曲解(分)优苻暮0总计甲班104050乙班203050合计3070100根据列联黑中的数蜿粵到泌=律:;:':;:疔痒4.762 > 1841,因此有95%的靶提认为"成绩与班级肓关柔
17、”.詔分)记事# “期到6号或】0号°为爭件九则所在的基乳事件<(1.1). (1.2). 1.3k f 低饥 共36卜(2分)耳申嘟件A包含的基車事件有(1,趴怯4),(3課),(4,2,. (5.1).(i6t 5,5, (6J)h8个,所以P=翁=眷(2分【变式3】为了解人们对新颁布的生育二孩放开”政策的热度,现在某市进行调查.对5,65岁的人群随机抽取了人,得到如下统计表和各年龄段抽取人数的频率分布直方图:(I )求,p的值,并由频率分布直方图估计被调查人群的平均年龄;(n )根据以上统计数据填下面 2 X2列联表,并根据列联表的独立性检验,判断能否有99%的把握认为以
18、45岁为分界点的不同人群对 生育二孩放开”政策的支持度有关系?年龄不低于45岁的人数年龄低于45岁的人数合计支持不支持合计参考数据:P(K2 k)0. 0500. 0100. 001k3. 8416. 63510. 828K2n(ad be)2(a b)(e d)(a e)(b d)其中n abed解:(I )从 5,15)岁这一年龄组中抽取的人数为40.85,且频率为 0.010 100.1, n50;0.1又第二组的频率为0.2,则第二组人数为10 人,- p 0.54 分1025 17 1772256.27 6.635 ,2 32 181152平均数 x 0.1 10 0.2 20 0.
19、3 30 0.2 40 0.1 50 0.1 60 33 (岁)6 分年龄不低于45岁的人数年龄低于45岁的人数合计支持32932不支持71118合计104050(n)2 2列联表如下:2生育二孩放开”政策的支持度有没有99%的把握认为以45岁为分界点的不同人群对 关系。【例8】为研究患肺癌与是否吸烟有关,做了一次相关调查,其中部分数据丢失,但可以确4定的是不吸烟人数与吸烟人数相同,吸烟患肺癌人数占吸烟总人数的;不吸烟的人数中,5患肺癌与不患肺癌的比为 1:4 .(1) 若吸烟不患肺癌的有 4人,现从患肺癌的人中用分层抽样的方法抽取5人,再从这5人 中随机抽取2人进行调查,求这两人都是吸烟患肺
20、癌的概率;(2) 若研究得到在犯错误概率不超过0.001的前提下,认为患肺癌与吸烟有关,则吸烟的 人数至少有多少?2附:K2n(ad bc),其中 n a b c d .(a b)(c d)(a c)(b d)P(K > ko)0.1000.0500.0100.001k°2.7063.8416.63510.8281解:(1)设吸烟人数为x,依题意有 x 4,所以吸烟的人有20人,故有吸烟患肺癌的有516人,不患肺癌的有4人用分层抽样的方法抽取 5人,则应抽取吸烟患肺癌的 4人,记为 a , b , c , d .不吸烟患肺癌的 1人,记为A .从5人中随机抽取2人,所有可能的结
21、果有(a,b), (a,c) , (a,d), (a,A) , (b,c) , (b,d) , (b,A) , (c,d) , (c,A),63(d,A),共10种,则这两人都是吸烟患肺癌的情形共有6种, P -,即这两人都是1053吸烟患肺癌的概率为 3 6分5(2 )方法一:设吸烟人数为 5x,由题意可得列联表如下:患肺癌不患肺癌合计吸烟4xx5x不吸烟x4x5x总计5x5x10x由表得,K210x(16x 4 x)3.6X,由题意 3.6x > 10.828 , x > 3.008 ,(5x)/ x为整数, x的最小值为4 则5x 20,即吸烟人数至少为 20人.方法二:设吸
22、烟人数为 x,由题意可得列联表如下:患肺癌不患肺癌合计吸烟41x5x5x不吸烟1 x54 x5x总计xx2x由表得,K216 2 1 2、22x( x x )2525(x)418 x,由题意 18 x > 10.828 , x > 15.04 , / x 为整数且为5的倍数,x的最小值为20即吸烟人数至少为20人.【高考真题】【1】【2017课标1,文19】为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:次抽取的16个零件的尺寸:cm).下面是检验员在一天内依2525抽取次序12345678零件尺寸9. 9510.12
23、9. 969. 9610.019. 929. 9810.04抽取次序910111213141516零件尺寸10.269. 9110.1310.029. 2210.0410.059. 9516经计算得x丄 J 9.97 , s16 i 1 16(X X)2i 11 ( X2 16x2)0.212,16 i 116(i 8.5)2i 118.439,16(Xi X)(i 8.5)i 12.78 ,其中Xi为抽取的第i个零件的尺寸,i 1,2, ,16 .(1)求(Xi,i)(i 1,2,16)的相关系数 r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若| r |
24、0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2) 天内抽检零件中,如果出现了尺寸在(X 3s,X 3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(i )从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ii)在(X 3s,x 3s)之外的数据称 为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0. 01)n(x 刃( y)(X X)21(y y)2i 1附:样本(Xi,yj (i 1,2,n)的相关系数r .0.008 0.09.【答案】(1) r 0.18,可以;(2) (
25、 i )需要;(ii)均值与标准差估计值分别为10. 02,0. 09.【解析】试题分析:(1)依公式求r ;( 2)( i )由x 9.97, s 0.212,得抽取的第 13个零件的尺寸在(X 3s,x 3s)以外,因此需对当天的生产过程进行检查;( ii)易V除第13个数据,则均值的估计值为10. 02,方差为0. 09.试趣解析: 由样本数据得(无0(心1諾16的相关系數対-2 71?丈(石-荻-呵:_架.缶厂叭品-呵艸卿f-dV M由于|广|弋G25 ,因此可从认为这一天主产的零件尺寸不随主产过程的进行而系统地变夫或变小*由于无“旳存02】2,由样锄据可以看出抽取的第13个需件的尺寸
26、在(无3疥+%)以外, 因此需对当天的生产过程逬行检查(ii)易V除离群值,即第13个数据,剩下数据的平均数为丄(16 9 97 922) 10 02,这15条生产线当天生产的零件尺寸的均值的估计值为10. 02.162 2 2Xi216 0.2122 16 9.9721591.134 ,i 1122剔除第13个数据,剩下数据的样本方差为(1591.134 9.22 15 10.02 ) 0.008 ,15这条生产线当天生产的零件尺寸的标准差的估计值为 .0.0080.09 .【2】【2017课标II,文19】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱
27、,测量各箱水产品的产量(单位:kg ),其频率分布直方图如下:(2)填写下面列联表,并根据列联表判断是否有99%的把握认 为箱产量与养殖方法有关:箱产量v 50kg箱产量 50kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对两种养殖方法的优劣进行较。P曲“0.0500.0100.001k3.8416.63510.828附:K2n (ad be)2(a b)(e d )(a e)(b d)【答案】(1)0.62.( 2)有把握(3)新养殖法优于旧养殖法【解析】试题甘折:< "*丽頼率分奇亘方區巾小氓方总面釈等于刪戊紙車.计畀人的概率C2)入M直去 移.代人亡方公式,计45
28、 705 7对暉蒔考約捋可単阡有, <3>朱从堆佰比琢龙牛.丈 越奸,再从擞協专芾肯丹看棉主出越隼中越好'综上可得新养殖法优于旧抿1法MW:( 1> I口芜殖?占厢产虽f匡三別kg頫率为因此,s rr a计值沟(2)根据箱产量的频率分布直方图得列联表箱产量v 50kg箱产量> 50kg旧养殖法6238新养殖法3466k2=15.705200 (62 66-34 38)100 100 96 104由于15.705> 6.635,故有99%的把握认为箱产量与养殖方法有关(3)箱产量的频率分布直方图平均值(或中位数)在45kg到50kg之间,且新养殖法的箱产量分
29、布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法【3】(2016年全国III卷高考)下图是我国 2008年至2014年生活垃圾无害化处理量(单 位:亿吨)的折线图f醫总兰算氓豊曰妊自H-注;牛的代码1亠T甘肌甘用罕甘加酬*却M(I)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(n)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:7yii 19.32 ,7ti yi40.17 ,17(yiy)2i 10.55 ,72.646.n参考公式:相关系数(ti f
30、)( y y)i 1回归方程ybt中斜率和截距的最小二乘估计公式分别为:n(tit)(y y)i 1n(ti t)2i 1试題薛析:(i)由折线圄中数抿和附注中蟄考数据得i-iV心二工 片匸斗。-.一 .89 jP-1:-1S-12890.55x22.646299.因为F与啲相关系数近(初0. 99,说明$与啲线圉朕程度相当高,从而可S用线性回归模型槪合卩与扌的关系. 6分-9 32c"由沏及* (I)得(tii 1t)(yiy)(tit)2i 12.89280.103,<? y bt 1.331 0.103 4 0.9210分所以,y关于t的回归方程为:? 0.92 0.10
31、t .将2016年对应的t 9代入回归方程得:y 0.92 0.10 9 1.82 .所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨12分【4】【2015高考新课标1,文19】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量 y (单位:t)和年利润z (单位:千元)的影响,对近8年的宣传费xi和年销售量yi i 1,2丄,8数据作了初步处理,得到下面的散点图及一ur些统计量的值r xu yirW82(Xi x)i 182(Wi w)i 18(Xi x)(yi y)i 18(Wi w)(yi y)i 146.656.36.8289.81.6146
32、9108.84iJ 12 448wii 1(I) 根据散点图判断,y a bx与y cdx,哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由);(II) 根据(I)的判断结果及表中数据,建立y关于x的回归方程;(III )已知这种产品的年利润z与x,y的关系为z 0.2y x,根据(II)的结果回答下列问题:(i)当年宣传费x 90时,年销售量及年利润的预报值时多少?(ii)当年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(uvj ,(u2,色),(un,vn),其回归线vu的斜率和截距的最小二乘估计分别为:n(Ui u)(Vi v) _M= 归v Mu(u u)2i 1【答案】(i ) y c d x适合作为年销售 y关于年宣传费用 x的回归方程类型(n )$100.6 68 X (川)46.24【解析】(I)由散点图可以判断,y c d X适合作为年销售 y关于年宣传费用 x的回归方程类型.2分8_(W
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 脑梗塞的护理评估
- 骨科ICU患者的护理质量
- 审计处安全管理制度
- 仓库审计制度
- 审计局谈心制度
- 审计团队管理制度范本
- 宿舍人员绩效考核制度
- 医联体综合绩效考核制度
- 审计复核管理制度
- 企业质量教育及培训制度
- 高值耗材销售管理制度(3篇)
- 企业员工健康风险评估报告模板
- 2025医疗器械验证和确认管理制度
- 《交易心理分析》中文
- 2025年驻马店职业技术学院单招(计算机)测试模拟题库及答案解析(夺冠)
- 2025年专升本产品设计专业产品设计真题试卷(含答案)
- 基于图像处理的糖晶体识别技术:原理、方法与应用研究
- 餐厅洗碗间管理办法
- 螺杆压缩机维护保养手册
- 2024统编版七年级道德与法治下册全册分课时同步练习题(含答案)
- 2025广西机场管理集团有限责任公司招聘136人(第一批次)笔试参考题库附带答案详解(10套)
评论
0/150
提交评论