成对数据的统计分析(精讲)(原卷版)_第1页
成对数据的统计分析(精讲)(原卷版)_第2页
成对数据的统计分析(精讲)(原卷版)_第3页
成对数据的统计分析(精讲)(原卷版)_第4页
成对数据的统计分析(精讲)(原卷版)_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

9.2成对数据的统计分析

【题型解读】

【知识必备】

1.变量的相关关系

⑴相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称

为相关关系.

(2)相关关系的分类:正相关和负相关.

(3)线性相关:•般地,如果两个变量的取值呈现正相关或负相关,而且散点落在附近,我们称这

两个变量线性相关.

2.样本相关系数

n__

E(为-x)(>v-y)

£(.r,-T£8-7)2

(2)当r>0时,称成对样本数据正1法;当r<0时,称成对样本数据负相关.

(3)|HW1;当|“越接近I时,成对样本数据的线性相关程度越强;当团越接近。时,成对样本数据的线性相

关程度越弱.

3.一元线性回归模型

⑴我们将;=£+:称为丫关于%的经验回归方程,

〃____

Z(即一x)tv/-),)

A尸1

其""E(Xi—~x)2

f=l

A_A_

<=y—bx.

(2)残差:观测值减去预测值,称为残差.

4.列联表与独立性检验

(1)关于分类变量乂和y的抽样数据的2X2列联表:

Y

X合计

r=oY=\

x=oaba+b

X=1cd

合计4+cb+d〃=“+/7+。+4

(2)计算随机变量、;乃利用/的取值推断分类变量x和C是否独立的方法称为Z2

ILcIIIIC*flC*ILJIIC*I

独立性检验.

a0.100.050.0100.0050.001

2.7063.8416.6357.87910.828

【题型精讲】

【题型一成对数据的相关性】

必备技巧判定两个变量相关性的方法

(1)画散点图:点的分布从左下角到右上角,两个变量正相关:点的分布从左上角到右下角,两个变量负相

关.

⑵样本相关系数:当—>0时,正相关;当《0时,负相关;|”越接近于1,相关性越强.

⑶经脸回归方程:当6>0时,正闲关;当伙。时,负相关

例I(2022・全国•高三专题练习)某统计部门对四组数据进行统计分析后,获得如图所示的散点图.

3535

3030

2525

2020

1515

1010

55

0

5101520253035°5101520253035

相关系数为勺相关系数为,2

3535

3030

2525

2020

1515

1010

55

0

5101520253035°5101520253035

相关系数为小相关系数为々

下面关于相关系数的比较,正确的是()

A.rA<r2<rx<ryB.弓<乙<4<与C.弓<〃<与<乙D,rA<r2<ry<rx

例2(2022・陕西・西北工业大学附属中学高三阶段练习)已知变量x和),满足关系),=-O.lx+1,变量y

与z正相关.下列结论中正确的是()

A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关

C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关

【跟踪精练】

1.(2022•青岛高三月考)对两个变量-),进行线性相关检验,得线性相关系数々=0.8995,对两个变量

〃,-进行线性相关检验,得线性相关系数/2=-0.9568,则卜.列判断正确的是()

A.变量x与y正相关,变量“与v负相关,变量x与),的线性相关性较强

B.变量x与3,负相关,变量〃与v正相关,变量x与y的线性相关性较强

C.变量x与y正相关,变:晟u与v负相关,变量〃与v的线性相关性较强

D.变量x与y负相关,变量〃与v正相关,变量“与1的线性相关性较强

2.(2022・济南高三期末)(多选)下列有关经验回归分析的说法中正确的有()

A.经验回归直线必过点(二,7)

B.经验回归直线就是散点图中经过样本数据点最多的那条直线

C.当样本相关系数,>0时,两个变量正相关

D.如果两个变量的相关性越弱,则团就越接近「0

【题型二相关系数求解】

例3(2022.四川.成都七中高三阶段练习)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量

有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机

抽样的方法抽取20个作为样区,调查得到样本数据(4),,)《=12・二。),其中工.和力分别表示第i个样区

2020

的植物覆盖面积(单位:公顷)和这种野生动物的数量(单位:头),并计算得Z%=60,工为=1200,

J=lt=l

22

f(A;-x)=80,f(X,-y)=9000,£($-同自一习=800.

r-lJ=li=l

(1)估计该地区这种野生动物的数量:

⑵求样本a,y)(i=l,2,,20)的相关系数.(精确到().01)

【跟踪精练】

1.(2022•黑龙江・佳木斯一中三模)某网络电视剧已开播一段时间,其每日播放量有如下统计表:

开播天数X(单

12345

位:天)

当天播放量),

(单位:百万335910

次)

⑴请用线性回归模型拟合),与工的关系,并用相关系数加以说明:

⑵假设开播后的两周内(除前5天),当天播放量),与开播天数x服从(1)中的线性关系.若每百万播放量

可为制作方带来0.7万元的收益,且每开播一天需支出1万元的广告费,估计制作方在该剧开播两周内获

得的利润.

tu-x)(x-y)

参考公式:「二建「屋、,石二^-------;—,a=y-bx.

心0谣(M-刃2雪(七-可一

555

参考数据:£x;yz=ll0,Z";=55,Xy,2=224,VH0-10.5.

r-1i=l

注:①一般地,相关系数/•的绝对值在0.95以上(含0.95)认为线性相关性较强;否则,线性相关性较弱.

②利润=收益一广告费.

【题型三线性回归方程】

方法技巧求经验回归方程的步骤

:算出工,,,£灯,£再第或£(^-^)(y-y),

:;2自/(弓丫_-幻。2的抬值

步骤二+利用公式计算系数工钎

步辑三上写出经脸回归方程v=Bx+a;

)'______________-_____-J

例4(2022•全国高三专题练习)对某位同学5次体育测试的成绩(单位:分)进行统计得到如下表

格:

第x次

测试成绩y3940484850

根据上表,可得y关于x的线性回归方程为£=3x+4,下列结论不正确的是()

A.3=36

B.这5次测试成绩的方差为20.8

C.y与x的线性相关系数厂<0

D.预测第6次体育测试的成绩约为54

例5(2022•广东深圳市•高三二模)重庆位于北半球亚热带内陆地区,其气候特征恰如几句俗谚:春

早气温不稳定,夏长酷热多伏旱,秋凉绵绵阴雨天,冬暖少雪云雾多.尤其是10月份,昼夜温差很大,

某数学兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了

2021年10月某六天的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:

日期第一日第三日第五日第四日第二日第六日

昼夜温差X(℃)47891214

就诊人数)'(个)%片为>5义

其中:X-eN*,/=1,2,3,4,5,6,参考数据:£y;=2658,之(另一丁=258,7258^16.

⑴根据散点图可以认为'与之间存在线性相关关系,且相关系数r=三,请用最小二乘法求出线性回归

方程y=>v+a(a»力用分数表小);

⑵分析数据发现:第六日就诊人数为=3。,第一日就诊患者中有3个小孩,其他患者全是大人,现随机

Q

的从第一日所有就诊患者中选出2人,若2人中至少有一个小孩的概率为];

①求X的值;

②若先〈为〈乂〈必,求力,为,%,兑的值(只写结果,不要求过程).

之(%4)()”)__”5加T

(参考公式:方二上J------;,a=y-bx,r

r=1

【题型精练】

1.(2022•全国•高三专题练习)对于数据组(%”)(,=123,如果由线性回归方程得到的对应于自变

量%的估计值是y,那么将y-y称为相应于点(乙,£)的残差.某工厂为研究某种产品产量工(吨)与所

需某种原材料)'吨)的相关性,在生产过程中收集4组对应数据(芭),)如下表所示:

X3456

y2.534in

根据表中数据,得出)‘关于x的线性回归方程为y=0.7x+a,据此计算出样本点(4,3)处的残差为一

0.15,则表中阳的值为()

A.3.3B.4.5C.5D.5.5

2.(2022・全国•高三专题练习)新冠肺炎疫情发生以来,中医药全面参与疫情防控救治,做出了重要贡

献.某中医药企业根据市场调研与模拟,得到研发投入x(亿元)与产品收益),(亿元)的数据统计如下:

研发投入X(亿元)12345

产品收益y(亿元)3791011

(1)计算X,),的相关系数几并判断是否可以认为研发投入与产品收益具有较高的线性相关程度?(若

0.34*0.75,则线性相关程度一股,若|网>0.75,则线性相关程度较高)

⑵求出y关于x的线性回归方程,并预测研发投入20(亿元)时产品的收益.

2

参考数据:£(七-可'io,Z(z-y)=40,XU-x)(z-y)=i9.

1=1r=1r=l

t(x.-x)(yi-y)£(为-可(当-刃

附:相关系数公式:,=不产-----F---------回归直线方程的斜率力=『--------------,截距

思菁-寸仁(凹-刃2£(七-寸

aA=y-b■——x.

【题型四非线性回归方程】

例6(2022•浙江高三专题练习)数据显示,中国在线直播用户规模及在线直播购物规模近几年都保持高

速增长态势,下表为2017—2021年中国在线直播用户规模(单立:亿人),其中2017年—2021年对应的

代码依次为1—5.

年份代码X12345

市场规模y3.984.565.045.866.36

参考数据:9=5.16,0=1.68,Z匕另=45.10,其中匕=«.

参考公式:对于一组数据(w,y),(彩,%),…,(匕,%),其回归直线夕二狐+2的斜率和截距的最

Z匕)[一酒

小二乘估计公式分别为5=与---------,a=y-bV.

,—2

(1)由上表数据可知,可用函数模型£'=/;&+方拟合y与x的关系,请建立y关于x的回归方程(2,

3的值精确到0.01);

(2)已知中国在线直播购物用户选择在品牌官方直播间购物的概率为p,现从中国在线直播购物用户中随

机抽取4人,记这4人中选择在品牌官方直播间购物的人数为X,若P(X=3)=P(X=4),求X的分布

列与期望.

例7(2022•四川成都•高三月考)2020年1月底,为严防新型冠状病毒疫情扩散,有效切断病毒传播

途径,坚决退制疫情蔓延势头,确保人民群众生命安全和身体健康,多地相继做出了封城决定.某地在1月

23口至29口累计确诊人数如下表:

日期(1月)23日24日25U26H27日28日29日

人数(人)611213466101196

由上述表格得到如散点图(I月23日为封城第一天).

1j•(第计确诊人数)

171

M5

116

87

SX

29

567x(封城后的天数)

(1)根据散点图判断丁="+桁与y=(C,"均为大于。的常数)哪一个适宜作为累计确诊人数y与

封城后的天数X的回归方程类型(给出判断即可,不必说明理由):并根据上表中的数据求出回归方程;

(2)随着更多的医护人员投入疫情的研究,2月2()H武汉影像科医生提出存在大量核酸检测呈阴性(阳

性则确诊),但观其cr肺片具有明显病变,这一提议引起了广泛的关注,2月20日武汉疾控口心接收了

1000份血液样本,假设每份样本的检验结果是阳性还是阴性都是相互独立的,且每份样本是阳性样本的概

率为0.7,核酸试剂能把阳性样本检测出阳性结果的概率是0.99(核酸检测存在阳性样本检测不出来的情

况,但不会把阴性检测呈阳性),求这HXX)份样本中检测呈阳性的份数的期望.

参考数据:

7

yw10054

1=1/=l

62.141.54253550.123.47

其中%=检身,卬=;工吗,参考公式:对于一组数据(看,%),(/,吗),…,(〃“,吗),其回归直线

/1=1

n__

-nuvv

w=a+的的斜率和截距的最小二乘估计公式分别为尸=一,a=w-^u.

Q,一2

【题型精练】

1.(2022•四川成都•高三月考)当前,新一轮科技革命和产业变革蓬勃兴起,以区块链为代表的新一代

信息技术迅猛发展,现收集某地近5年区块链企业总数量相关数据,如下表

年份20172018201920202021

编号x12345

企业总数量y(单位:千个)2.1563.7278.30524.27936.224

⑴根据表中数据判断,,,=〃+瓜与(其中e=2.71828…为自然对数的底数),哪一个回归方程类型

适宜预测未来几年我国区块铸企业总数量?(给出结果即可,不必说明理由),并根据你的判断结果求y

关干X的回归方程;

⑵为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区

块钱公司参赛.比赛规则如下:①每场比赛有两个公司参加,并决出胜负:②每场比赛获胜的公司与未

参加此场比赛的公司进行下一场的比赛;③在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该

公司获得此次信息化比赛的"优胜公司已知在每场比赛中,甲胜乙的概率为甲胜丙的概率为:,乙

3

胜丙的概率为不,若首场由甲乙比赛,求甲公司获得“优胜公司”的概率.

参考数据:Sz=74.691,之外另=312.761,£>,=10.980,£招=40.457(其中z=l”).

1=11=1f=l1=1

〃__

附:样本a』)(i=l2,〃)的最小二乘法估计公式为8=号------,a=y-bx.

/=!

2.(2022•山东青岛•二模)某企业为加强科研创新,加大研发资金的投入,新研发了一种产品.该产品的生

产成本由直接生产成木(如原料、工人工资、机器设备折旧等)和间接生产成本(如物料消耗、管理人员工

资、车间房屋折旧等)组成.该产品的间接生产成本y(万元)与该产品的生产数量x(千件)有关,经统

计并对数据作初步处理,得到散点图及一些统计量的值.

y

A

15--

10-,

i।।।।ia

0123456

£(3.-5)2

Xy(0£⑷一万)(y一田

r=lr=1r=1r=1

3.513.241.8117.51.4619.95.84

1J、

表中供=嘉,份=隹/必.

GJ.I

⑴根据散点图判断y=法+”与"“4+c哪一个更适合作为间接生产成本y与该产品的生产数量x的回

归方程类型:(给出判断即可,不必说明理由)

(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程,并预测生产9千件产品时,间接生产成

本是多少万元;

(3)为确保产品质量,该企业在生产过程中对生产的每件产品均进行五个环节的质量检测,若检测出不合

格产品,则需在未进入下一环节前立即修复(修复后再进入下一环节),已知每个环节是相互独立的,且

每个环节产品检测的合格率均为98%,各环节中不合格的一件产品所需的修复商用均为100元.求一件产

品需修复的平均费用.

附:对于一组数据(〃用),(〃2,9,…,(心,匕),其回归直线丫=。+的的斜率和截距的最小二乘估计分

£(叫一万)(匕一羽)_

别为尸=『-----------,a=v-plt.

之(…产

1=1

【题型五独立性检验】

例8(2022•浙江高三专题练习)根据分类变量x与},的观察数据,计算得到犬=2.974.依据下面给出的

临界值表,

尸(父认)0.500.400.250.150.100.050.0250.0100.005

k。0.4550.7081.3232.0722.7063.8415.0246.6357.879

可知下列判断中正确的是()

A.有95%的把握认为变量x与y独立

B.有95%的把握认为变量k与),不独立

C.变量x与),独立,这个结论犯错误的概率不超过10%

D.变量x与),不独立,这个结论犯错误的概率不超过10%

例9(2022•四川成都•高三月考)2022年北京冬奥组委发布的《北京2022年冬奥会和冬残奥会经济

遗产报告(2022)》显示,北京冬奥会已签约45家赞助企业,冬奥会赞助成为一项跨度时间较长的营销方

式.为了解该45家赞助企'也每天销售额与每天线上销售时间之间的相关关系,某平台对45家赞助企业进

行跟踪调查,其中每天线上销售时间不少于8小时的企业有20家,余下的企业中,每天的销售额不足30

万元的企业占(,统计后得到如下2x2列联表:

俏售额不少于30万元俏售额不足30万元合计

线上销售时间不少于8小时1720

线上销售时间不足8小时

合计45

⑴请完成上面的2x2列联表,能否有99%的把握认为赞助企业每天的销售额与每天线上销售时间有关?

(2)按销售额在上述赞助企业中采用分层抽样方法抽取5家企业.在销售额不足30万元的企业中抽取时,

记“抽到线上销售时间不少于8小时的企业数”为X求乃的分布列和数学期望.

附:

川六认)0.0500.0100.001

k。3.8416.63510.828

参考公式:(布)(:珠工(j),其中〃=

【题型精练】

1.(2022•四川成都-高三月考)在某大学一食品超市,随机询问了70名不同性别的大学生在购买食

物时是否查看营养说明,得到如下的列联表:

女男总计

要查看营养说明152540

不查看营养说明201030

总计353570

-be)2

附:K2其中〃=〃+/?+c+d.

(a+Z?)(c+d)(a+c)(b

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论