变量间的相关关系与统计案例(教师版)_第1页
变量间的相关关系与统计案例(教师版)_第2页
变量间的相关关系与统计案例(教师版)_第3页
变量间的相关关系与统计案例(教师版)_第4页
变量间的相关关系与统计案例(教师版)_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 变量间的相关关系与统计案例 知识要点 1 相关关系的判断 1 如果散点图中点的分布从整体上看大致在一条直线的附近 我们说变量和具有线性xy 相关关系 2 样本数据 i 1 2 n 的相关系数 当时 ii yx 2 1 2 1 1 yyxx yyxx r i n i i n i ii n i 0 r 两变量正相关 当时 两变量负相关 当且越接近于 相关程度越高 0 r1 r r1 当且越接近于 相关程度越低 1 r r0 2 回归方程的求法 求回归方程的方法是最小二乘法 即使得样本数据的点到回归直线的距离的平方和最 小 若变量 x 与 y 具有线性相关关系 有 n 个样本数据 i 1 2 n 则回归方程 ii yx 中斜率和截距的最小二乘估计公式分别为 axby 11 2 2 2 1 1 n n ii ii ii nn i i i i x ynxy xxyy baybx xx xnx 其中 称为样本点的中心 i n i x n x 1 1 i n i y n y 1 1 yx 重点 回归直线必过样本点的中心 这个结论既是检验所求回归直线axby yx 方程是否准确的依据 也是求参数的一个依据 3 独立性检验 设 X Y 为两个变量 它们的取值分别为和 其样本频数列联表 2 2 x1 x2 y1 y2 列联表 如下 y1y2总计 x1aba b x2cdc d 总计a cb da b c d 利用随机变量 其中为样本容量 来判断 两个变量有关系 的 2 2 n adbc K ab cd ac bd nabcd 方法称为独立性检验 2 P Kk 0 050 0 01 0 0 001 k3 841 6 63 5 10 828 2 例题解析 题型一 变量间的相关关系 例 1 对四组数据进行统计 获得如图所示的散点图 关于其相关系数的比较 正确的 是 A r2 r4 0 r3 r1 B r4 r2 0 r1 r3 C r4 r2 0 r3 r1 D r2 r4 0 r1 r3 解析 选 A 易知题中图 1 与图 3 是正相关 图 2 与图 4 是负相关 且图 1 与图 2 中的样本点集中分布在一条直线附近 则 r2 r4 0 r3 r1 变式 1 四名同学根据各自的样本数据研究变量 x y 之间的相关关系 并求得回归直线 方程 分别得到以下四个结论 y 与 x 负相关且 2 347x 6 423 y y 与 x 负相关且 3 476x 5 648 y y 与 x 正相关且 5 437x 8 493 y y 与 x 正相关且 4 326x 4 578 y 其中一定不正确的结论的序号是 A B C D 解析 选 D 正相关指的是 y 随 x 的增大而增大 负相关指的是 y 随 x 的增大而减小 故不正确的为 故选 D 相关关系的直观判断方法就是作出散点图 若散点图呈带状且区域较窄 说明两个变 量有一定的线性相关性 若呈曲线型也是有相关性 若呈图形区域且分布较乱则不具备相 关性 例 2 2014 湖北高考 根据如下样本数据 x345678 y4 02 5 0 50 5 2 0 3 0 得到的回归方程为 bx a 则 y A a 0 b 0 B a 0 b 0 C a0 D a 0 b 0 解析 选 B 由表中数据画出散点图 如图 3 由散点图可知 b0 选 B 例 3 对于下列表格所示五个散点 已知求得的线性回归方程为 0 8x 155 则实数 y m 的值为 x196197200203204 y1367m A 8 B 8 2 C 8 4 D 8 5 解析 选 A 200 x 196 197 200 203 204 5y 1 3 6 7 m 5 17 m 5 样本中心点为 将样本中心点代入 0 8x 155 可得 m 8 200 17 m 5 200 17 m 5 y 故 A 正确 题型二 回归方程的求法 例 4 某城市理论预测 2011 年到 2015 年人口总数与年份的关系如下表所示 请根据上表提供的数据 求最小二乘法求出关于的线性回归方程 1 据此估计 2016 年该城市人口总数 2 参考公式 1 22 1 n ii i n i i x ynxy baybx xnx 解 1 2 分 210 xy 0 5 1 7 2 8 3 11 4 19 132 5 1i iiy x 5 1i 2 i x 22222 0123430 故 y 关于 x 的线性回归方程为 3 2x 3 6 1 2 2 1 3 6 n ii i n i i x ynxy baybx xnx 3 2 y 2 当 x 5 时 3 2 5 3 6 即 19 6 据此估计 2016 年该城市人口总数约为 196 万 y y 4 图 19图 图 图 图 图 图 图 图 图0 60 50 40 30 20 10 3 0 2 5 2 0 1 5 1 0 0 5 例 5 某保险公司有一款保险产品的历史户获益率 获益率 获益 保费收入 的频率分 布直方图如图所示 试估计平均获益率 根据经验若每份保单的保费在元的基础上每增加元 对应的销量 万份 与 20 x y 元 有较强线性相关关系 从历史销售记录中抽样得到如下组与的对应数据 x5x y 根据数据计算出销量 万份 与 元 的回归方程为 y x ybx a 若把回归方程当作与的线性关系 用 中求出的平均获益率估 ybx ay x 计此产品的获益率 每份保单的保费定为多少元时此产品可获得最大获益 并求出该最大 获益 参考公示 11 2 2 2 1 1 n n ii ii ii nn i i i i x ynxy xxyy baybx xx xnx 解析 区间中值依次为 0 05 0 15 0 25 0 35 0 45 0 55 取值概率依次为 0 1 0 2 0 25 0 3 0 1 0 05 元 x2535404555 销量 万份 y7 36 36 05 94 3 i x 2535404555 i y 7 56 36 05 94 3 40 i x 15 50515 6 0 i y 1 50 30 0 1 1 7 5 平均获益率为 0 05 0 100 15 0 200 25 0 250 35 0 300 45 0 100 55 0 050 275 i 1 2 2 1 50 0 10 0 500 n ii i n i i x ynxy baybx xnx 则即 6 00 10 40 yx0 1010 0 yx ii 设每份保单的保费为元 则销量为 则保费获益为 20 x 0 1010 0 yx 万元 20 0 1010 0 f xxx 22 0 182000 1 40 360 f xxxx 当元时 保费收入最大为万元 保险公司预计获益为万元 40 x360360 0 275 99 题型三 独立性检验 例 6 为考察棉花种子经过处理跟生病之间的关系得到下表数据 种子处理种子未处理总计 得病32101133 不得病61213274 总计93314407 根据以上数据 则种子经过处理与是否生病 填 有 或 无 关 解析 在假设无关的情况下 根据题意 K2 0 16 n ad bc 2 a b c d a c b d 可以得到无关的概率大于 50 所以种子经过处理跟是否生病有关的概率小于 50 所以 可以认为种子经过处理与是否生病无关 答案 无 例 7 某高校为调查学生喜欢 应用统计 课程是否与性别有关 随机抽取了选修课程的 55 名学生 得到数据如下表 40 6 0 ii xy 22 5 1 50 0 5 25 5 2 40 i x 25525025255 55 2 11 40 06 0 0 40 6 0 50 40 500 iiiii ii xyxyx 6 喜欢 应用统计 课程不喜欢 应用统计 课程总计 男生20525 女生102030 总计302555 1 判断是否有 99 5 的把握认为喜欢 应用统计 课程与性别有关 2 用分层抽样的方法从喜欢统计课程的学生中抽取 6 名学生做进一步调查 将这 6 名 学生作为一个样本 从中任选 2 人 求恰有 1 个男生和 1 个女生的概率 下面的临界值表供参考 P K2 k 0 150 100 050 250 0100 0050 001 k2 0722 7063 8415 0246 6357 87910 828 参考公式 K2 其中 n a b c d n ad bc 2 a b c d a c b d 解 1 由公式 K2 11 978 7 879 55 20 20 10 5 2 30 25 25 30 所以有 99 5 的把握认为喜欢 应用统计 课程与性别有关 2 设所抽样本中有 m 个男生 则 得 m 4 所以样本中有 4 个男生 2 个女 6 30 m 20 生 分别记作 B1 B2 B3 B4 G1 G2 从中任选 2 人的基本事件有 B1 B2 B1 B3 B1 B4 B1 G1 B1 G2 B2 B3 B2 B4 B2 G1 B2 G2 B3 B4 B3 G1 B3 G2 B4 G1 B4 G2 G1 G2 共 15 个 其中恰有 1 个男生和 1 个女生的事件有 B1 G1 B1 G2 B2 G1 B2 G2 B3 G1 B3 G2 B4 G1 B4 G2 共 8 个 所以恰有 1 个男生和 1 个女生的概率为 8 15 变式 1 经过对计量的研究 得到了若干个临界值如下 2 K 当的观测值时 我们 A 2 K3 841K A 在犯错误的概率不超过 0 05 的前提可认为 A 与 B 有关 B 在犯错误的概率不超过 0 05 的前提可认为 A 与 B 无关 C 在犯错误的概率不超过 0 01 的前提可认为 A 与 B 有关 D 没有充分理由说明事件 A 与 B 有关系 变式 2 某校高三子啊一次模拟考试后 为了解数学成绩是否与班级有关 对甲乙两个 班数学成绩 满分 150 分 进行分析 按照不小于 120 分为优秀 120 分以下为非优秀的 7 标准统计成绩 已知从全班 100 人中随机抽取 1 人数学成绩优秀的概率为 调查结果如 3 10 下表所示 1 请完成上面的列联表 2 根据列联表的数据 问是否有 95 的把握认为 数学成绩与班级有关系 3 若按下面的方法从甲班数学成绩优秀的学生中抽取 1 人 把甲班数学成绩优秀的 10 名学生从 2 到 11 进行编号 先后两次抛掷一枚均匀的骰子 出现的点数和被记为抽取 人的编号 求抽到的编号为 6 或 10 的概率 变式 3 为了解人们对新颁布的 生育二孩放开 政策的热度 现在某市进行调查 对 岁的人群随机抽取了人 得到如下统计表和各年龄段抽取人数的频率分布直方图 5 65 8 求 的值 并由频率分布直方图估计被调查人群的平均年龄 p 根据以上统计数据填下面 2 2 列联表 并根据列联表的独立性检验 判断能否有 99 的 把握认为以 45 岁为分界点的不同人群对 生育二孩放开 政策的支持度有关系 年龄不低于 45 岁的人 数 年龄低于 45 岁的人 数 合 计 支持 不支持 合计 参考数据 2 2 n adbc K ab cd ac bd 其中nabcd 解 从岁这一年龄组中抽取的人数为 且频率为 5 15 4 5 0 8 0 010 100 1 2 分 5 50 0 1 n 又第二组的频率为 则第二组人数为 10 人 4 分0 2 5 0 5 10 p 平均数 岁 60 1 100 2200 3 300 2400 1 500 1 6033x 分 列联表如下 22 年龄不低于 45 岁的人数年龄低于 45 岁的人数合计 支持32932 不支持71118 合计104050 2 25 17 177225 6 276 635 2 32 181152 K 没有 99 的把握认为以 45 岁为分界点的不同人群对 生育二孩放开 政策的支持度有 关系 2 P Kk 0 0500 0100 001 k3 8416 63510 828 9 例 8 为研究患肺癌与是否吸烟有关 做了一次相关调查 其中部分数据丢失 但可以 确定的是不吸烟人数与吸烟人数相同 吸烟患肺癌人数占吸烟总人数的 不吸烟的人数 4 5 中 患肺癌与不患肺癌的比为 1 4 1 若吸烟不患肺癌的有人 现从患肺癌的人中用分层抽样的方法抽取人 再从这45 人中随机抽取人进行调查 求这两人都是吸烟患肺癌的概率 52 2 若研究得到在犯错误概率不超过的前提下 认为患肺癌与吸烟有关 则吸烟的0 001 人数至少有多少 附 其中 2 2 n adbc K ab cd ac bd nabcd 0 P Kk 0 1000 0500 0100 001 0 k2 7063 8416 63510 828 解 1 设吸烟人数为 依题意有 所以吸烟的人有人 故有吸烟患肺癌的x 1 4 5 x 20 有人 不患肺癌的有人 用分层抽样的方法抽取人 则应抽取吸烟患肺癌的人 16454 记为 不吸烟患肺癌的人 记为 从人中随机抽abcd1A5 取人 所有可能的结果有 2 a b 共种 则这 a c a d a A b c b d b A c d c A d A10 两人都是吸烟患肺癌的情形共有种 即这两人都是吸烟患肺癌的概率6 63 105 P 为 6 分 3 5 2 方法一 设吸烟人数为 由题意可得列联表如下 5x 患肺癌不患肺癌合计 吸烟4xx5x 不吸烟x4x5x 总计5x5x10 x 由表得 由题意 222 2 4 10 16 3 6 5 xxx Kx x 3 610 828x 3 008x 为整数 的最小值为 则 即吸烟人数至少为人 xx4520 x 20 10 方法二 设吸烟人数为 由题意可得列联表如下 x 患肺癌不患肺癌合计 吸烟 4 5 x 1 5 xx 不吸烟 1 5 x 4 5 xx 总计xx2x 由表得 由题意 为整数 222 2 4 161 2 18 2525 25 xxx Kx x 18 10 828 25 x 15 04x x 且为的倍数 的最小值为即吸烟人数至少为人 5x2020 高考真题 1 2017 课标 1 文 19 为了监控某种零件的一条生产线的生产过程 检验员每隔 30 min 从该生产线上随机抽取一个零件 并测量其尺寸 单位 cm 下面是检验员在一天 内依次抽取的 16 个零件的尺寸 抽取次序12345678 零件尺寸 9 95 10 1 2 9 969 96 10 0 1 9 929 98 10 0 4 抽取次序910111213141516 零件尺寸10 2 6 9 91 10 1 3 10 0 2 9 22 10 0 4 10 0 5 9 95 经计算 得 16 1 1 9 97 16 i i xx 1616 222 11 11 16 0 212 1616 ii ii sxxxx 其中为抽取的第 个零件的尺 16 2 1 8 5 18 439 i i 16 1 8 5 2 78 i i xx i i x i 寸 1 2 16i 1 求的相关系数 并回答是否可以认为这一天生产的零件 i x i 1 2 16 i r 11 尺寸不随生产过程的进行而系统地变大或变小 若 则可以认为零件的尺寸不随 0 25r 生产过程的进行而系统地变大或变小 2 一天内抽检零件中 如果出现了尺寸在之外的零件 就认为这条 3 3 xs xs 生产线在这一天的生产过程可能出现了异常情况 需对当天的生产过程进行检查 从这一天抽检的结果看 是否需对当天的生产过程进行检查 在之外的数据称为离群值 试剔除离群值 估计这条生产线当 3 3 xs xs 天生产的零件尺寸的均值与标准差 精确到 0 01 附 样本的相关系数 ii x y 1 2 in 1 22 11 n ii i nn ii ii xxyy r xxyy 0 0080 09 答案 1 可以 2 需要 均值与标准差估计值分别为18 0 r 10 02 0 09 解析 试题分析 1 依公式求 2 i 由 得抽取的第 13r9 97 0 212xs 个零件的尺寸在以外 因此需对当天的生产过程进行检查 ii 剔除第 13 3 3 xs xs 个数据 则均值的估计值为 10 02 方差为 0 09 ii 剔除离群值 即第 13 个数据 剩下数据的平均数为 1 16 9 979 22 10 02 15 这条生产线当天生产的零件尺寸的均值的估计值为 10 02 16 222 1 16 0 21216 9 971591 134 i i x 12 剔除第 13 个数据 剩下数据的样本方差为 22 1 1591 1349 2215 10 02 0 008 15 这条生产线当天生产的零件尺寸的标准差的估计值为 0 0080 09 2 2017 课标 II 文 19 海水养殖场进行某水产品的新 旧网箱养殖方法的产量对比 收获时各随机抽取了 100 个网箱 测量各箱水产品的产量 单位 kg 其频率分布直方 图如下 1 记 A 表示事件 旧养殖法的箱产量低于 50kg 估计 A 的概率 2 填写下面列联表 并根据列联表判断是否有 99 的把握认为箱产量与养 殖 方法有关 箱产量 50kg箱产量 50kg 旧养殖法 新养殖法 3 根据箱产量的频率分布直方图 对两种养殖方法的优劣进行较 附 P 0 0500 0100 001 k3 8416 63510 828 2 2 n adbc K ab cd ac bd 答案 1 0 62 2 有把握 3 新养殖法优于旧养殖法 解析 13 2 根据箱产量的频率分布直方图得列联表 箱产量 50kg箱产量 50kg 旧养殖法6238 新养殖法3466 K2 20066 34 38 15 705 100 100 96 104 62 由于 15 705 6 635 故有 99 的把握认为箱产量与养殖方法有关 3 箱产量的频率分布直方图平均值 或中位数 在 45kg 到 50kg 之间 且新养殖法的箱产量分 布集中程度较旧养殖法的箱产量分布集中程度高 因此 可以认为新养殖法的箱产量较高且稳 定 从而新养殖法优于旧养殖法 3 2016 年全国 III 卷高考 下图是我国 2008 年至 2014 年生活垃圾无害化处理量 单 位 亿吨 的折线图 由折线图看出 可用线性回归模型拟合 y 与 t 的关系 请用相关系数加以说明 建立 y 关于 t 的回归方程 系数精确到 0 01 预测 2016 年我国生活垃圾无害 化处理量 附注 参考数据 7 1 9 32 i i y 7 1 40 17 ii i t y 7 2 1 0 55 i i yy 2 646 7 14 参考公式 相关系数 1 22 11 yy n ii i nn ii ii ttyy r tt 回归方程yabt 中斜率和截距的最小二乘估计公式分别为 1 2 1 n ii i n i i ttyy b tt a ybt 由331 1 7 32 9 y及 得103 0 28 89 2 7 1 2 7 1 i i i ii tt yytt b 92 0 4103 0 331 1 t bya 所以 y关于t的回归方程为 ty10 0 92 0 10 分 将 2016 年对应的9 t代入回归方程得 82 1 910 0 92 0 y 所以预测 2016 年我国生活垃圾无害化处理量将约 1 82 亿吨 12 分 4 2015 高考新课标 1 文 19 某公司为确定下一年度投入某种产品的宣传费 需了 解年宣传费 x 单位 千元 对年销售量 y 单位 t 和年利润 z 单位 千元 的影响 对近 8 年的宣传费和年销售量数据作了初步处理 得到下面的散点图 i x 1 2 8 i y i 及一些统计量的值 15 x y w 8 2 1 i i xx 8 2 1 i i ww 8 1 ii i xxyy 8 1 ii i ww yy 46 656 36 8289 81 61469108 8 表中 i w i x w 1 8 8 1 i i w I 根据散点图判断 与 哪一个适宜作为年销售量 y 关于年宣yabx ycdx 传费 x 的回归方程类型 给出判断即可 不必说明理由 II 根据 I 的判断结果及表中数据 建立 y 关于 x 的回归方程 III 已知这种产品的年利润 z 与 x y 的关系为 根据 II 的结果回答下0 2zyx 列问题 i 当年宣传费时 年销售量及年利润的预报值时多少 90 x ii 当年宣传费为何值时 年利润的预报值最大 x 附 对于一组数据 其回归线的斜率和截距 11 u v 22 u v nn u vvu 的最小二乘估计分别为 A1 2 1 n ii i n i i uu vv uu AA vu 答案 适合作为年销售关于年宣传费用的回归方程类型 ycdx yx 46 24 100 668yx 解析 由散点图可以判断 适合作为年销售关于年宣传费用的ycdx yx 回归方程类型 2 分 16 令 先建立关于的线性回归方程 由于 wx yw 8 1 8 2 1 ii i i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论