




已阅读5页,还剩56页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
11 4统计案例要点梳理1 回归分析 1 定义 对具有的两个变量进行统计分析的一种常用方法 2 随机误差 线性回归模型用y bx a e表示 其中a和b为模型的 称为随机误差 3 样本点的中心在具有线性相关关系的数据 x1 y1 x2 y2 xn yn 中 回归方程的截距和斜率的最小二乘估计公式分别为 相关关系 未知参数 e 基础知识自主学习 其中称为样本点的中心 4 相关系数 r 当r 0时 表明两个变量 当r 0时 表明两个变量 r的绝对值越接近于1 表明两个变量的线性相关性 r的绝对值越接近于0时 表明两个变量之间 通常 r 大于时 认为两个变量有很强的线性相关性 正相关 负相关 越强 几乎不存在线性相关关系 0 75 2 残差分析 1 总偏差平方和把每个效应 观测值减去总的平均值 的平方加起来即 2 残差数据点和它回归直线上相应位置的差异 yi 是的效应 称为残差 3 残差平方和 随机误差 3 独立性检验 1 分类变量 变量的不同 值 表示个体所属的 像这类变量称为分类变量 4 相关指数r2 r2的值越大 说明残差平方和 也就是说模型的拟合效果越好 在线性回归模型中 r2表示解释变量对预报变量变化的贡献率 r2越接近于1 表示回归的效果越好 越小 不同类别 2 列联表 列出两个分类变量的 称为列联表 假设有两个分类变量x和y 它们的可能取值分别为 x1 x2 和 y1 y2 其样本频数列联表 称为2 2列联表 为2 2列联表 频数表 构造一个随机变量k2 其中n 为样本容量 3 独立性检验利用随机变量来确定是否能以一定把握认为 两个分类变量 的方法称为两个分类变量的独立性检验 a b c d k2 有关系 基础自测1 相关系数度量 a 两个变量之间线性相关关系的强度b 散点图是否显示有意义的模型c 两个变量之间是否存在因果关系d 两个变量之间是否存在关系解析相关系数来衡量两个变量之间线性相关关系的强弱 a 2 甲 乙 丙 丁四位同学各自对a b两变量的线性相关性作试验 并用回归分析方法分别求得相关系数r与残差平方和m如下表 则哪位同学的试验结果体现a b两变量更强的线性相关性 a 甲b 乙c 丙d 丁解析r 0且丁最接近1 残差平方和越小 相关性越高 故选d d 3 已知x y之间的数据如表所示 则回归直线过点 a 0 0 b 0 c 0 d 解析回归直线过样本点的中心 d 4 下列说法中正确的有 若r 0 则x增大时 y也相应增大 若r 0 则x增大时 y也相应增大 若r 1或r 1 则x与y的关系完全对应 有函数关系 在散点图上各个点均在一条直线上 a b c d 解析若r 0 表示两个相关变量正相关 x增大时 y也相应增大 故 正确 r 0 表示两个变量负相关 x增大时 y相应减小 故 错误 r 越接近1 表示两个变量相关性越高 r 1表示两个变量有确定的关系 即函数关系 故 正确 c 5 在一项打鼾与患心脏病的调查中 共调查了1671人 经过计算k2 27 63 根据这一数据分析 我们有理由认为打鼾与患心脏病是的 有关 无关 解析 k2 27 63 10 828 有99 9 的把握认为 打鼾与患心脏病有关 有关 题型一线性回归分析 例1 假设关于某种设备的使用年限x 年 与所支出的维修费用y 万元 有如下统计资料 已知 1 求 2 对x y进行线性相关性检验 x 题型分类深度剖析 3 如果x与y具有线性相关关系 求出线性回归方程 4 估计使用年限为10年时 维修费用约是多少 1 先根据已知计算相关系数r 判断是否具有相关关系 2 再利用公式求出回归方程进行回归分析 解 1 思维启迪 2 步骤如下 作统计假设h0 x与y不具有线性相关关系 n 2 3时 r0 05 0 878 112 3 5 4 5 12 3 90 5 42 10 140 8 125 15 8 r r 0 987 0 878 即 r r0 05 所以有95 的把握认为 x与y之间具有线性相关关系 去求线性回归方程是有意义的 所以线性回归方程为 1 23x 0 08 4 当x 10时 1 23 10 0 08 12 38 万元 即估计使用10年时 维修费用约为12 38万元 在解决具体问题时 要先进行相关性检验 通过检验确认两个变量是否具有线性相关关系 若它们之间具有相关关系 再求回归方程 否则 即使求出回归方程也是毫无意义的 而且用其估计和预测的量也是不可信的 探究提高 知能迁移1测得某国10对父子身高 单位 英寸 如下 1 对变量y与x进行相关性检验 2 如果y与x之间具有线性相关关系 求线性回归方程 3 如果父亲的身高为73英寸 估计儿子的身高 解 1 因为r的值较大 所以y与x之间具有很强的线性相关关系 2 设回归方程为 故所求的回归方程为 0 4646x 35 9747 3 当x 73时 0 4646 73 35 9747 69 9 所以当父亲身高为73英寸时 估计儿子身高约为69 9英寸 题型二非线性回归分析 例2 下表是某年美国旧轿车价格的调查资料 以x表示轿车的使用年数 y表示相应的年均价格 求y关于x的回归方程 由已知表格先画出散点图 可以看出随着使用年数的增加 轿车的平均价格在递减 但不在一条直线附近 但据此认为y与x之间具有线性相关关系是不科学的 要根据图形的形状进行合理转化 转化成线性关系的变量间的关系 思维启迪 解作出散点图如图所示 可以发现 各点并不是基本处于一条直线附近 因此 y与x之间应是非线性相关关系 与已学函数图象比较 用来刻画题中模型更为合理 令 则 题中数据变成如下表所示 相应的散点图如图所示 从图中可以看出 变换的样本点分布在一条直线附近 因此可以用线性回归方程拟合 由表中数据可得r 0 996 r 0 75 认为x与z之间具有线性相关关系 由表中数据得 0 298 8 165 所以 0 298x 8 165 最后回代 ln 即 e 0 298x 8 165为所求 非线性回归问题有时并不给出经验公式 这时我们可以画出已知数据的散点图 把它与学过的各种函数 幂函数 指数函数 对数函数等 图象作比较 挑选一种跟这些散点拟合得最好的函数 然后采用适当的变量置换 把问题化为线性回归分析问题 使之得到解决 探究提高 知能迁移2在试验中得到变量y与x的数据如下表 试求y与x之间的回归方程 当x0 40时 预测y0的值 解作散点图如图所示 从散点图可以看出 两个变量x y不呈线性相关关系 根据学过的函数知识 样本点分布的曲线可能有两种情况 1 指数函数曲线y c1 2 二次函数曲线y c3x2 c4 对于 1 问题变为如何估计待定参数c1 c2 可通过对数变换把指数关系变为线性关系 那么令则 作散点图如图所示 列表 从图中可以看出x与z有很强的线性相关性 由表 中的数据得到线性回归方程 0 277x 3 992 所以 变量y关于x的指数回归方程为 e0 277x 3 992 对于 2 问题变为如何估计待定参数c3 c4 那么令t x2 则y c3t c4 列表 从图中可以看出 y与t不宜用线性回归方程来拟合 为比较两个模型的拟合效果 用线性回归模型拟合表 中的数据 可得到y关于t的线性回归方程为0 357t 177 08 所以 变量y关于x的二次回归方程为0 357x2 177 08 利用残差比较两个回归方程的拟合效果 列表 计算残差平方和 812 759 13669 063 因此 指数模型的拟合效果远远优于二次模型 应选用指数模型 所以 当x0 40时 y0 e0 277 40 3 992 1197 510 题型三独立性检验 例3 12分 在调查的480名男人中有38名患有色盲 520名女人中有6名患有色盲 分别利用图形和独立性检验的方法来判断色盲与性别是否有关 你所得到的结论在什么范围内有效 1 先由已知作出调查数据的列联表 2 再根据列联表画出二维条形图 并进行分析 3 利用独立性检验作出判断 思维启迪 解根据题目所给的数据作出如下的列联表 4分根据列联表作出相应的二维条形图 如图所示 6分 从二维条形图来看 在男人中患色盲的比例要比在女人中患色盲的比例要大 其差值为差值较大 因而我们可以认为 性别与患色盲是有关的 8分根据列联表中所给的数据可以有a 38 b 442 c 6 d 514 a b 480 c d 520 a c 44 b d 956 n 1000 代入公式k2 得k2 10分 由于k2 27 1 10 828 所以我们有99 9 的把握认为性别与患色盲有关系 这个结论只对所调查的480名男人和520名女人有效 12分利用图形来判断两个变量之间是否有关系 可以画出三维柱形图 也可以画出二维条形图 从图形上只可以粗略地估计两个分类变量的关系 可以结合所求的数值来进行比较 作图应注意单位统一 图形准确 但它不能给出我们两个分类变量有关或无关的精确的可信程度 若要作出精确的判断 可以作独立性检验的有关计算 探究提高 知能迁移3在对人们休闲方式的一次调查中 共调查了124人 其中女性70人 男性54人 女性中有43人主要的休闲方式是看电视 另外27人的休闲方式是运动 男性中有21人主要的休闲方式是看电视 另外33人主要的休闲方式是运动 1 根据以上数据建立一个2 2列联表 2 画出二维条形图 3 检验休闲方式是否与性别有关 可靠性有多大 解 1 2 2列联表如图 休闲方式 性别 2 二维条形图如图 3 假设休闲方式与性别无关 则k2 所以有理由认为休闲方式与性别无关是不合理的 即我们有97 5 的把握认为休闲方式与性别有关 方法与技巧1 线性回归分析以散点图为基础 具有很强的直观性 有散点图作比较时 拟合效果的好坏可由直观性直接判断 没有散点图时 只须套用公式求r r2再作判断即可 2 独立性检验没有直观性 必须依靠k2的观测值k作判断 思想方法感悟提高 失误与防范1 r的大小只说明是否相关并不能说明拟合效果的好坏 r2才是判断拟合效果好坏的依据 2 独立性检验的随机变量k2 2 706是判断是否有关系的临界值 k2 2 706应判断为没有充分证据显示x与y有关系 而不能作为小于90 的量化值来判断 一 选择题1 下列四个命题 线性相关系数r越大 两个变量的线性相关性越强 反之 线性相关性越弱 残差平方和越小的模型 模型拟合的效果越好 用相关指数r2来刻画回归效果 r2越小 说明模型的拟合效果越好 在推断h x与y有关系 的论述中 用三维柱形图 只要主对角线上两个柱形高度的比值与副对角线上的两个柱形高度的比值相差越大 h成立的可能性就越大 定时检测 其中真命题的个数是 a 1b 2c 3d 4解析 r有正负 应为 r 越大 相关性越强 正确 r2越大 拟合效果越好 应为高度积的差的绝对值越大 h成立的可能性就越大 故选a a 2 对两个变量y与x进行回归分析 分别选择不同的模型 它们的相关系数r如下 其中拟合效果最好的模型是 a 模型 的相关系数r为0 98b 模型 的相关系数r为0 80c 模型 的相关系数r为0 50d 模型 的相关系数r为0 25解析根据相关系数的定义和计算公式可知 r 1 且 r 越接近于1 相关程度越大 拟合效果越好 r 越接近于0 相关程度越小 拟合效果越弱 所以a正确 a 3 下列说法 将一组数据中的每个数据都加上或减去同一个常数后 方差恒不变 设有一个回归方程 3 5x 变量x增加一个单位时 y平均增加5个单位 线性回归方程必过点 曲线上的点与该点的坐标之间具有相关关系 在一个2 2列联表中 由计算得k2 13 079 则其两个变量间有关系的可能性是90 其中错误的个数是 a 1b 2c 3d 4 解析根据方差的计算公式 可知 正确 由线性回归方程的定义及最小二乘法的思想 知 正确 不正确 答案c 4 下面是2 2列联表 则表中a b的值分别为 a 94 72b 52 50c 52 74d 74 52解析 a 21 73 a 52 又a 22 b b 74 c 5 若变量y与x之间的相关系数r 0 9362 查表得到相关系数临界值r0 05 0 8013 则变量y与x之间 a 不具有线性相关关系b 具有线性相关关系c 它们的线性关系还要进一步确定d 不确定解析相关系数r主要是来衡量两个变量之间线性关系的强弱 r 越接近1 两个变量之间线性关系就越强 r 越接近0 两个变量之间几乎不存在线性关系 因为 r 0 9362 接近1 所以变量y与x之间具有线性相关关系 b 6 冶炼某种金属可以用旧设备和改造后的新设备 为了检验用这两种设备生产的产品中所含杂质的关系 调查结果如下表所示 根据以上数据 则 a 含杂质的高低与设备改造有关b 含杂质的高低与设备改造无关c 设备是否改造决定含杂质的高低d 以上答案都不对 解析由已知数据得到如下2 2列联表 答案a 由公式由于13 11 10 828 故有99 9 的把握认为含杂质的高低与设备是否改造是有关的 二 填空题7 为了判断高中三年级学生是否选修文科与性别的关系 现随机抽取50名学生 得到如下2 2列联表 已知p k2 3 841 0 05 p k2 5 024 0 025 根据表中数据 得到则认为选修文科与性别有关系出错的可能性约为 解析k2 4 844 这表明小概率事件发生 根据假设检验的基本原理 应该断定 是否选修文科与性别之间有关系 成立 并且这种判断出错的可能性约为5 答案5 8 某医疗研究所为了检验某种血清预防感冒的作用 把500名使用血清的人与另外500名未用血清的人一年中的感冒记录作比较 提出假设h0 这种血清不能起到预防感冒的作用 利用2 2列联表计算得k2 3 918 经查对临界值表知p k2 3 841 0 05 对此 四名同学作出了以下的判断 p 有95 的把握认为 这种血清能起到预防感冒的作用 q 若某人未使用该血清 那么他在一年中有95 的可能性得感冒 r 这种血清预防感冒的有效率为95 s 这种血清预防感冒的有效率为5 则下列结论中 正确结论的序号是 把你认为正确的命题序号都填上 p q p q p q r s p r q s 解析本题考查了独立性检验的基本思想及常用逻辑用语 由题意 得k2 3 918 p k2 3 841 0 05 所以 只有第一位同学的判断正确 即有95 的把握认为 这种血清能起到预防感冒的作用 由真值表知 为真命题 答案 9 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究 调查他们是否又发作过心脏病 调查结果如下表所示 试根据上述数据计算k2 保留两位小数 比较这两种手术对病人又发作心脏病的影响有没有差别 解析提出假设h0 两种手术对病人又发作心脏病的影响没有差别 根据列联表中的数据 可以求得当h0成立时k2 1 78 而k2 2 072的概率为0 85 所以 不能否定假设h0 也就是不能作出这两种手术对病人又发作心脏病的影响有差别的结论 答案1 78不能作出这两种手术对病人又发作心脏病的影响有差别的结论 三 解答题10 在一次飞机航程中调查男女乘客的晕机情况 其二维条形图如图 1 写出2 2列联表
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论