




已阅读5页,还剩75页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十模块概率与统计第四十八讲随机抽样 用样本估计总体 变量间的相互关系 统计案例 回归课本 1 样本及抽样的定义 1 在数理统计中称研究对象的全体为总体 组成总体的每一个基本单元为个体 从总体中抽取若干个个体x1 x2 xn 这样的n个个体x1 x2 xn称为大小为n 容量为n 的一个样本 2 抽样 抽样是为了获取总体的信息 特别在客观实际中对总体的全部个体逐一进行研究 有的是不适宜 不可能或不必要的 因此 抽样调查是获取总体信息的重要方法 2 随机抽样 1 简单随机抽样 从一个总体中通过逐个抽取的方法从中抽取一个样本 且每次抽取时各个个体被抽到的概率相等 这样的抽样称为简单随机抽样 这样抽出的样本称为简单随机样本 简单随机抽样的基本方法有抽签法和随机数表法 2 系统抽样 系统抽样被称为等距抽样或机械抽样 它按照时间或空间的等距间隔抽取样本 即将总体分成几个部分 然后按照预先定出的规则 从每一部分抽取一个个体 得到所需要的样本 这种抽样称为系统抽样 系统抽样与简单随机抽样的联系在于 将总体均分后的每一部分进行抽样时 采用的是简单随机抽样 3 分层抽样 当总体中一部分个体与另一部分个体有明显的差异且易于区别时 常将相近的个体归成一组 然后按照各部分所占的比例进行抽样 这种抽样称为分层抽样 其中所分成的各部分称为层 分层抽样时 每一个个体被抽到的概率都是相等的 3 频率分布表 频率分布直方图与茎叶图 1 频率分布样本中所有数据 或者数据组 的频数和样本容量的比 就是该数据的频率 所有数据 或者数据组 的频率的分布变化规律叫做频率分布 可以用频率分布表 频率分布直方图 频率分布折线图 茎叶图等来表示 2 频率分布折线图 连接频率分布直方图中各小长方形上端的中点 就得到频率分布折线图 3 总体密度曲线如果样本容量不断增大 分组的组距不断缩小 则频率分布直方图实际上越来越接近于总体在各小组内所取值的个数与总数比值的大小 它可以用一光滑曲线来描绘 这条光滑曲线就叫做总体密度曲线 4 茎叶图表示数据有两个突出的优点 其一是统计图上没有原始数据的损失 所有信息都可以从这个茎叶图中得到 其二是在比赛时随时记录 方便记录与表示 4 用样本的数字特征估计总体的数字特征 1 众数 中位数 平均数在一组数据中 出现次数最多的数据叫做这组数据的众数 将一组数据按大小依次排列 把处在中间位置的一个数据 或中间两个数据的平均数 叫做这组数据的中位数 如果n个数 x1 x2 xn 那么 x1 x2 xn 叫做这n个数的平均数 总体中所有个体的平均数叫做总体平均数 样本中所有个体的平均数叫做样本平均数 如果在n个数据中 x1出现了f1次 x2出现f2次 xk出现fk次 这里f1 f2 fk n 那么 x1f1 x2f2 xkfk 叫做这n个数的加权平均数 5 两个变量的相关关系 1 当自变量的取值一定时 因变量的取值带有随机性 这两个变量之间的关系叫做相关关系 如果一个变量的值由小变大时 另一个变量的值也在由小到大 这种相关称为正相关 反之 如果一个变量的值由小变大时 另一个变量的值在由大到小 这种关系称为负相关 变量间的这种关系与函数关系不同 它是一种非确定关系 2 散点图 表示具有相关关系的两个变量的一组数据的图形叫做散点图 6 回归直线方程 1 一般地 设x和y是具有相关关系的两个变量 且对应于n个观测值的n个点大致分布在一条直线的附近 若所求的直线方程为 我们将这个方程叫做回归直线方程 a b叫做回归系数 相应的直线叫做回归直线 2 最小二乘法使离差平方和q y1 bx1 a 2 y2 bx2 a 2 yn bxn a 2为最小的方法 叫做最小二乘法 7 回归分析 1 回归直线方程 bx a中 上述方程对应的直线叫做回归直线 而对两个变量所进行的上述统计分析叫做线性回归分析 相关系数 用相关系数来描述线性相关关系的强弱 当r 0时 两个变量正相关 当r 0时 两个变量负相关 r的绝对值越接近1 表明两个变量的线性相关性越强 r的绝对值接近于0 表明两个变量之间几乎不存在线性相关关系 通常当 r 大于r0 05时 认为两个变量有很强的线性相关关系 因而求回归直线方程才有意义 数据点和它在回归直线上相应位置的差异 y1 i 是随机误差效应 称i yi i为残差 将所得值平方后加起来 用数学符号表示为 yi i 2称为残差平方和 它代表了随机误差的效应 8 独立性检验 1 分类变量的定义如果某种变量的不同 值 表示个体所属的不同类别 像这样的变量称为分类变量 2 2 2列联表一般地 假设有两个分类变量x和y 它们的值域分别为 x1 x2 和 y1 y2 其样本频数列联表 称为2 2列联表 为 k2 用它的大小可以决定是否拒绝原来的统计假设h0 如果k2值较大 就拒绝h0 即拒绝事件a与b无关 考点陪练 1 2010 重庆 某单位有职工750人 其中青年职工350人 中年职工250人 老年职工150人 为了了解该单位职工的健康情况 用分层抽样的方法从中抽取样本 若样本中的青年职工为7人 则样本容量为 a 7b 15c 25d 35解析 设样本容量为n 则依题意有 n 7 n 15 选b 答案 b 2 2010 湖北 将参加夏令营的600名学生编号为 001 002 600 采用系统抽样方法抽取一个容量为50的样本 且随机抽得的号码为003 这600名学生分住在三个营区 从001到300的第 营区 从301到495在第 营区 从496到600在第 营区 三个营区被抽中的人数依次为 a 26 16 8b 25 17 8c 25 16 9d 24 17 9 解析 依题意及系统抽样的意义可知 将这600名学生按编号依次分成50组 每一组各有12名学生 第k k n 组抽中的号码是3 12 k 1 令3 12 k 1 300 得k 因此第 营区被抽中的人数是25 令300 3 12 k 1 495得 k 42 因此第 营区被抽中的人数是42 25 17 结合各选项知 选b 答案 b 3 2010 山东 在某项体育比赛中 七位裁判为一选手打出的分数如下 90899095939493去掉一个最高分和一个最低分后 所剩数据的平均值和方差分别为 a 92 2b 92 2 8c 93 2d 93 2 8 解析 去掉一个最高分95分与一个最低分89分后 所得的5个数分别为90 90 93 94 93 所以故选b 答案 b 4 2010 福建 若某校高一年级8个班参加合唱比赛的得分如茎叶图所示 则这组数据的中位数和平均数分别是 a 91 5和91 5b 91 5和92c 91和91 5d 92和92 解析 中位数为 91 92 91 5 平均数为 87 89 90 91 92 93 94 96 91 5 答案 a 5 2010 湖南 某商品销售量y 件 与销售价格x 元 件 负相关 则其回归方程可能是 a 10 x 200b 10 x 200c 10 x 200d 10 x 200解析 由图象知选项b d为正相关 选项c不符合实际意义 故选a 答案 a 类型一抽样方法的综合应用解题准备 1 简单随机抽样 抽签法 搅拌均匀后逐一抽取 随机数表法 注意编号的灵活性 如对100个个体可用00 01 01 02 99来编号 2 系统抽样 对多余个体的剔除不影响总体中每个个体被抽到的等可能性 仍然能保证抽样的公平性 例如从1002个体中利用系统抽样抽取容量为20的样本 剔除2个个体后 每个个体被抽到的可能性仍为 3 分层抽样 当总体中个体差异较大时 往往采用分层抽样的方法 若有某些层面应抽取的个体数目不是整数时 可作适当的细微调整 典例1 为了考察某校的教学水平 将抽查这个学校高三年级的部分学生本年度的考试成绩 为了全面反映实际情况 采取以下三种方式进行抽查 已知该校高三年级共有20个班 并且每个班内的学生已经按随机方式编好了学号 假定该校每班学生的人数相同 从高三年级20个班中任意抽取一个班 再从该班中任意抽取20名学生 考察他们的学习成绩 每个班抽取1人 共计20人 考察这20名学生的成绩 把学生按成绩分成优秀 良好 普通三个级别 从其中共抽取100名学生进行考察 已知该校高三学生共1000人 若按成绩分 其中优秀生共150人 良好生共600人 普通生共250人 根据上面的叙述 试回答下列问题 1 上面三种抽取方式的总体 个体 样本分别是什么 每一种抽取方式抽取的样本中 样本容量分别是多少 2 上面三种抽取方式各自采用的是何种抽取样本的方法 3 试分别写出上面三种抽取方式各自抽取样本的步骤 分析 本题主要考查基本概念和三种抽样方法的联系与区别 准确把握三种抽样方法的概念与特点是解此题的关键 另外要注意叙述的完整性和条理性 解 1 这三种抽取方式的总体都是指该校高三全体学生本年度的考试成绩 个体都是指高三年级每个学生本年度的考试成绩 其中第一种抽取方式的样本为所抽取的20名学生本年度的考试成绩 样本容量为20 第二种抽取方式的样本为所抽取的20名学生本年度的考试成绩 样本容量为20 第三种抽取方式的样本为所抽取的100名学生本年度的考试成绩 样本容量为100 2 三种抽取方式中 第一种采用的是简单随机抽样法 第二种采用的是系统抽样法和简单随机抽样法 第三种采用的是分层抽样法和简单随机抽样法 3 第一种方式抽样的步骤如下 第一步 用抽签法在这20个班中任意抽取一个班 第二步 从这个班中按学号用随机数表法或抽签法抽取20名学生 考察其考试成绩 第二种方式抽样的步骤如下 第一步 用简单随机抽样法从第一个班中任意抽取一名学生 记其学号为a 第二步 在其余的19个班中 选取学号为a的学生 加上第一个班的一名学生 共计20人 第三种方式抽样的步骤如下 第一步 分层 因为若按成绩分 其中优秀生共150人 良好生共600人 普通生共250人 所以在抽取样本时 应该把全体学生分成三个层次 第二步 确定各个层次抽取的人数 因为样本容量与总体的个数之比为100 1000 1 10 所以在每个层次中抽取的个体数依次为即15 60 25 第三步 按层次分别抽取 在优秀生中用简单随机抽样法抽15人 在良好生中用简单随机抽样法抽取60人 在普通生中用简单随机抽样法抽取25人 类型二频率分布直方图和茎叶图解题准备 1 作频率分布直方图的步骤 1 求极差 即一组数据中最大值和最小值的差 2 决定组距与组数 将数据分组时 组数应力求合适 以使数据的分布规律能较清楚的呈现出来 这时应注意 一般样本容量越大 所分组数越多 为方便起见 组距的选择应力求 取整 当样本容量不超过100时 按照数据的多少 通常分成5 12组 3 将数据分组 4 计算各小组的频率 作频率分布表 各小组的频率 5 画频率分布直方图 2 茎叶图的制作步骤如下 1 将所有两位数的十位数字作为 茎 茎按从小到大顺序排列 茎相同者共用一个茎 再画上竖线作为分界线 2 在分界线的一侧对应 茎 处 记录下 叶 个位数字 一般共茎的叶按从小到大 或从大到小 的顺序同行列出 典例2 为了解某校初中毕业男生的体能状况 从该校初中毕业班学生中抽取若干名男生进行铅球测试 把所得数据 精确到0 1米 进行整理后 分成6组画出频率分布直方图的一部分 如下图 已知从左到右前5个小组的频率分布为0 04 0 10 0 14 0 28 0 30 第6小组的频数是7 1 请将频率分布直方图补充完整 2 该校参加这次铅球测试的男生有多少人 3 若成绩在8 0米以上 含8 0米 的为合格 试求这次铅球测试的成绩的合格率 4 在这次测试中 你能确定该校参加测试的男生铅球成绩的众数和中位数各落在哪个小组内吗 解 1 由频率分布直方图的意义可知 各小组频率之和为1 故第6小组的频率为 1 0 04 0 10 0 14 0 28 0 30 0 14 易知第6小组与第3小组的频率相等 故两个小长方形等高 2 由 1 知 第6小组的频率是0 14 又因为第6小组的频数是7 现设参加这次测试的男生有x人 根据频率定义 得即x 50 人 3 由图可知 第4 5 6小组成绩在8 0米以上 其频率之和为 0 28 0 30 0 14 0 72 故合格率为72 4 能确定中位数落在第4小组 而众数落在第5小组 反思感悟 解决该类问题时应正确理解图表中各个量的意义 识图掌握信息是解决该类问题的关键 频率分布指的是一个样本数据在各个小范围内所占的比例的大小 一般用频率分布直方图反映样本的频率分布 其中 频率分布直方图中纵轴表示频率 频率分布直方图中 各小长方形的面积之和为1 因此在频率分布直方图中 组距是一个固定值 所以各个长方形高的比也就是频率之比 频率分布表和频率分布直方图是一组数据频率分布的两种形式 前者准确 后者直观 众数为最高矩形的中点 中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标 探究 某化肥厂甲 乙两个车间包装肥料 在自动包装传送带上每隔30min抽取一包产品 称其重量 分别记录抽查数据如下 甲 102 101 99 98 103 98 99 乙 110 115 90 85 75 115 110 1 这种抽样方法是哪一种 2 将这两组数据用茎叶图表示 3 将两组数据比较 说明哪个车间产品较稳定 解 1 因为间隔时间相同 故是系统抽样 2 茎叶图如下 3 甲车间 平均值 102 101 99 98 103 98 99 100 方差 102 100 2 101 100 2 99 100 2 3 4286 反思感悟 1 茎叶图的优点是保留了原始数据 便于记录及表示 能反映数据在各段上的分布情况 2 茎叶图不能直接反映总体的分布情况 这就需要通过茎叶图给出的数据求出数据的数字特征 进一步估计总体情况 类型三线性回归的应用解题准备 求线性回归方程的步骤为 1 列表xi yi xiyi 2 计算 3 代入公式计算b a的值 4 写出回归方程 典例3 以下是某地搜集到的新房屋的销售价格y和新房屋的面积x的数据 1 画出数据对应的散点图 2 求线性回归方程 并在散点图中加上回归直线 3 据 2 的结果估计当新房屋面积为150m2时的销售价格 解 1 数据对应的散点图如图所示 3 据 2 当x 150时 销售价格的估计值为 0 1962 150 1 8166 31 2466 万元 类型四独立性检验解题准备 独立性检验的一般步骤 1 根据样本数据制成2 2列联表 2 根据公式k2 计算k2的值 3 比较k2与临界值的大小关系作统计推断 典例4 2009 江苏模拟题 利用统计变量k2的观测值来判断两个分类变量之间的关系的可信程度 考查小麦种子经灭菌与否跟发生黑穗病的关系 经试验观察 得到数据如下表所示 试按照原试验目的作统计分析推断 分析 利用已知条件来判断两个分类变量是否具有关系 可以先假设两个变量之间有关系 再计算k2的值 k2的值越大说明两个变量间有关系的可能性越大 再参考临界值 从而判断两个变量有关系的可信程度 解 由列表知 a 26 b 184 c 50 d 200 a b 210 c d 250 a c 76 b d 384 n 460 有95 的把握认为种子灭菌与否与小麦发生黑穗病是有关系的 反思感悟 1 独立性检验的关键是准确的计算k2 在计算时 要充分利用2 2列联表 2 学习相关和无关的判定一定要结合实际问题 从现实中寻找例子 从而增强学习数学的兴趣 错源一对简单随机抽样的理解不到位 典例1 下面的抽样中 是简单随机抽样的个数是 从无数个个体中抽取20个个体作为样本 从50台冰箱中一次性抽取5台冰箱进行质量检查 某班有40名同学 指定个子最高的5名同学参加学校组织的篮球赛 一彩民选号 从装有36个大小 形状都相同的号签的盒子中无放回地抽取6个号签 a 4b 3c 2d 1 错解 都是简单随机抽样 故选a 剖析 不清楚简单随机抽样有以下四个特点 1 总体个数有限 2 逐个抽取 3 不放回 4 公平性 每个个体被抽到的可能性相同 因此 要深刻理解概念 深挖其内涵 正解 总体个数无限 故不是简单随机抽样 虽然 一次性 抽取和 逐个 抽取不影响个体被抽到的可能性 但不满足简单随机抽样的定义 因为指定5名同学参赛 每个个体被抽到的可能性不相同 不是等可能抽样 是简单随机抽样 故选d 答案 d 错源二频率分布直方图中小长方形高的含义模糊不清 典例2 如图是一个容量为200的样本频率分布直方图 请根据图形中的数据填空 1 样本数据落在 5 9 的频率为 2 样本数据落在 9 13 的频率为 错解 1 落在 5 9 的频率为0 08 2 落在 9 13 的频率为0 09 剖析 频率分布直方图中纵轴表示 而不直接表示频率 正解 1 落在 5 9 的频率为0 08 4 0 32 2 落在 9 13 的频率为0 09 4 0 36 答案 0 320 36 技法一构造2 2列联表进行独立性检验 典例1 为观察药物a b治疗某病的疗效 某医生将100例该病病人随机的分成两组 一组40人 服用a药 另一组60人 服用b药 结果发现 服用a药的40人中有30人治愈 服用b药的60人中有11人治愈 问a b两药对该病的治愈率之
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年养老护理员初级求职面试攻略与预测题
- 吉林移动别墅施工方案
- 第十一课 家乡特色产品小调查教学设计-2025-2026学年小学综合实践活动吉美版四年级上册-吉美版
- 2025年业务知识在供销社招聘中的占比分析及模拟题解答
- 2025年互联网营销师选品员中级考试预测题集
- 河南省洛阳市2025年-2026年小学六年级数学期末考试(下学期)试卷及答案
- 辽宁省盘锦市2025年-2026年小学六年级数学课后作业(上学期)试卷及答案
- 2 丁香结 第二课时 教学设计-2024-2025学年语文六年级上册统编版
- 演唱 二十四节气歌说课稿-2025-2026学年初中音乐西大版2024七年级上册-西大版2024
- 2025年乡村手工艺合作社招聘面试常见问题及答案
- 全球热泵产业发展报告2025
- 商业地产项目数字化运营与客户体验提升策略研究报告
- 2025新疆天泽和达水务科技有限公司部分岗位社会招聘28人笔试模拟试题及答案解析
- 基于多元线性回归的国内旅游收入影响分析-以江西省为例
- 技术方案评审表-技术选型决策
- 水厂化验室知识培训课件
- 实验学校物业管理服务项目方案投标文件(技术方案)
- 中国旅游地理(第四版)中职PPT完整全套教学课件
- 统编本四年级上册语文课堂作业本参考答案
- 数据结构(c语言版)课件
- 铁路路基重力式挡土墙施工方案
评论
0/150
提交评论