已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
用心 爱心 专心1 学而思高中完整讲义 统计学而思高中完整讲义 统计 板块三板块三 茎叶图茎叶图 学生版学生版 知识内容 一 随机抽样 1 随机抽样 满足每个个体被抽到的机会是均等的抽样 共有三种经常采用的随机抽样方 法 简单随机抽样 从元素个数为的总体中不放回地抽取容量为的样本 如果每一次抽Nn 取时总体中的各个个体有相同的可能性被抽到 这种抽样方法叫做简单随机抽样 抽出办法 抽签法 用纸片或小球分别标号后抽签的方法 随机数表法 随机数表是使用计算器或计算机的应用程序生成随机数的功能生成的一张 数表 表中每一位置出现各个数字的可能性相同 随机数表法是对样本进行编号后 按照一定的规律从随机数表中读数 并取出相应的样本 的方法 简单随机抽样是最简单 最基本的抽样方法 系统抽样 将总体分成均衡的若干部分 然后按照预先制定的规则 从每一部分抽取一 个个体 得到所需要的样本的抽样方法 抽出办法 从元素个数为的总体中抽取容量为的样本 如果总体容量能被样本容量Nn 整除 设 先对总体进行编号 号码从 到 再从数字 到中随机抽取一个数 N k n 1N1k 作为起始数 然后顺次抽取第个数 这样就得到容量为的s2 1 sksksnk n 样本 如果总体容量不能被样本容量整除 可随机地从总体中剔除余数 然后再按系统 抽样方法进行抽样 系统抽样适用于大规模的抽样调查 由于抽样间隔相等 又被称为等距抽样 分层抽样 当总体有明显差别的几部分组成时 要反映总体情况 常采用分层抽样 使 总体中各个个体按某种特征分成若干个互不重叠的几部分 每一部分叫做层 在各层中按 层在总体中所占比例进行简单随机抽样 这种抽样方法叫做分层抽样 分层抽样的样本具有较强的代表性 而且各层抽样时 可灵活选用不同的抽样方法 应用广泛 2 简单随机抽样必须具备下列特点 简单随机抽样要求被抽取的样本的总体个数是有限的 N 简单随机样本数小于等于样本总体的个数 nN 简单随机样本是从总体中逐个抽取的 简单随机抽样是一种不放回的抽样 简单随机抽样的每个个体入样的可能性均为 n N 3 系统抽样时 当总体个数恰好是样本容量的整数倍时 取 Nn N k n 若不是整数时 先从总体中随机地剔除几个个体 使得总体中剩余的个体数能被样本容 N n 量整除 因为每个个体被剔除的机会相等 因而整个抽样过程中每个个体被抽取的机会n 仍然相等 为 N n 二 频率直方图 列出样本数据的频率分布表和频率分布直方图的步骤 计算极差 找出数据的最大值与最小值 计算它们的差 用心 爱心 专心2 决定组距与组数 取组距 用决定组数 极差 组距 决定分点 决定起点 进行分组 列频率分布直方图 对落入各小组的数据累计 算出各小数的频数 除以样本容量 得 到各小组的频率 绘制频率分布直方图 以数据的值为横坐标 以的值为纵坐标绘制直方图 频率 组距 知小长方形的面积 组距 频率 频率 组距 频率分布折线图 将频率分布直方图各个长方形上边的中点用线段连接起来 就得到频率 分布折线图 一般把折线图画成与横轴相连 所以横轴左右两端点没有实际意义 总体密度曲线 样本容量不断增大时 所分组数不断增加 分组的组距不断缩小 频率分 布直方图可以用一条光滑曲线来描绘 这条光滑曲线就叫做总体密度曲线 总体 yf x 密度曲线精确地反映了一个总体在各个区域内取值的规律 三 茎叶图 制作茎叶图的步骤 将数据分为 茎 叶 两部分 将最大茎与最小茎之间的数字按大小顺序排成一列 并画上竖线作为分隔线 将各个数据的 叶 在分界线的一侧对应茎处同行列出 四 统计数据的数字特征 用样本平均数估计总体平均数 用样本标准差估计总体标准差 数据的离散程序可以用极差 方差或标准差来描述 极差又叫全距 是一组数据的最大值和最小值之差 反映一组数据的变动幅度 样本方差描述了一组数据平均数波动的大小 样本的标准差是方差的算术平方根 一般地 设样本的元素为样本的平均数为 12n xxx x 定义样本方差为 222 212 n xxxxxx s n 样本标准差 222 12 n xxxxxx s n 简化公式 22222 12 1 n sxxxnx n 五 独立性检验 1 两个变量之间的关系 常见的有两类 一类是确定性的函数关系 另一类是变量间存在关系 但又不具备函数关 系所要求的确定性 它们的关系是带有一定随机性的 当一个变量取值一定时 另一个变 量的取值带有一定随机性的两个变量之间的关系叫做相关关系 2 散点图 将样本中的个数据点描在平面直角坐标系中 就得到n 1 2 ii xyin 了散点图 散点图形象地反映了各个数据的密切程度 根据散点图的分布趋势可以直观地判断分析两 个变量的关系 3 如果当一个变量的值变大时 另一个变量的值也在变大 则这种相关称为正相关 此时 散点图中的点在从左下角到右上角的区域 反之 一个变量的值变大时 另一个变量的值由大变小 这种相关称为负相关 此时 散 点图中的点在从左上角到右下角的区域 散点图可以判断两个变量之间有没有相关关系 4 统计假设 如果事件与独立 这时应该有 用字母表示此式 AB P ABP A P B 0 H 用心 爱心 专心3 即 称之为统计假设 0 HP ABP A P B 5 读作 卡方 统计量 2 统计学中有一个非常有用的统计量 它的表达式为 用它的大小可 2 211221221 1212 n n nn n n n n n 以用来决定是否拒绝原来的统计假设 如果的值较大 就拒绝 即认为与是 0 H 2 0 HAB 有关的 统计量的两个临界值 当时 有的把握说事件与有 2 3 8416 635 2 3 841 95 AB 关 当时 有的把握说事件与有关 当时 认为事件与 2 6 635 99 AB 2 3 841 A 是无关的 B 独立性检验的基本思想与反证法类似 由结论不成立时推出有利于结论成立的小概率事件 发生 而小概率事件在一次试验中通常是不会发生的 所以认为结论在很大程度上是成立 的 1 独立性检验的步骤 统计假设 列出联表 计算统计量 查对临界值表 0 H22 2 作出判断 2 几个临界值 222 0 10 3 841 0 05 6 635 0 01PPP 2 706 联表的独立性检验 22 如果对于某个群体有两种状态 对于每种状态又有两个情况 这样排成一张的表 如22 下 状态B 状态B 合计 状态A 11 n 12 n 1 n 状态A21 n 22 n 2 n 1 n 2 n n 如果有调查得来的四个数据 并希望根据这样的个数据来检验上述的两 11122122 nnnn 4 种状态与是否有关 就称之为联表的独立性检验 AB22 六 回归分析 1 回归分析 对于具有相关关系的两个变量进行统计分析的方法叫做回归分析 即回归分 析就是寻找相关关系中这种非确定关系的某种确定性 回归直线 如果散点图中的各点都大致分布在一条直线附近 就称这两个变量之间具有线 性相关关系 这条直线叫做回归直线 2 最小二乘法 记回归直线方程为 称为变量对变量的回归直线方程 其中叫做回归 y abx Yxa b 系数 是为了区分的实际值 当取值时 变量的相应观察值为 而直线上对应于 y Yyx i xY i y 的纵坐标是 i x i i yabx 设的一组观察值为 且回归直线方程为 x Y ii xy 1 2in y abx 当取值时 的相应观察值为 差刻画了实际观察值与回归x i xY i y 1 2 ii yy in i y 直线上相应点的纵坐标之间的偏离程度 称这些值为离差 我们希望这个离差构成的总离差越小越好 这样才能使所找的直线很贴近已知点 n 记 回归直线就是所有直线中取最小值的那条 2 1 n ii i Qyabx Q 这种使 离差平方和为最小 的方法 叫做最小二乘法 用心 爱心 专心4 用最小二乘法求回归系数有如下的公式 a b 其中上方加 表示是由观察值按最小二乘法求得 1 22 1 n ii i n i i x ynxy b xnx a ybx a b 的回归系数 3 线性回归模型 将用于估计值的线性函数作为确定性函数 的实际值与估计yabx y 值之间的误差记为 称之为随机误差 将称为线性回归模型 yabx 产生随机误差的主要原因有 所用的确定性函数不恰当即模型近似引起的误差 忽略了某些因素的影响 通常这些影响都比较小 由于测量工具等原因 存在观测误差 4 线性回归系数的最佳估计值 利用最小二乘法可以得到的计算公式为 a b 其中 11 222 11 nn iiii ii nn ii ii xxyyx ynxy b xxxn x a ybx 1 1 n i i xx n 1 1 n i i yy n 由此得到的直线就称为回归直线 此直线方程即为线性回归方程 其中 分 yabx a b 别为 的估计值 称为回归截距 称为回归系数 称为回归值 ab a b y 5 相关系数 11 222222 1111 nn iiii ii nnnn iiii iiii xxyyx ynxy r xxyyxn xyn y 6 相关系数的性质 r 1r 越接近于 1 的线性相关程度越强 rxy 越接近于 0 的线性相关程度越弱 rxy 可见 一条回归直线有多大的预测功能 和变量间的相关系数密切相关 7 转化思想 根据专业知识或散点图 对某些特殊的非线性关系 选择适当的变量代换 把非线性方程 转化为线性回归方程 从而确定未知参数 8 一些备案 回归 regression 一词的来历 回归 这个词英国统计学家 Francils Galton 提出 来的 1889 年 他在研究祖先与后代的身高之间的关系时发现 身材较高的父母 他们的 孩子也较高 但这些孩子的平均身高并没有他们父母的平均身高高 身材较矮的父母 他 们的孩子也较矮 但这些孩子的平均身高却比他们父母的平均身高高 Galton 把这种后代 的身高向中间值靠近的趋势称为 回归现象 后来 人们把由一个变量的变化去推测另一 个变量的变化的方法称为回归分析 回归系数的推导过程 22222 222 iiiiiiii Qyabxyaynabx yabxbx 2222 2 2 iiiiii naa bxybxbx yy 把上式看成的二次函数 的系数 a 2 a0n 用心 爱心 专心5 因此当时取最小值 2 2 iiii bxyybx a nn 同理 把的展开式按的降幂排列 看成的二次函数 当时取最小Qbb 2 iii i x yax b x 值 解得 1 2 22 1 n ii ii i n i i i x ynxy xxyy b xx xnx aybx 其中 是样本平均数 1 i yy n 1 i xx n 9 对相关系数进行相关性检验的步骤 r 提出统计假设 变量不具有线性相关关系 0 Hxy 如果以的把握作出推断 那么可以根据与 是样本容量 在相95 10 950 05 2n n 关性检验的临界值表中查出一个的临界值 其中称为检验水平 r 0 05 r10 950 05 计算样本相关系数 r 作出统计推断 若 则否定 表明有的把握认为变量与之间具有线 0 05 rr 0 H95 yx 性相关关系 若 则没有理由拒绝 即就目前数据而言 没有充分理由认为变 0 05 rr 0 H 量与之间具有线性相关关系 yx 说明 对相关系数进行显著性检验 一般取检验水平 即可靠程度为 r0 05 95 这里的指的是线性相关系数 的绝对值很小 只是说明线性相关程度低 不一定不rr 相关 可能是非线性相关的某种关系 这里的是对抽样数据而言的 有时即使 两者也不一定是线性相关的 故在统计r 1r 分析时 不能就数据论数据 要结合实际情况进行合理解释 典例分析 题型一 茎叶图 例 1 2010 丰台二模 甲 乙两名运动员的次测试成绩如下图所示5 7 乙乙 639268 8687 7 设分别表示甲 乙两名运动员测试成绩的标准差 分别表示甲 乙 12 ss 12 xx 两名运动员测试成绩的平均数 则有 A B C 12 xx 12 ss 12 xx 12 ss 12 xx 12 ss D 12 xx 12 ss 例 2 2010 宣武二模 随机抽取某中学甲 乙两班各 10 名同学 测量他们的身高 单位 cm 获得身 高数据的茎叶图如图 则下列关于甲 乙两班这 10 名同学身高的结论正确的是 用心 爱心 专心6 A 甲班同学身高的方差较大 B 甲班同学身高的平均值较大 C 甲班同学身高的中位数较大 D 甲班同学身高在 175 以上的人数较多 例 3 2010 天津高考 甲 乙两人在 10 天中每天加工零件的个数用茎叶图表示如下图 中间一列的数字表示零 件个数的十位数 两边的数字表示零件个数的个位数 则这 10 天甲 乙两人日加工零件的 平均数分别为 和 4 乙乙 9 003 2 2 2 1 1 1 1 1 00 987 5 432 1 例 4 右图是某赛季甲 乙两名篮球运动员每场比赛得分的茎叶图 571 2678479 45368 553 乙乙 4 3 2 1 则甲 乙两人这几场比赛得分的中位数之和是 A B C D 62636465 用心 爱心 专心7 例 5 在某五场篮球比赛中 甲 乙两名运动员得分的茎叶图如右 下列说法正确的是 234 0 21 0 89 1 乙乙 3 2 1 0 A 在这五场比赛中 甲的平均得分比乙好 且甲比乙稳定 B 在这五场比赛中 甲的平均得分比乙好 但乙比甲稳定 C 在这五场比赛中 乙的平均得分比甲好 且乙比甲稳定 D 在这五场比赛中 乙的平均得分比甲好 但甲比乙稳定 例 6 2009 年福建 12 某校开展 爱我海西 爱我家乡 摄影比赛 位评委为参赛作品给出的分数如茎叶图所9A 示 记分员在去掉一个最高分和一个最低分后 算得平均分为 复核员在复核时 发现有一91 个数字 茎叶图中的 无法看清 若记分员计算无误 则数字应该是 xx 例 7 2010 东城一模 在一次数学统考后 某班随机抽取名同学的成绩进行样本分析 获得成绩数据的茎叶图10 如下 计算
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026餐饮业复苏背景下商用植物油需求变化与供应体系重构
- 2026年全国监理工程师之合同管理考试精准押题卷(详细参考解析)
- 法务咨询公司半年工作报告
- 大型设备事后总结方案
- 弹性建筑涂料细部节点密封施工方案
- IT服务公司客户关系部半年工作总结
- 消防设施巡检方案
- 铁矿采选项目社会稳定风险评估报告
- 煤矸石粉煤灰固废综合利用项目烧结成型方案
- 石墨烯新材料生产线项目技术方案
- 人工智能赋能小学语文古诗词跨学科教学的设计与实施
- 2026年马鞍山市花山区社区工作者招聘考试综合能力测验试题及答案
- 2026江苏徐州市新盛集团下属城商集团招聘12人笔试备考试题及答案详解
- ICU患者突发呼吸衰竭应急预案演练脚本
- 山东科技大学2026年综合评价招生《笔试+面试》模拟试题及参考答案
- 2025年《材料加工和成型工艺》考试复习题(含答案)
- 2025年江苏省扬州市八年级地生会考真题试卷+答案
- 2026年世界环境日环保知识线上挑战赛题库
- 2025中远海运集装箱运输有限公司所属公司招聘4人笔试历年参考题库附带答案详解
- 小学党支部书记思政第一课教学设计:听党话跟党走做新时代好少年
- 耳部全息铜砭刮痧法
评论
0/150
提交评论