




已阅读5页,还剩84页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数理统计学 2020 4 5 Ch6 1 研究如何取得反映客观现象的数据 并通过图表形式对所收集的数据进行加工处理和显示 进而通过综合概括与分析得出反映客观现象的规律性数量特征 研究如何根据样本数据去推断总体数量特征的方法 它是在对样本数据进行描述的基础上 对统计总体的未知数量特征做出以概率形式表述的推断 第六章数理统计的基本概念 第六章 2020 4 5 Ch6 2 参数估计 第七章 假设检验 第八章 回归分析 第九章 方差分析 第九章 推断统计学 2020 4 5 Ch6 3 Ch6 4 2020 4 5 第六章统计量及其分布 6 1总体与样本 6 2样本数据的整理与显示 6 3统计量及其分布 6 4三大抽样分布 2020 4 5 Ch6 5 例6 0 1某公司要采购一批产品 每件产品不是合格品就是不合格品 但该批产品总有一个不合格品率p 由此 若从该批产品中随机抽取一件 用x表示这一批产品的不合格数 不难看出X服从一个二点分布B 1 p 但分布中的参数p是不知道的 一些问题 2020 4 5 6 p的大小如何 p大概在什么范围内 能否认为p满足设定要求 如p 0 05 2020 4 5 7 总体 研究对象全体元素组成的集合总体的三层含义 1 研究对象的全体2 数据3 分布 6 1总体与个体 6 1 2020 4 5 Ch6 8 例6 1 1考察某厂的产品质量 以0记合格品 以1记不合格品 则总体 该厂生产的全部合格品与不合格品 由0或1组成的一堆数 若以p表示这堆数中1的比例 不合格品率 则该总体可由一个二点分布表示 2020 4 5 9 比如 两个生产同类产品的工厂的产品的总体分布 2020 4 5 10 样本 从总体中抽取的部分个体 称为总体X的一个容量为n的样本观测值 或称样本的一个实现 用表示 n为样本容量 个体 组成总体的每一个元素 2020 4 5 Ch6 11 样品 样本 样本量 样本具有两重性 一方面 由于样本是从总体中随机抽取的 抽取前无法预知它们的数值 因此 样本是随机变量 用大写字母X1 X2 Xn表示 另一方面 样本在抽取以后经观测就有确定的观测值 因此 样本又是一组数值 此时用小写字母x1 x2 xn表示是恰当的 2020 4 5 12 例6 1 2啤酒厂生产的瓶装啤酒规定净含量为640克 由于随机性 事实上不可能使得所有的啤酒净含量均为640克 现从某厂生产的啤酒中随机抽取10瓶测定其净含量 得到如下结果 641 635 640 637 642 638 645 643 639 640 这是一个容量为10的样本的观测值 对应的总体为该厂生产的瓶装啤酒的净含量 这样的样本称为完全样本 2020 4 5 Ch6 13 例6 1 3考察某厂生产的某种电子元件的寿命 选了100只进行寿命试验 得到如下数据 2020 4 5 Ch6 14 表6 1 2100只元件的寿命数据 表5 1 2中的样本观测值没有具体的数值 只有一个范围 这样的样本称为分组样本 寿命范围元件数寿命范围元件数寿命范围元件数 024 4 192216 6 384408 4 2448 8 216240 3 408432 4 4872 6 240264 3 432456 1 7296 5 264288 5 456480 2 96120 3 288312 5 480504 2 120144 4 312336 3 504528 3 144168 5 336360 5 528552 1 168192 4 360184 1 55213 2020 4 5 Ch6 15 独立性 样本中每一样品的取值不影响其它样品的取值 X1 X2 Xn相互独立 要使得推断可靠 对样本就有要求 使样本能很好地代表总体 通常有如下两个要求 随机性 总体中每一个个体都有同等机会被选入样本 Xi与总体X有相同的分布 也称代表性 同分布性 样本的要求 简单随机样本 2020 4 5 16 若总体X的样本满足 一般 对有限总体 放回抽样所得到的样本为简单随机样本 但使用不方便 常用不放回抽样代替 而代替的条件是 1 与X有相同的分布 2 相互独立 则称为简单随机样本 简单随机样本 N n 10 2020 4 5 Ch6 17 设总体X的分布函数为F x 则样本 若总体X的密d f 为f x 则样本 的联合d f 为 的联合分布函数为 2020 4 5 Ch6 18 6 2 1经验分布函数 6 2样本数据的整理与显示 设X1 X2 Xn是取自总体分布函数为F x 的样本 若将样本观测值由小到大进行排列 为x 1 x 2 x n 则称X 1 X 2 X n 为有序样本 用有序样本定义如下函数 2020 4 5 19 大数定律的应用 2020 4 5 20 则Fn x 是一非减右连续函数 且满足 Fn 0和Fn 1 由此可见 Fn x 是一个分布函数 并称Fn x 为经验分布函数 2020 4 5 21 例6 2 1某食品厂生产听装饮料 现从生产线上随机抽取5听饮料 称得其净重 单位 克 351347355344351 x 1 344 x 2 347 x 3 351 x 4 354 x 5 355 这是一个容量为5的样本 经排序可得有序样本 2020 4 5 22 其经验分布函数为 由伯努里大数定律 只要n相当大 Fn x 依概率收敛于F x 0 x 3440 2 344 x 347Fn x 0 4 347 x 3510 8 344 x 3471 x 355 2020 4 5 23 更深刻的结果也是存在的 这就是格里纹科定理 定理6 2 1 格里纹科定理 设X1 X2 Xn是取自总体分布函数为F x 的样本 Fn x 是其经验分布函数 当n 时 有 P sup Fn x F x 0 1 格里纹科定理表明 当n相当大时 经验分布函数是总体分布函数F x 的一个良好的近似 经典的统计学中一切统计推断都以样本为依据 其理由就在于此 2020 4 5 24 6 2 2频数 频率分布表 样本数据的整理是统计研究的基础 整理数据的最常用方法之一是给出其频数分布表或频率分布表 例6 2 2为研究某厂工人生产某种产品的能力 我们随机调查了20位工人某天生产的该种产品的数量 数据如下 2020 4 5 Ch6 25 1 对样本进行分组 作为一般性的原则 组数通常在5 20个 K 1 3 3log n 2 确定每组组距 近似公式为组距d 最大观测值 最小观测值 组数 3 确定每组组限 各组区间端点为a0 a1 a0 d a2 a0 2d ak a0 kd 形成如下的分组区间 含下不含上 a0 a1 a1 a2 ak 1 ak 对这20个数据 样本 进行整理 具体步骤如下 其中a0略小于最小观测值 ak略大于最大观测值 2020 4 5 26 4 统计样本数据落入每个区间的个数 频数 并列出其频数频率分布表 表6 2 1例6 2 2的频数频率分布表 组序分组区间组中值频数频率累计频率 1 147 157 15230 15152 157 167 16290 45603 167 177 17250 25854 177 187 18220 10955 187 197 19210 05100合计201 2020 4 5 Ch6 27 6 2 3样本数据的图形显示 一 直方图 直方图是频数分布的图形表示 它的横坐标表示所关心变量的取值区间 纵坐标有三种表示方法 频数 频率 最准确的是频率 组距 它可使得诸长条矩形面积和为1 凡此三种直方图的差别仅在于纵轴刻度的选择 直方图本身并无变化 2020 4 5 Ch6 28 表6 2 1例6 2 2的频数频率分布表 组序分组区间组中值频数频率累计频率 1 147 157 15230 15152 157 167 16290 45603 167 177 17250 25854 177 187 18220 10955 187 197 19210 05100合计201 output c 160 196 164 148 170 175 178 166 181 162 161 168 166 162 172 156 170 157 162 154 hist output breaks c 147 10 0 5 right FALSE 2020 4 5 Ch6 29 Ch6 30 2020 4 5 把每一个数值分为两部分 前面一部分 百位和十位 称为茎 后面部分 个位 称为叶 然后画一条竖线 在竖线的左侧写上茎 右侧写上叶 就形成了茎叶图 如 二 茎叶图 数值分开茎和叶112 11 2 11和2 2020 4 5 31 例5 2 3某公司对应聘人员进行能力测试 测试成绩总分为150分 下面是50位应聘人员的测试成绩 已经过排序 我们用这批数据给出一个茎叶图 见下页 2020 4 5 32 图5 2 3测试成绩的茎叶图 2020 4 5 33 在要比较两组样本时 可画出它们的背靠背的茎叶图 注意 茎叶图保留数据中全部信息 当样本量较大 数据很分散 横跨二 三个数量级时 茎叶图并不适用 2020 4 5 Ch6 34 6 3 1统计量与抽样分布 6 3统计量及其分布 当人们需要从样本获得对总体各种参数的认识时 最好的方法是构造样本的函数 不同的函数反映总体的不同特征 定义6 3 1设X1 X2 Xn为取自某总体的样本 若样本函数T T X1 X2 Xn 中不含有任何未知参数 则称T为统计量 统计量的分布称为抽样分布 2020 4 5 35 例是未知参数 若 已知 则为统计量 是一样本 是统计量 其中 则 2020 4 5 Ch6 36 常用的统计量 为样本均值 为样本方差 为样本标准差 2020 4 5 Ch6 37 为样本的k阶原点矩 为样本的k阶中心矩 例如 2020 4 5 Ch6 38 5 顺序统计量与极差 为样本值 且 定义r v 其中 2020 4 5 Ch6 39 6 样本分位数与样本中位数 样本中位数也是一个很常见的统计量 它也是次序统计量的函数 通常如下定义 更一般地 样本p分位数mp可如下定义 2020 4 5 40 通常 样本均值在概括数据方面具有一定的优势 但当数据中含有极端值时 使用中位数比使用均值更好 中位数的这种抗干扰性在统计中称为具有稳健性 2020 4 5 41 7 五数概括与箱线图 次序统计量的应用之一是五数概括与箱线图 在得到有序样本后 容易计算如下五个值 最小观测值xmin x 1 最大观测值xmax x n 中位数m0 5 第一4分位数Q1 m0 25 第三4分位数Q3 m0 75 所谓五数概括就是指用这五个数 xmin Q1 m0 5 Q3 xmax 来大致描述一批数据的轮廓 Rcode Summary boxplot 2020 4 5 42 注样本方差与样本二阶中心矩的不同 故 推导 2020 4 5 Ch6 43 2 2020 4 5 Ch6 44 例1从一批机器零件毛坯中随机地抽取10件 测得其重量为 单位 公斤 210 243 185 240 215 228 196 235 200 199求这组样本值的均值 方差 二阶原点矩与二阶中心矩 解 令 例1 2020 4 5 Ch6 46 则 2020 4 5 Ch6 47 例2在总体中 随机抽取一个容量为36的样本 求样本均值落在50 8到53 8之间的概率 解 故 例2 2020 4 5 Ch6 48 按照统计量定义 若X1 X2 Xn为样本 则以及经验分布函数Fn x 都是统计量 而当 2未知时 X1 X1 等均不是统计量 尽管统计量不依赖于未知参数 但是它的分布一般是依赖于未知参数的 下面介绍一些常见的统计量及其抽样分布 2020 4 5 49 6 3 2样本均值及其抽样分布 思考 在分组样本场合 样本均值如何计算 二者结果相同吗 X X1 Xn n 2020 4 5 50 定理6 3 2数据观测值与均值的偏差平方和最小 即在形如 Xi c 2的函数中 样本均值的基本性质 定理6 3 1若把样本中的数据与样本均值之差称为偏差 则样本所有偏差之和为0 即 最小 其中c为任意给定常数 2020 4 5 Ch6 51 样本均值的抽样分布 定理6 3 3设X1 X2 Xn是来自某个总体的样本 为样本均值 1 若总体分布为N 2 则 的精确分布为N 2 n X AN 2 n 这里渐近分布是指n较大时的近似分布 若总体分布未知或不是正态分布 但E X Var X 2 则n较大时的渐近分布为N 2 n 常记为 2020 4 5 52 6 3 3样本方差与样本标准差 称为样本标准差 定义6 3 3 称为样本方差 其算术平方根 在n不大时 常用作为样本方差 其算术平方根也称为样本标准差 2020 4 5 Ch6 53 在这个定义中 Xi X 2 n 1称为偏差平方和的自由度 其含义是 能自由取值 因为 只有n 1个数据可以自由变动 而第n个则不 Xi X 0 称为偏差平方和 中 样本偏差平方和有三个不同的表达式 Xi X 2 Xi2 Xi 2 n Xi2 nX2 它们都可用来计算样本方差 思考 分组样本如何计算样本方差 2020 4 5 54 样本均值的数学期望和方差 以及样本方差的数学期望都不依赖于总体的分布形式 定理6 3 4设总体X具有二阶矩 即E X Var X 2 X1 X2 Xn为从该总体得到的样本 X 和S2分别是样本均值和样本方差 则 E X Var X 2 n E S2 2 2020 4 5 55 当总体关于分布中心对称时 我们用 和S 刻画样本特征很有代表性 而当其不对称时 只用 就显得很不够 为此 需要一些刻画分布形状的统计量 如样本偏度和样本峰度 它们都是样本中心矩的函数 样本偏度 1反映了总体分布密度曲线的对称性信息 样本峰度 2反映了总体分布密度曲线在其峰值附近的陡峭程度 定义 1 B3 B23 2称为样本偏度 2 B4 B22 3称为样本峰度 和S 2020 4 5 56 R Library moments skewness kurtosis Examplelibrary moments x rchisq 500 3 y dchisq x 3 plot x y skewness x out 1 88x1 rnorm 500 0 1 skewness x1 kurtosis x1 2020 4 5 57 2020 4 5 58 协方差与相关系数 则 称SXY为样本的协方差 RXY为样本的相关系数 R cov cor 2020 4 5 59 6 4三大抽样分布 大家很快会看到 有很多统计推断是基于正态分布的假设的 以标准正态变量为基石而构造的三个著名统计量在实际中有广泛的应用 这是因为这三个统计量不仅有明确背景 而且其抽样分布的密度函数有明显表达式 它们被称为统计中的 三大抽样分布 2020 4 5 Ch6 60 ch6 61 1 正态分布 则 特别地 则 2020 4 5 ch6 62 标准正态分布的 分位数 分布的上 分位数 若 则称z 为标准正态 定义 正态分布的双侧 分位数 若 则称为标准 2020 4 5 ch6 63 标准正态分布的 分位数图形 常用数字 z 2 z1 2 2020 4 5 ch6 64 2 分布 n为自由度 且都服从标准正态分布N 0 1 则 n 1时 其密度函数为 卡分布 2020 4 5 ch6 65 n 2时 其密度函数为 为参数为1 2的指数分布 2020 4 5 ch6 66 一般 其中 在x 0时收敛 称为 函数 具有性质 2020 4 5 ch6 67 2020 4 5 ch6 68 例如 分布的性质 n 10 性质 性质 性质 性质 2020 4 5 ch6 69 相互独立 则 2020 4 5 ch6 70 3 t分布 Student分布 定义 则称T服从自由度为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025全民《乡村振兴战略》知识竞赛题库含答案
- 出租库房安全培训课件
- 出差安全培训总结课件
- 招商银行笔试题库及参考答案
- 陕西金太阳2025年9月高三联考15C政治(含答案)
- 2025版关于商业转让合同示范文本
- 2025年未经授权的合同是否有效?国家公积金贷款还款指南
- 冲床安全生产培训总结课件
- 气调包装智能化-洞察及研究
- 冲压工厂安全培训内容课件
- 颂钵培训课件
- 2023年湖南长沙湘江新区所属事业单位招聘12人笔试参考题库(共500题)答案详解版
- 插花艺术与花艺课件
- CADCAM应用技术(CAXA2020)中职全套教学课件
- 生物医学工程伦理 课件全套 第1-10章 生物医学工程与伦理-医学技术选择与应用的伦理问题
- 全国硕士研究生考试数学历年真题
- 仓库管理作业流程规范
- 地面水仓清淤安全技术措施
- 物联网概论(第2版)PPT完整全套教学课件
- 中国税制第4版课后部分参考答案刘颖
- 宠物展会策划方案
评论
0/150
提交评论