




已阅读5页,还剩35页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五章统计量及其分布 5 0数理统计简介 5 1总体与样本 5 2样本数据的整理与显示 5 3统计量及其分布 5 4三大抽样分布 5 5充分统计量 5 0数理统计简介 数理统计研究收集 整理和分析带有随机性的数据 以便对所考察的问题作出推断和预测客观上 只允许我们对随机现象进行次数不多的观察试验 我们只能获得局部观察资料 数理统计通过有限的资料研究的问题整体 尽可能地作出精确而可靠的结论随机方法有别于数学分析方法 学习统计无须把过多时间化在计算上 尽可能把时间用在基本概念 方法原理的正确理解上 国内外著名的统计软件包 SAS SPSS STAT等 还有MATLAB EXCEL都可以让你快速 简便地进行数据处理和分析 总之 计算由计算机完成 数理统计不全面观察对象全体 称为总体 而是抽取部分 抽样 进行观察获得数据 称为样本 并通过这些数据对总体进行推断 如果可逐一观察整体 则无需数理统计由于推断是基于抽样数据 抽样数据又不能包括研究对象的全部信息 因而由此获得的结论必然包含不肯定性或错误 统计方法的本质 部分推断整体 由 局部 推断 整体 可能犯错误 我们通过置信度或显著性水平度量推断的可信度 由部分推断全体 这种推理方法为 归纳推理 这种归纳推理不同于数学中的 演绎推理 结论是根据所观察到的大量个别情况 归纳 所得 而不是从一些假设 命题 已知的事实等出发 按一定的逻辑推理去得出来的 例如 在几何学中要证明 等腰三角形底角相等 只须从 等腰 这个前提出发 运用几何公理 一步一步推出这个结论 而 一个习惯于统计思想的人 就可能想出这样的方法 做很多大小形状不一的等腰三角形 实地测量其底角 看差距如何 根据所得资料看看可否作出 底角相等 的结论 这样做就是归纳式的方法 例5 0 1某公司要采购一批产品 每件产品不是合格品就是不合格品 但该批产品总有一个不合格品率p 由此 若从该批产品中随机抽取一件 用x表示这一批产品的不合格数 不难看出x服从一个二点分布b 1 p 但分布中的参数p是不知道的 一些问题 p的大小如何 p大概落在什么范围内 能否认为p满足设定要求 如p 0 05 5 1总体与个体 总体的三层含义 研究对象的全体 数据 分布 总体就是一个概率分布 总体往往难以完全把握 例如1 甬江污染程度2 明天本地区天气情况 个体的理解 总体的每个成员 数据 个体往往容易研究 去研究每一个个体是不明智的 例如 1 甬江按照断面 深度 时间抽检的水质2 从10000只灯泡中抽取50只破坏性检验 5 1 2样本 样品 样本 样本量 一方面 由于样本是从总体中随机抽取的 抽取前无法预知它们的数值 因此 样本是随机变量 用大写字母X1 X2 Xn表示 另一方面 样本在抽取以后经观测就有确定的观测值 因此 样本又是一组数值 此时用小写字母x1 x2 xn表示是恰当的 简单起见 无论是样本还是其观测值 样本一般均用x1 x2 xn表示 应能从上下文中加以区别 例5 1 3啤酒厂生产的瓶装啤酒规定净含量为640克 由于随机性 事实上不可能使得所有的啤酒净含量均为640克 现从某厂生产的啤酒中随机抽取10瓶测定其净含量 得到如下结果 641 635 640 637 642 638 645 643 639 640 这是一个容量为10的样本的观测值 对应的总体为该厂生产的瓶装啤酒的净含量 这样的样本称为完全样本 例5 1 4考察某厂生产的某种电子元件的寿命 选了100只进行寿命试验 得到如下数据 表中样本观测值没有具体的数值 只有一个范围 这样的样本称为分组样本 寿命范围元件数寿命范围元件数寿命范围元件数 024 4 192216 6 384408 4 2448 8 216240 3 408432 4 4872 6 240264 3 432456 1 7296 5 264288 5 456480 2 96120 3 288312 5 480504 2 120144 4 312336 3 504528 3 144168 5 336360 5 528552 1 168192 4 360184 1 55213 独立性 样本中每一样品的取值不影响其它样品的取值 x1 x2 xn相互独立 要使得推断可靠 对样本就有要求 使样本能很好地代表总体 通常有如下两个要求 随机性 总体中每一个个体都有同等机会被选入样本 xi与总体X有相同的分布 样本的要求 简单随机样本 设总体X具有分布函数F x x1 x2 xn为取自该总体的容量为n的样本 则样本联合分布函数为 用简单随机抽样方法得到的样本称为简单随机样本 也简称样本 于是 样本x1 x2 xn可以看成是独立同分布 iid 的随机变量 其共同分布即为总体分布 抽样前为样本 抽样后得到的资料都是确定的值 样本值 观察值 如从某班大学生中抽取10人测量身高 样本 抽样后得到10个数 样本值 它们是样本取到的值而不是样本 我们只能观察到随机变量取的值而见不到随机变量 总体 总体 样本 样本值的关系 总体 理论分布 样本 样本值 统计是从手中已有的资料 样本值 去推断实际真实的情况 总体 样本是联系二者的桥梁 总体决定样本取值的概率规律 也就是样本取到样本值的规律 因而可以由样本值推断总体 总体分为有限总体与无限总体 当个体数充分大时 有限总体可看作无限总体对无限总体 随机性与独立性容易实现 例5 1 5设有一批产品共N个 需要进行抽样检验以了解其不合格品率p 现从中采取不放回抽样抽出2个产品 这时 第二次抽到不合格品的概率依赖于第一次抽到的是否是不合格品 如果第一次抽到不合格品 则 P x2 1 x1 1 Np 1 N 1 而若第一次抽到的是合格品 则第二次抽到不合格品的概率为 P x2 1 x1 0 Np N 1 显然 如此得到的样本不是简单随机样本 但是 当N很大时 我们可以看到上述两种情形的概率都近似等于p 所以当N很大 而n不大 一个经验法则是n N 0 1 时可以把该样本近似地看成简单随机样本 5 2 1经验分布函数 5 2样本数据的整理与显示 了解 设x1 x2 xn是取自总体分布函数为F x 的样本 若将样本观测值由小到大进行排列 为x 1 x 2 x n 则称x 1 x 2 x n 为有序样本 用有序样本定义如下函数 则Fn x 是一非减右连续函数 且满足 Fn 0和Fn 1 由此可见 Fn x 是一个分布函数 并称Fn x 为经验分布函数 由伯努里大数定律 只要n相当大 Fn x 依概率收敛于F x 更深刻的结果也是存在的 这就是 格里纹科定理 定理5 2 1 格里纹科定理 设x1 x2 xn是取自总体分布函数为F x 的样本 Fn x 是其经验分布函数 当n 时 有 P sup Fn x F x 0 1 格里纹科定理表明 当n相当大时 经验分布函数是总体分布函数F x 的一个良好的近似 经典的统计学中一切统计推断都以样本为依据 其理由就在于此 研究总体与样本之间的关系是统计学的中心内容对这种关系的研究从两方面着手 一是从总体到样本 这就是研究抽样分布二是从样本到总体 这就是统计推断 统计推断是以总体分布和样本抽样分布的理论关系为基础的 为正确由样本推断总体 必须对样本的抽样分布有所了解 5 3统计量及其分布 5 3 1统计量与抽样分布 定义5 3 1设x1 x2 xn为取自某总体的样本 若样本函数T T x1 x2 xn 中不含有任何未知参数 则称T为统计量 统计量的分布称为抽样分布 以及经验分布函数Fn x 都是统计量 而x1 x1 等均不是统计量 尽管统计量不依赖于未知参数 但是它的分布一般是依赖于未知参数的 几个常用统计量的定义 1 样本均值 2 样本方差 3 样本原点矩 4 样本中心矩 5 样本偏度 峰度等 定理5 3 2数据观测值与均值的偏差平方和最小 即在形如 xi c 2的函数中 1 样本均值的基本性质和抽样分布 定理5 3 1若把样本中的数据与样本均值之差称为偏差 则样本所有偏差之和为0 即 最小 其中c为任意给定常数 定理5 3 3设x1 x2 xn是来自某个总体的样本 为样本均值 1 若总体分布为N 2 则 的精确分布为N 2 n 若总体分布未知或不是正态分布 但E x Var x 2 则n较大时的渐近分布为N 2 n 常记为 x AN 2 n 这里渐近分布是指n较大时的近似分布 抽样分布就是通常的随机变量函数的分布 只是强调这一分布是由一个统计量所产生的 研究统计量的性质和评价一个统计推断的优良性 完全取决于其抽样分布的性质 抽样分布 精确抽样分布 渐近分布 小样本问题中使用 大样本问题中使用 2样本方差与样本标准差 称为样本标准差 定义5 3 3 称为样本方差 其算术平方根 在n不大时 常用作为样本方差 其算术平方根也称为样本标准差 注 在确定后 n个偏差 x1 x x2 x xn x 能自由取值 因为 只有n 1个数据可以自由变动 而第n个则不 xi x 0 中 样本均值的数学期望和方差 以及样本方差的数学期望都不依赖于总体的分布形式 定理5 3 4设总体X具有二阶矩 即E x Var x 2 x1 x2 xn为从该总体得到的样本 x 和s2分别是样本均值和样本方差 则 E x Var x 2 n E s2 2 5 4三大抽样分布 大家很快会看到 有很多统计推断是基于正态分布的假设的 以标准正态变量为基石而构造的三个著名统计量在实际中有广泛的应用 这是因为这三个统计量不仅有明确背景 而且其抽样分布的密度函数有明显表达式 它们被称为统计中的 三大抽样分布 5 4 1 2分布 卡方分布 定义5 4 1设X1 X2 Xn 独立同分布于标准正态分布N 0 1 则 2 X12 Xn2的分布称为自由度为n的 2分布 记为 2 2 n 当随机变量 2 2 n 时 对给定 0 1 称满足P 2 1 2 n 的 1 2 n 是自由度为n 1的卡方分布的1 分位数 分位数 1 2 n 可以从附表3中查到 该密度函数的图像是一只取非负值的偏态分布 卡方分布密度函数演示 5 4 2F分布 定义5 4 2设X1 2 m X2 2 n X1与X2独立 则称F X1 m X2 n 的分布是自由度为m与n的F分布 记为F F m n 其中m称为分子自由度 n称为分母自由度 当随机变量F F m n 时 对给定 0 1 称满足P F F1 m n 1 的F1 m n 是自由度为m与n的F分布的1 分位数 由F分布的构造知F n m 1 F1 m n 该密度函数的图象也是一只取非负值的偏态分布 F 分布密度函数演示 5 4 3t分布 定义5 4 3设随机变量X1与X2独立 且X1 N 0 1 X2 2 n 则称 的分布为自由度为n的t分布 记为t t n t分布的简单了解 各方面与标准正态分布类似分位数的性质也是如此 t分布的密度函数的图象是一个关于纵轴对称的分布 t 分布密度函数演示 5 4 4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 酒店餐饮服务标准化流程设计
- 小学科学综合实践活动示范方案
- 高考语文现代文阅读答题技巧集锦
- 小学语文常用词语积累与应用
- 小学依法治校领导职责与执行细则
- 信息技术课程教学标准与案例分析
- 企业安全生产职责分工与考核办法
- 山东省2024年高考数学模拟测试卷
- 七年级语文期末测试卷命题思路与解析
- 销售团队培训材料标准化模板
- 农家小院课件
- 2025年营养指导员师岗位技能及理论知识考试题库(含答案)
- 【语文】广东省广州市华南师范大学附属小学小学二年级下册期末试卷(含答案)
- 年会基础知识培训内容课件
- 撕脱伤皮肤护理查房
- 地球的外衣大气层课件
- 2025年时事政治考试100题(附答案)
- 呼吸性碱中毒急诊护理
- 2025年中学生法治素养竞赛题库及答案
- 新人教版五年级上册小学数学教学计划+教学进度表
- 名著章节课件-《水浒传》第5回《小霸王醉入销金帐 花和尚大闹桃花村》情节梳理+人物形象+巩固试题
评论
0/150
提交评论