




已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一 经验分布函数二 频数频率分布表三 样本数据的图形显示 6 2样本数据的整理与显示 6 2 1经验分布函数 设x1 x2 xn是取自总体分布函数为F x 的样本 若将样本观测值由小到大进行排列 为x 1 x 2 x n 则称x 1 x 2 x n 为有序样本 用有序样本定义如下函数 则Fn x 是一非减右连续函数 且满足 Fn 0和Fn 1 可见 Fn x 是一个分布函数 称Fn x 为经验分布函数 Fn x 的图形是累积频率曲线 它是跳跃上升的一条阶梯曲线 若观测值不重复 跃度为1 n 若重复 按1 n的倍数跳跃上升 当时 依概率收敛于总体的分布函数 例1某食品厂生产听装饮料 现从生产线上随机抽取5听饮料 称得其净重 单位 克 351347355344351 x 1 344 x 2 347 x 3 351 x 4 351 x 5 355 这是一个容量为5的样本 经排序可得有序样本 其经验分布函数为 0 x 3440 2 344 x 347Fn x 0 4 347 x 3510 8 351 x 3551 x 355 由伯努里大数定律 只要n相当大 Fn x 依概率收敛于F x 更深刻的结果也是存在的 这就是格里纹科定理 定理1 格里纹科定理 格里纹科 1933 定理表明 当n相当大时 经验分布函数是总体分布函数F x 的一个良好的近似 经典的统计学中一切统计推断都以样本为依据 其理由就在于此 6 2 2频数 频率分布表 样本数据的整理是统计研究的基础 整理数据的最常用方法之一是给出其频数分布表或频率分布表 例2为研究某厂工人生产某种产品的能力 我们随机调查了20位工人某天生产的该种产品的数量 数据如下 1 对样本进行分组 作为一般性的原则 组数通常在5 20个 对容量较小的样本 2 确定每组组距 近似公式为组距d 最大观测值 最小观测值 组数 3 确定每组组限 各组区间端点为a0 a1 a0 d a2 a0 2d ak a0 kd 形成如下的分组区间 a0 a1 a1 a2 ak 1 ak 对这20个数据 样本 进行整理 具体步骤如下 其中a0略小于最小观测值 ak略大于最大观测值 4 统计样本数据落入每个区间的个数 频数 并列出其频数频率分布表 表1例2的频数频率分布表 组序分组区间组中值频数频率累计频率 1 147 157 15240 20202 157 167 16280 40603 167 177 17250 25854 177 187 18220 10955 187 197 19210 05100合计201 6 2 3样本数据的图形显示 一 直方图 直方图是频数分布的图形表示 它的横坐标表示所关心变量的取值区间 纵坐标有三种表示方法 频数 频率 最准确的是频率 组距 它可使得诸长条矩形面积和为1 凡此三种直方图的差别仅在于纵轴刻度的选择 直方图本身并无变化 当取得一组样本值后 一般先根据样本取值作频率直方图 对总体的分布情况有一个几何直观上的粗略了解 然后再进一步分析 10 直方图 11 12 13 例3某工厂用自动包装机包装产品 为了考察每袋产品重量的波动情况 选取100袋产品测得其重量如下 单位 kg 根据测得的数据作出频率直方图 97 894 698 9100 999 8102 797 995 599 0101 199 6102 997 795 799 5101 299 9103 198 295 899 1101 3100 0103 898 196 099 0101 4100 198 396 399 2101 5100 2104 598 596 699 3101 4100 397 898 496 799 4101 1100 496 999 5101 0100 198 597 099 1101 2100 298 097 299 2101 6100 298 197 499 0101 6100 498 197 599 4101 8100 598 797 199 3102 1100 398 899 998 9102 0100 298 999 7100 6102 1100 498 899 6100 6102 3100 198 699 7100 7102 498 899 8102 2100 899 8100 9 14 15 16 把每一个数值分为两部分 前面一部分 百位和十位 称为茎 后面部分 个位 称为叶 然后画一条竖线 在竖线的左侧写上茎 右侧写上叶 就形成了茎叶图 如 二 茎叶图 数值分开茎和叶112 11 2 11和2 例4某公司对应聘人员进行能力测试 测试成绩总分为150分 下面是50位应聘人员的测试成绩 已经过排序 我们用这批数据给出一个茎叶图 见下页 图3测试成绩的茎叶图 茎叶图的外观很像横放的直方图 但茎叶图中叶增加了具体的数值 使我们对数据的具体取值一目了然 从而保留了数据中全部的信息 在要比较两组样本时 可画出它们的背靠背的茎叶图 见附录 注意 茎叶图保留数据中全部信息 当样本量较大 数据很分散 横跨二 三个数量级时 茎叶图并不适用 三 箱线图 样本分位数与样本中位数 更一般地 样本p分位数mp可如下定义 通常 样本均值在概括数据方面具有一定的优势 但当数据中含有极端值时 使用中位数比使用均值更好 中位数的这种抗干扰性在统计中称为具有稳健性 设x 1 x n 是有序样本 则样本中位数m0 5定义为 注 次序统计量 设x1 x2 xn是取自总体X的样本 x i 称为该样本的第i个次序统计量 它的取值是将样本观测值由小到大排列后得到的第i个观测值 其中x 1 min x1 x2 xn 称为该样本的最小次序统计量 称x n max x1 x2 xn 为该样本的最大次序统计量 样本中位数是次序统计量的函数 五数概括与箱线图 次序统计量的应用之一是五数概括与箱线图 在得到有序样本后 容易计算如下五个值 最小观测值xmin x 1 最大观测值xmax x n 中位数m0 5 第一4分位数Q1 m0 25 第三4分位数Q3 m0 75 五数概括是指用这五个数 xmin Q1 m0 5 Q3 xmax 来大致描述一批数据的轮廓 附录 1 背靠背茎叶图举例 2 次序统计量 3 一本关于 统计图 的好书 现代统计图形 谢益辉http yihui name cn publication 4 箱线图举例 1 背靠背茎叶图举例 例下面的数据是某厂两个车间某天各40名员工生产的产品数量 为对其进行比较 我们将这些数据放到一个背靠背茎叶图上 甲车间乙车间6205687775554211667788877664421722455556668898766532801133344466778732109223585300107 两车间产量的背靠背茎叶图 在上图中 茎在中间 左边表示甲车间的数据 右边表示乙车间的数据 从茎叶图可以看出 甲车间员工的产量偏于上方 而乙车间员工的产量大多位于中间 乙车间的平均产量要高于甲车间 乙车间各员工的产量比较集中 而甲车间员工的产量则比较分散 2 次序统计量及其分布 设x1 x2 xn是取自总体X的样本 x i 称为该样本的第i个次序统计量 它的取值是将样本观测值由小到大排列后得到的第i个观测值 其中x 1 min x1 x2 xn 称为该样本的最小次序统计量 称x n max x1 x2 xn 为该样本的最大次序统计量 样本中位数也是一个很常见的统计量 它也是次序统计量的函数 例设总体X的分布为仅取0 1 2的离散均匀分布 分布列为 我们知道 在一个样本中 x1 x2 xn是独立同分布的 而次序统计量x 1 x 2 x n 则既不独立 分布也不相同 看下例 现从中抽取容量为3的样本 其一切可能取值有33 27种 表5 3 6列出了这些值 由此 我们可以清楚地看到这三个次序统计量的分布是不相同的 可给出的x 1 x 2 x 3 分布列如下 进一步 我们可以给出两个次序统计量的联合分布 如 x 1 和x 2 的联合分布列为 因为P x 1 0 x 2 0 7 27 二者不等 由此可看出x 1 和x 2 是不独立的 而P x 1 0 P x 2 0 19 27 7 27 单个次序统计量的分布 定理设总体X的密度函数为p x 分布函数为F x x1 x2 xn为样本 则第k个次序统计量x k 的密度函数为 3 多个次序统计量的联合分布 对任意多个次序统计量可给出其联合分布 以两个为例说明 定理在定理5 3 5的记号下 次序统计量 x i x j i j 的联合分布密度函数为 次序统计量的函数在实际中经常用到 如样本极差Rn x n x 1 样本中程 x n x 1 2 样本极差是一个很常用的统计量 其分布只在很少几种场合可用初等函数表示 令R x n x 1 由R 0 可以推出0 x 1 x n R 1 R 则 例设总体分布为U 0 1 x1 x2 xn为样本 则 x n x 1 的联合密度函数为 p1 n y z n n 1 z y n 2 0 y z 1 这正是参数为 n 1 2 的贝塔分布 样本分位数与样本中位数 样本中位数也是一个很常见的统计量 它也是次序统计量的函数 通常如下定义 更一般地 样本p分位数mp可如下定义 定理设总体密度函数为p x xp为其p分位数 p x 在xp处连续且p xp 0 则 特别 对样本中位数 当n 时近似地有 当n 时样本p分位数mp的渐近分布为 例设总体为柯西分布 密度函数为 p x 1 1 x 2 x 通常 样本均值在概括数据方面具有一定的优势 但当数据中含有极端值时 使用中位数比使用均值更好 中位数的这种抗干扰性在统计中称为具有稳健性 不难看出 是该总体的中位数 即x0 5 设x1 x2 xn是来自该总体的样本 当样本量n较大时 样本中位数m0 5的渐近分布为 m0 5 AN 2 4n 五数概括与箱线图 次序统计量的应用之一是五数概括与箱线图 在得到有序样本后 容易计算如下五个值 最小观测值xmin x 1 最大观测值xmax x n 中位数m0 5 第一4分位数Q1 m0 25 第三4分位数Q3 m0 75 所谓五数概括就是指用这五个数 xmin Q1 m0 5 Q3 xmax 来大致描述一批数据的轮廓 3 一本关于 统计图 的好书 现代统计图形 谢益辉http yihui name cn publication 次序统计量的应用之一是五数概括与箱线图 在得到有序样本后 容易计算如下五个值 最小观测值xmin x 1 中位数m0 5 第一4分位数Q1 m0 25 第三4分位数Q3 m0 75 最大观测值xmax x n 所谓五数概括就是指用这五个数 xmin Q1 m0 5 Q3 xmax来大致描述一批数据的轮廓 4 五数概括与箱线图 下表是某厂160名销售人
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年输血知识考试题库(含答案)
- 工程占道施工补偿方案模板(3篇)
- 园林工程-交叉施工方案(3篇)
- 酒店基础工程施工方案(3篇)
- 装修拆除工程施工方案
- 2025年电商知识产权保护与跨境电商知识产权纠纷解决报告
- 图书检索课件
- 团队课件模板
- 2025实验安全考试题库及答案生物
- 消防设施、设备日常维护保养与管理制度范文(3篇)
- 2025年度全国保密教育线上培训考试题库及答案(完整版)
- 预防交通事故知识培训课件
- 题型专攻:平行线分线段成比例【八大题型】(原卷版)
- 个人车辆租车合同4篇
- 宠物洗澡美容免责协议书
- 2025-2026学年广美版(2024)小学美术三年级上册教学计划及进度表
- 二手乐器平台竞争格局-洞察及研究
- 教科版(2024)九年级上册物理教学计划含进度表
- 2025-2026人教版(2024)八年级上册英语教学计划 (三篇)
- (2025年标准)分手房产归属协议书
- 2025中金证券港股通开通测试题及答案
评论
0/150
提交评论