




免费预览已结束,剩余23页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 本章要点 本章将对系统抽样这种具有简便易行 样本分布均匀 估计效率较高等多方面优点的抽样组织方式进行介绍 以便在实践中灵活加以应用 具体要求 正确理解系统抽样的基本思想和方式 掌握系统抽样的估计量及其性质 熟知系统抽样估计量方差的样本估计方式 对系统抽样的相关问题有所了解 2 第一节抽样方式 3 一 系统抽样的基本思想对于一个容量为N的总体 首先 将总体中各单位按某种顺序编为从1到A的号码 若要从中抽出一个容量为n的样本 则应先从编号为1到k k N 的k个单位中 随机地抽取一个单位 然后 按照一定的规律 如每隔k个单位抽出一个单位等 顺次地抽出n个样本单位 二 系统抽样的基本方式系统抽样与其他抽样方法所不同的一个最显著的特点 就是系统抽样只需要抽取一个样本单位 然后按照某种规律 顺次地得到整个样本 这里所提到的 某种规律 就是指样本单位抽取的一种事先的规定和安排 在此基础上 系统抽样又可以划分为若干种具体的系统抽样方法 其中 线性系统抽样是一种最基本的方法 4 一 线性系统抽样即对于一个容量为A的总体 欲从中抽出一个容量为n的样本 首先将总体各单位按任意的顺序排列并编号 然后计算一个正整数k N n 这里假定A是a的整数倍 称k为抽样距离 将总体分为n段 每段包含k个总体单位 再从第一段的k个单位中 随机抽出一个单位 假设其编号为第r号 然后每隔k个单位抽出一个单位 即编号为r k r 2k r n 1 k单位皆被抽中 线性系统抽样法的抽样模型为 r j 1 k j 1 2 n r为随机数 5 在前述的线性系统抽样中 我们假定了N是n的整数倍 这种假定有时并不能得到满足 即N可能并不是n的整数倍 为了解决这一问题 D B 拉希里 D B Lahiri 于1952年提出了一种改进的线性系统抽样法 圆圈系统抽样法 其具体做法是 将总体N个单位的排序看作为一个首尾相连的圆圈 取最接近N n的整数为k 在总体N个单位中随机地抽取一个单位为随机起点i 沿圆圈按顺时针方向每隔k个单位抽取一个单位 直到抽出n个单位为止 如N 21 n 4 取k 5 设随机起点为i 3 则应抽取的样本单位编号依次为 3 8 13 18 如下图所示 表示随机起点 表示所抽中的其它样本单位 二 圆圈系统抽样 6 三 总体单位排序与系统抽样的关系 一 总体单位随机排序对于总体各单位的某一种特定的排列顺序 线性系统抽样的效果可能优于简单随机抽样 也可能劣于简单随机抽样 无法预言 但从一个容量为N的总体来讲 就其全部总体单位所有的N 种排列顺序而言 线性系统抽样的平均估值精度等于简单随机抽样估值的精度 因此 在这种情况下 线性系统抽样的估计效率与简单随机抽样估计效率相同 在抽样实践中 总体各单位按随机顺序排列下的线性系统抽样 称为无关标志排队等距抽样 二 总体单位排序与其标志值的大小有某种周期性的关系当总体各单位的排列顺序与其标志值的大小有某种周期性的关系时 就有可能出现样本各单位的标志值都是一个相同数字的情况 在这种情况下 系统样本对总体完全没有代表性 为了防止出现这种情况 在采用线性系统抽样时 应注意避免抽样的规律与现象变动的周期相一致 7 三 总体单位排序有线性趋势当总体各单位与其排列顺序有某种线性趋势关系时 对于一般的系统抽样法 即线性系统抽样法 来讲 可以证明 其抽样估值精度虽优于简单随机抽样 但劣于分层随机抽样 其原因在于对有线性趋势的总体 采用线性系统抽样法 可能会使所抽样本产生一种 趋向性 的偏差 统计学家们发现 在总体呈现这种 线性趋势 或 单调上升或下降趋势 时 采用中心位置的系统抽样法或对称的系统抽样法 可以大大地改善系统抽样法的估值精度 四 总体各单位按某种 负相关 的趋势排列这里又分为两种情况 一种是总体各单位的标志值奇数层顺排列而偶数层反排列 另一种是总体中上一半单位的标志值顺排列而下一半单位的标志值反排列 实际上 在这种负相关趋势排列的情况下 线性系统抽样法的估值精度最高 后面我们将说明 对于这种负相关趋势采用线性系统抽样法与对线性趋势总体采用对称系统抽样法的效果完全相同 因此 对线性趋势总体下的系统抽样或称为有序排列下的系统抽样的研究是十分重要的 8 四 有序排列下的系统抽样 当总体各单位标志值按由大到小的变化趋势排列后 总体被改造为完全或近似地呈递增或递减的线性趋势总体 这是总体各单位标志值Yi与其排队顺序i i 1 3 N 之间 为一种完全或近似的现行趋势关系 可用直线方程表示为 i 1 3 A 作变换 即 则总体按新变量 排列为 12 i KK 1K 2 K i 2K n 1 K 1 n 1 K 2 n 1 K i nK 简称有序等距抽样 是指用与调查目的有关的标志值作为总体各单位排队的依据 在排队后的基础上再进行系统抽样 9 易证新变量 的均值和方差分别为 的均值和方差分别为 10 一 首尾校正法即将不加权的均值估计量改为加权的估计 加权时样本中所有中间单位的权数都是1 但对样本的第一个和最后一个单位赋予不同的权 若设我们在1到k中所抽到的随机数是i 则首尾两个单位的权数就是 其中 号用于样本的第一个单位 号用于样本的最末一个单位 则对于任意的i 这两个权数之和为2 可以证明 若总体是一个由线性趋势排列所构成的 且N nk 则加权的线性系统样本的均值就是总体均值的无偏估计量 当总体呈线性趋势时 样本观测值可能会偏低或偏高 产生 趋向性的偏差 对此统计学家们采用了很多方法来弥补这一不足 11 二 中心系统抽样法在一个总体单位数为n k的线性趋势排列总体中 对应于抽样单位数n 计算一个正整数K K为抽样距离 并将总体视为K组 然后 在总体的第一组中 取位置居中的单位作为抽样起点 并依抽样距离K 依次取出 入样 即取各组组中心位置所在单位入样 按这种方法取得的样本称为中心系统样本 中心系统抽样法的抽样模型为 j 0 1 2 n 1 12 1984年1月 我国国家统计局在 农村抽样调查网点抽选方案 初稿 中 决定采用 有关标志排队等距抽样方法 这里应当指出 我国所采用的方法 从方法上讲属于平衡系统抽样法类型 下面分别介绍这两种方法 1 平衡系统抽样法 分组对称抽样法 在总体单位数为n k的线性趋势排列总体中 对应于抽样单位数n 计算一个正整数K k为抽样距离 对号码得K作随机抽样 若第r号单位入样 1 r K 则2K r 1 2K r 4K r 1 4K r n 2 K r nK r 1号单位皆入样 按这种抽样方法所取得的样本称为平衡系统抽样样本 平衡系统抽样法的抽样模型为 j 0 1 2 n 2 1 三 对称系统抽样法 13 在总体单位数为n k的线性趋势排列总体中 对应于抽样单位数n 计算一个正整数K k为抽样距离 对号码1至K作随机抽样 若第r号单位入样 1 r K 则K r 2K r n 1 K r 1 nK r 1号单位皆入样 按这种抽样方法所取得的样本称为修正系统抽样样本 平衡系统抽样法的抽样模型为 j 0 1 2 n 2 1 n为偶数 j 0 1 2 n 1 2 1 n为奇数 2 修正系统抽样法 总体对称抽样法 14 第二节等概率系统抽样的估计量及其方差 15 一 估计量 设系统抽样的随机起点值为r 则其相应系统样本的均值为 的估计量 为总体均值 当N nk时 可以证明这个估计量是无偏的 二 估计量的方差 估计量的方差为 16 记等距样本内的方差为 若 则等距抽样均值估计量的方差小于简单随机抽样 这是因为 若 是容量为n的一个简单随机样本的均值 则 若要 当且仅当 即 这等价于 17 以上分析告诉我们 等距抽样时样本内各单位的差异较大 抽样精度较高 反之 抽样精度就低 这与下面进一步考察等距样本内一对单位之间的相关系数后所得揭露是一致的 在同一等距样本内 两个单位之间的总体相关系数为 总的来说 等距抽样估计量的方差大小主要与总体内各单位的排列状况有关 1 总体内各单位的排列是随机的 这时 当N充分大时 值得注意的是 当n k给定时 等距抽样估计量 的方差仅有k个自由度 它与简单随机抽样估计量的方差一般不相等 但对任意给定的N个单位 其不同的 N 个有限总体 等距抽样平均数来说相当于简单随机抽样 全排列方法有N 种 每种情况为一个随机排列的有限总体 对这 18 2 当总体内各单位的排列顺序具有依数值由大到小的线性趋势时 从中抽取的等距样本单位差异较大 一般有 如N也较大 可知 比较以上各式 N k 故可得如下结论 在总体内各单位的排列具有线性趋势时 一般有下列关系存在 特别 n 1时 上式中的等号才成立 19 第三节估计量方差的样本估计 20 从平均意义上讲 无序等距抽样类似于简单随机抽样 故估计量的方差为 其中样本方差为 关于在 有关标志排队 或总体各单位有序排列的条件下 有些意见认为 这种抽样方式结合了等距抽样和分层抽样的优点 可将其视为一种特殊的 层分得更细的且各层只抽取一个样本单位的分层抽样 因此其抽样误差可按等比例分层抽样的公式近似计算 其估计量方差的估计量为 其中 为各层内样本方差的平均数 二 分层抽样估计法 一 纯随机抽样估计法 21 有的意见认为可以将等距抽样视为特殊的整群抽样整理 由于抽中的群中每一个单位都要进行调查 故群内无抽样误差 因而只能按群体之间的变异来计算抽样方差 于是 我们可将等距抽样视为 将总体等分为k群 总体群数R即为k 而只抽其一群 样本的群数r即为1 作为样本 的整群抽样 故有 其中 为样本群间方差 但也难以根据样本资料计算 三 整群抽样估计法 22 四 交叉子样本估计法 为了解决采用整群抽样估计难以获知的问题 可采用交叉子样本法 将一个样本容量为n的样本分为两个或更多具有独立随机起点 样本大小相同的子样本 这样一来 即将原来的 总体N等分为k群 抽样其一群为样本 改变成 总体等分为mk群 抽其m群构成样本 这样就把一个容量为n的等距样本分成了m个容量相等的子样本 设 i 1 2 m 为m个子样本的平均数 则 根据整群抽样公式可推知 等距抽样均值方差的样本估计为 此时 个子样本 群 间的方差可以按以下公式计算 23 五 折层 估计法 在对于线性趋势总体进行系统抽样时 还可采用有偏估计值的方法计算 该法是由科克伦 1946年 耶茨 1948年 等人提出的 在等距抽样中 把总体N分为n 2层 每层中等距地抽取两个单位为样本 用这n 2层每对标志值的平均数的平均数作为总体平均数的估计值 用公式表示为 若在第i层的2k个单位中 随机地不重复抽取2个单位 样本的层内方差的平均数为 估计量的方差的估计量为 24 当总体按线性趋势排列时 B Matern 1947 提出 可用 来估计方差 这里要求n较大 且通常有偏 六 Matern估计法 25 第四节进一步探讨的问题 26 总体单位标志值随时间或空间自然排序 可能会出现某种明显或不明显的周期性变化趋势 例如 季节性消费品的销售量 随一年四季的变化而呈现出周期变化的趋势 公共汽车上乘客人数 营业时间内 每日各个不同时间顾客的人数等 也会呈现出某种周期性 对有周期性变化趋势的总体进行等距抽样时 抽样间隔k的选择 对估计效率的影响极为重要 为说明问题 不妨假设总体单位标志值的变化为一简单的正弦曲线 如图8 1所示 其循环周期为 若抽样将k为循环周期或循环周期的倍数时 如图8 1中a点所示位置 它是最不好的选择 因它只能反映变化周期同一相位的信息 等距样本内部的观察值完全相同 这样必然会产生显著的系统性偏差 估计的精度最差 如抽样将k为半周期或半周期的奇数倍 它反映了变化后期中相反的两个相位的信息 如图8 1中b点所示位置 当a为偶数时 各样本单位的离差相互抵消 样本平均数恰好等于总体平均数 它是最好的选择 估计精度最好 除上述两种最坏 最好的极端情况外 还要介于两种极端之间的情况 根据抽样间隔k于正弦波长之间的各种情况 等距抽样有着不同程度的估计效率 一 总体为周期性变化的等距抽样 27 前面讨论的一维等距抽样法 是对总体单位在一条直线上排列 或总体单位虽不在一条直线上排列 但通过对总体单位的编号 排队等方法 可以将其化为在一条直线上排列等一类问题的讨论 若总体单位不分布在一条直线上 而是分别在一个平面上 直接从平面上使用等距抽样法
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年公共管理职位面试模拟题及答案深度解析
- 2025年供销社农资配送中心招聘面试题难点解析及应对方法
- 拉弯机安全培训课件
- 2025年大数据展现平台合作协议书
- 抢救知识培训课件
- 2025年家用厨房电器具项目发展计划
- 2025年重组抗原诊断试剂项目建议书
- 2025年石英玻璃纤维套管项目合作计划书
- 抗菌素使用课件
- 高2024级2025年秋期开学考试地理试题
- 2024浙江遂昌农商银行新员工招聘笔试历年典型考题及考点剖析附带答案详解
- 学校篮球共建协议书
- 挂名法人股东协议书
- 文件销毁保密协议书
- 高考英语必背688个高频词汇清单
- 企业车间5S培训课件
- 2025年助理医师资格证考试之口腔助理医师通关题库(附带答案)
- 肠外营养安全性管理中国专家共识
- 2025-2030中国代谢组学生物标志物行业市场发展趋势与前景展望战略研究报告
- 地球科学概论讲义及笔记
- GB/T 45345-2025金属及其他无机覆盖层工程用直流磁控溅射银镀层镀层附着力的测量
评论
0/150
提交评论