




已阅读5页,还剩55页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本科学生毕业论文 有关分层抽样调查方法的讨论和研究 系部名称 数学系 专业班级 信息与计算科学 B 班 学生姓名 指导教师 职 称 二 年六月 The Graduation Thesis for Bachelor s Degree A Study on The Stratified Sampling Method Candidate Specialty Class Supervisor Heilongjiang Institute of Technology 20 06 Harbin 本科生毕业论文 I 摘 要 抽样调查是了解自然和社会收集资料的一种科学方法和手段 而分层抽样是抽样 调查中的一种重要的抽样形式 在各种情形下 尤其是在层内同质层间异质时 分层 抽样可以大大的提高抽样调查的效率和效果 在实际中被广泛的运用 本文在抽样调查的一般表述下 探讨了分层抽样中三种样本容量分配方法 1 满足各层不同精度要求的分配法 2 按比例分配样本容量 3 Neyman 分配 在文 中的下一部分分别研究了分层抽样中的简单估计的简单估计法 SSE 部分估计法 比率估计法 SRE 并且对简单估计法和比率估计法在效果上作了比较 可以看出 比率估计法是优于简单估计法 因分层抽样在实际中存在一些特殊的问题 在本文中 主要讨论了在运用中可能出现的偏差对误差的影响 并且将分层抽样运用在审计中 采用分层抽样方法 可以在一定风险下 确定样本容量 达到审计目标 对被审计项 目在花费最少的成本下做出最合理的评价 关键词 分层抽样 估计量 抽样误差 样本容量 最优分配 本科生毕业论文 II ABSTRACT Sample survey is a scientific method and means to understand the nature and collect societal information And stratified sampling is one of the most significant forms of sample survey Stratified sampling can availably improve the efficiency and effect of sample survey in a variety of situations specially when there are heterogeneities between homogeneities in one strata Therefore the stratified sampling is widely used in practice Based on the general statements of sample survey this paper disgusses three methods of sample size allocation in stratified sampling 1 Method which can meet the requirements of different precision of all levels 2 Proportionate allocation of sample size 3 Neyman allocation The next part of this paper respectively studies some simple estimation SSE some estimation some ratio estimation SRE in stratified sampling And some simple estimation and some ratio estimation is be compared in effect one can see that some ratio estimation is superior to some simple estimation Because of some special problems stratified sampling has in practice this paper mainly disgusses influences potential deviations have on errors when tratified sampling is used and applies stratified sampling to audit By the use of stratified sampling we can ascertain sample size and achieve aim of audit under certain risks and make the most reasonable estimate of the item audited under the least cost Key words Stratified sampling Estimation Sample error Sample siz Optimum allocation 本科生毕业论文 目 录 摘要 I Abstract II 第 1 章 绪论 1 第 2 章 抽样调查的基本知识及分层抽样的概述 2 2 1 抽样调查的提法和描述 2 2 2 分层抽样的概述 4 2 2 1 概念与特点 4 2 2 2 分层与估计法 5 2 3 本章小结 6 第 3 章 分层抽样中样本容量的确定与分配 7 3 1 样本容量的确定 7 3 1 1 不同精度及按比例分配 7 3 1 2Neyman 分配 7 3 2 最优决策分配样本容量 9 3 3 本章小结 14 第 4 章 分层抽样的几种方法及比较 15 4 1 分层抽样的简单估计法 SSE 法 15 4 1 1 简单估计法 15 4 1 2 抽样比超过 100 时的修正 18 4 1 3 抽样在估计精度的收益 19 4 2 分层抽样的部分估计法 21 4 3 分层抽样的比率估计法 SRE 法 23 4 3 1 比率估计法 23 4 3 2 SRE 法与 SSE 法的比较 24 4 3 3 比率估计法的分配 25 4 4 本章小结 27 本科生毕业论文 第 5 章 实际应用中的分层抽样 28 5 1 分层抽样方法在实际应用中存在的一些问题 28 5 1 1 有关分层抽样框效率的问题 28 5 1 2 调查项目具有敏感性 32 5 2 分层抽样技术在应收账款审计中的应用 35 5 3 本章小结 39 结论 40 参考文献 42 致谢 44 附录 45 本科生毕业论文 1 第 1 章 绪 论 现代社会从某种意义上讲 是一个信息社会 由于现代科学技术的高速发展 特 别是以计算机为核心的信息处理技术的推广 使得社会各个领域的知识和技术更新速 度加快 对各种信息需求量加大 信息资料的收集 开发和应用 对经济建设 对社 会的发展和进步 起着越来越大的作用 信息本身就是一种财富 这一点已被越来越 多的人所认识 抽样调查的理论基础是概率论与数理统计 它是根据调查的目的 调查费用 调 查精度和信度设计的一种最能代表总体的抽样方式 设计一套估计 预测 数据处理 和统计分析的方法 并给出估计和预测的精度和可靠性 由于抽样调查是在概率论与数理统计的理论指导下进行的 所以已经不再是一种 具体的操作过程 而是有理论 有方法 比较系统完善的科学技术 他广泛的被应用 到各种领域 并越来越多地被人们接受 工农业产品质量检验和控制 需要抽样技术 科学试验中如何安排各因子的试验设计也是抽样技术的应用 医学临床试验要用抽样 技术安排试验 人口 资源 市场的预测和研究需要抽样技术 各种社会现象 经济 现象的调查和研究需要抽样技术 各种信息资料的收集和整理需要抽样技术 等等 而对于不同的调查项目 应采用不同的抽样方法 分层抽样是抽样方法中经常用 的一种抽样调查方法 分层抽样适用于总体内部有不同类型单位集团的总体 有时为 了实施和管理上的方便 也经常采用分层抽样 分层抽样可以比较大幅度的提高调查 精度 本文分别针对于以下四种情形 1 各层不同精度要求的分配法 2 按比率分配 样本容量 3 Neyman 分配 4 最优决策分配样本容量 给出了求解样本容量和最 小均误差的方法 从而确定了各种情形的分层抽样效率 在此基础上总结分析了各种 分层抽样方法 其中包括分层抽样简单估计法 SSE 分层抽样部分估计法 分层 抽样比率估计法 SRE 理论与实际应用是有差别的 为了使分层抽样方法能在实 际中灵活的应用 本文就分层抽样在实际应用中的问题给予了探讨 在文中最后一章 研究分析了分层抽样在审计的实际中测试的运用 加深了对分层抽样方法的理解 本科生毕业论文 2 第 2 章 抽样调查的基本知识及分层抽样的概述 2 1 抽样调查的提法和描述 总体是指研究对象的全体 通常有两种理解 1 研究对象中基本单位的集合 构成的总体 即实在的总体 2 基本单位标志值的集合构成的总体 即数字总体 在本文中两种概念均要用到 在抽样调查中 总体又分为目的总体和被抽样总体 目的总体是指所研究对象的 全体 而被抽样总体是指抽样单位构成的总体 例如 有 N 个人构成的被抽样总体 代表第个人 N123Ni W W W WWi 年龄作为第 i 个人的年龄标志 构成为年龄的一维数字总体 123 NN Y Y YY 对于每个人要了解年龄 性别 身高 体重 所以第 i 个人对应四个标志 1 Z 2 Z 3 Z 4 Z 值 即与对应 构成总体为四 14 ii i YZZ i W 11 1414 NN N ZZZZ 维数字总体 样本是指抽样时入样的那部分个体构成的集合 设总体为 123 NN Y Y YY 从中抽取 n 个个体构成集合 其中是第 k 个入样的号码 即入样号 1 iin YYY k i 为方便计 将记为 为一个入样号 样本中的个数称为 ik Y 1 k ykn 1 n yyy 样本容量 抽样调查研究的对象主要是一个有限总体 对于一维总体我们主要研究是总体标 志植的总量和平均数 这也是抽样调查主要研究的主要问题 设是一个一维总体 在没有特别声明时 我们总认为每个 123 NN Y Y YY 被抽取得概率相同 即 于是有 i Y 1 1 i P YYN iN 1 Y 的期望值 均值 2 1 11 1 NN iii ii EYYP YYYY N 本科生毕业论文 3 2 Y 的方差 DY 2 E YY 2 1 N ii i YYP YY 2 2 22 1 1 N i i YY N 修正方差 22 1 1 1 N i i SYY N 2 3 3 变异系数 222 CSY 2 4 4 标志值总量 1 N i i YY 2 5 5 标志值均值 1 11 N i i EYYYY NN 2 6 一般情况下抽样调查的目标量有以下几种 1 总体标志值的总量 Y 例如全国总人口数 一个地区粮食的总产量 某珍稀动物现存总量数等 1 N i i YY 2 总体标志值的平均值Y 1 11 N i i YYY NN 例如 职工的平均工资 平均产量等 3 总体中具有某种属性的个体的总个数 总体中具有某种属性的个 1 N 体占总体的比例 1 N P N 定义 1具有某种属性 0不具有某种属性 i Y 本科生毕业论文 4 则 例如人口死亡率 育龄妇女的生育率等 1 1 N i i NYY 1 PYY N 估计量的评价 1 无偏估计量 1 若是的一个估计量 且 则称是的一个无偏估计量 E 2 若是的一个估计量 且 则称是的一个渐进无偏估 l i m n E 计量 3 若对于任何均成立 则称是的一个相合估计量 lim0 n p0 或一致估计量 4 若 是的无偏估计量 且则称比更为有效 1 2 12 D 1 2 评价估计量好坏的两个原则 2 1 如果随着样本容量的增大 偏差 B 与均方差同时变小 而且偏差比标准误差 变小的更快 即则估计量是可用的 lim 0 n BMSE 2 比较两种估计量的好坏 以它们的均方误差大小为准 均方误差小者为佳 当确定了抽样方式及估计量的公式以后 样本容量的确定一般根据如下两个原则 1 在满足精度和信度的条件下 使样本量最小求出 n 来 2 在费用允许的范围内 考虑适当的信度下 使均方误差最小 求出 n 来 2 2 分层抽样的概述 2 2 1 概念与特点 1 概念 分层抽样 又称类型抽样或分类抽样 其组织形式是先将总体单位按 一定的标志加以分层 而后在各层按随机原则抽取若干样本单位入样 由各层抽取的 样本单位构成总的样本 设总体有 N 个单位 即 123 NN Y Y YY 按某一分层标志将其分为 k 层 第 i 层有个单位 i 1 k 即 i Ni N 1 K i i NN 12 i NiiiNi Y YY 从第 i i 1 k 层抽取个单位 构成第 i 层的子样本 即 i n 12 iiinii yyyy 本科生毕业论文 5 所有子样本并成总的样本 即 1 1 1 K K nii i i yU yyynn 2 分层抽样的特点 1 分层抽样从每一层中各取部分单位构成的样本有比较好的代表性 从而提高 调查的准确度 2 分层抽样是把层看作子总体进行抽样 进行估计和计算误差 再通过加权的 方式构成指标的估计量及误差 从而大大地提高了调查的精确度 3 分层抽样的误差主要取决于层内方差 而层内方差较小 又是提高精度的一 个原因 4 对各层的参数也进行相应地估计 是一种理想的调查方法 5 便于组织管理 2 2 2 分层与估计法 1 分层 3 若调查的目标参数仅与一种资料相关 则可按与历史资料之间的密切程度或相 似程度划分 若与许多方面的资料或情况有关 可按以下标准划分层次 1 以调查目标的核心项目的密切关系为分层标准 2 如果总体分布比较分散时 则以分散程度较大的项目为分层标准 3 定性调查项目 尽量以在总体内所占比例小的项目为分层标准 考虑上述分层标准后 分层尽量使层内单位同质 即层内方差要小 层间异质 即层间方差要大 2 估计法 4 假定将总体分成 K 层 即第 i i 1 k 层有个单位 即 1 i K NN i U i N 12 i NiiiNi Y YY 1 K i i NN i i N W N 从每层中各抽取若干单位构成子样本 如从第 i 层中抽取个单位入样 亦即 i n 12 iiinii yyyy 子总体 层 的均值的估计值为 i N 1 1 i N iij j i YY N 本科生毕业论文 6 2 7 1 1 ni iij j i yy n 均方误差为 2 8 22 1 i i yi i f S n 其中 22 1 1 1 i N i iiji j ii n SYYf NN 的无偏估计量为 2 9 2 i y 22 1 yi i i i f ss n 其中 22 1 1 1 ni iiji j i syy n 总体均值 的无偏估计量为 111 1 i N NK ijii iji YYWY N 2 10 1 K stii i yW y 均方误差 2 11 22222 11 1 sti KK i yiyii ii i f WWS n 其无偏估计量为 222 1 yi st K iy i sW s 22 1 1 K i ii i i f Ws n 2 12 2 3 本章小结 抽样调查是一种非全面调查 它是从全部调查研究对象中 抽选一部分单位进行 调查 并据以对全部调查研究对象作出估计和推断的一种调查方法 显然 抽样调查 虽然是非全面调查 但它的目的却在于取得反映总体情况的信息资料 因而 也可起 到全面调查的作用 相对于全面调查 抽样调查具有节省人力物力 调查误差小 操 作灵活和取得资料较快等优点 因此 被人们看作是统计调查中的重要方法之一 在经常使用的抽样方法中 分层抽样作为一种比纯随机抽样具有更优精度的抽样 组织形式 已在实践中受到更广泛的重视 分层抽样的方差 误差 小 根据已有的研究 本科生毕业论文 7 成果 分层抽样的误差一般只有纯随机抽样的 1 10 5 而且抽样效果好 工作量小 成本低的特点 分层抽样是为了在不增加样本容量的情况下提高抽样精度 或者在一 定的精度要求下减少抽样数的一种方法 本科生毕业论文 8 第 3 章 分层抽样中样本容量的确定与分配 3 1 样本容量的确定 3 1 1 不同精度及按比例分配 6 1 满足各层不同精度要求的分配法 如果对每层的估计精度有不同的要求 则将每一层看作一个子总体 按照简单随 机抽样的方法确定各层的样本容量 如 i n 1 iii pyYd 则 222 0 0 0 1 i iiii i n nZSdn nN 3 1 2 按比例分配样本容量 如果各层子层总体的方差相差不大时 通常按各层个数占总体个数的比例 i i N W N 分配样本容量 即 i ii N nn Wn N 3 2 由 3 2 可知 i i i nn ff NN 所以在按比例分配样本容量的条件下 估计量的均方误差可以表示为 3 3 22 1 1 sti K yi i f WS n 令 组内方差 3 4 22 1 i K wi i SWS 当要求满足的分层抽样方案的样本容量应为 1 st pyYd 3 5 222 0 0 0 1 w nZSd n n nN 本科生毕业论文 9 3 1 2Neyman 分配 7 当各层子总体的方差差异比较大时 分配样本的容量就必须既要考虑到比例 2 i S 又要考虑到层方差 即大的层样本容量应适当多些 i w 2 i S 2 i S Neyman 分配法是在的约束下 使达到最小的样本容量的分配方法 设 1 k i i nn 2 st y 为拉格朗日函数 22 11 11 kk iii ii ii LW Snn nN 即 0 0 i l n l 22 2 1 0 ii i k i i W S n nn 解得 1 ii ik ii i WS nn WS 3 6 此时 最小的均方误差是 2 22 min 11 11 kk iiii ii WSWS nN 3 7 显然 当相等时 3 6 式变成 i S ii nnw 为了确定 n 我们可分以下几种情况讨论 1 当调查目的是估计总体均值 时 Y 1 给定 使 成立 2 min 2 n 3 8 2 1 22 1 1 k i i i k i i i ws ws N 令 22 1 k wii i SWS 1 k ii i SWS 本科生毕业论文 10 则 3 8 式改写成 3 9 2 2 0 2 0 0 0 1 w S n S n n n n N 2 给定 d 使成立 1 st pyYd 3 10 22 2 0 22 2 0 0 0 0 1 w Z S n d ZS n d n n n N 2 当调查目的是估计总体总量时 Y 1 给定 使 成立 2 st y 2 2 st y 2 2 N 3 11 2 22 0 22 2 0 0 0 1 w N S n NS n n n n N 2 给定 d 使成立 1 st pyyd 3 12 222 2 0 222 2 0 0 0 1 w z N S n d z NS n d n n n N 3 2 最优决策分配样本容量 本科生毕业论文 11 当层内的方差差异比较大 且各层的调查费用又各不相同时 考虑到调查费 2 i S 用的样本容量分配方法有以下两种提法 8 1 在总费用固定的条件下 使均方误差最小的样本容量的分配问题 设费用函数是一线性函数 3 13 0 1 k ii i FFFn 其中 F 为总费用 为固定费用 准备费用 为第 i 层单位样本的调查费用 0 F i F 记 L 为拉格朗日函数 22 0 11 11 kk iiii ii ii W SFFnF nN 有 0 0 i L n L 22 22 0 1 iii ii k ii i Fw S n F FnFF 解得 3 14 0 1 ii i ik iii i wS F nFF wSF 3 15 1 0 1 1 k ii i k i ik i iii i wS F nnFF wSF 3 16 1 ii i ik iii i wS F nn wSF 若调查目的是估计 样本容量的分配公式仍是 3 15 3 16 有时可将两 Y 式改变形式 3 17 1 0 1 k ii i i k iii i N S F nFF N SF 本科生毕业论文 12 3 18 1 ii i ik iii i N S F nn N SF 2 满足 使费用最小样本容量分配 22 st y 222 0 11 11 kk iiii ii ii LFFnw S nN 即 0 0 i L n L 22 2 222 1 11 iii i k ii i ii Fw S n w S nN 令 2 1 1 k k ii i Fiii ii wS SwSF F 解得 3 19 2 2 0 2 2 0 0 0 1 w F S n S n n n n N 3 20 1 ii i ik iii i wS F nn wSF 若调查目的要估计 并要求则 Y 22 st y 3 21 2 2 2 0 2 2 2 0 0 0 1 w F S nN S nN n n n N 本科生毕业论文 13 3 22 1 ii i ik iii i wS F nn wSF 举例 某班共有 30 位学生 其某科考试的成绩分别如下 50 53 57 58 60 61 65 70 73 76 77 77 78 78 79 80 80 85 87 87 88 89 89 90 92 93 94 94 95 77 23 Y 22 13 69187 42 S 把上例中的数据按分层抽样的方法进行估计 将总体中 30 位学生的成绩分成三 层 第一层 50 53 57 58 60 61 62 65 70 73 60 90 45 29 6 73 1 Y 2 1 S 1 S 第二层 76 77 77 78 78 79 80 80 85 87 79 70 11 61 3 41 2 Y 2 2 S 2 S 第三层 87 88 89 89 90 92 93 94 94 95 91 10 7 29 2 70 3 Y 2 3 S 3 S 1 按最优分配样本容量 Neyman 分配 要求满足 3 595 st PyY 解 18 3184 3 2 1 21 3967 wii i SwS 3 1 4 28 ii i SwS 2 S 5 74 222 0 nZSd 2 2 1 96 18 3184 3 5 6 71 2 2222 0 1 96 21 3967 3 5 w nZ Sd 4 695 0 0 1 n n n N 5 74 1 6 71 30 11 13 1 1 6 73 3 52 63 4 28 ii i w S nn wS 本科生毕业论文 14 22 23 1 1 3 41 3 51 331 4 28 ii i w S nn wS 33 33 1 1 2 70 3 51 051 4 28 ii i w S nn wS 最小均方误差 222 min 11 11 kk iiii ii wSwS nN 22 11 2 9509 w SS nN 1 72 min 2 假定固定总费用 F 30 元 准备费用 10 元 第一层每调查一个人花费 4 0 F 元 第二 三层每调查一个人花费 2 元 即 4 2 如果要求 求 1 F 2 F 3 F st 22 y 2 使总费用 F 10 4 2 最小的分层抽样方案及均方误差 1 n 1 n 2 n 解 层内方差 22 1 21 3967 k wii i SwS 2 11 18 8726 kk Fiiiiii ii SwSFwSF 其中 7 3669 2 5618 1 k iii i wSF 1 k iii i wSF 21 3967 4 5 3492 22 0w nS 18 8726 4 4 7182 22 0F nS 4 0 0 407184 1 5 3492 30 1 n n n N 本科生毕业论文 15 111 1 1 1 46 73 2 3 1 752 2 5618 k iii i w SF nn wSF 222 2 1 1 43 142 3 1 251 2 5618 k iii i w SF nn wSF 1 3 n 3 9029 st 222 y 1 1 k i ii i i f w S n st y 1 9756 4 2 22 元F 0 F 1 n 1 n 2 n 3 3 本章小结 三种确定各层样本容量的方法在不同的条件和要求下使用 我们在分层抽样组 i n 织方式运用中 应根据抽样的目的来选择合适的确定的方法 以达到抽样方差最小 i n 费用最少的抽样效果 另外 在使用分层抽样这种组织方式时 还应注意对各层的要 求 要求有三 9 l 分层抽样时 各层之间是不重复的也就是说 总体中任一单位都属于且仅属 于某一层 分层抽样的必要前提是 总体单位数 N 以及总体中的各层单位数已知 i N 例如对企业进行调查时 将企业划分为大 中 小型企业三个 层 要求全部企业 的总数 N 是已知的 而且大 中 小型企业的个数也是已知的 2 分层抽样要求在任何两层中抽取样本单位时都要相互独立 3 分层抽样时最好利用我们所要调查的标志或与之有关标志分层 这样做可以 避免各层之间的重复 减少平均层内方差 例如在农产量调查中按某种作物的历史平 均单产或估产时的单产分层按地理环境分层 商业零售额调查中按商业网点的规模分 层等等 都可减少抽样方差 提高抽样效果 本科生毕业论文 16 第 4 章 分层抽样的几种方法及比较 4 1 分层抽样的简单估计法 SSE 法 4 1 1 简单估计法 设总体分为 k 层 即 n i N 1 i k N i 1 k 其中 1 1 ii K NiiNi i YYNN 各层参数如下 1 1 i N iij j i YY N 1 i N iiiij j YN YY 22 1 1 1 i N iiji j i SYY N 222 iii CSY 令 则 ii WNN 11 1 i N k ij ij YY N 1 K ii i WY 111 i N Kk iij iij YNYYY 调查目标量时 或YY 从各层分别随机抽个单位 i n1 2 3 ik 1 i iiin yyy 样本均值 方差分别为 1 1 i n iij j i yy n 本科生毕业论文 17 22 1 1 s 1 i n iiji j i yy n 记 4 1 iii yN y i i i n f N 4 2 1 K stii i yW y 22 1 ss i i yi i f n 4 3 22 222 11 1 sss sti KK i yiyii ii i f WW n 4 4 22 st yst E yY 定理 4 1 在上述假设下 有 1 4 5 st EyY 2 4 6 222 1 1 st K i yii i i f WS n 3 4 7 22 stst yy E S 证 ii EyY 22 1 i iii i f E yYS n 注意到的独立性 1 i iin yy 11 KK stiiii ii E yEW yW E y 1 K ii i WYY 22 11 st KK yiiii ii EW yWY 本科生毕业论文 18 2 1 K iii i EW yY 22 1 K iii i W E yY 22 1 1 K i ii i i f WS n 2222 1 1 s s stst K i yiiy i i f EWE n 推论 4 8 1 K ststii i yNyN y 是的无偏估计量 其均方误差为 Y 222 st st yy N 4 9 22 1 1 K i ii i i f NS n 的无偏估计量为 st 2 y 2222 1 1 stst K i yyii i i f SN SNS n 4 10 分配样本容量 10 比例分配样本容量 样本容量的分配是按各层个数占总数的比例进行分配时 i i N W N i ii N nn Wn N 即 亦即 i i nn NN i ff st 2 y 22 1 1 K i ii i i f WS n 22 1 1 K i ii i i f WS nW 本科生毕业论文 19 2 1 1 i K i i f WS n 4 11 令 可理解为层内平均方差 即组内方差 于是有 22 1 i K iw i WSS 2 w S 4 12 22 1 st yw f S n 如果在分配时 尽量使层内同质 即层内方差尽可能小 使层间方差尽可能大 即不 同层不同质 由式 4 12 知 按比例分配的样本容量的分层抽样的误差仅与层内方 差有关 而与层外方差无关 所以分层抽样可以大大地提高调查的精度 最优分配样本容量 最优分配样本容量的提法是在给定费用函数下 K 0i 1 F i i FFn 1 固定费用使均方误差最小 2 满足误差要求 如或的条件下 使费用最小的分配 22 st y 1 st pyYd 样本容量的方法 定理 4 2 设分层抽样的费用函数为时 最优分配是 0 1 K ii i FFFn 4 13 11 ii ii iiii iKK iiii ii WSFN SF nnn WSFN SF 推论 1 当各层调查费用相等时 i F 4 14 11 iiii iKK iiii ii WSN S nnn WSN S 为 Neyman 分配 推论 2 当各均相等 且相等时 i F 2 i S 4 15 i ii N nn Wn N 为按比例分配 4 1 2 抽样比超过 100 时的修正 若抽样比较大 个别层的也很大时 按最优分配样本容量的公式计算 n f N 2 i S 本科生毕业论文 20 出的 这时对着曾进行 100 的抽样 即 将剩余的样本容量个 ii nN ii nN i nN 再按最优分配的原则再分配 其具体作法如下 仅对 Neyman 分配讨论 不妨设则令 11 nN 11 nN i2 4 16 i n i nN i K i 2 W W i i i S S 若所有成立 则分配完毕 否则 如取 ii nN 22 nN 22 nN 4 17 12 2 3 i i i iK i i WS nnNNi WS 如此重复直至每一层的样本容量均不超过层的个数为止 此时最小方差为 i N 4 18 2 2 2 min 11 iiii WSWS nN 其中表示仅对的层求和 是这些层样本容量的总数 ii nN i n 有时修正也可以用以下简化的方法 由于每个是按的比例分配的结果 n 1 i i i K i i WS WS 所以中包含了其比例的成份 简化的方法是 i n 若 即 令 取 1 i nN 1 1 nN 1 1 nnN 4 19 2 2 i iiiik i i n nninnn n 4 1 3 抽样在估计精度的收益 为了与简单随机抽样进行比较 我们分别用 表示简单随机抽 2 ran 2 prop 2 opt 样 按比例分配样本容量的分层抽样 最优分配样本容量的分层抽样的抽样误差 即 均方误差 定理 4 3 若可以忽略 则有 1 1 i ik N 本科生毕业论文 21 4 20 222 ranpropopt 证 22 1 ran f S n 222 11 11 ii KK propii ii WSWS nN 222 11 11 ii KK optii ii WSWS nN 因为 1 22 11 1 N K ij ij NSYY 1 K 22 111 N k ijii iji YYN YY 4 21 22 11 1 i kk iii ii NSN YY 4 22 222 ii 11 1 1 1 i kk i ii NN SSYY NN 当可以忽略时 则亦可以忽略 1 i N 1 N 22 1 ran f S n 4 23 22 1 1 k propii i f W YY n 而 2222 111 1 ii KKK propoptii iii WSWS n 4 24 2 1 1 0 K ii i W SS n 本科生毕业论文 22 其中 1 i K i i SWS 由 4 23 与 4 24 式可知 222 ranpropopt 若项部可以忽略时 其精度表达式是 1 i N 4 25 2222 i 11 11 N N 1 i kk ranpropii ii f N YYNS nN 当 4 26 22 i 11 1 N i kk ii ii N YYNS N 成立时 按比例分配样本容量的分层抽样要比简单随机抽样有更大的误差 从数学上 看这是有可能发生的 如果全相同 此时按比例分配样本容量与 22 i w SS i 1 k 最优分配样本的粉彩抽样是一致的 4 26 式可变成 222 i 11 1 N 1 kk iiww ii N YYNSKS N 即 4 27 22 1 1 1 k iiw i N YYS K 通常称为层间 组间 方差 为层内 组内 方差 22 1 k eii i SW YY 22 1 i K wi i SWS 由 4 22 式可知 222 we SSS 4 28 4 27 式变成 4 29 22 1 ew N SS K 说明当层内方差大于层间方差倍时 简单抽样优于分层抽样 1 N K 本科生毕业论文 23 4 2 分层抽样的部分估计法 问题的提法 设总体第 i 层有个单位 其中具有某种属性单位个数为个 调查 i N 1i N i 1 k 的目标量是 总比例 总数 只要将每一层看作一 11 11 Kk ii ii PNNNN 11 1 k i i NN 个 子总体 则有 各层的比例 1 1 iiiii PNN QP 4 30 各层内方差 2 1 i i ii i N SPQ N 4 31 各层内变异系数 2 1 ii i ii NQ C NP 4 32 设 1 NiiiNi YY 1 0 有某种属性 否则 ij Y 于是 11 iiii YPYNYPYN 估计法 11 从第 i 层中抽取个单位构成子样本 Ni i n 12 iiinii yyyy 其中有个有某种属性 1i n 4 33 1 1 1 i n i iiji j ii n yyp nn 样本方差为 2 1 i iii i n sp q n ii 1 p q 4 34 本科生毕业论文 24 p 的无偏估计量是 k ii i 1 p w p 4 35 的均方误差为 p 222 1 i pii i f wS n 2 1 1 k ii iii i ii Nn wPQ n N 4 36 均方误差的无偏估计量为 222 1 1 p k i ii i i f sws n 2 1 1 k ii iii i ii Nn wp q nN 4 37 当充分大时 使 则 4 36 式近似成 i n 1 ii nn1 ii NN 4 38 2 22 11 1 kk i piiiii ii i w PQw PQ nN 4 37 式近似成 4 39 2 22 11 1 p kk i iiiii ii i w sp qw p q nN 4 3 分层抽样的比率估计法 SRE 法 4 3 1 比率估计法 12 设总体第 i 层是 i N i 1 k 4 40 1 1 i i iN i iiN X X YY 各层相应的参数是 2 ii i iiXiiYiiX XX SCY Y SR 本科生毕业论文 25 对于总体有指标 X X Y Y 调查的目标量是 或 1 k ii i YwY YNY 假设已知 又设第 i 层的样本是 i X i 1 k 1 1 i i in i iin x x yy i 1 k 相应的统计量是 22 ii iiiiiixy x y ryxss 又假设每层样本量足够大 于是第 i 层的估计量为 其均方误差近似为 i n i Y ii rX 4 41 22 1 11 1 i ii N i ijiijr X j ii f YR X nN 4 42 22 1 11 1 i ii n i ijiijr X j ii f syrx nn 总体的估计量为Y 4 43 1 k SREi ii i ywrX 4 44 222 1 SRE ii k yir X i w 4 45 222 1 SRE ii k yir X i sw s 4 3 2 SRE 法与 SSE 法的比较 SSE 法是对每一层用 SE 法估计 而 SRE 法是对于每一层用 RE 法估计 所以我 们可以将其均方误差写成 222 1 k SSEiSEi i w 222 1 k SREiREi i w 本科生毕业论文 26 若对于每一个 i 有 即 2 i i X i Y C C 22 REiSEi 则有 22 SRESSE 一般情况下 使用与 Y 高度相关的辅助指标 X 采用比率估计法确定可以得到 比较好的效果 对于第 i 层比率估计量的偏差 i i i X y B C i 1 k 当各层 X 的变异系数相同 即 各层的时 近似一样记为 i XX CC ir r i i y B B 此时比率估计的相对偏差 11 1 2 3 2 22 1 1 SRE i i kk iiii ii k k y iy iy i i wBwB B w w 4 46 3 2 1 3 2 1 1 k ik i Xik i i i w B Cw w 当时 总偏差就可以忽略不计 3 2 1 0 1 k Xi i Cw SRE y B 4 3 3 比率估计法的分配 13 分层比率估计法的样本容量分配 对于分层比率估计的均方误差 4 47 222 1 1 i k i SREiR i i f wS n 其中 22 1 1 1 i i N Rijiij j i SYR X N 本科生毕业论文 27 在费用 F 固定条件下 使均方误差最小的分配是 0 F 1 k ii i Fn 4 48 0 1 i i iR i ik iRi i wS F nFF wSF 在设计抽样方案时 如果用比率估计 必须知道的信息 而估计是比较 i R S i R S 困难的 有两个规则可以采用 a 在比率估计量是最佳线性无偏估计总体中 大致与成正比例 此时 i R S i X 4 49 0 1 ii i ik iii i wX F nFF wXF 一般情况下 可以认为与近似成正比例 于是有 2 ijiij YR X 2 i X 4 50 0 1 ii i ik iii i w X F nFF w XF b 当估计时 要满足 使费用最小的分配 其费用函数为Y 22 SRE y 0 1 k ii i FFF n 令 2 1 1 i i k k iR i FiRi ii wS SwSF F 22 1 i k wi iR i Sws 4 51 22 22 00 wF nSnS 本科生毕业论文 28 当估计时 Y 4 52 222 222 00 wF nN SnN S 4 53 0 0 1 n n nN 1 i i iR i ik iRi i wS F nn wSF 4 4 本章小结 不难看出 内曼分配是一般最优分配的特例 按比例分配又是内曼分配的特例 所以 一般最优分配是样本容量分配的通用规则 由于不同的分配规则引起的层样本 容量不同 产生的抽样效率也会有差别 所以如果分配方式不当 就会引起抽样效率 的损失 选取分配方法 应该考虑具体的调查目的 调查目的不同 样本容量的选取 规则也有差别 1 调查目的是取得总体特定值的情况 在这种情况下 分层实际上是为了改进这些特定值估计量的抽样效率 现实中采 用分层抽样多数是为了达到这个目的 在实际工作中 比例分配法最常用 由于它所 抽取的样本容量考虑了各层的合理权重 使得综合计算的样本指标能切合实际情况 并且操作实施方便 在不要求费用等因素时颇为适用 若在给定的费用下使估计量的 方差达到最小值 或在给定的估计量方差条件下使费用最小 则使用一般最优分配 内曼分配法在考虑各层合理权重的情况下 又使抽样方差减少到可能范围 这种方法 在使用时较比例分配法又前进了一步 且它是一般最优分配的特殊情况即每个抽样单 元费用相等 实践中也有些更具体的规则可供参考 A 当各层样本单元的调查成本显著不同时 采用一般最优分配 B 调查变量的层总体方差的估计值不同时 采用内曼分配 C 当调查变量的层总体方差估计相差不大时 采用按比例分配 2 调查目的是进行各层之间的比较 一般来说 这种比较最好是在有相同相对标准误的层样本估计量之间进行 应该 用相同的样本容量 除非总体方差或单位调查费用在层间变化很大 在后一种情况下 应使分配的各层样本容量与层总体标准差成正比 与层平均费用的平方根成反比 这 本科生毕业论文 29 样会使总体层与层之间差的平均方差达到最小 3 调查目的是既要估计整个总体也要估计层特定值的情况 在这种调查结果对总体和各层 即子总体 都需要的情况下 样本容量分配应视主 次而定 如果调查的主要目的是估计整个总体 那最优分配是适当的 但如果求得各 层的统计量更重要 那么 不论从提高层估计精度还是从使层与层更容易比较来讲 就必须做一些特定的样本容量分配 以便在这两个目的之间做一些妥协 本科生毕业论文 30 第 5 章 实际应用中的分层抽样 5 1 分层抽样方法在实际应用中存在的一些问题 5 1 1 有关分层抽样框效率的问题 一 分层抽样框效率的研究思路 抽样框是根据目标总体整理而成的全部抽样单位的名单 当两个总体之间存在着 严格的对应关系时 目标总体总量 或其均方误差 是各层总量 或各层层内方差 的加 权平均数 用公式表示即 5 1 i i i N Xx n 5 2 2 2 1 i ii i N V XfS n 其中 和为第 i 层的单位总数和样本单位数 为第 i 层的抽样比 为第 i 层 i N i n i f i x 的样本标志总量 为第 i 层的样本方差 作业总体总量的估计量 X 是目标总体总 2 i S 量真实值 X 的无偏估计量 但是在实际工作中 目标总体与作业总体之间的严格对应关系并不一定存在 即 使抽样框在初建时与目标总体严格对应 由于目标总体的不断变化 而抽样框在相当 长的时间内保持稳定不变 仍然会使得抽样框不完善 故而运用上述公式的前提得不 到满足 此时 总误差的影响因素还包括非随机误差 非抽样误差 当然 非随机误 差在一定范围之内是可以忽略不计的 或者通过修正后仍然可以接受 而超过一定限 度后 抽样框就应该被废弃 我们称这一问题为 抽样框的效率 抽样框是否仍然 具有效率 在进行全面调查之前 较可行的办法是利用抽样所得的样本信息予以判断 造成抽样调查误差的原因很多 本小节假定在整个误差体系中忽略所有其它因素 只保留随机误差和抽样框误差 例如 被调查者拒绝提供数据 故意提供虚假数据 记录错误 电脑计算程序错误等等均应予以排除 二 分层抽样框效率的判定原则 14 两个总体之间的严格对应关系遭破坏是不可避免的 由此造成的影响是破坏了估 本科生毕业论文 31 计量的数理统计性质
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 美术毕业设计展示
- 2025年事业单位工勤技能-湖南-湖南房管员四级(中级工)历年参考题库含答案解析
- 2025年事业单位工勤技能-湖南-湖南医技工五级(初级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-湖北-湖北铸造工五级(初级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-湖北-湖北放射技术员四级(中级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-湖北-湖北广播电视天线工一级(高级技师)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-湖北-湖北图书资料员四级(中级工)历年参考题库典型考点含答案解析
- 2025年保险行业数字化理赔服务与保险理赔服务体验优化报告
- 2025年沉浸式戏剧行业市场趋势与消费者行为分析报告
- 2025年事业单位工勤技能-海南-海南房管员四级(中级工)历年参考题库含答案解析
- GB/T 457-2008纸和纸板耐折度的测定
- GB/T 40565.4-2021液压传动连接快换接头第4部分:72 MPa螺纹连接型
- 行政管理毕业论文参考文献(推荐99个),参考文献
- FZ/T 07015-2021绿色设计产品评价技术规范再生涤纶
- 基于课程标准的融合教育教学评一致性实践探索
- 企业家的12把财务砍刀讲义课件
- DB32T 4353-2022 房屋建筑和市政基础设施工程档案资料管理规程
- 原型量表测试表
- 审核首次会议发言稿
- 煤矿机电与运输提升安全管理.ppt
- T∕CGSS 004-2019 适老营养配方食品通则
评论
0/150
提交评论