




已阅读5页,还剩152页未读, 继续免费阅读
(统计学专业论文)多目标分层次复合抽样设计研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
论文摘要 论文摘要 多目标和分层次抽样调查是收集大规模统计数据的重要手段,但由于其样本 抽取和方差估计没有成熟的方法而一直成为该研究领域的难点,本文对此展开研 究。 首先,本文采用永久随机数和c h a os c h e m e 设计等一系列抽样技术,建立了 单目标的分层次复合p p s 抽样方法。其次,研究了多目标抽样的样本容量问题。 它以单目标抽样设计为基础,通过样本追加策略,形成了一种确定多目标样本容 量的新方法,并通过永久随机数技术,给出了多目标抽样中最佳样本确定方法。 然后,我们研究了多目标的分层次p p s 抽样设计。分层次抽样问题和多目 标抽问题本质上都是兼顾其他要求时抽取一套合适样本,使之在精度和费用之间 达到平衡。多目标的分层次复合p p s 抽样设计也就是在兼顾到域总体和多目标时 抽取一套合适样本,也能在精度和费用之间达到平衡。其方法如下: 耄蓦亲 斗样本容量一分层次抽样哼多( 单) 目标的分层次复合抽样 这就是多目标的分层次抽样设计的基本思路。 此外,本文采用了h a j c k 方差估计量替代i k - t ( h o r v i za n dt h o m p s o n , 1 9 5 2 ) 的万型估计量。由于h a j e k 方差估计量只涉及到一阶的包含概率,计算简单,实 用可行。 为了验证这一抽样方法的科学性,我们进行了一次模拟抽样。此外,还研 究了这个方法在应用中的有关问题。 本文的创新主要有以下几点: 首先,本文首次提出了一种多目标的分层次复合p p s 抽样设计方法;其次, 本文应用了一个简单的方差估计量;第三,本文给出多目标抽样中最佳样本容量 的存在性证明,提出了求解方法;第四,本文实现了分层次抽样中上下层样本的 完全兼容。 关键词:多目标;分层次;p p s 抽样 a b s t r a c t a b s t r a c t t h ec e n t e rg o v e r n m e n ta n dt h el o c a lg o v e r n m e n t sw a n tt oc o m p r e h e n da l ls o r t s o f s t a f i s t i ci n f o r m a t i o n , b e c a u s eo f t h e i rf u n c t i o no f m a n a g i n ge c o n o m yi nc h i n a t h e c e n t e rg o v e r n m e n tw a n t st od i s c e r no v e r a l ls i t u a t i o nw i t ht h e ma n dt h el o c a l g o v e r n m e n t sw a n tt op o s s e s st h e mi no r d e rt ou n d e r s t a n dm d ro w ni n f o r m a t i o n s o t h em u l t i - o b j e c ti n f e r e n c e sa n dt h em u l t i - l e v e li n f e r e n c e sb e c o m et h ei m p o r ti s s u e w h i c hn e e d st os t u d ya n ds o l v eu r g e n t l yi nt h ef i e l do f s a m p l i n gs u r v e y t h ef e a s o i lw h i c hm u l t i - o b j e c ts a m p l ea n dm u l t i l e v e ls a m p l ec a nb e c o m eo n e o ft h em a i nd i f f i c u l t i e si nt h es t u d yo fs a m p l ed e s i g n , i st h a tt h e r ea r en o tr e l a t i v e l y m a t u r ea n dr e g u l a rd e s i g n st os a m p l et h eu n i ta n dc a l c u l a t et h ev a r i a n c e s t h ee s s a yu s e st h ei n t e r n a la n de x t e r n a lr e s e a r c hr e s e tf o rr e f e r e n c e , a n d c o m b i n e st h em u l t i o b j e c ts a m p l e 谢t l lm u l t i l e v e ls a m p l e , a n ds y s t e m a t i c a l l ys t u d i e s s a m p l ed e s i g ni s s u e so fs c a l ea p p l i e de x t e n s i v e l yi np l a c t i 0 0a n dt h ep r o b a b i l i t y p r o p o r t i o n a lt os i z e ,t h a ti st os t u d y t h ep r o b l e mo f p p s e x t e n s i v e l y i na d d i t i o n , g e n e r a l l y , t h ev a r i a n c ee s t i m a t i o no ft h eg r a d e dp p si sa d o p t e dt h e w a yo f7 re s t i m a t o ro fh tb u th a j e k si sa d o p t e db yt h ee s s a y t h o u g hi th a sa d e v i a t i o n , i tm u c hb e t t e rt h a n 石e s t i m a t o ro fh ta n dt h ev a r i a n c , e $ e s t i m a t o r f o r m u l a ei ss i m p l eb e c a u s ei to n l yi n v o l v e st h ef i r s t - o r d e ri n c l u s i o np r o b a b i l i t y f i n a l l y , w et e s t i f i e st h es c i e n c eo ft h es a m p l i n gb yi m i t a t i n gaa c t u a ls a m p l i n gc a s e , a n dp u tf o r w a r dt h ei s s u e sa b o u tt h ea p p l i e ds a m p l i n g , t h ev a r i a n c ec a l c u l a t i o na n d t h es a m p l er o t a t i n g , e t c t h en e wi d e a si sa st h ef o l l o w i n g f i r s t l y , t h ee s s a yc o m b i n e st h em u l t i - o b j e c ts a m p l ed e s i g nw i t hg r a a c ds a m p l e d e s i g n - - - m o r ei m p o r t a n tw a y si nt h es a m p l ed e s i g n s ,a n dp u tf o r w a r dan e w e s tw a y o f t h eg r a d e dm u t i - o b j e x - tc o m p o a n ds a m p l ed e s i g o ( p p s ) s e c o n d l y , t h ee s s a ya d o p t sa n e we s d m a t c da m o u n tw h i c hs i m p l i f i e st h ei s s u eo f v a r i a n c ec a l c u l a t i o ng r e a t l ya n dh a st h es a m p l ed e s i g nb e c o m er a t h e rh i g hp r a c t i c a l v a l u e t h i r d l y , t h ee s s a ys t u d yt h em u l t i - o b j e c ts a m p l ec a p a c i t ys y s t e m a t i c a l l y , a n d t e s t i f yt h ee x i s t c n o ft h el o c a t i o no ft h eb e s ts a m p l e , a n di n t r o d u c et h et h e o r yo f p r n s ,a n dp u tf o r w a r das i m p l ew a y t os e t t l e f o u r t h l y , t h ee s s a y m b i n e sc h a os c h e m ew i t hp r n sf o rt h ef i r s tt i m e , a n d 多目标分层次复合抽样设计研究 r e a l i z e st h ec o m p a t i b i l i t yb e t w e e nt h eu p p e rl e v e ls a m p l ea n dt h eb o t t o ml e v e l s a m p l e f i n a l l y , t h ee s s a yc o m b i n e st h es a m p l i n gf r o mu p p g l t ob o t t o ml e v e lw i t ht h a t f r o mb o t t o mt ou p p e rl e v e li nt h em u l t i - l e v e ls a m p l ed e s i g n , f o r m sg r a d e ds a m p l e d e s i g no f a l ll e v e l s k e yw o r d s :m u l t i - o b j e c t ;m u l t i - l e v e l ;p p ss a m p l e 厦门大学学位论文原创性声明 兹呈交的学位论文,是本人在导师指导下独立完成的研究成果。 本人在论文写作中参考的其他个人或集体的研究成果,均在文中以明 确方式标明。本人依法享有和承担由此论文产生的权利和责任。 声明人( 签名) :槲彳生 文脚6 年4 - 月如e l 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留、使用学位论文的规定。厦门大 学有权保留并向国家主管部门或其他指定机构送交论文的纸质版和 电子版,有权将学位论文用于非营利目的的少量复制并允许论文进入 学校图书馆被查阅,有权将学位论文的内容编入有关数据库进行检 索,有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密 后适应本规定。 本学位论文属于 l 、保密() ,在年解密后适用本授权书。 2 、不保密() 作者签名:前才生 导师签名: 日期:腓妒月;o 日 日期:t 。锌厂月 日 第一章导论 第一章导论 第一节研究背景与研究目的 一、研究背景 长期以来,多目标和分层次抽样问题一直是抽样调查研究领域的热点问题。 这是因为实践对其有迫切需求,理论研究却又不能无法完全满足。 抽样调查方法成为从事较大规模数据收集和分析的主要工具以来,人们总是 希望一次抽样能够多方面地使用,提高样本的使用效率。既能利用这套样本来分 析各种不同的目标要求,又能用这套样本来满足不同阶层的调查愿望。尤其是在 我国,各级政府都有管理经济工作的职能,因此涉及到人口、社会、经济领域的 信息资料,和与之相关的分析与研究,对各级政府来说都是十分重要的。中央政 府需要掌握这些信息资料以洞悉全局,地方政府需要依靠这些信息来知彼知己。 各级政府、各行各业希望共享这些数据,因此迫切需要进行多目标的分层次抽样。 事实上,政府部门的调查大多数都是多目标的调查,调查目标少则十几个,多则 几十个甚至上百个。毫不夸张地说,如果政府的统计调查体系要以抽样调查为主 体,那么多目标和分层次的抽样设计就必将成为我国政府统计调查体系中主体的 核心。 国内外对多目标或分层次抽样设计作了大量的研究,概括起来可以分为三个 方面。一是以随机化过程或模型自由为基础的多目标或分层次抽样调查研究,如 平衡抽样法、双重事后分层法、a b c 法等,这些方法曾经是抽样调查领域的主 流方法。平衡抽样法是在不破坏随机原则的前提下,每次抽样都是围绕着一个“中 心”进行;双重事后分层法是先抽一大样本,然后从中抽若干小样本。但是这些 方法的前提是必须事先掌握或者人为造出一组与各个抽样目标具有较高线性相 关的多维辅助变量,在实际使用中是难度较大或者浪费较大,实用性不强;第二 方面的研究是以统计模型为基础的研究。这些方法的优点是在获取不到其他信息 或者无法进行再抽样的前提下使用,其不足之处犹如“盲人摸象”,容易以偏概 全:第三方面也是以随机化过程为基础,同时辅以统计模型的方法。这类方法也 和模型的选择密切相关,如果选择的辅助模型和抽样问题拟合度高,辅助模型的 多目标分层次复合抽样设计研究 其他统计性质自然能够应用的抽样问题上来,缺点就是辅助模型和抽样问题可能 会不一致,抽样的结果就可能会偏差很大。但这种方法兼顾了模型化和随机化的 一些优点,已成为当今抽样领域的主要方法。这方面的突出成果有m p p s ( 多目 标与规模成比例的概率抽样设计) 法、成本条件下的多目标复合抽样法和p p s 的样本追加法等。m p p s 法就是当前国家统计局正在推广使用个方法,但是m p p s 在抽样中套用的p o s s i o n 模型,破坏了抽样概率与规模成比例的规律,从而造成 方差的估算复杂和样本量庞大。所以m p p s 考虑了多目标问题时无法兼顾到分层 次抽样了;而p p s 的样本追加法,如果在追加样本过程中要兼顾多个抽样目标, 就会失去p p s 的特点,样本方差的估计将不能使用h - t 估计量,方差的估计受 制于联合分布,计算非常复杂,很难同时兼顾多目标和分层次抽样的需要。将多 目标和分层次抽样设计结合起来研究,同时解决好样本抽取和方差估计的问题, 是非常有理论意义和实践作用的。这方面的研究尚未见诸文献,本文在此作一尝 试。 二、研究目的 本文将在总结当前多目标和分层次抽样设计的基础上,提出一种关于多目标 的分层次复合抽样设计的新方法,多目标的分层次复合p p s 抽样设计。研究预 期达到如下目的: 首先,对多目标的分层次复合p p s 抽样方法进行全面的研究,并重点研究 了多目标抽样中的样本容量设计、单目标的分层次复合抽样设计、多目标的分层 次复合抽样设计,和相关的估计量及其方差的估计等问题。 其次,提出较为简单实用的方差估计量。利用y v e sg b e r g e r ( 2 0 0 5 年) 的一个最新研究成果,h a j e k 估计量在一定条件下渐近h - t 方差估计量,用h a j e k 估计量来代替h t 方差估计量,使方差估计量的计算只涉及到一阶包含概率。 一阶包含概率的计算简单正好是p p s 抽样的一大特色,因而这个方差估计量就 会变得非常实用。 第三,模拟实际抽样对案例进行研究,以期解决本抽样设计在实践中可能产 生的问题。 2 第一章导论 第二节基本框架和创新 一、研究思路 本文的研究思路是首先研究单目标的分层次p p s 抽样设计问题,然后研究 多目标的分层次的抽样设计。对于单个目标,采用了从“上层”到“下层”抽样 与从“下层”到“上层”抽样相结合的办法,利用永久随机数技术,结合赵民德 先生的c h a os c h e m e 设计,建立复合的p p s 抽样方法。首先,我们对两个层次的 抽样进行研究。把总体单元赋予永久随机数后按照分层次抽样设计的需要分成两 个部分,一部分由需要抽样的“下层”的单元所组成,这类单元称为第一类单元, 另一部分由其余单元组成,相应单元也称为第二类单元。对需要抽样的下层进行 直接抽样,然后在这些样本单元的并集中取其中的一部分作总体的初始样本,采 用c h a o s c h e m e 方法,迭代成总体的样本,这就完成了两个层次的复合的p p s 抽 样。接着再对多层的情况展开研究。和两层抽样一样,我们先把最下一层中需要 抽样的层进行抽样,然后考察需要抽样的其他层,把需要抽样的其他层看成两层 抽样问题中的上层,多层次抽样的问题变成了多个两层次抽样的问题。调查抽取 到的所有样本单元,计算相应的估计量。整个抽样过程可以归纳为整个三步,第 一步对需要抽样的底层进行直接抽样,第二步把其他层看成两层抽样问题中的上 层,利用底层抽样产生上层的初始样本,通过c h a os c h e m e 设计迭代产生终极样 本,第三步调查所有的样本,计算相应估计量。 其次,本文对多目标抽样的样本容量问题进行了比较详细的研究,它是以单 一目标样本容量设计为基础,利用样本追加策略进行拓展而成的,提出了一种确 定多目标样本容量的概率逼近的新方法,结合永久随机数技术,给出了寻找出样 本的具体方法。 在单目标的分层次复合p p s 抽样设计和多目标的样本容量设计研究完成以 后,我们再对多目标的分层次复合p p s 抽样设计进行研究,只考虑了各个层次 的抽样目标都是相同的情形。对于相同目标的多目标分层次复合抽样设计,利用 多目标抽样的样本容量设计的结论,计算出各层中的样本容量,因此多目标的分 层次p p s 抽样设计变成了在样本容量确定以后的分层次p p s 抽样设计,这样就 可以利用单目标的分层次p p s 抽样设计的原理来进行多目标分层次抽样设计了。 此外,在p p s 抽样中的方差估计通常是采用 i - - t 的f - 型估计量来估计。本 3 多目标分层次复合抽样设计研究 文采用了n a j e k 方差估计量的作为统计总量的方差估计量。这是一个渐近无偏的 一致估计量,在一定的条件下收敛于 i - - t 的方差估计量,而且这个方差估计量 的计算公式只涉及到一阶的包含概率,计算相当简单。 最后,我们利用了福建省1 9 9 6 年全省2 6 个国定调查县的统计数来模拟一次 实际的抽样,以此检验这种方法的科学性。 二、本文结构 根据以上的研究思路,本文将按以下几个章节来论述: 第一章是导论,对全文进行了概括性的描述。从多目标和分层次抽样设计的 理论意义和实践应用入手,阐述多目标和分层次抽样设计的研究背景,提出研究 目标,概述了全文的研究思路、分章节的结构和创新之处。 第二章是多目标和分层次抽样调查理论综述。分别说明了多目标和分层次的 抽样设计的研究现状。在多目标抽样设计方面,对国内外的研究成果进行了评介, 同时对分层次抽样设计,特别是p p s 抽样设计的研究现状作了较为全面的介绍。 第三章研究单目标的分层次p p s 抽样问题。这一章我们利用永久随机数技 术和c h a os c h e m e 设计,提出p p s 抽样设计的一种新方法,并给出了一个计算相 当简单的方差估计量。 第四章研究多目标抽样中样本容量设计问题。在此分析了多目标抽样设计中 最佳样本容量的存在性和唯一性问题。然后提出了寻找最佳样本的一般方法。 第五章研究多目标的分层次p p s 抽样设计问题。这一章是本文的重点,是 第三章和的第四章的综合应用。利用第三、四章的两个结论,将多目标抽样问题 转化为确定样本容量的问题,然后提出多目标的分层次p p s 抽样就是确定样本 容量下的p p s 抽样设计。最后,我们讨论了统计量和统计量方差的估计问题 第六章是多目标的分层次p p s 抽样的案例研究。本章以福建省1 9 9 6 年国定 2 6 个调查县的统计数据作为总体单元,模拟了多目标的分层次复合p p s 抽样设 计,并计算了相应的方差,验证了相关的结论,取得了较为理想的结果。 第七章讨论了多目标的分层次复合抽样设计应用中的问题。 三、创新探索 本文在以下几个方面做了一些创新和探索。 首先,将多目标和分层次抽样设计结合起来进行研究,并提出了一种新的多 4 第一章导论 目标的分层次p p s 抽样设计方法;其次,对多目标情况下的样本容量进行的系 统的研究,给出最佳样本点的存在性证明,提出了一个简单的求解方法;第三, 首次将c h a os c h e m e 设计和永久随机数技术结合起来,实现了上下层的样本兼容; 第四,应用了一个有偏估计量,使方差估计量的计算问题大大简化,从而增加了 抽样目标的个数。第五,本文将多层次抽样设计中“从上层到下层”抽样与“从 下层到上层抽样”的方法结合起来,形成一个上下齐动的分层次抽样设计。 此外,由于本人水平有限,没能在以下几个方面展开研究:h - t 方差估计、 m p p s 中刀切法计算的方差和h 翻c k 估计之间的对比研究,h a j e k 估计量的收敛 程度研究和多目标数量对n a j e k 估计量的影响研究。 5 多目标分层次复合抽样设计研究 第二章多目标和分层次抽样调查理论综述 第一节抽样设计的理论回顾 抽样调查是百年中发展起来的一种现代统计调查方法。1 8 9 5 年挪威统计学 家凯尔( a n k i a e r ) 在瑞士伯尔尼召开的第五届国际统计学会上提出了一种叫 做“代表性调查”的方法。他提出“调查结果的准确性不是取决于观察数量的多 少,而是取决于取得代表的正确性的方法”。用现在统计语言来表述就是样本对 总体的代表性的水平,而不是样本容量的问题。凯尔的“代表性调查方法”引起 了国际统计界的广泛关注,国际统计学会在充分研究的基础上推荐了两种方法: 一是概率抽样,另一是判断抽样或目的抽样,从此揭开了抽样设计理论的研究。 随着数理统计理论的发展,抽样设计理论和概率统计紧密的结合在一起,并随着 数理统计研究的发展逐步走向深入方法也更加理论化、数学化,因而也就更加 抽象化了。以n e y m a n ( 1 9 3 4 ) 的“o nt w od i f f e r e n ta s p e c t so ft h er e p r e s e n t a t i v e m e t h o d :t h em e t h o do f s t r a t i f i e ds a m p l i n ga n dt h em e t h o do f p u r p o s i v es e l e c t i o n ” 为标志,确立了随机化推断的抽样理论,到二十世纪五、六十年代这种方法已日 臻完善,这是抽样调查理论发展的第一个阶段,模型自由阶段。这种抽样调查理 论,是以古典的概率统计理论为基础的。其最大的特点就是方差、均值等统计量 的估计是完全以大数定律和中心极限定理为基础,根据随机理论推算出来的。随 机化推断没有复杂的数学模型,因此又称为“模型自由”的抽样设计。这种理论 以其简便,高效等特点,在抽样调查实践中赢得了主流地位,并且至今仍然具有 强大的生命力,一直是抽样调查的经典理论。在各级政府组织和非政府组织的抽 样调查中,经常采用这种方法。但这种方法对样本框的完备性,抽样误差的可控 制性,和被估计的参数的限制性等方面都有比较严格的要求,因而又为抽样调查 理论的发展提供了新的需求。随着多元统计理论的诞生和发展,统计推断模型及 其应用理论的成熟,统计模型在抽样设计中的应用也就成为必然的了。1 9 6 3 年 b r e w e r 在r a t i oe s t i m a t i o na n df i n i t ep o p u l a t i o n s :s o m er e s u l t sd e d u c i b l ef r o mt h e a s s u m p t i o no fa nu n d e r l y i n gs t o c h a s t i cp r o c e s s 一文中首先提出了模型依赖的推 断方法,开创了模型依赖的统计推断的新领域。模型化推断方法是居于“有限总 6 第二章多目标和分层次抽样调查理论综述 体的研究指标是某个随机模型( 超总体) 的一个具体实现”这一数学结论,推断 目标是有限时,可以把统计推断建立在一个超总体模型上。这种方法的优势是在 超总体模型和实际设想相一致时,由于能充分利用已有模型信息,所以能较快地 进行统计推断,模型推断的强势就体现出来了;这种方法的劣势是当模型和实际 不相符时,结果可能会很不好,特别是在大样本的情况,模型推断的大样本可能 会偏差很大:方差的计算变得复杂了,当超总统模型的方差和统计量的方差不一 致时,如何计算抽样方差一直是研究的热点问题。这就是抽样调查理论的第二阶 段。两者的结合,就成为抽样调查理论的第三阶段。c a s s e l 等于1 9 7 6 年在文章 s o m er e s u l t so ng e n e r a l i z e dd i f f e r e n c ee s t i m a t i o na n dg e n e r a l i z e dr e g r e s s i o n e s t i m a t i o nf o rf i n i t ep o p u l a t i o n 中提出了模型辅助的抽样设计。以随机化抽样设 计为基本模型,利用其它模型作为辅助模型,构造有限总体参数的估计,对随机 化抽样进行改良。s a r n d a l 在 m o d e la s s i s t e ds u r v e ys a m p l i n g ( 1 9 9 2 年) 一书对当前常用的模型辅助方法进行了较为全面的概括。 无论是随机化方法,还是模型推断方法,抑或是两者结合的方法。各种方法 都有自身的长处和不足,因而形成了各自的应用领域,抽样方法的选择必须根据 抽样调查的实践来决定。 第二节多目标抽样方法综述 多目标抽样方法,也称多主题抽样或多指标抽样,指的是在一次调查中估计 的目标在两个或两个以上的抽样调查方法,即利用一套样本估计总体的两个或两 个以上的目标;而单目标抽样,就是利用一套样本估计总体的一个目标。两者虽 然都是利用一套样本来估计总体的目标,但当估计的目标由一个到两个或者两个 以上,相应的概率函数就可能一维n - 维或多维,因而各种数字特征的计算,如 估计量的方差分析、偏度分析、精度分析,就复杂得多,可供选择的方法也就多 起来了。 国际国内关于多主题调查的研究主要集中在:一是抽样方式的选择上。例如 舍弃使用与单一指标的有关标志排队的抽样,采用随机性较大的抽样方式,或采 用无关标志排队的等距抽样等。二是改进估计量,将多元统计分析中的聚类分析、 主成分分析、因子分析等方法引入多目标抽样中。这方面的主要研究成果集中在 等概率抽样中,但是随着抽样调查的不断发展以及应用领域的不断拓宽,调查单 7 多目标分层次复合抽样设计研究 元的规模有较大差异或者调查单元在总体中所占的地位不一致等情况经常存在, 等概率抽样方式难以满足这些抽样调查的需要,不等概率抽样方法日趋重要了。 一、多目标抽样设计的研究重点 多目标抽样设计中的各个调查变量的分布可能不同,联合分布难以确定,抽 样设计的难度就大为增加了。多目标抽样调查的研究主要体现在如下几个方面: 第一是抽样设计的路径选择。抽样设计有多种路径选择,有随机化抽样方法,有 模型抽样方法,还有模型辅助法。在每一类方法中,又有许多具体的方法,例如, 在随机化为主的抽样方法中有多目标分层抽样法、多目标平衡抽样法、多目标比 率与回归估计法、多目标双重抽样法、多目标双重事后分层抽样法、成本条件下 的多目标复合抽样法以及国家统计局正在推广的m p p s 法等方法。第二是抽样方 式的选择:在多目标抽样设计中,要同时面对若干不同总体,且各总体的分布可 能各不相同。适合于某一总体的抽样方式对其他总体可能产生较大的抽样误差。 如何选择一套样本,使得各目标的抽样误差都达到较小,是多目标抽样设计中的 难点:第三是样本容量的确定:样本容量既涉及抽样估计的精度,又决定抽样调 查的费用,是平衡精度与费用的杠杆。在精度估计和调查费用已经确定的情况下, 样本容量的大小取决于抽样误差的大小。但在多目标抽样设计中,各目标抽样误 差的大小可能不同,甚至差异较大。选择合适的样本容量,既不浪费,又能满足 精度要求,就成为多目标抽样设计中的又一难点;第四是估计量的选择。对于同 一个统计量,可能存在多种估计量,虽然有无偏性和一致性等要求,但对于不同 的抽样方法,无偏性和一致性也会改变,而近代统计研究表明也有许多不是无偏 的估计量,但却是一个“好”的估计量,由此就产生了许多的多目标抽样的估计 方法。由于本文研究的是模型辅助随机化抽样设计的方法,我们仅对随机化为主 的多目标抽样设计作一综述。 二、多目标抽样的主要方法 ( - - ) m p p s 法 m p p s 法,即多变量与规模成比例的概率抽样方法,它是与单元规模成比例 的概率抽样技术的进一步推广,是一种不等概率的抽样方法。m p p s 是由美国农 业部农业统计署的专家j e f f r e yt - b a i l e y 和p h i l l i p k o t t 在1 9 9 7 年首先提出来的。 m p p s 的基本原理主要由三个部分构成:第一,采用永久随机数技术。对总体单 8 第二章多目标和分层次抽样调查理论综述 量不确定的抽样方法。对每个总体单元赋予一个入样概率只,使弓z l = ,其中v h 旁豢 五= 9 多目标分层次复合抽样设计研究 1 分层抽样法 多目标分层是根据总体单元的特性,通过分层把总体中差异较小的单元归于 一层,把相差较大的单位归于不同的层,使层内方差尽可能小,层间方差尽可能 大。其做法是对每一个调查变量,选定一个与该变量相关的辅助变量。首先选取 一个辅助变量,按层内方差最小的原则对总体进行分层:其次在每一层内再选另 一个辅助变量,对该层按层内方差最小的原则进行分层。以此类推,形成对总体 的复合分层。若有k 个辅助变量用于分层,每个辅助变量的层数为l 层,则总 的层数是l k 层。该方法的特点是简便易行,不足是只适合于调查目标较少。 2 聚类分析法 肖玲( 1 9 9 4 ) 提出利用聚类分 析法来确定多目标分层抽样中层数 的方法,是多元统计中的聚类分析 多主题的分层抽样中的应用,并在 理论和方法上对分层抽样法作了进 一步推广。这种方法在均衡各个调 查目标的抽样误差方面具有较好 的作用。 f l 图2 - 1 聚类分析法中层数的确定 其思路是根据聚类过程中的并类距离t 与多目标总体分层数l 的一一对应 关系。并类距离是反映合并的两层相近程度的指标,t 越小,说明相应合并的两 层越接近。t 受多目标总体分层数l 变化的影响,其一般规律可以通过以分层数 l 为横坐标、并类距离t 为纵坐标的拟合曲线表示出来( 如图2 一l 所示) 。 图2 1 中,a 点是一个转折点;a 点所对应的分层数r 即为多目标总体 合理的分层数。因为当分层数小于l 时,随着分层数的增加t 下降得较快,此 时增加分层数,层内方差减少较多,当分层数大于l 时,随着分层数的增加,t 下降得很慢,此时增加分层数,层内方差减少不多,再增加分层数作用不大了。 在多目标总体合理分层数确定以后,可根据聚类图找出每层所包含的总体单位。 3 多目标平衡抽样设计 王国维( 1 9 9 6 年) 提出多目标平衡抽样设计。多目标平衡抽样设计的思想 是在不破坏随机原则的前提下,每次抽样都要尽量使得每个指标的样本平均数与 第二章多目标和分层次抽样调查理论综述 总体平均数接近,如果第f 次抽样的样本平均数大于( 小于) 总体平均数,那么, 在第i + 1 次抽样必须在小于( 大于) 总体平均数的个体中进行,这就是所谓的 平衡抽样。 ( 三) 辅助变量法 辅助变量是指为提高调查变量的估计精度,在抽样或估计阶段引入的其它变 量。辅助变量可以是表示抽样规模大小的量,可以是样本总体单位的标志值,也 可以是调查目标量的前期历史资料。在多目标抽样设计中,辅助变量还可以是调 查变量。抽样设计成功与否,很大程度上取决于辅助变量。辅助变量的作用主要 体现在两个方面,一是改进抽样方法,提高样本对总体的代表性,另一是改进估 计方法,缩小估计误差。在多目标抽样设计中,辅助变量的使用,几乎存在于所 有的抽样方法中,只是作用的重要性有所不同。这里仅介绍在多目标抽样设计中 的几种常用方法。 1 双重多目标抽样估计 双重多目标抽样估计是,把单目标的双重抽样方法应用于多目标而产生的多 目标双重抽样估计方法。其具体做法是,先从总体中抽取一个容量大的样本( 第 一重样本) ,用此样本估计所需样本容量最大的那个目标,然后,再从第一重样 本中分别抽取若干个容量不等的小样本( 第二重样本) ,用这些样本分别估计其 它目标。通过双重抽样,可以使不同容量的样本用来估计不同的调查目标。需要 注意的是,所有第二重样本是分别独立地进行的,但从结果上看,它们都是由第 一重样本中的部分单位组成的,因此,并没有给调查工作增加麻烦。只是在给样 本单位发放调查表的时候,注明该单位应该调查的目标即可。 在多目标双重抽样设计中,如果辅助变量的总体资料取不到,可以采用双重 事后分层抽样技术,即多目标双重事后分层抽样方法。 2 多目标双重事后分层抽样设计 从总体中抽取一个容量为的不放回简单随机样本,为第一重样本。对第一 重样本中的每个单位,调查其在各个分层标志上的标志表现,并根据调查结果计 算出样本在各个分层标志上各层单位数占第一重样本容量的比重,作为分层标 志。从容量为一的第一重样本中,取一个容量为甩的不放回简单随机样本,为第 二重样本。对第二重样本按照第一重样本确定的分层标志进行事后分层。 3 多目标比率与回归估计 多目标分层次复合抽样设计研究 在多目标抽样中附加一些条件,比率和回归估计仍是两种提高估计精度的有 效方法。在通常情况下,如果每个调查目标都能找到一个合适的辅助变量,那么 可以直接将单目标回归估计的方法应用到各个调查目标中;否则可以采用双重抽 样技术,在第一重样本中,要对各个目标所需的辅助变量进行调查,取得其辅助 变量值,然后对各个目标分别构造双重抽样下的比率或回归估计量。 ( 四) 成本条件下的多目标复合抽样技术 王国明等( 2 0 0 2 年) 对多目标抽样问题从成本的角度提出一个思路:假设 总调查费用为c ,在总费用c 的条件下最多能调查n 个单位。这是指在常规设计 下,所能收集到的样本,我们通过减少高成本调查指标数来增加低成本的调查指 标数方法,使在相同费用约束下增大样本容量,因而提高抽样精度。构造恰当的 一 统计量,在一定的条件下使得仃( 矿一) 盯( 疗) 对任意的高成本指标虼成 m 立。按照这样的设计思路,在一定的条件下,我们可以在总调查费用不变的基础 上提高抽样调查的精度,或可以在调查精度不变的基础上降低总调查费用。 第三节分层次抽样设计综述 一、分层次抽样设计的研究重点 分层次抽样设计其实就是总体估计和域估计同时进行的抽样设计。它有别于 传统的分层抽样技术,分层抽样技术是针对样本空间本身的结构特点而划分出层 次来的,其目的是增大层间方差,降低层内方差,预期达到降低总体方差,提高 抽样设计精度;分层次抽样设计是根据抽样调查设计的实际需要而划分,它可以 按管理层次或地理区域划分,也可以按照调查对象的不同类别划分。抽样调查中 不仅要对总体目标量进行估计,同时也需要对域的目标量进行估计,政府统计中 讨论的“抽样调查如何满足多层次需要”实际上就是分层次抽样设计问题。这种 层次的划分只针对总体空间的外在需求,而非内在的结构,因而不存在层内样本 和层间样本这样的特殊关系,其目的是为了满足抽样调查目的需要,因而难度就 更大了。当前研究的重点主要分为随机化方法和模型依赖方法。随机化方法仅仅 依赖于当期抽样落在该域的样本来进行估计,通过加权等统计手段来实现域总体 的一个无偏的或近似无偏的一致估计。随机化方法后经过汉森( h a n s o n ) 和麦多 1 2 第二章多目标和分层次抽样调查理论综述 ( m a d o w ) 等人的发展和完善且基于计算和检验等方面的优势,在实践和理论研 究中都得到了广泛应用。直至今天,分层次随机化抽样方法仍占主流地位,一直 被视为标准的估计方法。其研究的核心仍然是在已有域中样本的条件下,如何更 有“效率”的增加样本单元,以满足估计精度的要求。当前的主要方法有层层抽 样法,a b c 法,样本追加法和广义回归估计法。此外,模型依赖的分层次抽样 方法也有一定的应有空问。这种方法主要是利用各种模型,或利用总体样本单元 的信息,或利用以往时期或其它域的数据来改进对研究域目标量所进行的估计。 模型依赖法主要采用条件分析的观点,对域总体的推断是建立在随机抽取的样本 之上,根据样本的信息来发掘未抽中个体的信息。其实质上是通过模型推断和条 件推断相结合的方式,把已观察样本数据作为条件,并根据这些数据和未观察到 数据之间的关系建立模型,通过估计模型的未知参数来实现对目标变量的估计。 由于间接估计方法扩大了利用调查数据进行推断的内容,在一定程度上解决了传 统的直接估计方法所无法处理的难题( 如研究域中没有样本单元的情况) ,在理 论上对统计学科的发展起到了一定的推动作用,因而在国际统计学界引起人们的 关注。同时由于人们关注的角度不同,研究的切入点不同,对间接估计也使用不 同的词汇来表达。但是和其他模型估计方法一样,选择的模型和发掘的规律是否 真实地反映出域总体的规律有很大的不确定性,因而这种方法在实际的抽样调查 中使用不多。当前的主要方法有域间接估计( 横截面) 、时间间接估计( 时间序 列) 和域与时间结合的间接估计( 横截面和时间序列相结合) 等方法。在此,我 们仅对随机化的分层次抽样方法做一综述。 二、分层次抽样设计的主要方法 ( 一) a b c 法 a b c 法是遵循分层抽样和二重抽样的原理,使各级样本兼容和形成多级一 套样本的分层次抽样方法。依据调查目的对总体按管理和决策层次的需要,设计 各级层次,分别称总体为a 层( 下同) 、子总体为b 层( 下同) 和次级子总体为 c 层( 下同) ,依次分划下去。首先对所有的次级子总体c 层进行抽样,将c 层 的样本按照和b 层的隶属关系组成b 层的新的总体,在这些新的总体中根据同 样的抽样原则对其进行抽样,得到b 层的样本。在对b 层进行估计的同时也依 照上述方法对a 层进行抽样,形成a 层样本。这样就得到了三位一体的样本, 多目标分层次复合抽样设计研究 并实现了对各级总体的估计。依据分层抽样技术和多阶段抽样技术,计算出相应 的方差和均值。 ( 二) 广义回归估计法( g r e g ) 在广义回归估计方法中的基本思想就是通过调整域估计中样本的初始权数 ,使得辅助变量的样本分布和总体的分布较为一致,并保证辅助变量的样本 加权与总体总量相等,即:嵋_ = 五。因为初始权数_ 可以获得无偏估计, 所以选取e 的时候尽量使其与吩的距离要小,这样得到的估计量就可以实现渐 近无偏,而且估计量的方差会降低。于是广义回归估计量中最终权数的确定实际 上就转化为优化问题,即在萎嵋_ 2 五的条件下实现蟛与一距离的最短。衡量上就转化为优化问题,即在徊的条件下实现与”,距离的最短。衡量 y c j ( w j 一嵋) 2 一与的距离函数有很多种,一般选择平方距离函数一一,。,是 某一确定的撇优化问题为砒巳 誓约束条件为一。某一确定的常数。优化问题为:约束条件为厶4 厂“。 对这个凸规划,利用线性规划求解就可以得到一组最优权数吩2 吩g ,满 足上述的优化问题解。其中g j - - i + ( x 一宕) ( _ _ ) - 1 7 乞为校正因子,这 种方法也通常被称为相对校准估计( c a l i b r a t i o ne s t i m a t i o n ) 。域总体的目标 变量值就是矿= 嵋乃,通常也可以变为,品= 矿+ ( 石一j ) 7 雪的形式,所以这 种分层次的抽样方法也被称作广义回归估计,或者叫作广义校准估计,其中的 妇e 一) 1 ( ) 是加权最,j 、二乘估计系数。 ( 三) p p s 样本追加法 样本追加法,是一种由上而下的分层次抽样设计方法。这种方法是遵循从上 而下的设计思路,在满足上一级需要的基础上用样本追加的方法来满足下一级的 需要,秦怀振( 2 0 0 2 年) 提出方法的要点是,首先对样本总体进行抽样,用以 对总体的目标量进行推断。再考察样本单元落在域总体中的情况,如果落在域总 体的单元能够满足域总体的抽样设计要求,则将这组样本视为域总体的样本,如 果不能满足域总体的抽样设计要求,则进行补充抽样,以追加样本单元来满足域 1 4 第二章多目标和分层次抽样调查理论综述 总体的抽样设计要求。根据样本追加的方法不同,样本追加法又可以分为独立追 加法和条件追加法。在此基础上,重新计算总体和总体相关的估计量,并提高精 度。对于方差估计,无论是总体还是域总体都是进行的p p s 抽样,因而可以采 用h - t 估计量来估计方差。 多目标分层次复台抽样设计研究 第三章分层次复合p p s 抽样设计 第一节简单介绍 一、分层次p p s 抽样设计介绍 在抽样调查实践中,有一类特殊的抽样调查问题迫切需要我们去研究。那就 是利用一套样本满足各级政府抽样调查的需要,或者说分层次抽样调查问题。这 里的“层次”概念和通常的分层抽样中的层的概念是不一样的。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 自动驾驶测试数据采集器创新创业项目商业计划书
- 电子产品以旧换新服务创新创业项目商业计划书
- 2025年教师招聘之《幼儿教师招聘》测试卷附参考答案详解【综合题】
- 教师招聘之《幼儿教师招聘》考前冲刺练习及参考答案详解(综合题)
- 教师招聘之《小学教师招聘》题库检测题型带答案详解(b卷)
- 教师招聘之《幼儿教师招聘》强化训练及参考答案详解(a卷)
- 教师招聘之《小学教师招聘》练习题库带答案详解(研优卷)
- 利用改进型粒子群算法优化石油化工工程项目工期估算
- 尼氏征护理查房流程
- 2025年港口物流业项目立项申请报告
- 《中国人首次进入自己的空间站》课件 八年级语文人教版
- 2025年辅警面试考试试题库目(答案+解析)
- 品管圈PDCA改善案例-降低住院患者跌倒发生率
- 安庆飞凯新材料有限公司6000吨-年光固化树脂及表面处理涂料项目环境影响报告书
- 月子会所运营方案
- 排污单位自行监测方案编制模板
- 工作安全分析JSA杜邦
- YY 1727-2020口腔黏膜渗出液人类免疫缺陷病毒抗体检测试剂盒(胶体金免疫层析法)
- 粘膜免疫系统概述
- 10室外配电线路工程定额套用及项目设置
- 钢板桩及支撑施工方案
评论
0/150
提交评论