




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.随机抽样方法的误差分析与控制作者:陈航 指导老师:屈俊【摘 要】:本篇主要研究的问题有两个,一是关于什么是随机抽样误差,二是怎么控制该误差。随机抽样误差由于其影响因素众多而且很多都不可控制,因此产生误差是不可避免的。但是因为调查的科学性和准确性,因此我们必须找出方法来使这种误差减少到可控范围内的最小。本文首先交代了随机抽查的定义,然后说明了什么是随机抽样误差,接着对随机抽样误差进行分析后,我们给出了精确度、准确度,信度和效度的概念,这是判断误差的前提,有了前提我们才能知道测量数据的可靠性,不然调查数据误差分析就没有基础,也是误差控制的充要条件。在这些都做完后我们给出了控制误差的三种方法,并给出了比较,最后得到最优的方法:回归估计。【关键字】:随机抽样误差 随机抽样误差控制 最优调查方法选择一、什么是随机抽样调查抽样调查是一种常用的非全面调查方法。它通过抽取一部分单位进行观察,来了解全部单位的某些指标。 非全面调查是要从全部单位中选取部分进行调查,以说明全体。根据选择的办法不同,可分为有意识抽选和随机抽选两种。本文所说的抽样调查是指随机抽选的调查,它保证在抽选时每个单位都有同等(或一定的)被抽到的机会。抽样调查最根本的特点就是最后确定哪些单位被选中,完全遵循随机原则,丝毫不夹杂调查者的主观看法。随机抽样调查所坚持的随机抽样原则,并不排除充分利用对调查对象所了解到的知识。例如,抽样调查中学生发育情况时,可以先将初中和高中的学生分成几个不同的组,然后分别从每组中按随机原则抽选要调查的年纪,而不是把明明能够区别开的单位混在一起来抽选。但是在每个组内,一定要严格遵循随机原则,而不能按主观判断选择自己认为有代表性的单位。二、随机抽样误差的定义由上面的讨论可以知道假如从同一族群总体中抽出样本,并由样本来估计总体参数时,则会发现每一估计值和总体参数之间都有一定差异,且差异因样本不同而不同。此种误差叫做统计误差,如图1所示。误差有二个来源,即抽样误差和非抽样误差。误差的大小导致精确度和准确度的变化。由于非抽样误差的不可控制性,本文不予讨论。例如,抽查10个学生的身高,如果抽到的是A和B两个学生,测出平均身高为170cm。用它代表总体100个学生的平均身高就会有1cm的误差。这1cm误差是客观上存在的,但我们不能确切知道。因为我们只知道A和B的平均身高是170cm,而并不知道总体的平均身高究竟是多少。由于在抽样调查中不可能知道总体的实际平均数,所以抽出一个具体样本的平均数究竟与总体平均数有多大误差,是不可能确切知道的、但是,从一定的总体中抽一定数目的单位做为样本,全部样本平均数与总体平均数之间存在一定关系,并以后者作为它们的平均数,所以可以计算所有样本平均数与总体平均数的平均误差,并用它来表示抽样误差。意思就是,用所调查的这个样本的平均数来代表总体平均数,平均来说会有这么大的误差。所以,抽样误差是对全体样本来说的一个平均的误差范围。不论抽到哪个具体样本,所计算的抽样误差都是同一个数值。总体(真正参数)总体(参数)样本(参数,其标准差)样本(参数估计)测量方法正确抽样不良抽样(图1)三、抽样误差的分析的前提:精确度和准确度,信度与效度抽样误差是随机抽样问题研究的核心,但对抽样误差的分析就不得不首先说明几个重要的概念,一个是精确度和准确度,一个是效度和信度.1精确度和准确度之前讲到抽样误差的定义时提到过误差的大小将导致精确度和准确度的变化,也就是说样本应根据随机原则选出,这样选出的样本,经过严格评估其代表性,才能适当地反映总体的内涵,估计值的精确度知准确度才会有客观的评估。也就是说,在进行误差分析之前我们必须搞清楚精确度与准确度这两个概念精确度是用来衡量估计精确的程度,亦即指多次重复测定同一个量时各测量值之间彼此相符合的程度。它表示测量过程中随机误差的大小,常用或表示,这里是e的估计量的标准差,是标准正态分布的百分位点,亦称可靠系数,()是置信水平。越小,表示精确度越高,其大小须由专业知识决定。例如,在物价统计中,若认为某项物价指数上升0.02,会影响经济决策,则精确度须定为0.02。 准确度是衡量总体参数和总体真正参数之间的差异,亦即多次测量的平均值(作为的估计值)和真值相符合的程度,它表示测量过程中系统误差的大小,用绝对误差表示。例如在惯性导引导弹的设计中,设定目标的经纬度为=(E, N)=(115, 40),则导弹的设计落弹点应在附近之。若目标点的真正经纬度与有相当距离,则表示越精确的落弹,越不会准确落于目标点。又如,对参数真值=0.80mm重复测量10次,得到其平均值,于是准确度为,表示测量的平均值比真值低0.05mm。精确度与准确度的关系如图3所示。由图可知,测量数据质量高既要求精确度高,又要求准确度高。若精确度高而准确度低或准确度高而精确度低都不能说测量数据质量高。除了精确度与准确度,关于随机抽样误差还有一个重要的前提就是信度和效度。效度是测量中最重要的因素,如果测量是有效的,那么必定也是可靠的,表示测量到的结果正中目标。如果有信度而没有效度,结果则可能完全偏向一端,也就是虽然测量得到了可信结果,但并不是理论上想要研究的那部分结论。因此可以说,信度和效度是误差计算和判断的前提以及成立的根本,所以我们首先要搞清信度和效度的概念。2信度和效度 在杜会和行为科学研究中.为了解所搜集资料的可靠性,通常以测量或调查工具的信度和效度作比较。信度是就测量结果的一致性或稳定性而言,若测量或调查工具的信度高,则每次每次测量结果必较一致或稳定;反之.若信度低,则测量结果差异较大,故信度的意义和精确度相同。设X=测量分数,T=真正分数,=测量误差,依线性模式:X=T+,代表测量数据的结构式。例如,在学生数学学习态度调查中。要测量学生对数学学习的态度,则有测量的态度分=真实的态度分+误差,若测得的态度分=真实的态度分,即X=T,则称此测量或量具是可靠的或可信的,否则就是不可靠或不可信的。 就信度而言,通常以测量结果和真正结果的相关系数平方的大小来比较不同测量工具之间的信度高低。例如,在教育测量方面,假定五个学生的真正效学分数为89, 80, 72, 60, 54。现以甲乙两套数学成就测验工具同时测定他们的数学成绩,所得结果如下表:五名学生数学成就的真正分数和实得分数学生世纪成就甲测验乙测验真正分数名次实得分数名次实得分数名次A891921644B802852921C723753565D604644852E545565753从表中看出,甲侧脸的分数虽与真正的数学分数有差异。但两者的名次完全相同。而乙侧脸的五个分数虽与甲侧脸的五个分数相同,但其名次却与真正的数学分数不一致,其中甲测验与实际成就的相关系数平方为信度=,而乙测验的信度为=0.043。故甲测验的信度高,乙测验的信度低。效度是指经由测量或调查工具所得的结果是否能准确地测出所欲测量资料的特质或功能,故效度的意义和准确度相同。真正分数T还可以进一步分解成两部分,例如,真正分数=在设计问卷时想测的东西T+与测量目的无关的东西T。即X=。在亚运会调查中,真实的态度分=对亚运会的态度分+对其他问题的态度分,量表测量与测量目的有关的分数的程度就是所谓效度。如果,测量的态度分=真实的态度分=对亚运会的态度分,即X=T=,则称此测量或量表是“有效的”。同样,以测量结果和与目的有关的分数的相关系数平方的大小,来比较不同测量工具之间的效度高低。 信度和效度有一定的关系。信度高效度不一定高,而效度高信度一定高。如果量表的设计不能充分显示所要研究的主题,那么整个研究就失去意义。所以进行效度分析是十分重要的。在对调查数据进行信度、效度、精确度与准确度分析的前提下我们来进行随机抽样误差的分析。四.随机抽样误差的分析我们知道从总体中随机抽取的样本不能完全代表总体,这种由随机因素引起的误差是抽样统计上不可避免的,但是利用统计理论能够确定其大小。 对正确的抽样而言,抽样误差就是参数与其估计量之差,以估计量的标准差来度量抽样的精确度(如图1所定义)。因参数为未知,故抽样误差是不可测量的值,通常可用其均方差MSE来表示,即:MSE= =+由于,上式中乘积项成为零,偏误是估计量平均数与参数之差。如果估计为不偏,则偏误为零,亦即当时, 是的无偏估计量。D()是估计量的方差,与该估计的效率有关。D()越小,估计的效率越高,在选取估计量时,如以均方差的大小为准则,则可在偏误与估计量方差之间做一取舍。假设,有两个估计量和,如图2所示。 图2 估计量的选取(以均方差为准则)虽然为不偏,但其标准差较的标准差为大,故此时以选取有偏估计量为宜,具有较小方差的无偏估计量是最有效的,此时估计量的取值较大地集中在参数的附近。以上我们已经对随机抽样误差做了详细的分析,并且也对随机抽样误差有了初步的了解,下面我们来谈谈如何对随机抽样误差进行控制,使之符合测量的要求。五随机抽样误差的控制经过之前的分析我们知道,抽样调查的目的是从局部推断全体,即抽样样本指标去估计或推断总体指标。这两者存在一定的差别,这种差别,我们就称之为误差。抽样误差一词包含有双重涵义。它既是指某一次抽样结果的随机误差,即实际误差;又是指抽样的全部可能结果的误差,即抽样平均误差。由于总体指标是未知的,并且每一次取样是随机的,因此我们不可能计算出实际误差。而抽样平均误差则不同,它是样本平均数与总体平均数的标准差,它能利用以下公式计算出来,在简单随机抽样条件下,有:式中代表抽样平均误差 代表样本平均数 代表总体平均数 M代表样本可能数目 代表总体方差 n代表样本单位数 N代表总体单位数所以在实际工作中所讲的随机抽样误差一般都是指抽样平均误差,而非实际误差。为了控制抽样误差,首先必须了解随机抽样误差受哪些因素的影响,以便控制这些因素,使之尽可能减少到最低限度。一般来说,随机抽样误差受以下四个因素的影响,即(1)总体各单位之间的标志变异程度,(2)样本单位数,(3)抽样的方式方法,(4)估计方式。从上面随机抽样误差公式可以看出,抽样误差()是与总体各单位间的标志变异程度()成正比的,与样本单位数的平方根()成反比。即总体各单位之间的差异程度越大,抽样误差越大,反之,则越小。而抽取的样本单位数越大,随机抽样误差便越小,反之,则越大。另外,随机抽样误差还受抽样方式方法的影响。一般说来,等距抽样和类型抽样的误差小于简单随机抽样,不重复抽样的误差小于重复抽样。估计方法也同样影响随机抽样误差的大小,估计方法选择得恰当,也会降低误差。关于随机抽样误差控制的具体操作,我认为可以从以下几个方面着手:1进行有效性检验所谓有效性检验,就是通过对抽样平均误差的检验,看实际误差与理论误差是否存在着系统性差异。如果通过检验有系统性差异存在,表明所抽得样本不能有效地代表总体;反之,如果通过检验,系统性差异不存在,则表明样本可以代表总体。有效性检验具有两种方法,一是假设检验,二是交叉样本检验。对于假设检验,我们既可以进行样本平均数与总体平均数的显著性检验,也可以进行样本方差与总体方差的显著性检验,两种检验的效果是一致的。除此外,我们还可以采用交叉样本检验。所谓交叉样本检验,就是采用相同的抽样方案,从总体中随机抽出两套或两套以上的子样本,每套子样本都包含至少1个基本单位,分派不同的调查人员进行调查,然后分别计算各套子样本的样本指标,并进行比较。按理这些子样本指标之间,应该只包含差异较小的随机误差,如果发现有悬殊偏差,就说明调查人员在调查工作中可能有系统性误差,应及时纠正。通过这两种检验。我们便可以及时发现和控制系统性误差的出现,提高样本的代表性。2合理运用各种抽样组织方式前面已说过,抽样组织方式是影响抽样误差大小的因素之一,因此,要控制抽样误差,就必须选择最合适的抽样组织方式。简单随机抽样方式在理论上是最符合随机原则的,它的抽样平均误差也容易得到理论上的论证,因此可以为发展其它更复杂抽样设计提供基础,同时也可以用来衡量其它抽样方法的抽样效果。但简单随机抽样在实践上受到许多限制。它需要较多的样本单位数,而且当总体很大时,编号工作就变得非常困难,特别是对于正在连续生产的产品,甚至不可能进行编号。在这些情况下,就不适宜采用简单随机抽样方式。分层抽样的特点是先把总体各单位按其属性特征分为若干类或层,然后.从每层之中随机地抽选样本单位。通过分层可以把总体中标志值比较近的单位分为一层,使各层的分布比较均匀,而且保证各层都有中选的机会。这样计算的抽样平均指标的变异程度比较小。因此,在总体各单位标志值大小悬殊的情况下,运用分层抽样比简单随机抽样可以得到更为准确的结果。等距抽样是将总体各单位按一定标识或秩序排列,然后按固定距离或间隔抽取样本单位的一种抽样方式。等距抽样既可以按有关标识排列,也可以按无关标识排列,如按名册上的姓氏笔划、工商行名录以及时间、空间距离等,均可划分等距。一般说来,按无关标识排队的等距抽样其效果与简单随机抽样差不多。但是按有关标识顺序排列的等距抽样,它与分层抽样的情况有点相似,能保证抽取的样本单位在总体中均匀分布。从而提高了样本的代表性,因此,等距抽样比简单随机抽样的误差要小,效果要好。然而,由于等距抽样在确定第一个样本单位的位置后,其余各单位的位置也相应确定了。因此在抽样时尤其注意要避免抽样间隔和现象本身的周期性节奏相重合引起系统性偏差。整群抽样是将总体多个单位划分成若干群,然后以群为单位随机抽取若干群,对中选群中所有单位进行全面调查。整群抽样和分层抽样对比,虽然两者都需要将总体划分成许多组,不过划组的作用不同。分层抽样划分的组称为层,它的作用是缩小总体,使总体内的标志变异度减小,而抽取的单位是总体中的单位。整群抽样划分的组称为群,其作用在于扩大单位,抽取的基本单位不再是总体单位而是群,这样抽样工作就简便了。但是整群抽样抽出的样本往往不够均匀,代表性往往比简单随机抽样还低。只有在群内差异较大而群间差异较小的情况下,整群抽样才合适,这一点恰好和分层抽样相反。整群抽样的优点主要体现在经济方面,它比其它抽样方式节省更多的人力、物力和费用。当总体很大,抽样调查直接抽选总体单位有很大困难,一般采用多阶段抽样方式,利用现有行政区划、组织系统,层层抽选。例如,学生期末成绩抽样调查中由省抽市,市内再抽县,县内再抽学校,最后由中选的学校再抽具体的样本点。二阶段抽样、分层抽样和整群抽样同样都需要先对总体加以分组,然后再抽取单位。但是它们之间是有明显差别的。分层抽样是从全部的分组中每组各抽取部分单位,它和二阶段抽样的区别在于第一阶段抽取了全部的组,但二阶段抽样在第一阶段只是随机地抽取部分组。整群抽样是从全部的分组中随机抽取部分的组,然后对中选组全部单位进行调查。它和二阶段抽样的区别在于第二阶段抽取了中选组的全部单位进行调查;而二阶段抽样在第二阶段只是在中选组中随机抽取部分单位。所以,二阶段抽样也可以说是整群抽样和分层抽样的综合,前面阶段是整群抽样,最后阶段是分层抽样。为了使二阶段抽样的总误差缩小,在划分群时应尽量使群内差异大些,群之间的差异小些。而且最好是多抽一些群,使抽到的调查单位更均匀地分布在总体各个部分,从而提高代表性。每一种抽样组织方式都有其不同的特点。只要我们根据不同的调查目的和不同的总体状况,采用最合适的抽样方式,抽取必要数目的样本单位,就可以把抽样误差控制在一定范围内。3恰当地选择估计方法抽样的目的是为了估计总体,一般的抽样理论中最常见的是点估计和区间估计,这里简称简单估计。此外,还有两种结合已知的有关辅助资料进行估计的方法,即比率估计和回归估计。这三种估计方法由于出发点不同,利用资料不同,故其抽样平均误差也各不相同。这里仅讨论一下各种估计方法的抽样平均误差公式。简单估计是直接从总体N中抽取n个单位构成样本所进行的一种估计方法。其抽样平均误差公式为式中为简单估计的不重复抽样平均误差; 为总体方差; N为总体单位数; n为样本单位数。比率估计是结合已知的与调查标志有关的辅助标志来对总体进行估计的一种方法。如农产量调查,以本年单位播种面积产量为调查标志,则往年单位播种面积产量或本年播种面积数为辅助标志。在抽样调查中,这种估计方法可以利用这些有关资料带来的信息对总体指标进行估计。这比单纯用调查标志的样本指标进行估计能收到更好的效果。比率估计的不重复抽样平均误差公式为:式中,为比率估计的抽样平均误差; 为辅助标志平均数; 为调查标志方差; 为辅助标志方差; r为调查标志与辅助标志的相关系数;为调查标志平均数与辅助标志的平均数的比值。回归估计和比率估计一样,对抽取的各个单位除调查标志X外,也要求有辅助单位Y,组成各单位点(X, Y),并根据各单位点的调查数据,计算出变量间所拟合的回归方程,并利用回归系数对总体指标进行估计的一种方法。回归估计因为利用了另一个辅助标志的线性相关信息,所以能使其抽样误差减少。回归估计的抽样平均误差公式为:式中表示回归估计的抽样平均误差;其他符号意义与比率估计公式相同。以上三种估计方法都可以进行抽样估计,都可以计算抽样误差,至于哪种方法最好呢?这需要通过它们的相互比较才能知道。1. 比率估计与简单估计的比较。为了使对比分析更为简明,我们以变异系数表示的抽样方差作为比较形式。则简单估计的方差为:比率估计的方差为:从上述两个公式可以看出,比率估计比简单估计多出一项(),这一增项有三种可能的情况:(1)若,则r=,这说明当X与Y的相关系数r近似于1/2时,增项趋于0,表明两种估计方法的抽样方差近于相等,即两种估计方法的效果基本相同,没有什么优劣之分。(2)若 ,说明当相关系数r1/2,X与Y的相关程度较高时,增加项为一负数,表明比率估计的效果较简单估计为优,r越大,其效果就越优。(3)若0,则r ,即X与Y的相关程度较低时,增加项为一正数,表明比率估计的效果反倒不如简单估计为优,2. 回归估计与简单估计比较。若将公式(1)与公式(2)相比较,则回归估计的抽样平均误差比简单估计的抽样平均误差多一项乘数。可见只要,回归估计的效果总是优于简单估计。若r=0,则两者效果相同。回归估计与比率估计比较。将公式(2)与公式(3)相比较,除了第一项 为三种抽样误差所共有的基础方差外,回归估计多了一个修正项(),比率估计则多了另一个修正项()。我们可以证明:,可见,回归估计的抽样误差小于比率估计。这说明回归估计是三种估计方法之中最优的估计方法,值得被推广应用。 六总结综上所述,我们发现随机抽样误差是一定会存在的,但是却并非不能控制的,只要我们针对调查对象的性质、特点及具体条件,采用合适的抽样方式与估计方式,抽取必要数目的样本单位,就可以把抽误差控制在最小范围内,使调查结果的准确程度与把握程度符合要求。从而在实际中将随机抽样作为一个有效地工具来使用。注释:参见抽样调查误差的分析关于公式的详细应用及推导见对抽样平均误差公式的更正参考文献:【1】叶培华等.教育统计学.北京:人民教育出版社.1992【2】金玉良.抽样方法调查误差的分析.统计与测量.1998【3】刘坚武.抽样误差的控制.统计研究.1995【4】金玉良.抽样方法中调查误差的控制.统计研究.1992【5】教育测量的误差及其控制.管理方法与技术.2001【6】张崇甫等.统计分析方法及其应用.重庆:重庆大学出版社.1995【7】孟庆茂等.新世纪心理与教育测量展望.上海:上海教育出版社.2003【8】王孝玲.教育统计学.上海:华东师范大学出版社.1986【9】朱德全等.现代教育统计与测评技术.重庆:西南师范大学出版社.1998【10】衡忠恒.教育统计.测量与评价.北京:中国科学技术出版社.1999【11】戴海琦等.心理与教育测量.广州.暨南大学出版社.1999【12】于秀林等.多元统计分析.北京:中国统计出版社.1999【13】郑日昌等.考试的教育测量学基础.北京:高等教育出版社.1990【14】Comenius, a large teaching theory M, Educational Science Press, 1999【15】PHGarthwaite,An interpretation of partial least squares. American statistical Association Journal of the American statistical Associate. 1994,89:122127【16】李金昌.对抽样平均误差公式的更正.统计研究.1991Random sampling methods of error analysis
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 软骨疾病药物干预-洞察及研究
- 跨文化管理效能-第1篇-洞察及研究
- 浮游生物迁移能量消耗评估-洞察及研究
- 餐饮住宿承包合同协议书
- 餐饮教学员技术合同范本
- 餐饮茶楼转让合同协议书
- 餐馆物品转让协议书范本
- 饭店内部股东转让协议书
- 餐饮服务员工培训措施
- 商业建筑租赁合同细节条款
- 2025年中级注册安全工程师《其他安全》十年真题考点
- (2025)行政执法人员考试题库(附答案)
- 院前急救工作制度及流程
- 1-安全生产治本攻坚三年行动工作方案及台账模板(2024-2026年)
- CQI审核管理办法
- 2025年国企应聘测试题及答案
- 反恐怖宣传课件
- 教培机构开学季活动策划方案
- 园区项目用电管理办法
- 老年护理谵妄课件
- DBJ-T 13-91-2025 福建省房屋市政工程安全风险分级管控与隐患排查治理标准
评论
0/150
提交评论