抽样方法与样本量估计ppt课件_第1页
抽样方法与样本量估计ppt课件_第2页
抽样方法与样本量估计ppt课件_第3页
抽样方法与样本量估计ppt课件_第4页
抽样方法与样本量估计ppt课件_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

抽样方法和样本量估计,张文斌,2013年12月1日,为什么抽样,抽样:经济、有效和科学。2、抽样方法的创始人盖洛普乔治霍拉斯(1901-1984,美国数学家),盖洛普于1925年至1928年就读于爱荷华州立大学(文学学士、心理学硕士、新闻学博士)。他的博士论文题目是应用客观方法衡量读者对报纸兴趣的一种新技术,其中包含后来发展成盖洛普民意测验和民意统计的观点。1955年,盖洛普在新泽西州普林斯顿成立了美国民意研究所,并正式举行了各种关于政治和社会问题的全国民意调查,包括对世界人民的态度、恐惧、希望、宗教信仰和习俗的调查。这个研究所的建立很快就赋予了盖洛普民意测验的权力。该研究所也被称为盖洛普民意测验研究所。盖洛普民意调查法是盖洛普在其新闻工作中发展起来的一种具有代表性的抽样调查方法。根据科目的年龄、性别、教育水平和职业标准,在全国各地区按比例选择科目。调查员被派去亲自调查和采访受试者。根据统计检验结果对其进行分析和解释。这种方法就是所谓的“配额抽样法”,即在按一些主要标志将整个单位分成不同类型后,按比例抽样,这是一种非概率抽样。抽样调查的特点,特点1:抽样被视为代表全体人口的“代表团”。而不是随机选择代表人口的个体单位。特征2:调查样本通常是根据随机原则抽取的,在整个人口中抽取每个单位的机会是相等的。因此,提取的单元整体上分布均匀,不会出现倾向性错误,代表性强。特点三:根据误差要求,通过科学计算确定采集的调查样本数量,对调查样本数量有可靠保证。特征4:抽样误差可根据调查前样本量和人群中各单元之间的差异程度进行计算,并控制在允许范围内,调查结果的准确性较高。6,1,定义总体2,确定抽样框架3,选择抽样技术4,确定样本量5,执行抽样过程,抽样设计过程,7,抽样调查的主要问题,8,抽样误差,抽样调查的目的是从抽样调查数据中推断总体。然而,任何样本数据都不可能推断人口来获得人口的确切真实值。也就是说,存在采样误差。抽样调查的理论基础在于样本数据估计的总价值与总真实价值之间的误差,这不会影响数据的使用和问题的决策。9、如何正确理解抽样误差?调查数据中的误差是绝对的,误差的大小是相对的。它的相关性取决于所研究的问题和所需要的决策。在抽样方案的设计中,对调查的主要指标有一个误差要求,即样本的抽样误差应控制在什么范围内,以便调查数据的使用对分析和决策问题没有或几乎没有影响。这个错误标准没有统一的规定,它取决于数据用户分析问题和做出决策的要求。指标的相对误差很小,数据精度太高,对样本量要求很高。索引的相对误差很大,精度太低,所以数据不能为用户所用。一些研究人员甚至一些官员不愿意或者不习惯接受数据的误差范围。当涉及到错误时,他们害怕其他人会说数据不准确,使数据错误绝对。由于对数据错误存在误解,因此对如何使用数据也存在误解。抽样调查数据在使用时都会用到,更不用说抽样误差和调查误差了,调查数据被认为是整体的真实值。在评估工作成果或比较区域间数据时,调查指标数据的水平成为区域间排队和绩效评估的基础,而忽略了数据误差的评估。现有的调查数据不仅使用不正确,而且导致比较11、如何确定合适的采样误差?有专家认为,抽样调查估计值的相对误差控制在10%以内,数据质量好,控制在15%以内,数据质量好,控制在20%以内,数据是有效的。一些国家在进行国家抽样调查时,规定了控制主要调查指标相对误差的范围,规定不能公布估计值超过30%的相对误差。12,案例1,一篇研究论文按“疾病和医疗的顺序”分成几组。由于病人就诊的顺序往往意味着他们的病情不同,特别是当很难判断病人病情的严重程度时,如果先来的病人被分成一组,后来的病人被分成另一组,顺序错误(即一组病人的病情比另一组病人重)将不可避免地出现,从而得出错误的结论。13,案例2,牛:设计了600户,但实际上只有435户(由于拒绝访问)根据该地区的东部,中部和西部地区(共6个县),根据县和乡镇卫生机构(1-2家医院和10个卫生中心),选择了262人,样本扩大到360人的30%。14,案例3。研究人员用15名受试者做实验。首先,根据药物作用的持续时间,将他们随机分为5组,每组3名受试者。然后,每组中的三名受试者根据三种药物剂量分成三组,每组只有一名受试者。本实验研究的样本含量应为15?还是1?15,常用的抽样方法,此外:不等概率抽样法(PPS),16,方便抽样,给研究人员或来访者选择回答者,通常回答者是因为碰巧在正确的时间出现在正确的地点而被选中使用的学生和社会组织成员;医院拦截病人;街上的行人采访。优点:在所有取样技术中,方便取样的成本和时间消耗最低,取样单位易于接近;缺点:不能代表整体。配额抽样配额抽样可视为两阶段限制性判断抽样的第一阶段,即确定种群中个体的控制类别或配额。配额确保样本的组成在具体特征方面与人口的组成相同。在第二阶段,样本个体是根据便利性或判断来选择的。缺点是:缺乏整体的代表性,不能计算抽样误差。优点是:成本低,面试官更容易为每个配额选择个人。雪球抽样通常从选择一组最初的被调查者开始,通常是随机选择的。采访结束后,被采访者被要求推荐属于目标人群的其他人,后者被根据这些人来选择。与随机方法相比,被推荐人比被推荐人具有更详细的人口统计和心理特征。优点是主要目的是估计人口中一些非常罕见的特征。缺点是这种方法非常耗时。第四次卫生服务调查(家庭健康调查)方法:多阶段分层整群抽样,多阶段:省(直辖市)县(市、区)乡(街道)行政村(居)家庭分层:地理位置(东、中、西)、城乡结构(大、中、小城市);农村地区根据经济因素分为1、2、3和4类地区),家庭收入(5个等级)是聚集在一起的:每个家庭成员通过随机检查进行调查,21。第四次卫生服务调查(家庭健康调查)是通过家庭抽样进行的。编号:样本村(居委会)的所有住户均按列表顺序编号;2.按照系统抽样方法确定抽样户的抽样间隔:全国抽样点抽样间隔=村(居)民户)/60(四舍五入)。四舍五入)西部扩展点的抽样间隔=村(居委会)户数)/33(四舍五入)。舍入);3.确定抽样家庭:兰特,22,抽样结果,94个县/470个乡/镇(街道)/940个行政村(居委会)/56456户/约18万人,23,第四次卫生服务调查(医务人员调查),24,(中国卫生研究中心,25,如何确定样本量?样本量的确定通常是理论完美方案和实际可行方案之间的折衷。教条法成本基本定律统计分析法,27,教条法,任何方法都可以基于经验,例如,整体5%法则有主观优势:容易确定,简单,容易实施缺点:效率低,不经济,28,成本法,成本作为确定样本量的基础,与成本法有很大不同;调查结果对管理决策的价值通常被忽视。确定样本量的一个好方法是考虑成本和研究对经验的价值之间的关系。统计分析有些统计分析方法对最小样本量有要求,如果要讨论分类变量的影响,那么每个分类变量的样本数应该满足统计分析的需要。每一类样本或子集都应被视为一个总体。简单随机抽样法首先对调查人群的所有观察单位进行编号,然后随机选取一部分作为样本(2)计算标准误差31,例14.1,例1,调查一所有2000名学生的农村小学的蛔虫病感染率。如果样本数为100,则尝试简单的随机抽样设计。解决方法:首先,给所有学生编号:0,1,2,3,1999年;然后使用附表17中的随机数表任意指定一行和一列,如第5行和第9列。从现在开始,100组随机数字,每组有4位数字,将从右边依次转录。后面出现的任何与前面相同的数字都将被丢弃,如0873、3732、0405、6930、1609、0588,如果前缀8是负8,如果6是负6,如果4是负4,如果2是负2,873,1732,405,930,1609,588,例如2,32,(3)纯随机抽样样本含量估计,当用无限总体所需的样本量估计总体率时,如果某一事件发生的概率在0.2和0.8之间,那么如果某一事件发生的概率小于0.2或大于0.8,由于某一事件发生的次数遵循泊松分布,泊松分布的近似公式用于计算:当估计总体均值时, (2)有限总体所需的样本量,其中n是有限总体量,n是上述表达式(1)、(2)和(3)的估计结果。 一家医院想知道六年级小学生近视的患病率。1998年的流行率为8%。据估计,总流行率约为10%。如果=0.05,应该抽样调查多少小学生?例4医院计划使用抽样调查来了解该地区健康成人的血红蛋白水平,要求误差不超过0.2(g/L)。根据文献报道,健康成人血红蛋白的标准偏差为1.5(g/L)。需要调查多少人(=0.05)?34、简单随机抽样的优缺点,1。平均数和标准误差的计算很简单。当病例总数较大时,观察单元数不易操作,为35,2。系统抽样,(1)方法按照一定的顺序,每隔几个单位机械抽取一个观察单位的方法称为系统抽样。该方法是将整个观察单元按照一定的顺序编号分成n个部分,然后从第一部分中随机选择观察单元k,从每个部分中依次取一个观察单元,以等间隔形成一个样本。(2)标准误差计算系统的采样误差随总体性质和采样间隔而变化,没有专门的标准误差计算公式。一般来说,它比简单的随机抽样误差小。有人认为系统抽样误差可以用简单的随机抽样方法来估计。实施例5为了调查在有1000名居民的社区中贫血的患病率,通过系统抽样方法抽取了100人的样本。解决方案:N=1000,N=100,间隔为1000/100=10。首先,在1和10之间随机确定一个数字,例如7,然后每10个观察单位抽取一个样本,即7、17、27,997。,又称机械取样或等距取样,36、系统取样的优缺点,1。系统采样简单易行。很容易获得成比例的样本,3。抽样误差小于简单随机抽样。容易产生系统误差。抽样误差的估计只是近似值(简单随机抽样的标准误差估计通常太大),37,3。整群抽样:(1)方法根据与研究指标无关的一些特征将整个人群分为K组,然后从K组中随机抽取K组。这些K组中的所有观察值构成样本(2)标准误差估计,38,(b)组中的观察单位M相等。一所学校有80个班级,每个班级有50名学生。用锡克试验调查学生白喉易感性,随机抽取8个班的学生,阳性数分别为12、17、12、15、21、20、21、18。试着估计一下这个学校学生锡克教测试的阳性率。解决方法:(组内观察单位相等)每类阳性率分别为:0.24、0.34、0.24、0.30、0.42、0.40、0.42、0.36。总比率P=(12 17 12 15 21 20 21 18)/(850)=0.34,39,(3)整群抽样的样本量估计为40,7。为了了解某市40岁以上人群的高血压患病率,计划对该市55个街区进行整群抽样调查。两个区块被随机预先勘测。第一街区共调查4180人,其中高血压患者1060人,患病率为25.36%。第二组调查了4180人和720名高血压患者,患病率为14.49%。应该调查多少块(=0.05,=0.1)?41,聚类抽样的优缺点,1。易于组织,适合大规模调查。省钱3。易于控制调查质量。抽样误差大于简单随机抽样,42,4。分层抽样:(1)方法首先根据对观测指标有较大影响的某些特征将整个人群分成若干层,然后从每层随机抽取一定数量的观测单元形成样本。(2)标准误差的计算,43,(3)分层抽样样本量的估计,首先估计总样本量n:实施例8调查具有120,000人口的居住区中疾病的患病率。居民分为4层,总样本含量确定为1000。请用比例分配法确定每层的调查人数。有两种方法重新分配每层中的观察单元ni:比例分布:44,最佳分布:根据每层中观察单元Ni的数量和标准差i的大小,45,例9。1990年,一个城市测量了2-4岁男孩体重的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论