第十三章抽样原理和方法精品课件.ppt_第1页
第十三章抽样原理和方法精品课件.ppt_第2页
第十三章抽样原理和方法精品课件.ppt_第3页
第十三章抽样原理和方法精品课件.ppt_第4页
第十三章抽样原理和方法精品课件.ppt_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十三章,抽样原理和方法,本章主要介绍抽样的基本概念,几种主要的抽样方法,样本含量的讨论,第一节 抽样的概念,前面已经介绍,总体在很多情况下,往往是很大的,有时是无限的,因此,对总体的研究往往是不可行的 而生物统计学的特点之一是其概率归纳原理,即通过对某一特定的、具体的样本进行分析,在一定概率保证下进行总体的推断 例如,对水体污染进行检查,对空气质量检查,不需要也不可能对整个水体、整个空气逐一进行检查,只需要抽取一小部分的水、空气进行分析 被抽取的这一小部分水、空气就是样本 抽取水和空气的这一过程就是抽样的过程,如何抽样? 抽样应当遵循什么原则? 什么样的样本才能认为符合标准? 这是本章要讨论

2、的问题 抽样的总原则是: 样本必须来自于所研究的总体 样本必须能代表所研究的总体 抽样方法必须与抽样目的相一致 抽样认真、抽样方法正确、客观,样本就具有代表性;反之,抽样马虎、草率、武断、主观、弄虚作假,样本就差,就不具有代表性,第二节 抽样方法,试验、调查的目的不同,试验、调查的方法不同、抽样的方法也不同 一、随机抽样法 总体比较整齐、变异程度小、群体分布均匀,可用随机抽样法 随机抽样法的原则是: 总体内每一个体(数据)都有同等的机会进入样本 样本中每一个体(数据)进入任何一个组的机会也是相等的,随机抽样法可以完全排除个人的主观性 随机抽样法是最简单、最常用的抽样方法 随机抽样法有以下几种方

3、法: 抓阄法 随机数字法 伪随机数字法 通过随机抽样法得到样本后,一般需计算样本的特征值,用以估计总体参数 几乎所有调查和试验都可以采用随机抽样法进行抽样,二、整群抽样和多层次抽样法 从总体中抽取数个样本单位群,对单位群内的全部个体作全面调查,或用整个单位群进行试验 样本单位群的抽取既可以用随机抽样法得到,也可以有选择地取得 在整群抽样的基础上,对抽得的样本单位群不作全面调查,或不是整个样本单位群进入试验,而是在样本单位中继续抽取一定量的个体(数据)组成样本,这就是二级抽样,如果二级抽样得到的不是个体(数据),而是更小的单位群,再从中进行抽样,这就是三级抽样 以此类推 二级及二级以上的抽样就称

4、为多层次抽样 多层次抽样方法适合于资源调查、遗传学试验、育种学试验、传染病(寄生虫病)调查、流行病学调查、经济学调查,等,三、顺序抽样法 顺序抽样法适合于总体不是很大、且较均质的情况 将总体内的个体(数据)按一定的规则顺序排列,根据总体和样本的关系按一个比例从总体中抽取一批个体(数值)组成样本 例如,总体编号后除以15余4的个体(数据)抽取出来组成样本 当总体比较整齐、均质,而编号又是按随机的原则进行的,则这一抽样方法可最大限度地避免人为的影响和干扰,但顺序抽样法所得到的样本其统计量是没有统计学意义的,也不能用来估计参数 且当总体的排序具有周期性变化,而这种周期性变化恰好与抽样比例相重时,所得

5、样本将严重失实 因此顺序抽样法一般不单独使用,而是与其他方法结合,如可以和随机抽样法结合、与整群抽样法结合,等等,四、分层按比例抽样法 当总体不均质、而且可以被分成几个子总体,每一个子总体与其他子总体的差距较大,每一个子总体在总体中的比例比较清楚时,可以使用这一抽样方法 首先对总体有一个全面的初步的了解:总体有哪几部分组成,各个子总体在总体中占多大的比例 然后确定样本的大小,样本与总体的比例 然后确定每一个子总体中的抽样比例 最后将各个子样本汇总,这种抽样方法如果操作得当所得样本比较精确 从样本得到统计量后用以估计参数比较可靠 但这种抽样方法比较繁琐,且一旦对总体的了解不够全面,反而容易发生导

6、向性错误 分层次按比例抽样法适合于遗传学试验、育种学试验、饲养学试验、牧草学试验、疫病调查、社会学调查、经济学调查 例如,调查某一城市居民的消费情况,可以将人群按年龄分成几个子总体进行调查,也可以按文化层次分组,也可以按职业分组,更详细的分组可以将几个因素同时考虑,等等,五、双重抽样法 当所研究的性状比较复杂,或所需经费较多,或须将试验动物宰杀后才能测定,因而不大可能进行重复性试验,或采用直接抽样试验时有较大的难度,可采用双重抽样法 采用双重抽样法,首先将所需要进行研究的性状定为目标性状(或称为靶性状),用 y 表示,然后根据文献或其他方法确定一个或几个简单易测、不具破坏性、与靶性状相关性比较

7、紧密的性状,这些性状称为辅助性状,用 xi 表示,从总体中抽取两个样本,一个大样本,一个小样本 先对小样本进行调查,或先用小样本进行试验,对这一小样本既测 y 性状,同时也测 xi 性状,获得n 对 y 和 xi,并建立 xi 与 y 的回归方程,最简单的回归方程就是只有一个 xi 的简单回归方程,也可以是曲线回归方程,也可以建立多元回归方程 建立回归方程的原则是其 r(或其绝对值)或 R 必须很大,以表明用 x 或 xi 估测 y 其效果比较好,而较大的样本在调查或试验中仅测 xi 性状,并将这一样本中所有被测个体的 xi 代入上述回归方程中以求得相应的 y 估计值 这样获得的大样本的 y

8、估计值,能达到一定的精度 这一抽样方法即为双重抽样法 双重抽样法的优点是: 对于复杂性状的调查或试验仅需破坏较小的样本即能获得较大样本的精确性 当目标性状为破坏性性状时,这是唯一行之有效的方法,双重抽样法的适用范围: 遗传学试验、育种学试验、繁殖学试验、生理生化学试验、疾病防治试验,等 双重抽样示意图: xi y xi,总体 y 2,小样本,大样本,第三节 样本容量,样本容量越大,试验结果就越具有代表性,调查的精确性、准确性也越高 但随着样本容量的增大,抽样或试验的成本也越大,当样本容量大到一定程度时,再增大样本容量,试验或调查其精确性的提高就渐趋缓慢: 当标准差一定时,标准误的大小与样本容量

9、的平方根成反比,样本容量较小时,随着样本容量的增大,标准误会急剧减小,但当样本容量大到一定程度后再增大样本容量,标准误的减小将会变得越来越慢,即继续增大样本容量,试验精确性的提高其效能将逐步下降,而随着样本容量的增大,试验或调查所需成本、时间、人力、物力等则可能会成倍地增长 因此确定一个合宜的样本容量,使得试验或调查既有一个较好的精确度,又能最大限度地节省人力和时间、财力、物力,是试验或调查必须要考虑的问题,样本容量的确定原则和确定方法 总体有限、且很大时,同时注意抽样的代表性,样本可占总体的千分之一到百分之一 总体不很大时,样本占总体的百分之五 率的计算和估计,一般要求大样本 在试验中,同一

10、水平或同一组合的变异情况越严重,所需样本越大,同一组合的供试动物越整齐,可适当减少动物数 试验越规范,试验结束后使用的统计方法越严格,所需动物数可适当减少,小家畜的供试数应多一些,大家畜的供试数可适当少一些 试验时,考虑的因子数越多,每一组合内的供试动物数可少一些,单因子试验则每一水平内的供试动物数应多一些,不同的抽样方法,所需样本量还应当根据具体的抽样方法来确定: 整群抽样时,既要考虑群体单位的大小,又要考虑作为样本的群体的多少 原则上,应采取小群体、多群体的抽样方法,因为这样可以更全面地了解总体的情况 多层次抽样时,有一个每个层次样本量的比例的问题,这里需要考虑每一层次的变异情况及各层次的

11、抽样成本,以便对每一层次内单位数进行合理的分配,顺序抽样时则应根据总体的大小及条件的许可来决定最佳抽样单位数 双重抽样,则应根据精确度和抽样成本以确定最适合的小样本和大样本的合理配置,在不知道总体的大小和情况时,可以从试验要求的精确性来考虑样本容量: 根据参考文献、他人或自己的经验、专业知识等人为地定出一个样本平均值与总体平均值的离差,即允许误差L: 而 其中, 一般初次总取1.96(置信度为95%) 因此:,显然,人为定出的允许误差越大,所需样本量就小 反之,人为定出的允许误差越小(即对试验的要求的精确度越高),所需的样本量就越大 一般来讲,当所需要的样本量不大时(n30),应当进行反复试求

12、,最后使得 n 稳定在某一个值上 例:已知一总体的大致标准差为 9.7,若规定在抽样时允许存在 L = 2.5 的误差,试求抽样所需的样本容量,即:在 95% 的置信度下,需要61个个体作为一个样本才能较好地说明问题 当要求有较高的置信度 99% 时,其样本含量的计算公式为: 运用这一公式所得到的 n 值一般不应小于 30,当所得样本量小于 30 时,应作进一步的试运算,直至所得样本量 n 稳定时为止,又例:一总体其标准差为 15.9,试验允许误差为L = 10,求试验所需最小样本量 暂设 则 由于 n 较小(30),故应重求 n 值 查 t 值表,得 继续试算, 则 继续试算, 则,所求样本

13、量已稳定在 n = 12,即表示抽样以 n = 12 为较宜样本量 从上面两例可以看出,调查或试验所规定的 L(即允许误差,亦即置信半径)越大,所需样本量就可以越小,表示调查或试验越粗糙 反之,所规定的允许误差 L 越小,即调查或试验需要更高的精确度时,所需要的样本量就应越大,这样所得到的结果也越可靠 因此,在实施某一调查或试验时,应确定一个合宜的允许误差 L,必要时应调整所设置的 L 值,对于百分率一类性状的调查或试验所需要的样本量,由于 ,而 因此 95% 置信度下的样本量为: 例:p = 0.7,规定调查时的允许误差(置信半径)L = 0.075,试求所需样本量: 调查百分率性状时,样本

14、量不能太小(n100),百分率一类的性状求样本容量时,应注意允许误差的取值应小于百分率,特别是当该百分率趋于两端(0.7)时,更应注意 L 的取值,关于允许误差 L 的取值 允许误差 L 即为置信半径,如何确定允许误差,这关系到样本容量的大小,也决定了试验或调查的成败 因此允许误差的确定是试验或调查前需要慎重考虑的问题 从前面所介绍的公式和例题中我们已经看出,当总体方差(标准差)基本确定后,样本容量(即试验规模)与允许误差的大小是有直接的关系的 而总体方差的大小可以根据前人的结果所得到,那允许误差又如何确定? 一是需要查阅大量的文献,从类似的试验或调查中确定本次试验或调查的规模 二是根据自身试验或规模的大小来确定,这里需要考虑的一个主要问题是试验或调查的资金来源和经费的充裕程度 三是需要考虑试验或调查的精确程度:允许误差实际就是样本平均值与总体平均值的差距最大不超过的某一界限,因此它决定了试验或调查的精确程度,一旦确定了允许误差,就可以用试验或调查结束后得到的样本平均值来告诉人们总体平均值在哪一个可能的范围里面,这一个结论就有了理论依据,不致被人所诘难或质疑 因此确定允许误差得到的样本容量不宜太小(样本容量太小试验或调查的结果比较粗糙,也易引起别人的质疑),但也不需要太大(太大需要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论