版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、,抽样方法和样本量,前面已经介绍,总体在很多情况下,往往是很大的,有时是无限的,因此,对总体的研究往往是不可行的 而生物统计学的特点之一是其概率归纳原理,即通过对某一特定的、具体的样本进行分析,在一定概率保证下进行总体的推断 例如,对水体污染进行检查,对空气质量检查,不需要也不可能对整个水体、整个空气逐一进行检查,只需要抽取一小部分的水、空气进行分析 被抽取的这一小部分水、空气就是样本 抽取水和空气的这一过程就是抽样的过程,如何抽样? 抽样应当遵循什么原则? 什么样的样本才能认为符合标准? 这是本章要讨论的问题 抽样的总原则是: 样本必须来自于所研究的总体 样本必须能代表所研究的总体 抽样方法
2、必须与抽样目的相一致 抽样认真、抽样方法正确、客观,样本就具有代表性;反之,抽样马虎、草率、武断、主观、弄虚作假,样本就差,就不具有代表性,抽样方法 试验、调查的目的不同,试验、调查的方法不同、抽样的方法也不同 这里仅介绍几个抽样方法 一、随机抽样法 总体比较整齐、变异程度小、群体分布均匀,可用随机抽样法 随机抽样法的原则是: 总体内每一个体(数据)都有同等的机会进入样本 样本中每一个体(数据)进入任何一个组的机会也是相等的,随机抽样法可以完全排除个人的主观性 随机抽样法是最简单、最常用的抽样方法 随机抽样法有以下几种方法: 抓阄法 随机数字法 伪随机数字法 通过随机抽样法得到样本后,一般需计
3、算样本的特征值,用以估计总体参数 几乎所有调查和试验都可以采用随机抽样法进行抽样,二、整群抽样和多层次抽样法 从总体中抽取数个样本单位群,对单位群内的全部个体作全面调查,或用整个单位群进行试验 样本单位群的抽取既可以用随机抽样法得到,也可以有选择地取得 在整群抽样的基础上,对抽得的样本单位群不作全面调查,或不是整个样本单位群进入试验,而是在样本单位中继续抽取一定量的个体(数据)组成样本,这就是二级抽样,如果二级抽样得到的不是个体(数据),而是更小的单位群,再从中进行抽样,这就是三级抽样 以此类推 二级及二级以上的抽样就称为多层次抽样 多层次抽样方法适合于资源调查、遗传学试验、育种学试验、传染病
4、(寄生虫病)调查、流行病学调查、经济学调查,等,*三、双重抽样法 当所研究的性状比较复杂,或所需经费较多,或须将试验动物宰杀后才能测定,因而不大可能进行重复性试验,或采用直接抽样试验时有较大的难度,可采用双重抽样法 采用双重抽样法,首先将所需要进行研究的性状定为目标性状(或称为靶性状),用 y 表示,然后根据文献或其他方法确定一个或几个简单易测、不具破坏性、与靶性状相关性比较紧密的性状,这些性状称为辅助性状,用 xi 表示,从总体中抽取两个样本,一个大样本,一个小样本 先对小样本进行调查,或先用小样本进行试验,对这一小样本既测 y 性状,同时也测 xi 性状,获得n 对 y 和 xi,并建立
5、xi 与 y 的回归方程,最简单的回归方程就是只有一个 xi 的简单回归方程,也可以是曲线回归方程,也可以建立多元回归方程 建立回归方程的原则是其 r(或其绝对值)或 R 必须很大,以表明用 x 或 xi 估测 y 其效果比较好,而较大的样本在调查或试验中仅测 xi 性状,并将这一样本中所有被测个体的 xi 代入上述回归方程中以求得相应的 y 估计值 这样获得的大样本的 y 估计值,能达到一定的精度 这一抽样方法即为双重抽样法 双重抽样法的优点是: 对于复杂性状的调查或试验仅需破坏较小的样本即能获得较大样本的精确性 当目标性状为破坏性性状时,这是唯一行之有效的方法,双重抽样法的适用范围: 遗传
6、学试验、育种学试验、繁殖学试验、生理生化学试验、疾病防治试验,等 双重抽样示意图: xi y xi,总体 y 2,小样本,大样本,样本容量 样本容量越大,试验结果就越具有代表性,调查的精确性、准确性也越高 但随着样本容量的增大,抽样或试验的成本也越大,当样本容量大到一定程度时,再增大样本容量,试验或调查其精确性的提高就渐趋缓慢: 当标准差一定时,标准误的大小与样本容量的平方根成反比,样本容量较小时,随着样本容量的增大,标准误会急剧减小,但当样本容量大到一定程度后再增大样本容量,标准误的减小将会变得越来越慢,即继续增大样本容量,试验精确性的提高其效能将逐步下降,而随着样本容量的增大,试验或调查所
7、需成本、时间、人力、物力等则可能会成倍地增长 因此确定一个合宜的样本容量,使得试验或调查既有一个较好的精确度,又能最大限度地节省人力和时间、财力、物力,是试验或调查必须要考虑的问题,样本容量的确定原则和确定方法 总体有限、且很大时,同时注意抽样的代表性,样本可占总体的千分之一到百分之一 总体不很大时,样本占总体的百分之五 率的计算和估计,一般要求大样本 在试验中,同一水平或同一组合的变异情况越严重,所需样本越大,同一组合的供试动物越整齐,可适当减少动物数 试验越规范,试验结束后使用的统计方法越严格,所需动物数可适当减少,小家畜的供试数应多一些(如鸡、猪),大家畜的供试数可适当少一些 试验时,考
8、虑的因子数越多,每一组合内的供试动物数可少一些,单因子试验则每一水平内的供试动物数应多一些,*不同的抽样方法,所需样本量还应当根据具体的抽样方法来确定: 整群抽样时,既要考虑群体单位的大小,又要考虑作为样本的群体的多少 原则上,应采取小群体、多群体的抽样方法,因为这样可以更全面地了解总体的情况 多层次抽样时,有一个每个层次样本量的比例的问题,这里需要考虑每一层次的变异情况及各层次的抽样成本,以便对每一层次内单位数进行合理的分配,*在不知道总体的大小和情况时,可以从试验要求的精确性来考虑样本容量: 根据参考文献、他人或自己的经验、专业知识等人为地定出一个样本平均值与总体平均值的离差,即允许误差L
9、: 而 其中, 一般初次总取1.96(置信度为95%) 因此:,显然,人为定出的允许误差越大,所需样本量就小 反之,人为定出的允许误差越小(即对试验的要求的精确度越高),所需的样本量就越大 一般来讲,当所需要的样本量不大时(n30),应当进行反复试求,最后使得 n 稳定在某一个值上 例:已知一总体的大致标准差为 9.7,若规定在抽样时允许存在 L = 2.5 的误差,试求抽样所需的样本容量,即:在 95% 的置信度下,需要61个个体作为一个样本才能较好地说明问题 当要求有较高的置信度 99% 时,其样本含量的计算公式为: 运用这一公式所得到的 n 值一般不应小于 30,当所得样本量小于 30
10、时,应作进一步的试运算,直至所得样本量 n 稳定时为止,又例:一总体其标准差为 15.9,试验允许误差为L = 10,求试验所需最小样本量 暂设 则 由于 n 较小(30),故应重求 n 值 查 t 值表,得 继续试算, 则 继续试算, 则,所求样本量已稳定在 n = 12,即表示抽样以 n = 12 为较宜样本量 从上面两例可以看出,调查或试验所规定的 L(即允许误差,亦即置信半径)越大,所需样本量就可以越小,表示调查或试验越粗糙 反之,所规定的允许误差 L 越小,即调查或试验需要更高的精确度时,所需要的样本量就应越大,这样所得到的结果也越可靠 因此,在实施某一调查或试验时,应确定一个合宜的
11、允许误差 L,必要时应调整所设置的 L 值,对于百分率一类性状的调查或试验所需要的样本量,由于 ,而 因此 95% 置信度下的样本量为: 例:p = 0.7,规定调查时的允许误差(置信半径)L = 0.075,试求所需样本量: 调查百分率性状时,样本量不能太小(n100),百分率一类的性状求样本容量时,应注意允许误差的取值应小于百分率,特别是当该百分率趋于两端(0.7)时,更应注意 L 的取值,*关于允许误差 L 的取值 允许误差 L 即为置信半径,如何确定允许误差,这关系到样本容量的大小,也决定了试验或调查的成败 因此允许误差的确定是试验或调查前需要慎重考虑的问题 从前面所介绍的公式和例题中
12、我们已经看出,当总体方差(标准差)基本确定后,样本容量(即试验规模)与允许误差的大小是有直接的关系的 而总体方差的大小可以根据前人的结果所得到,允许误差如何确定? 一是需要查阅大量的文献,从类似的试验或调查中确定本次试验或调查的规模 二是根据自身试验或规模的大小来确定,这里需要考虑的一个主要问题是试验或调查的资金来源和经费的充裕程度 三是需要考虑试验或调查的精确程度:允许误差实际就是样本平均值与总体平均值的差距最大不超过的某一界限,因此它决定了试验或调查的精确程度,一旦确定了允许误差,就可以用试验或调查结束后得到的样本平均值来告诉人们总体平均值在哪一个可能的范围里面,这一个结论就有了理论依据,
13、不致被人所诘难或质疑 因此确定允许误差得到的样本容量不宜太小(样本容量太小试验或调查的结果比较粗糙,也易引起别人的质疑),但也不需要太大(太大需要大量的经费和人力、物力、时间) 由于求率、成数等所需要的样本容量还是尽可能大一些为好,*抽样误差的估计 抽样误差,一般用标准误来表示,因此,估计抽样误差,就是求标准误的大小 标准误既与标准差有关,也与样本容量有关 样本不同,所得到的误差不同 抽样方法不同,所得到的抽样误差也不同 由于抽样误差表示的是样本平均数与总体平均数之间的差异,因此,为了使总体平均数的估计更可靠、更精确,应当使用合适的抽样方法 标准误求得以后,应计算总体平均值的置信区间 (*),
14、试验设计原理,研究进程,什么是科学研究? 任何人想要达到自己的愿望或要求,在充分尊重客观事实的前提下,所进行的探索性工作 研究进程分为如下几个阶段: 科学假设 资料收集 试验方案的制订及试验设计 试验的实施 资料的分析及统计 研究成果的发表,误差,误差的概念及分类 从试验中获得的数据总或多或少地偏离真值,这种偏离就称为误差 误差分为:系统误差 随机误差 三类 错误 系统误差 有规律的偏离 影响准确性 可以消除 随机误差 无规律 影响精确性 可以缩小 有统计学意义 错误 人为造成 应当消灭,(随机)误差的来源,这里所指误差是指随机误差(简称误差) 生物体的复杂性导致了误差的存在,动物体试验又有更
15、大的误差 了解误差其目的是为了缩小误差 缩小误差有两个现实意义: 提高精确性 有效减小试验规模 缩小误差,其实质是有效地保证数据的整齐程度 试验所得到的数据越整齐,误差就越小,所需样本也就可以越小,误差来源于以下三个方面,试验材料遗传物质的不同一(或样本的本质不同) 试验动物的基因或遗传物质不可能纯合,越是高等的动物其基因越是复杂,所造成的误差也就越大。这是造成误差的最根本原因 试验过程中操作与管理技术的不一致 操作人员的技术、管理水平不可能一致,不同的时间段内操作人员的体力、精神、情绪不可能一致,操作人员的责任心也不可能一致,试验外界条件的不统一 试验动物不可能安排在绝对一致的环境内,对同一
16、组内每一个供试动物的试验措施也不可能绝对一致,误差的控制,针对造成误差的三大原因,采取的控制措施: 选择基因型较为纯合的近交系 基因纯合的程度依次为: 同卵双生个体、自交系、高度近交的近交系、近交系、全同胞、半同胞、家系、纯种 其中,后三种是动物试验中可以实际使用的试验群体 两个纯种的杂交后代F1代在某些情况下可以考虑使用,来自同一父亲的半同胞由于群体很大,在遗传学试验、育种学试验、营养学试验、繁殖学试验中经常使用 家系一般可用来分析许多遗传性疾病和寻找疾病的遗传学规律,可以用来作人类疾病动物模型 中国许多动物地方品种由于地处交通闭塞的地区,因而高度近交,这样的纯种是很好的试验材料,级进杂交的
17、群体也是较好的试验材料,对操作人员进行培训、教育 制订标准化的操作规程 制订规范化的操作程序 尽可能机械化、自动化 对所用仪器、设备进行校正 设立标准器具 制订标准曲线及校正公式 同一批样品在同一天内由同一个人用同一批试剂完成测试,对外部环境进行有效的控制 试验动物的取样、分组、配置、试验次序采取随机化的原则 采用局部控制的方法设置区组,将试验动物进行分组 统计分析时将区组(时间、空间)作为一个因子进行处理 减少试验动物的活动范围、减少疾病对试验动物的袭扰、消毒 减少环境污染、药物污染、饲料污染 控制温度、湿度,试验设计的基本原则,重复 在同一处理内设置多个独立供试单位 作用:正确地评价误差
18、有效地降低误差 准确地估计处理效应 为随机化、局部控制提供基础,随机化 在试验的整个过程中贯彻随机的精神而不带有 任何主观偏见 作用:使误差的估计无偏、准确 正确地评价误差 局部控制 设置区组,每一区组控制在同一环境内 作用:有效地降低系统误差,试验设计三原则的关系:,重复,随机化,设置区组局部控制,使误差估计 无偏、准确,评价误差,统计推断,降低误差,提高精确度,三原则,作用,*现在我们来看一个随机化和局部控制的例子,假设设计了6种不同的饲料,从A1至A6。每一种饲料饲喂8头猪,每一头猪一个圈舍,共计48头猪。48个圈舍共分6排,每排8个圈,8头猪,喂一种料。排列如下表。试验中需空腹称重,假
19、设从早晨8:00开始称重,每头猪需时5分钟,则共需240分钟,即4个小时,需称至中午12:00点钟。称重顺序为先称A1的8头猪,然后是A2的8头猪,以后依次为A3、A4、A5,直至A6。那么,A1的8头猪称重时间为8:00到8:40,受空腹影响不大,A2的8头猪就受到一定的影响了,因为这A2的8头猪是从8:40称至9:20的。A3受空腹的影响就更大,因为是从9:20称至10:00点。显然,A4、A5和A6的猪受空腹的影响一个比一个大,到A6的最后8头猪事实上是在11:20以后称重的,这8头猪整整饿了半天,其体重肯定比A1的8头猪损失了好多 下面3张表分别是:顺序称重、随机称重、区组称重,称重顺序,称重顺序,一 二 三 四 五 六 七 八,上述三种称重方法的比较:,显然,第一种称重方法存在着很大的系统误差,每一只猪的体重中不但有着饲料的效应,而且混杂有称重时间的影响,这一称重方法显然不妥 第二种称重方法虽然没有了系统误差,但随机误差却变大了,而且大得让人不能容忍 第三种称重方法由于设置了区组,区组内又进行了随机化。按区组进行称重,称重时间引起的差异转化成了区组因素(B),区组内又进行随机配置、随机称重,将每一区组内残留的一点点系统误差转化成了随机误差,因此这一称重方法就消除了所有的系统误差,而随机误差也不致增大很多,对试验精确性的影响不会很
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 项目五 西方古代服饰之美
- AI助力构建更高效的医疗信息服务体系
- 行政法与行政诉讼法原理与实务
- 2025年江苏广播电视编辑记者、播音员主持人资格考试(广播电视基础知识)模拟试题
- 2025年度四川省综合评标专家库评标专家考试(交通类)训练题及答案
- 2023年上海高中学业水平等级性考试物理试卷真题(含答案详解)
- 2025年四川高考历史真题(纯答案版)
- 彩色包装盒生产技术提升改造项目可行性研究报告模板-拿地立项申报
- 2025-2030年折叠试验仪企业ESG实践与创新战略分析研究报告
- 改锥批发行业商业模式创新分析报告
- s和m关系协议书
- 企业民法典宣讲课件
- GB/T 19405.3-2025表面安装技术第3部分:通孔回流焊用元器件规范的标准方法
- 国家开放大学2025年《机电控制工程基础》形考任务1-4答案
- 新生儿听力筛查技术规范解读
- 客户来电登记表(公司内部)
- 中华人民共和国民法典知识竞赛题库及答案
- 保安车辆管理培训
- 800t混塔吊装专项方案
- 医院预约平台建设方案
- 北京市丰台区2023-2024学年八年级下学期期末数学试题(无答案)
评论
0/150
提交评论