生物统计学复习2_第1页
生物统计学复习2_第2页
生物统计学复习2_第3页
生物统计学复习2_第4页
生物统计学复习2_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学的中心内容 总体 样本 抽样分布 统计推断 以总体分布和样本抽样分布的理论关系为基础 总体指导思想 根据抽样分布理论和小概率原理 对未知或不完全知道的总体 做出一定概率意义推断 统计推断的主要内容 假设检验参数估计任务 分析数据差异产生原因 判断分布差异是由处理引起 还是由于随机误差引起的 确定误差性质 排除误差干扰 从而对总体特征做出正确判断 第四章统计推断 1 建立检验假设 零假设或无效假设H0 0备择假设HA 0 双侧检验 0或 0 单侧检验 2 选定检验方法和计算检验统计量 t值 u值 2值 F值等 3 确定检验水准 显著水平4 确定P值 作出推断结论 基本步骤 一 假设检验 对于单侧检验 一般都是 增加了 提高了 或 减少了 降低了 这一类问题比如某产品的在使用了新技术生产后 问产品质量是否提高了 我们期待的结果是提高了 这样就把大于号定为备择假设 相反的小于等于号定为原假设 原假设与备择假设的确定 我们关心的 一项研究表明 采用新技术生产后 将会使产品的使用寿命明显延长到1500小时以上 检验这一结论是否成立 按照前面的理论 研究者是想证明自己的研究结论 寿命延长 是正确的 于是备择假设的方向为 寿命延长 即建立的原假设与备择假设应为 H0 1500H1 1500 1 如果研究者感兴趣的备择假设的方向 称为左单侧检验 这时拒绝域在左边 检验临界值为 U2 假设 H0 m0 H1 m02 如果研究者感兴趣的备择假设的方向 称为右单侧检验 这时拒绝域在右边 检验临界值为 U2 假设 H0 m0 H1 m0 第一类错误 真实情况为H0成立 根据小概率原理却否定了它 就犯了 弃真 错误 即把非真实差异错判为真实差异 也叫 型错误 type error 或 错误 即为真 却接受了第二类错误 H0不成立 假设检验却接受了它 就犯了 纳伪 错误 即把真实差异错判为非真实差异 也叫 型错误 type error 或 错误 即为真 却未能否定 两类错误 样本平均数的显著性检验 大样本平均数的显著性检验 u检验 1 一个样本平均数比较的u检验 2 两个样本平均数比较的u检验 小样本平均数的显著性检验 t检验 1 一个样本平均数比较的t检验 2 成组数据平均数比较的t检验 3 成对数据平均数比较的t检验 统计推断 方差的同质性检验 1 单个样本方差的同质性检验 2 两个样本方差的同质性检验 大方差作分子小方差作分母 样本频率的假设检验 利用统计次数法对二项总体进行量化获得次数资料 进而转化为百分数资料 对二项百分率的检验 正态近似法条件 n足够大 p不是特别小 一般p 0 1 且np和nq均大于5 1 单个样本百分率的假设检验 2 两个样本百分率的假设检验 参数估计 用样本统计量来估计总体参数 有点估计和区间估计之分 区间估计 在一定概率保证下指出总体参数的可能范围 所给出的可能范围叫置信区间 给出的概率称为置信度或置信概率 以p 1 表示 比较常用的置信水平是 90 95 和99 二 参数的区间估计与点估计 单个总体平均数的参数估计 总体均数 置信度为1 的置信区间 置信下限 置信上限 两个总体平均数的参数估计 的1 置信度的置信区间为 成组资料 df n1 n2 2 df n 1 成对资料 二项总体百分率p的置信区间 例某地抽样调查了部分健康成人的RBC数 其中男性360人 均数为 标准差 女性255人 均数 标准差 试问该地男 女RBC数的均数有无差别 本例样本含量较大 适合检验条件 双侧 13 63 1 96 0 05按水准拒绝 接受 可认为该地男女RBC数的均数不同 男性高于女性 例对两种不同饲料喂养鸡 一段时间后 测得每小池鱼的体重增加量 g 如下表 表不同饲料喂养鸡的体重增加量 解 1 F检验 两样本方差同质性检验 1 提出无效和备择假设2 设定显著性水平 0 05 3 统计量F值计算 1 591 F0 05 1 提出无效假设与备择假设 两种鱼的增重没有差异 2 确定显著水平 0 01 两尾概率 3 计算 5 8 3267 5 5 2350 10 6 7809 2 两样本平均数的显著性检验 98 47 132 65 6 2 6 7809 由于两总体方差同质df 2 n 1 10 4 统计推断由df 10 0 01查附表3得t0 01 10 3 169 实得 t 22 735 t0 01 10 3 169 P 0 01 故应否定无效假设H0 即两种鸡的增重有高度显著差异 饲料效果明显 例 用家兔10只试验某批注射液对体温的影响 测定每只家兔注射前后的体温 见表 设体温服从正态分布 问注射前后体温有无显著差异 表10只家兔注射前后的体温 1 提出无效假设与备择假设 即假定注射前后体温无差异 即假定注射前后体温有差异2 设定显著性水平 0 013 计算t值4 统计推断 t0 01 9 3 250 t t0 01 9 P 0 01 否定零假设 接受备择假设 表明家兔注射该批注射液前后体温差异极显著 例 药物处理后的大豆种子播种后45d 取10个样本 每样本各取10株测其干物重分别为1 5 1 2 1 3 1 4 1 8 0 9 1 0 1 1 1 6 1 2 g 求该大豆播种45d后干物重总体平均数的95 置信区间 经计算得 由 查t值表得 因此 95 置信下限为95 置信上限为 该大豆播种45d后重总体平均数 的95 置信区间为99 置信下限为99 置信上限为 该大豆播种45d后重总体平均数 的99 置信区间为 第五章 2检验 适合性检验独立性检验 离散型资料的假设检验 用于次数资料 计数资料 分析的 2公式 O为实际观察到的数值 E为理论预期值 基本思想检验实际观测值和理论推断值的差别是否由抽样误差所引起的 一 适合度检验 比较理论值和观测值是否符合的假设检验叫做适合度检验 也称拟合优度检验 方法 对样本的理论值先通过一定的理论分布推算出来 然后用实际观测值与理论值比较 从而得出是否吻合的结论 例 玉米花粉粒碘染反应 玉米花粉粒碘反应观察次数与理论次数 1 设立无效假设 即假设观察次数与理论次数的差异由抽样误差所引起 H0 花粉粒碘反应比例为1 1HA 花粉粒碘反应比例不成1 1 2 确定显著水平 0 05 3 2值的计算 2分布是连续的 而次数资料则是间断的 由间断性资料算得的 2值有偏大的趋势 尤其是在df 1时 需作连续性矫正 本例 与理论次数相符 接受玉米F1代花粉粒碘反应比率为1 1的假设 4 推断 二 独立性检验 独立性检验 根据次数资料判断两类或两类以上因子彼此相关或相互独立的假设检验 表2 2列联表的一般形式 例 调查经过种子灭菌处理与未经种子灭菌处理的小麦发生散黑穗病的穗数 得相依表如下 试分析种子灭菌与否和散黑穗病穗多少是否有关 1 设立假设H0 种子灭菌与否和散黑穗病病穗多少无关 HA 种子灭菌与否和散黑穗病病穗多少有关 2 确定显著水平 0 05 3 2计算T11 76 210 460 34 7 用同样的方法算出其余格子的理论次数 并将其写入上表的括号中 查附表4 现实得故P 0 05 否定H0 即种子灭菌与否和散黑穗病发病高低有关 种子灭菌对防治小麦散黑穗病有一定效果 适合性检验按已知的属性分类理论或学说计算理论次数 独立性检验在计算理论次数时没有现成的理论或学说可资利用 理论次数是在两因子相互独立的假设下进行计算 方差分析的基本功能 对多组样本平均数差异的显著性进行检验 实质上是关于观测值变异原因的数量分析 观测值不同的原因 处理效应 试验误差 第六章方差分析 方差分析的基本思想 将所有测量值间的总变异按照其变异的原因不同分解为处理效应与实验误差 然后进行数量估计 评价由某种因素所引起的变异是否具有统计学意义 总变异 组间变异 组内变异 总离均差平方和 总自由度 方差分析的基本步骤归纳 一 计算各项平方和与自由度 二 列出方差分析表 进行F检验 三 若F检验显著 则进行多重比较 四 列出平均数多重比较表 五 依据多重比较方法计算最小显著差数 LSD 最小显著极差 LSR q值 SSR值 六 两两平均数的差数与之比较 七 表示结果 梯形法和标记字母法 1 2 多重比较表绘制 3 最小显著差数法 LSD法 leastsignificantdifference 最小显著极差法 LSR法 Leastsignificantranges 4 5 6 单因素试验资料的方差分析 组内观察值数目相等 2 组内观察值数目不相等 两因素单独观测值试验资料的方差分析 二因素试验资料的方差分析 线性模型 互作效应 实际指的就是由于两个或两个以上试验因素的相互作用而产生的效应 方差分析的基本假定效应的可加性分布的正态性方差的同质性 例1 抽测5个不同品种鸡的孵化数 结果见表6 12 试检验不同品种鸡的孵化数的差异是否显著 表6 12五个不同品种鸡的孵化数 这是一个单因素试验 k 5 n 5 现对此试验结果进行方差分析如下 1 计算各项平方和与自由度 2 列出方差分析表 进行F检验不同品种鸡的孵化数的方差分析表 根据df1 dft 4 df2 dfe 20查临界F值得 F0 05 4 20 2 87 F0 05 4 20 4 43因为F F0 01 4 20 即P 0 01 表明品种间孵化数的差异达到1 显著水平 3 多重比较各处理平均数多重比较表 不同品种鸡的孵化数多重比较表 4 最小显著极差计算采用新复极差法 因为MSe 3 14 n 5 所以为 根据dfe 20 秩次距k 2 3 4 5由附表6查出 0 05和 0 01的各临界SSR值 乘以 0 7925 即得各最小显著极差 所得结果列于下表 SSR值及LSR值 将多重比较表中的差数与LSR表中相应的最小显著极差比较并标记检验结果 检验结果表明 5号品种鸡的孵化数极显著高于2号品种鸡 显著高于1 4号品种 但与3号品种差异不显著 3号品种鸡的孵化数极显著高于2号品种 与1号和4号品种差异不显著 1号 4号 2号品种鸡的孵化数间差异均不显著 五个品种中以5号鸡的孵化数最高 3号品种次之 2号品种鸡的孵化数最低 5 两两平均数的差数与之比较 几种常用的数据转换方法 1 平方根转换适用于总体呈泊松分布的资料2 对数转换3 反正弦转换适用于二项分布的资料 相关变量间的关系分为两种 因果关系 即一个变量的变化受另一个或几个变量的影响 回归分析平行关系 即二个变量相互影响 互为因果 相关分析表示原因的变量称为自变量 x 表示结果的变量称为依变量 y 第七章直线回归与相关分析 回归分析的任务 1 揭示出呈因果关系的相关变量间的联系形式2 建立它们之间的回归方程3 利用所建立的回归方程 由自变量 原因 来预测 控制依变量 结果 相关分析的任务 只研究两个变量之间线性相关的程度和性质或一个变量与多个变量之间线性相关的程度 直线回归的数学模型 反映了由于y与x间存在直线关系所引起的y的变异程度 称为回归平方和 记为SSR或U 反映了除y与x存在直线关系以外的原因 包括随机误差所引起的y的变异程度 称为离回归平方和或剩余平方和 记为SSr或Q 直线回归的标准误可以反映不同资料中误差的大小 U df1 1 df2 n 2 来检验回归关系即回归方程的显著性 比值叫做x对y的决定系数 记为r2 即 7 16 决定系数的大小表示了回归方程估测可靠程度的高低 或者说表示了回归直线拟合度的高低 显然0 r2 1 r2的平方根既可表示y与x的直线相关的程度 也可表示y与x直线相关的性质 统计学上把这样计算所得的统计数称为x与y的相关系数 记为r 直线回归方程的计算例设某食品感官评定时 测得食品甜度与蔗糖浓度的关系如下表 试求y对x的直线回归方程 试解以下问题 1 Y依X的线性回归方程 2 离回归标准差 3 相关系数 首先计算 个一级数据 然后由一级数据算出 个二级数据 得到 1 直线回归方程 2 3 第九章抽样原理与方法 1 平均数估计的必要样本单位数的确定 t通常以df 的t值代替 t 0 05 1 96 2 2 成数估计的必要样本单位数的确定 3 成对资料样本容量的确定 抽样方法 随机抽样 典型抽样 顺序抽样 随机抽样 简单随机抽样 分层随机抽样 双重随机抽样 整体随机抽样 随机抽样技术的分类及技术特点 例 进行南阳黄母牛体高调查 已测得南阳黄母牛的体高的标准差S 4 07cm 今欲以95 的置信度使调查所得的样本平均数与总体平均数的允许误差不超过0 5cm 问需要抽取多少头黄牛组成样本才合适 t 0 05 2已知 S 4 07 0 5 1 0 95 先取t0 05 2 得 n 22 4 072 0 52 265 头 即对南阳黄母牛体高进行调查 至少需要调查255头 才能以95 的置信度使调查所得样本平均数与总平均数相差不超过5cm 第十章常用试验设计及其统计分析 生物学试验的基本要求试验目的明确试验条件要有代表性试验结果可靠试验结果可重演 准确度 精确度 试验中同一性状的重复观测值彼此接近的程度 即试验误差的大小 误差越小 处理间比较越精确 试验中某一性状的观测值与其相应真值的接近程度 不易确定 越接近 准确度越高 使观测值偏离试验处理真值的偶然影响称为试验误差或误差 error 系统误差 片面误差 由于试验处理以外的其他条件明显不一致所产生的带有倾向性的或定向性的偏差 可以避免 随机误差 偶然误差 由于试验中许多无法控制的偶然因素所造成的试验结果与真实结果之间产生的误差 不可以避免 试验设计的基本原理 重复 随机 局部控制 常用的试验设计方法简介 单因素试验设计 两因素试验设计 多因素试验设计 单因素随机区组设计 拉丁方设计 两因素随机区组设计 裂区设计 正交设计 一 单因素随机区组设计 适用范围 单因素试验时 有一个明显的干扰因素 使得试验单位不一致 试验地 肥瘦 肥力梯度 例如 5个不同小麦品种的产量比较试验 试验地按某方向存在明显肥力梯度 见下图 则试验小区间存在肥力差异 设计方法 先将整个试验地按干扰因素 肥力水平 分成若干个区组 每个区组内土壤肥力等环境条件相对均匀一致 而不同区组间相对差异较大 肥瘦 肥力梯度 然后在每个区组中随机安排全部处理 5个不同小麦品种产量试验的随机区组设计图为 设计特点 它重点体现了局部控制的原则 从而将试验环境均匀性的控制范围从整个试验地缩小到一个区组 区组间的差异可以通过统计分析方法使其与试验误差分离 所以随机区组设计的试验精确度较高 可以减少由于地力条件不同而带来的试验误差 即可以从总平方和中分解出由于地力差异所引起的平方和 减少误差平方和 提高试验精确度 在长江中下游地区进行棉花品种测试 供试品种10个 采用4次重复的随机区组设计 小区面积10m2 假设试验地的肥力梯度呈南北方向 试画出田间种植图 随机区组设计图 N S 肥力梯度 肥瘦 补充 拉丁方设计 适用范围 单因素试验时 有两个明显的干扰因素 使得试验单位不一致 试验地 肥瘦 肥力梯度 例如 5个不同小麦品种的产量比较试验 试验地按某方向存在明显肥力梯度 按另一个方向存在明显的水分梯度 见下图 肥力和水分两个干扰因素使得试验小区间存在肥力差异 水分梯度 设计方法 拉丁方设计从横行和直列两个方向对试验环境条件 干扰因素 进行局部控制 使每个横行和直列都成为一个区组 然后在每个区组内随机安排全部处理 在拉丁方设计中 同一处理在每一横行区组和每一直列区组出现且只出现一次 所以拉丁方设计的处理数 重复数 横行区组数 直列区组数均相同 肥力区组 例如 5个不同小麦品种产量试验 采用拉丁方设计以控制肥力和水分两个干扰因素 其设计图为 水分区组 设计特点 由于每一横行和每一直列都形成一个区组 因此拉丁方设计具有双向的局部控制功能 可以从两个方向消除试验环境条件的影响 具有较高的精确性 一 两因素随机区组设计 适用范围 有两个地位平等的试验因素 有一个明显的干扰因素 使得试验单位不均匀一致 试验地 肥瘦 肥力梯度 例如 玉米品种 A 和施肥 B 的两因素试验 试验地按某方向存在明显肥力梯度 见下图 则试验小区间存在肥力差异 2两因素试验设计方法 设计方法 与单因素随机区组设计类似 不同之处是在单因素时处理是单因素的每个水平 在两因素时处理是两因素各水平之间的交叉组合 肥瘦 肥力梯度 例如 玉米品种 A 与施肥 B 两因素试验 A因素有A1 A2 A3 A4这四个水平 B因素有B1和B2两个水平 共有8个水平组合即处理 随机区组设计 设置3个区组 设计示意图为 设计特点 它使用了局部控制的原则 从而将试验环境均匀性的控制范围从整个试验地缩小到一个区组 区组间的差异可以通过统计分析方法使其与试验误差分离 二 裂区设计 适用范围 有两个地位不平等的试验因素A和B A因素是次要因素 精确度要求较低 B因素是主要因素 精确度要求较高 试验有一个明显的干扰因素 使得试验单位不均匀一致 设计方法 裂区设计与两因素随机区组设计近似 不同点是后者在每一个区组内A B两因素的a b次处理是完全随机化的 只经过一次随机化过程 而裂区设计的每一区组内A因素先分为a个处理 在A的每一个处理内B因素再分为b个处理 也就是说随机化过程分两步进行 分别在A因素的a个处理间及B因素的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论