已阅读5页,还剩108页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
概率论与生物统计学50学时 讲课36学时 实验12学时授课 实验第1章 概率论和统计学的基本原理8第2章 矩阵运算的原理和方法3第3章 简单线性回归模型3 3第4章 多元线性回归模型6第5章 其它多元回归模型3第6章 非线性回归模型 3第7章 线性模型与方差分析6 3第8章 混合线性模型的统计分析6 3 从数量遗传发展看统计分析方法的重要性 数量遗传学 定义 运用数理统计分析方法和适宜的遗传模型 分析数量性状遗传规律的理论科学 它是遗传学的一个重要分支 数量性状的遗传研究 表现型变异 基因组 基因座位的综合遗传效应 QTL位置和效应 遗传主效应 A D I GE互作 AE DE IE 宏观环境 微观环境 遗传模型 假设 建模 验证 计算机软件 研制 调试 统计分析方法 推导 证明 遗传实验设计与实施 遗传数据采集与分析 遗传推断与结论 指导育种实践杂种优势利用和选择改良 理论数量遗传研究 应用数量遗传研究 数量遗传不同发展阶段的统计学基础 统计分析方法 世代平均数和方差分析遗传模型 简单加性 显性模型效应分析 加性 显性优点 简易 无需计算机软件局限性 1 不能有效分析GE互作 复杂的遗传效应 2 需要个体观察 工作量大 重演性差 3 遗传推断只适用于所分析组合 4 不能分析个单个基因的遗传效应 第一阶段 1920s 1950s 数量遗传的发展阶段 统计分析方法 世代平均数和方差分析 遗传模型 简单遗传模型 如加 显模型 统计分析方法 基于线性模型的回归 通经分析 方差分析 协方差分析遗传模型 加 显性模型 加 显 母体模型 加 显 上位性模型 GE互作模型效应分析 加性效应 显性效应 母体效应 上位性效应及各种GE互作效应优点 简易 用世代均值 无需测量分离个体 重演性好 遗传推断适用于分析材料数代表的遗传群体局限性 1 需计算机软件 2 不能有效分析非平衡数据 3 不能有效分析复杂的遗传效应 4 不能分析个单个基因的遗传效应 第二阶段 1950s 1970s 统计分析方法 基于线性模型的回归分析 方差分析 协方差分析 NCDesignII的统计分析方法 统计分析方法 基于混合线性模型的统计分析方法 方差 协方差 效应预测 遗传模型 包括GE互作的各种复杂遗传模型效应分析 各种复杂遗传效应及其GE互作效应优点 用世代均值 无需测量分离个体 重演性好 遗传推断适用于分析材料数代表的遗传群体 能有效分析不规则缺失的非平衡数据 能有效分析复杂的遗传效应局限性 1 需复杂的计算机软件 2 不能分析个单个基因的遗传效应 第三阶段 1970s 1990s Ei Ej 胚和胚乳模型的遗传效应 F1 Pi Pj Ei Ci v Mi Mi 胚乳核基因遗传效应 细胞质效应 植株核基因遗传效应 v F1 Pi Oi Oj 胚核基因遗传效应 方差和协方差的分解 朱军 1996 遗传学报 V23 遗传模型的矩阵表达式 统计分析方法 基于分子标记的统计分析方法遗传模型 单基因和多基因的遗传模型效应分析 加性 显性 上位性及其GE互作效应优点 能分析单个基因的遗传效应局限性 需复杂的计算机软件 第四阶段 1990s QTL定位和效应分析 遗传假定 数量性状受多基因控制 区间作图法和复合区间作图法的共同缺点 回归效应为固定效应 不能分析基因型与环境的互作 不能分析复杂的遗传效应 Ai Aj AAij 模型构建 DH RI群体 包括QE互作的QTL定位遗传模型 1 概率论和统计学的基本原理 1 1 概率 统计学 statistics 是一门数据分析的科学 研究数据的取样 收集 组织 总结 表达和分析的科学方法 研究如何根据数据的分析结果 作出关于总体特性的有效推断和合理结论的科学方法 在实际统计分析时 通常不可能研究所有的个体 而是在总体中选取一部分个体进行分析 总体 population 所要研究的对象的所有个体的总和 通过对样本资料的统计分析 可以推断总体的表现 样本 sample 在实际研究中被分析的个体 投币试验结果 正面Head 反面Tail 试验 experiment 按事先设计的要求观察和收集数据的过程 实施试验所获得的任何可能结果称为试验的一次结局 outcome 如果重复实施设计相同的试验 可以获得结果不尽相同的结果 事件 event 试验的一次或若干次结局 常用大写字母A B C等表示事件 样本空间 samplespace 试验的所有可能结局 当事件A与事件B相互独立时 P A B P A 或P B A P B 如果事件A的概率为P A 则A的对立事件的概率为P 1 P A 如果存在二个事件A和B 事件A或者事件B发生 称为事件A与事件B的和 其概率以P A B 表示 事件A与事件B同时发生 称为事件A与事件B的积 其概率表示为P A B 在事件B出现的条件下事件A发生的概率 称为给定事件B时事件A的条件概率 表示为P A B 概率的基本运算法则 事件A发生或者事件B发生的概率P A B P A P B P AB 事件A与事件B同时发生的概率P A B P A P B A P B P A B 如果事件A和事件B为独立事件 则 事件A发生或者事件B发生的概率P A B P A P B 事件A与事件B同时发生的概率P A B P A P B 1 2 随机变量 统计分析的目的是要推断总体的特性 参数 parameter 描述总体特性的数值 总体的参数一般是未知的 需要经统计分析而推断 点估计 pointestimate 总体中抽取一个样本 由分析样本数据而获得一个可用于估计总体参数的数值 当从一个总体中抽取不同的样本 分析各样本所获得的点估计将不尽相同 这种表现出变异性的特征 称为变量 variable 随机变量 randomvariable 在作统计试验以前 我们一般并不知道某一试验的确切结局 但是我们可以赋予试验结局以实际数量的一个函数 随机变量常用大写字母表示 如X Y Z 它们可能出现的具体结果或数值则可用小写字母表示 如x y z 离散变量 discretevariable 以计数表示的随机变量 连续变量 continuousvariable 以任意实数表示的随机变量 随机变量之间常存在不同程度的关联性 这些关联性可以用数学模型或数学函数表示 线性模型 linearmodel 是描述变量之间相互关系的数学函数 它的参数只具有简单的线性关系 在统计分析中广泛应用的回归分析 相关分析 方差分析 协方差分析等都是建立在线性模型的理论基础上的 概率密度函数 probabilitydensityfunction 简称pdf 在重复试验中随机变量X为x值的概率 f x P X x 1 1 概率密度函数具有以下特性 1 对于所有的x值 0 f x 1 分布函数 distributionfunction 在重复试验中随机变量X小于或等于x值的累计概率 F x P X x 1 2 分布函数具有以下特性 4 如果a b 那么F a F b 5 P a X b F b F a 随机变量X的期望值 expectedvalue 的定义 如果某一随机变量X在试验中可能出现的具体结果x具有概率密度函数f x 根据随机变量期望值的定义 可以进一步推算随机变量线性函数的期望值 随机变量X和常数a和c的线性函数 a cX 的期望值为 E a cX E a E cX a cE X E aX cY aE X cE Y E XY E X E Y 如果X和Y是独立的随机变量 如果X1 X2 Xi Xn是n个随机变量 它们的线性函数的期望值为 随机变量X的方差 variance 定义为 随机变量X和常数a和c的线性函数 a cX 的方差为 其中常数的方差为零 给定常数a b c和d 则随机变量X和Y的线性函数的协方差为 随机变量X与X的协方差即为X的方差 随机变量X和Y的协方差 covariance 定义为 如果X1 X2 Xi Xn是n个随机变量 它们的线性函数的方差为 如果X和Y是相互独立的随机变量 则它们之间的协方差为零 虽然协方差可以度量不同变量之间的相互关联性 但是协方差的值受到变量度量单位的影响 度量随机变量X和Y之间相关性 并不受变量度量单位影响的参数是相关系数 correlationcoefficient 其定义为 1 3 概率分布 离散变量的概率分布 二项式分布 binomialdistribution 如果随机变量X在n次独立试验中成功的次数为x 并且具有概率密度函数 则变量X服从二项式分布 其中n和p是二个参数 n是试验总数 p 0 p 1 是一次试验的成功概率 二项式分布常用于描述n次独立试验中成功出现次数的统计规律性 X B n p 具有二项式分布的随机变量X的期望值和方差是 多项式分布 multinomialdistribution 如果随机变量X在n次独立试验中出现第i种结局次数为xj 并且具有概率密度函数 则变量X服从多项式分布 其中参数n是试验总数 参数pi是一次试验出现第i种结局的概率 多项式分布常用于描述n次独立试验中不同结局出现的次数的统计规律性 具有多项式分布的随机变量X的期望值和方差是 泊松式分布 Poissondistribution 如果随机变量X可取一切非负整数 并且具有概率密度函数 则变量X服从泊松分布 其中e 2 71828 是自然对数的底数 参数 是在给定时间 或面积 容积等 某事件出现的平均次数 泊松分布常用于描述单位时间内某一特定事件在空间的某固定范围内出现次数的统计规律性 X P 具有泊松分布的随机变量X的期望值和方差是 连续变量的概率分布 正态分布 normaldistribution 是连续变量的一个重要的理论分布 在数理统计的理论和实践中占有重要的地位 如果随机变量X具有正态分布 其概率密度函数是 则变量X服从正态分布 其中e 2 71828 是自然对数的底数 参数 是均值 参数方差 具有正态分布的随机变量X的期望值和方差是 E X 因而随机变量X是具有均值为 和方差为的正态分布 表示为 正态性检验 偏度 skewness 峰度 kurtosis 检验 当样本容量n较大时 如果 则可认为所检验的随机变量不服从正态分布 样本个体数 n 5 50 500 平均 102 528 99 867 99 852 标准误差 3 537 1 395 0 453 中值 101 020 100 057 99 657 样本方差 62 534 97 304 102 539 峰值 2 182 0 560 0 168 偏斜度 0 134 0 035 0 063 均值 和方差是正态分布的二个参数 由于正态分布具有均值和方差二个参数 这些参数的取值不同 可以产生不同的正态分布 如果X1 X2 Xi Xn是取自某总体的一个随机样本 该总体具有均值为 和方差为的正态分布 样本均值是正态分布的随机变量 具有均值 和方差 中心极限定理 centrallimittheorem 当某总体具有均值为 和方差为 2的未知分布 并且样本容量n趋于无穷大时 样本均值趋近正态分布 产生的z变量具有均值为零和方差为1的标准正态分布 standardnormaldistribution z N 0 1 如果z1 z2 zi zv是v个相互独立的标准正态变量 那么 是具有自由度 degreesoffreedom df 为v的x2分布 chisquaredistribution X x2 v v是分布的唯一参数 如果随机变量X具有x2分布 其概率密度函数是 具有x2分布的随机变量X的期望值和方差是 E X v 如果随机变量X具有正态分布X N 其样本标准差 standarddeviation 的计算公式为 其中 那么标准差的以下函数具有分布 如果随机变量z N 0 1 和X 相互独立 那么它们的函数T 是具有自由度为v的t分布 tdistribution 表示为T t v 随机变量T的期望值和方差是 E T 0 如果随机变量X具有正态分布X N 那么其样本均值和样本标准差的函数具有以下分布 因此随机变量T 具有自由度为 n 1 的t分布 如果随机变量X 和Y 是相互独立的具有分布的变量 随机变量F是X和Y的函数 并且具有F分布 Fdistribution F F v1 v2 F分布具有两个参数 分子自由度v1和分母自由度v2 如果有二个相互独立的分布的随机变量 可以得到检验方差分量的F分布变量 当假定成立时 二个正态分布的随机变量X和Y具有二元正态分布 bivariablenormaldistribution 1 9 这二个变量之间的相关系数为 每一个变量具有边缘分布 marginaldistribution 它们也是正态分布 对于二元正态分布的二个变量 给定一个变量的赋值 另一个变量的条件分布 conditionaldistribution 也是正态分布 例如给定Y y X的条件分布是具有均值为和方差为的正态分布 如果给定X x Y的条件分布是具有均值为和方差为的正态分布 1 11 1 10 1 4 统计估计量 统计量 statistic 如果是总体的样本 统计量是样本的已知函数 它不包含总体分布的任何未知参数 参数的估计量 estimator 用于估计总体参数的统计量 可以有若干个估计量估计总体的某个参数 评价估计量优劣的二项指标 无偏性 unbiasedness 对于某个参数 可能存在若干个无偏估计量 这些无偏估计量并不都是等效的 有效性 efficiency 如果估计量是参数的点估计 并有E 则是的无偏估计 unbiasedestimation 如果参数的二个无偏估计量和的方差分别为和 并且 那么无偏估计量比无偏估计量更有效 无偏估计量对于无偏估计量的相对有效性可由二个方差的比值算得 相对有效性 1 12 最好的估计量 thebestestimator 具有最小方差的无偏估计量 如果是的一个点估计 是的所有其它点估计 并有 则是的最小方差估计 minimumvarianceestimation 用四种方法估计遗传方差分量的偏差 Bias 和均方误差MSE 的比较 线性模型统计分析中常用的参数估计方法 最小二乘法 methodofleastsquares 最大似然法 methodofmaximumlikelihood 如果观察值Yi是参数的函数和随机机误的和 i 1 2 n 1 13 通常假设 因而平方和 1 14 也可视为参数的函数 最小二乘估计量 leastsquaresestimators 使Q值为最小值的参数估计量 现以一个简单的线性模型为例 说明运用最小二乘法估计参数的过程 如果随机变量Yi与变量Xi存在如下的线性关系 i 1 2 n 1 15 其中回归系数b0和b1是未知的参数 平方和Q的计算公式是 1 16 要估计b0和b1并使Q值为最小 可以分别对b0和b1求偏导 1 17 然后用估计量和替代以上式子中的参数 并设以上偏导为零 解下列正规方程组 1 18 便可获得二个参数的最小二乘估计量 1 19 如果观察值Y1 Y2 Yi Yn是n个独立的随机变量 这一组观察值的联合概率函数为 1 20 这个联合概率函数是给定一组观察值时参数的函数 称为似然函数 likelihoodfunction 1 21 最大似然法估计量 maximumlikelihoodestimators 是使L 值为最大值的估计量 现仍以一个简单的线性模型为例 说明运用最大似然法估计参数的过程 如果随机变量Yi与变量Xi存在如下的线性关系 i 1 2 n N 1 22 其中回归系数b0和b1以及方差是未知的参数 似然函数是 1 23 使L值为最大值亦即使L的自然对数值L为最大值 1 24 要估计回归系数b0和b1以及方差并使L值为最大 可以分别对b0和b1以及方差求偏导 1 25 然后用估计量和以及替代以上式子中的参数 并设以上偏导为零 解下列正规方程组 1 26 便可获得三个参数的最大似然法估计量 1 27 1 5假设检验总体的参数始终是不可知的 在数理统计分析中 只能由估计量估计总体的参数 通过统计检验 由统计量推断总体的参数 在统计推断过程中 需要对参数提出一定的假设 然后对提出的假设进行假设检验 hypothesistesting 对于总体参数提出的二类假设原假设 nullhypothesis 以H0表示原假设是将用统计的方法进行检验的假设 通常假设不存在真实的差异 H0 0备择假设 alternativehypothesis 以H1表示备择假设是当原假设被统计检验否定时准备接受的假设 常假设存在真实的差异 H1 0这时的检验称为二尾检验 two tailedtest 如果H0 0vs H1 0 或 0 这时的检验称为一尾检验 one tailedtest 在根据假设检验作出统计决断时 可能犯两类错误 一型错误 typeIerror 是否定了真实的原假设 犯一型错误的概率定义为显著水平 levelofsignificance 常用 表示 P 否定H0 H0是真实的 二型错误 typeIIerror 是接受了错误的原假设 犯二型错误的概率常用 表示 P 接受H0 H0是错误的 统计检验的功效 poweroftest 在统计检验中正确地否定了错误的原假设的概率 常用 表示 P 否定H0 H0是错误的 置信区间 confidenceintervals 根据一定置信程度而估计的区间 它给出了未知的总体参数的上下限 如果统计检验否定了原假设H0 0 则可以通过计算置信区间 推断总体参数 的取值范围 如果随机变量X具有正态分布X N 是的无偏估计量 是的无偏估计量则随机变量T具有t分布因而总体均值 的 置信区间为 1 28 根据样本方差与总体方差的比值所具有的分布可以推断总体方差的 置信区间因而总体方差的 置信区间为 1 29 如果二个随机正态变量和相互独立 并且有可以推断总体方差的 置信区间 由于 因此或则总体方差之比的 置信区间为 1 30 1 6 样本资料的简单分析 单一样本的分析 水稻株高基因定位数据实例 包括分子标记和表现型值 连续变量的分析方法 样本均值的计算 如果调查了n个个体 其性状测定值分别位为样本均值的计算公式是 样本方差的计算 样本方差的计算公式是 样本标准误的计算 统计检验 均值检验 p值 实际测得的显著水准 一尾检验 或 二尾检验 如果t 0 总体均值的 置信区间 方差检验 一尾检验 或 二尾检验 或 总体方差 2的 置信区间 实例分析 水稻二年不同发育时期的株高表现型值 离散变量的分析方法 样本频率的计算 某样本有n个个体 M类型的个体数为nM m类型的个体数为nm 如果总体中M类型的频率是p 其估计值为 m类型的频率是1 p 样本频率方差的计算 样本频率标准误的计算 统计检验 均值检验 p值 一尾检验 或 二尾检验 如果z 0 如果z 0 总体频率p的 置信区间 两个样本的分析 连续变量的分析方法 相互独立的两个总体 两个样本平均差值的计算 两个样本平均差值的方差计算 如果假设两个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教师招聘阜阳真题及答案
- 毕业设计及答辩
- UI设计发展趋势
- 2026年企业人力资源管理师之四级人力资源管理师考试题库300道及完整答案【典优】
- 医护招聘考题题库及答案
- 肾肿瘤的治疗与护理资料
- 2026年二级注册建筑师之建筑结构与设备考试题库500道含答案【预热题】
- 2026年一级注册建筑师之建筑物理与建筑设备考试题库300道【必刷】
- BYD新能源汽车介绍
- 浙江一月高考试题及答案
- 贸易居间费合同协议
- 2025+CSCO非小细胞肺癌诊疗指南解读 课件
- 《漯河双汇集团集团财务共享中心实施效果分析的案例报告》8200字
- 三小场所安全培训
- 职业技术学院2024级航海技术专业人才培养方案
- 二年级下册劳动《种大蒜》课件
- 新国际物流知识培训课件
- 民事诉讼法知到智慧树章节测试课后答案2024年秋嘉兴大学
- 梅毒课件教学课件
- 中老年高血压的管理
- 2024年北京昌平一中初二(上)期中数学试卷及答案
评论
0/150
提交评论