




已阅读5页,还剩983页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
任课教师 陈彦云授课时数 51课时学分 3分 生物统计学 内容 介绍科学研究中常用的 基本的生物统计方法与试验设计方法 资料的整理 平均数 标准差与变异系数 常用概率分布 平均数的统计推断 方差分析 2检验 直线回归与相关 可直线化非线性回归分析 协方差分析 试验设计的基本原理和方法及对比设计 随机区组设计 裂区设计 正交设计等 方法 用CAI课件教学 以课堂讲授为主要求 了解基本原理 熟练掌握所介绍的几种试验设计方法 能独立进行试验设计 熟练掌握所介绍的几种生物统计方法 能独立进行试验结果的统计分析 熟练掌握电子计算器的使用 下一张 主页 退出 上一张 培养严谨的治学态度精细的治学作风独立的自学能力 下一张 主页 退出 上一张 成绩评定 平时作业 30 期末考试 70 作业要求 独立思考演算正确作图清楚书写整齐 下一张 主页 退出 上一张 主要教学参考文献 1 明道绪主编 生物统计 中国农业科技出版社 1998 2 明道绪主编 兽医统计方法 成都科技大学出版社 1991 3 南京农业大学主编 田间试验与统计方法 第二版 农业出版社 1988 4 莫惠栋 农业试验设计 上海科学技术出版社 1984 5 美 G W 斯奈迪格著 杨纪珂等译 应用与农学和生物学实验的数理统计方法 科学出版社 1964 6 美 R G D 斯蒂尔 J H 托里著 杨纪珂等译 数理统计的原理与方法 科学出版社 1976 7 李春喜等编著 生物统计学学习指导 科学出版社 2008 下一张 主页 退出 上一张 每天都是向既定目标迈进的一步 赠言 下一张 主页 退出 上一张 zlcc E mail nxchenyy 陈彦云宁夏大学生命科学学第一章概论 第一节生物统计学的概念及主要内容 一 概念 生物统计学 Biostatistics 是数理统计在生物学研究中的应用 它是用数理统计的原理和方法来认识 分析 推断和解释生命过程中的各种现象和试验调查资料的科学 属于生物数学的范畴 二 主要内容 生的物基统本计内学容 试验设计 统计分析 基本原则方案制定常用试验设计方法 资料的搜集和整理数据特征数的计算统计推断方差分析回归和相关分析协方差分析主成分分析聚类分析 对比设计随机区组设计裂区设计拉丁方设计正交设计 三生物统计学的基本作用 提供整理和描述数据资料的科学方法 确定某些性状和特性的数量特征 运用显著检验 判断试验结果的可靠性或可行性 提供由样本推断总体的方法 提供试验设计的的一些重要原则 第二节生物统计学发展概况 统计发展史可以追溯到远古的原始社会 但是 能使人类的统计实践上升到理论上予以概括总结的程度 即开始成为一门系统的学科统计学 却是近代的事情 距今只有三百余年的短暂历史 现代统计学起源于17世纪 主要有两个来源 1政治科学需要 2当时贵族阶层对机率数学理论很感兴趣而发展起来的 另外 研究天文学的需要也促进了统计学的发展 统计学发展的概貌 大致可划分为古典记录统计学 近代描述统计学和现代推断统计学三种形态 一 发展概况 原始社会 奴隶社会 封建社会 资本主义社会 迅速发展形成分支 生物统计学 形成不同学派 1 政治算术学派起源于17世纪60年代的英国代表人物 威廉 配第 WilliamPetty 1623 1687 约翰 格朗托 JohnGraunt 1620 1674 代表作 政治算术 但未采用 统计学 这个词 2 国势学派 又叫记述学派创建于17世纪的德国代表人物 海尔曼 康令 HermanConring 1606 1681 阿痕瓦尔 GottfriedAchenwall 1791 1772 代表作 近代欧洲各国国势论 首次采用 stastistik 德国经济学家和统计学家克尼斯 K G AKnies 1821 1898 在1850年发表的论文 独立科学的统计学 中主张把 国家论 作为 国势学 的科学命名 统计学 作为 政治算术 的科学命名 3 数理统计学派产生于19世纪中叶代表人物 阿道夫 凯特勒 L A JQuetelet 1796 1874 高尔登 F Galtonl 1822 1911 皮尔逊 K Pearson 1857 1936 逐渐形成一门独立的应用数学 1867年韦特斯坦 T Wittstein 把既是数学 又是统计学的新生科学命名为数理统计学 4 社会统计学派以德国为中心 创建于19世纪后期代表人物 恩格尔 C I E Engel 1821 1896 梅尔 C G V Mager 1841 1925 认为统计学研究的对象是社会科学 而数理统计学是一门应用数学 19世纪中叶诞生了马克思主义的统计理论 后来 列宁对其进行了丰富和发展 二 统计学发展史中的重大事件与重要代表人物 J Bernoulli 贝努里 瑞士 1654 1705 系统论证了 大数定律 即样本容量越大 样本统计数与总体参数之差越小 P S Laplace 拉普拉斯 法国 1749 1827 最早系统的把概率论方法运用到统计学研究中去 建立了严密的概率数学理论 并应用到人口统计 天文学等方面的研究上 Gauss 高斯 德国 1777 1855 正态分布理论最早由DeMoiver于1733年发现 后来Gauss在进行天文观察和研究土地测量误差理论时又一次独立发现了正态分布 又称常态分布 的理论方程 提出 误差分布曲线 后人为了纪念他 将正态分布也称为Gauss分布 F Galton 高尔登 英国 1822 1911 19世纪末统计学开始用于生物学的研究 1882年Galton开设 人体测量实验室 测量9337人的资料 探索能把大量数据加以描述与比较的方法和途径 引入了中位数 百分位数 四分位数 四分位差以及分布 相关 回归等重要的统计学概念与方法 1889年发表第一篇生物统计论文 自然界的遗传 1901年Galton和他的学生Pearson创办了 Biometrika 生物统计学报 杂志 首次明确 Biometry 生物统计 一词 所以后人推崇Galton为生物统计学的创始人 K Pearson 卡 皮尔逊 英国 1857 1936 Pearson的一生是统计研究的一生 他首创频数分布表与频数分布图 如今已成为最基本的统计方法之一 观察到许多生物的度量并不呈现正态分布 利用相对斜率得到矩形分布 J型分布 U型分布或铃型分布等 1900年独立发现了X2分布 提出了有名的卡方检验法 后经Fisher补充 成为小样本推断统计的早期方法之一 Pearson对 回归与相关 进一步作了发展 在1897 1905年 Pearson还提出复相关 总相关 相关比等概念 不仅发展了Galton的相关理论 还为之建立了数学基础 W S Gosset 歌赛特 英国 1777 1855 在生产实践中对样本标准差进行了大量研究 于1908年以 Student 学生 为笔名在该年的Biometrika上发表了论文 平均数的概率误差 创立了小样本检验代替大样本检验的理论 即t分布和t检验法 也称为学生式分布 t检验已成为当代生物统计工作的基本工具之一 为多元分析理论的形成和应用奠定了基础 为此 许多统计学家把1908年看作是统计推断理论发展史上的里程碑 R A Fisher 费歇尔 英国 1890 1962 Fisher一生论著颇多 共写了329篇 他跨进统计学界是从研究概率分布开始 1915年在Biometrika上发表论文 无限总体样本相关系数值的频率分布 被称为现代推断统计学的第一篇论文 1923年发展了显著性检验及估计理论 提出了F分布和F检验 1918年在 孟德尔遗传试验设计间的相对关系 一文中首创 方差 和 方差分析 两个概念 1925年提出随机区组和正交拉丁方试验设计 并在卢桑姆斯坦德农业试验站得到检验与应用 他还在试验设计中提出 随机化 原则 1938年和Yates合编了FisherYates随机数字表 另外Neyman 1894 1981 和S Pearson进行了统计理论研究 分别与1936和1938年提出一种统计假说检验学说 P C Mabeilinrobis对作物抽样调查 A Waecl对序贯抽样 Finney对毒理统计 K Mather对生统遗传学 F Yates对田间试验设计等都作出了杰出贡献 三 统计学在中国的传播 我国在解放前 社会经济发展缓慢 统计的应用和发展受到了很大的限制 1913年 顾澄教授 1882 翻译了英国统计学家尤尔的著作 统计学之理论 1911 即为英美数理统计学传入中国之始 之后又有一些英美统计著作被翻译成中文 Fisher的理论和方法也很快传入中国 在20世纪30年代 生物统计与田间试验 就作为农学系的必修课 1935年王绶 1876 1972 编著出版的 实用生物统计法 是我国出版最早的生物统计专著之一 随后1942年范福仁出版了 田间试验技术 等 这些对推动我国农业生物统计和田间试验方法的应用都产生了很大影响 新中国成立后 许多学者翻译 编著了统计学论著 有力的推动了数理统计方法在中国的普及和应用 1978年12月国家统计局在四川峨眉召开了统计教学 科研规划座谈会 全面引进了前苏联的社会经济统计理论和统计制度 对我国社会经济统计学的发展起到了一定的积极作用 这以后有关统计学的教材与论著如雨后春笋般涌现 统计工作和统计科研迅速发展 1984年1月1日颁布实施 中华人民共和国统计法 1987年2月国家统计局又发布 中华人民共和国统计法实施细则 1996年5月八届人大十九次会议通过了 关于修改的决定 随着计算机的迅速普及 统计电算程序SAS StatisticalAnalysisSystem SPSS StatisticalPackageforSocialScience Excel等的引进 统计学在中国的应用与研究出现了崭新的局面 第三节常用统计学术语 一 总体与样本 具有相同性质或属性的个体所组成的集合称为总体 population 它是指研究对象的全体 组成总体的基本单元称为个体 individual 从总体中抽出若干个体所构成的集合称为样本 sample 总体又分为有限总体和无限总体 含有有限个个体的总体称为有限总体 finitudepopuoation 包含有极多或无限多个体的总体称为无限总体 infinitudepopuoation 构成样本的每个个体称为样本单位 样本中所包含的个体数目叫样本容量或样本大小 samplesize 样本容量常记为n 一般在生物学研究中 通常把n 30的样本叫小样本 n 30的样本叫大样本 对于小样本和大样本 在一些统计数的计算和分析检验上是不一样的 研究的目的是要了解总体 然而能观测到的却是样本 通过样本来推断总体是统计分析的基本特点 二 变量与常量 变量 或变数 指相同性质的事物间表现差异性或差异特征的数据 常数 表示能代表事物特征和性质的数值 通常由变量计算而来 在一定过程中是不变的 变量 定性变量 定量变量 连续变量 非连续变量 只有整数出现 可以有任何小数出现 为了表示总体和样本的数量特征 需要计算出几个特征数 包括平均数和变异数 极差 方差 标准差等 描述总体特征的数量称为参数 parameter 也称参量 常用希腊字母表示参数 例如用 表示总体平均数 用 表示总体标准差 描述样本特征的数量称为统计数 staistic 也称统计量 常用拉丁字母表示统计数 例如用表示样本平均数 用S表示样本标准差 三 参数与统计数 四 效应与互作 通过施加试验处理 引起试验差异的作用称为效应 效应是一个相对量 而非绝对量 表现为施加处理前后的差异 效应有正效应与负效应之分 互作 又叫连应 是指两个或两个以上处理因素间相互作用产生的效应 互作也有正效应 协同作用 与负效应 拮抗作用 之分 五 机误与错误 变异 效应 误差 随机误差 机误 Randomerror 系统误差 错误 Systematicerror 随机误差 也叫抽样误差 samplingerror 这是由于试验中无法控制的内在和外在的偶然因素所造成 如试验动物的初始条件 饲养条件 管理措施等尽管在试验中力求一致 但也不可能达到绝对一致 所以随机误差带有偶然性质 在试验中 即使十分小心也是不可避免的 如果通过良好的试验设计 正确的试验操作 增加抽样或试验次数 随机误差可能减小 但不可能完全消灭 统计上的试验误差一般都指随机误差 随机误差越小 试验精确性越高 系统误差 也叫片面误差 lopsidederror 这是由于试验条件控制不一致 测量仪器不准 试剂配制不当 试验人员粗心大意使称量 观测 记载 抄录 计算中出现错误等人为因素而引起的 系统误差影响试验的准确性 只要以认真负责的态度和细心的工作作风是完全可以避免的 六 准确性与精确性 准确性 accuracy 也叫准确度 指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度 设某一试验指标或性状的真值为 观测值为x 若x与 相差的绝对值 x 越小 则观测值x的准确性越高 反之则低 精确性 precision 也叫精确度 指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度 若观测值彼此接近 即任意二个观测值xi xj相差的绝对值 xi xj 越小 则观测值精确性越高 反之则低 试验资料的整理 特征数的计算 与 第二章 一 试验资料的类型 二 试验资料的搜集 三 试验资料的整理 对试验资料进行分类是统计归纳的基础 试验资料类型 数量性状资料 质量性状资料 属性性状资料 计数资料 非连续变量资料 计量资料 连续变量资料 数量性状 quantitativecharacter 是指能够以计数和测量或度量的方式表示其特征的性状 观察测定数量性状而获得的数据就是数量性状资料 dataofquantitativecharacteristics 数量性状资料的获得有计数和测量两种方式 因而数量性状资料又分为计数资料和计量资料两种 一 数量性状资料 1 计数资料指用计数方式获得的数量性状资料 在这类资料中 它的各个观察值只能以整数表示 在两个相邻整数间不得有任何带小数的数值出现 因此各观察值是不连续的 所以该类资料也称为非连续变量资料或间断变量资料或离散变量资料 2 计量资料指用测量或度量法获得的数量性状资料 即用度 量 衡等计量工具直接测定获得的数据资料 其数据是用长度 重量 容积 温度 浓度等来表示 要带单位 这种资料的各个观测值不一定是整数 两个相邻的整数间可以有带小数的任何数值出现 其小数位数的多少由度量工具的精确度而定 它们之间的变异是连续性的 因此计量资料也称为连续变量资料 二 质量性状资料质量性状 qualitativecharacter 是指能观察到而不能直接测量的性状 观察质量性状而获得的数据就是质量性状资料 dataofqualitativecharacteristics 也称为属性性状资料 这类性状本身不能直接用数值表示 要获得这类性状的数据资料 须对其观察结果作数量化处理 其方法有以下两种 1 统计次数法在一定的总体或样本中 根据某一质量性状的类别统计其次数 以次数作为质量性状的数据 例如 在研究豌豆的花色遗传时 红花与白花杂交 子二代中红花 紫花和白花的株数分类统计如下表 这种由质量性状数量化得来的资料又叫次数资料 2 评分法对某一质量性状分成不同级别 对不同级别进行评分来表示其性状差异的方法 从而将质量性状进行数量化 以便统计分析 一 试验资料的类型 二 试验资料的搜集 三 试验资料的整理 调查 试验 资料搜集的方法 一 调查调查是对已经存在的事情的资料按某种方案进行收集的方法 资料的调查又可以分为两种 普查和抽样调查 1 普查是对研究对象的全部个体逐一进行调查的方法 普查一般要求在一定的时间或范围进行 要求准确和全面 2 抽样调查是根据一定的原则从研究对象中抽取一部分具有代表性的个体进行调查的方法 通过抽样将获得的样本资料进行统计处理 然后利用样本的特征数对总体进行推断 生物学研究中 进行普查的情况较少 多数情况下还是进行抽样调查 随机抽样必须满足2个条件 一是总体中每个个体被抽中的机会是均等的 二是总体中任意一个个体是相互独立的 是否被抽中不受其他个体的影响 二 试验试验是对已有的或没有的事物加以处理的方法 常见的试验设计方法有 对比设计 随机区组设计 平衡不完全区组设计 裂区设计 拉丁方设计 正交设计 正交旋转设计等等 试验设计须遵循的三大原则是 随机 重复和局部控制 一 试验资料的类型 二 试验资料的搜集 三 试验资料的整理 三 试验资料的整理 一 原始资料的检查与核对 调查 试验 原始数据 核对 检查 订正 检查和核对原始资料的目的 确保原始资料的完整性和正确性 三 试验资料的整理 二 次数分布表 统计表的结构和要求 结构简单 层次分明 安排合理 重点突出 数据准确 表号标题 1 标题简明扼要 准确地说明表的内容 有时须注明时间 地点 2 标目标目分横标目和纵标目两项 横标目列在表的左侧 纵标目列在表的上端 标目需注明计算单位 如 kg cm等等 3 数字一律用阿拉伯数字 数字以小数点对齐 小数位数一致 无数字的用 表示 数字是 0 的 则填写 0 4 线条多用三线表 上下两条边线略粗 三 试验资料的整理 计数资料基本上采用单项式分组法进行整理 特点 用样本变量自然值进行分组 每组用一个或几个变量值来表示 11 17 来亨鸡每月产蛋数变动范围 分为7组 统计各组次数 计算频率和累积频率 制表 1自然值进行分组 最大值17 最小值11 2数据主要集中在14 向两侧分布逐渐减少 表2 3小麦品种300个麦穗穗粒数的次数分布表 45组 9组 三 试验资料的整理 计量资料一般采用组距式分组法 全距 组数 组距 组限 归组 制表 表2 4150尾鲢鱼体长 cm 1 求全距 又称极差 range R Xmax Xmin 85 37 48 cm 2 确定组数和组距 classboundary 组数是根据样本观测数的多少及组距的大小来确定的 同时考虑到对资料要求的精确度以及进一步计算是否方便 组数 组距 多 小 统计数精确 计算不方便 少 大 统计数不精确 计算方便 组数的确定 表2 5样本容量与分组数的关系 组距的确定 即每组内的上下限范围 组距 全距 组数 48 10 4 8 10组 5cm 3 确定组限 classlimit 和组中值 classmidvalue 组限是指每个组变量值的起止界限 上限 下限 组中值是两个组限的中间值 表2 4150尾鲢鱼体长 cm 最小一组的下限必须小于资料中的最小值 最大一组的上限必须大于资料中的最大值 临界值就高不就低 35 40 45 85 4 分组 确定好组数和各组上下限后 可按原始资料中各观测值的次序 将各个数值归于各组 计算各组的观测数次数 频率 累积频率 制成一个次数分布表 计数的方法 卡片法 唱票法 画 正 字 组限组中值次数频率累积频率FrequencyPercentCumulativePercent35 37 530 02000 020040 42 540 02670 046745 47 5170 11330 160050 52 5280 18670 346755 57 5400 26660 613360 62 5250 16670 780065 67 5170 11330 897370 72 560 04000 933375 77 570 04670 980080 82 520 01330 993385 87 510 00671 0000 表2 6150尾鲢鱼体长的次数分布表 三 试验资料的整理 三 次数分布图和频率分布图 定义 把次数 频率 分布资料画成统计图形 特点 直观 形象 包括 条形图 直方图 多边形图 饼图和散点图 三 试验资料的整理 统计图绘制的基本要求 1 标题简明扼要 列于图的下方 2 纵 横两轴应有刻度 注明单位 3 横轴由左至右 纵轴由下而上 数值由小到大 图形长宽比例约5 4或6 5 4 图中需用不同颜色或线条代表不同事物时 应有图例说明 图2 1月产蛋数次数分布柱形图 图2 2月产蛋数频率分布柱形图 条形图 barchart 又称柱形图 计数资料 特点 柱形之间要间隔一定的距离 属性资料 2饼图 piechart 图1来亨鸡月产蛋次数分布图 计数资料 质量性状资料 35 19 21 11 5 7 2 图2 3鲢鱼体长次数分布图 3直方图 histogram 又称矩形图 计量资料 特点 各组之间没有距离 4多边形图 polygon 又称折线图 broken linechart 计量资料 图2 3鲢鱼体长次数分布图 5散点图 scatter a 正向直线关系 b 负向直线关系 c 曲线关系 试验资料的整理 特征数的计算 与 第二章 集中性是变量在趋势上有着向某一中心聚集 或者说以某一数值为中心而分布的性质 离散性是变量有着离中分散变异的性质 变量的分布具有两种明显的基本特征 集中性和离散性 集中性 离散性 平均数 变异数 算术平均数 中位数 众数 几何平均数 极差 方差 标准差 变异系数 调和平均数 特征数 一 平均数 平均数平均数是统计学中最常用的统计量 是计量资料的代表值 表示资料中观测数的中心位置 并且可作为资料的代表与另一组相比较 以确定二者的差异情况 一 平均数 一 平均数的种类 算术平均数 中位数 众数 几何平均数 调和平均数 一 平均数 1 算术平均数 arithmeticmean 定义 总体或样本资料中所有观测数的总和除以观测数的个数所得的商 简称平均数 均数或均值 总体 样本 一 平均数 2 中位数 median 资料中所有观测数依大小顺序排列 居于中间位置的观测数称为中位数或中数 Md 1 当观测值个数n为奇数时 n 1 2位置的观测值 即x n 1 2为中位数 Md 2 当观测值个数为偶数时 n 2和 n 2 1 位置的两个观测值之和的1 2为中位数 即 一 平均数 3 众数 mode 资料中出现次数最多的那个观测值或次数最多一组的组中值或中点值 M0 注意 1 对于某些数据而言 如均匀分布 并不存在众数 2 对于某些数据存在两个或两个以上的众数 3 主要用来描述频率分布 一 平均数 4 几何平均数 geometricmean 资料中有n个观测数 其乘积开n次方所得数值 G 适用范围 几何均数适用于变量X为对数正态分布 经对数转换后呈正态分布的资料 G 一 平均数 5 调和平均数 harmonicmean 资料中各观测值倒数的算术平均数的倒数 H 适用范围 主要用于反映生物不同阶段的平均增长率或不同规模的平均规模 一 平均数 二 算术平均数的计算方法 直接计算法 减去常数法 加权平均法 1 直接计算法主要用于样本含量n 30以下 未经分组资料平均数的计算 例 随机抽取20株小麦测量它们的株高 cm 分别为 79858486848382838384818081828182828280求小麦的平均株高 2 减去 加上 常数法若变量的值都比较大 或都比较小 且接近某一常数a时 可将它们的值都减去 或加上 常数a 得到一组新的数据 在计算其平均数 例 设a为80 cm 则有 7985848684838283832 1546432338180818281828282804101212220 80 3 加权平均法对于样本含量n 30以上且已分组的资料 可以在次数分布表的基础上采用加权法计算平均数 计算公式为 第i组的次数fi是权衡第i个自然值xi在资料中所占比重大小的数量 因此将fi称为是xi的 权数 加权法也由此而得名 例 式中 第i组的组中值 第i组的次数 分组数 若为分组资料 则用每组组中值乘以该组次数之和再除以总次数来计算 例 将100头长白母猪的仔猪一月窝重 单位 kg 资料整理成次数分布表如下 求其加权数平均数 表100头长白母猪仔猪一月窝重次数分布表 即这100头长白母猪仔猪一月龄平均窝重为45 2kg 计算若干个来自同一总体的样本平均数的平均数时 如果样本含量不等 也应采用加权法计算 例 某牛群有黑白花奶牛1500头 其平均体重为750kg 而另一牛群有黑白花奶牛1200头 平均体重为725kg 如果将这两个牛群混合在一起 其混合后平均体重为多少 此例两个牛群所包含的牛的头数不等 要计算两个牛群混合后的平均体重 应以两个牛群牛的头数为权 求两个牛群平均体重的加权平均数 即 离均差之和等于零 离均差平方和最小 三 算术平均数的重要性质 x x x1 x2 xn n x x n x n x x 0 x a 2 x x x a 2 x x 2 2 x x x a x a 2 x x 2 x a 2 x x 2 n x a 2 一 平均数 四 算术平均数的作用 1 指出一组数据资料内变量的中心位置 标志着资料所代表性状的数量水平和质量水平 2 作为样本或资料的代表数与其他资料进行比较 3 通过平均数提供计算样本变异数的基本数据 4 用样本的平均数估计总体平均数 二 变异数 变异数的种类 极差 方差 标准差 变异系数 二 变异数 一 极差 全距 range 极差是数据分布的两端变异的最大范围 即样本变量值最大值和最小值之差 用R表示 它是资料中各观测值变异程度大小的最简便的统计量 例 150尾鲢鱼体长R 85 37 48 cm R max x1 x2 xn min x1 x2 xn x1 x2 xn max x1 x2 xn min 二 变异数 简单明了 当资料很多而又要迅速对资料的变异程度作出判断时 可以利用极差 1 除了最大 最小值 不能反映组内其他数据的变异 优点 缺点 用途 2 样本较大时抽到较大值与较小值的可能性也较大 因而样本极差也较大 故样本含量相差较大时 不宜用极差来比较分布的离散度 极差 二 变异数 如何准确地表示样本内各个观测值的变异程度 平均数 可以求出各个观测值与平均数的离差 即离均差 离均差可以反映出一个观测值偏离平均数的性质和程度 离均差之和为零 方差 二 变异数 平方和 SS 平方和的平均数 二 变异数 自由度 degreeoffreedom 二 变异数 均方 meansquare MS 方差 variance 二 变异数 二 方差 Variance 样本 总体 二 变异数 样本方差带有原观测单位的平方单位 在仅表示一个资料中各观测值的变异程度而不作其它分析时 常需要与平均数配合使用 这时应将平方单位还原 即求出样本方差的平方根 标准差 二 变异数 三 标准差 standarddeviation Sd 样本 总体 二 变异数 三 标准差 standarddeviation Sd 二 变异数 x 411 x2 18841 X 6 X 2 76 二 变异数 二 变异数 三 标准差 standarddeviation Sd 例 二 变异数 三 标准差 standarddeviation Sd 特性 标准差的大小 受多个观测数影响 如果观测数与观测数间差异较大 则离均差也大 因而标准差也大 反之则小 1 各观测数加上或减去一个常数 其标准差不变 2 各观测数乘以或除以一个常数a 其标准差扩大或缩小a倍 二 变异数 三 标准差 standarddeviation Sd 3 2s 3s 68 27 95 46 99 73 二 变异数 三 标准差 standarddeviation Sd 作用 1 表示变量分布的离散程度 4 估计平均数的标准误 3 进行平均数的区间估计和变异系数计算 2 可以概括估计出变量的次数分布及各类观测数在总体中所占的比例 二 变异数 四 变异系数 coefficientofvariability CV 定义 样本的标准差除以样本平均数 所得到的比值就是变异系数 特点 是样本变量的相对变异量 不带单位 可以比较不同样本相对变异程度的大小 二 变异数 四 变异系数 coefficientofvariability CV 大田 穗粒数44 6 标准差18 9丰产田 穗粒数65 0 标准差18 3 大田 CV 42 38 丰产田 CV 28 15 二 变异数 四 变异系数 coefficientofvariability CV 用途 1 比较度量衡单位不同的多组资料的变异度 例 某地20岁男子100人 其身高均数为166 06cm 标准差为4 95cm 其体重均数为53 72kg 标准差为4 96kg 比较身高与体重的变异情况 身高 CV 2 98 体重 CV 9 23 该地20岁男子体重的变异大于身高的变异 二 变异数 四 变异系数 coefficientofvariability CV 用途 2 比较均数相差悬殊的多组资料的变异度 概率 概率分布 与 第三章 一 概率的概念 二 概率的计算 三 概率的分布 四 大数定律 一 概率基本概念 一 事件 定义 在一定条件下 某种事物出现与否就称为是事件 自然界和社会生活上发生的现象是各种各样的 常见的有两类 1 在一定条件下必然出现某种结果或必然不出现某种结果 确定性事件 必然事件 U certainevent 不可能事件 V impossibleevent 一 概率基本概念 2 在一定条件下可能发生也可能不发生 随机事件 randomevent 不确定事件 indefiniteevent 一 概率基本概念 为了研究随机现象 需要进行大量重复的调查 实验 测试等 这些统称为试验 一 概率基本概念 二 频率 frequency 若在相同的条件下 进行了n次试验 在这n次试验中 事件A出现的次数m称为事件A出现的频数 比值m n称为事件A出现的频率 frequency 记为W A m n 0 W A 1 一 概率基本概念 种子发芽与否是不能事先确定的 但从表中可以看出 试验随着n值的不同 种子发芽率也不相同 当n充分大时 发芽率在0 92附近摆动 例 一 概率基本概念 频率表明了事件频繁出现的程度 因而其稳定性说明了随机事件发生的可能性大小 是其本身固有的客观属性 提示了隐藏在随机现象中的规律性 概率 一 概率基本概念 三 概率 probability P 概率的统计定义 设在相同的条件下 进行大量重复试验 若事件A的频率稳定地在某一确定值p的附近摆动 则称p为事件A出现的概率 P A p 统计概率 statisticsprobability 后验概率 posteriorprobability 统计概率 一 概率基本概念 抛掷一枚硬币发生正面朝上的试验记录实验者投掷次数发生正面朝上的次数频率 m n 蒲丰404020480 5069K皮尔逊1200060190 5016K皮尔逊24000120120 5005 随着实验次数的增多 正面朝上这个事件发生的频率稳定接近0 5 我们称0 5作为这个事件的概率 一 概率基本概念 三 概率 probability P P A p lim 在一般情况下 随机事件的概率P是不可能准确得到的 通常以试验次数n充分大时 随机事件A的频率作为该随机事件概率的近似值 mn mn 概率的古典定义 一 概率基本概念 对于某些随机事件 不用进行多次重复试验来确定其概率 而是根据随机事件本身的特性直接计算其概率 随机事件 1 试验的所有可能结果只有有限个 即样本空间中的基本事件只有有限个 2 各个试验的可能结果出现的可能性相等 即所有基本事件的发生是等可能的 3 试验的所有可能结果两两互不相容 概率的古典定义 一 概率基本概念 具有上述特征的随机试验 称为古典概型 classicalmodel 设样本空间有n个等可能的基本事件所构成 其中事件A包含有m个基本事件 则事件A的概率为m n 即P A m n 古典概率 classicalprobability 先验概率 priorprobability 一 概率基本概念 1 2 3 4 5 6 7 8 9 10 随机抽取一个球 求下列事件的概率 1 事件A 抽得一个编号 4 2 事件B 抽得一个编号是2的倍数 该试验样本空间由10个等可能的基本事件构成 即n 10 而事件A所包含的基本事件有3个 即抽得编号为1 2 3中的任何一个 事件A便发生 P A 3 10 0 3 P B 5 10 0 5 一 概率基本概念 1 2 3 4 5 6 7 8 9 10 A 一次取一个球 取得红球的概率 10个球中取一个球 其可能结果有10个基本事件 即每个球被取到的可能性是相等的 即n 10 事件A 取得红球 则A事件包含3个基本事件 即m 3 P A 3 10 0 3 一 概率基本概念 1 2 3 4 5 6 7 8 9 10 B 一次取5个球 其中有2个红球的概率 10个球中任意取5个 其可能结果有C105个基本事件 即n C105 事件B 5个球中有2个红球 则B包含的基本事件数m C32C73 P B C32C73 C105 0 417 一 概率基本概念 0 P A 1 任何事件 P U 1 必然事件 P V 0 不可能事件 0 P A 1 随机事件 概率的基本性质 概率的计算 第二部分 二 概率的计算 一 事件的相互关系 和事件 积事件 互斥事件 对立事件 独立事件 完全事件系 二 概率的计算 1 和事件 事件A和事件B中至少有一个发生而构成的新事件称为事件A和事件B的和事件 记作A B n个事件的和 可表示为A1 A2 An 二 概率的计算 2 积事件 事件A和事件B中同时发生而构成的新事件称为事件A和事件B的积事件 记作A B n个事件的积 可表示为A1 A2 An 二 概率的计算 3 互斥事件 互不相容事件 事件A和事件B不能同时发生 则称这两个事件A和B互不相容或互斥 A B V n个事件两两互不相容 则称这n个事件互斥 如血型 A B O AB 二 概率的计算 4 对立事件 事件A和事件B必有一个发生 但二者不能同时发生 且A和B的和事件组成整个样本空间 即A B U AB V 我们称事件B为事件A的对立事件 如 新生儿男或女 二 概率的计算 5 独立事件 事件A和事件B的发生无关 事件B的发生与事件A的发生无关 则事件A和事件B为独立事件 如 种子发芽 如果多个事件A1 A2 A3 An彼此独立 则称之为独立事件群 二 概率的计算 6 完全事件系 如果多个事件A1 A2 A3 An两两互斥 且每次试验结果必然发生其一 则称事件A1 A2 A3 An为完全事件系 完全事件系的和事件概率为 任何一个事件发生的概率为1 n 即 P A1 A2 An 二 概率的计算 二 概率的计算法则 定理 若事件A与B互斥 则P A B P A P B 试验的全部结果包含n个基本事件 事件A包含其中m1个基本事件 事件B包含其中m2个基本事件 由于A和B互斥 因而它们各包含的基本事件应该完全不同 所以事件A B所包含的基本事件数为m1 m2 P A B m1 m2 n m1 n m2 n P A P B 二 概率的计算 推理1P A1 A2 An P A1 P A2 P An 推理3完全事件系的和事件的概率为1 二 概率的计算 例 玉米田中 一穗株 A 占67 2 双穗株 B 占30 7 空穗株 C 占2 1 试计算一穗株和双穗株的概率 P A B P A P B 0 672 0 307 0 979 因为P A P B P C 1P A B 1 P C 1 0 021 0 979 或 二 概率的计算 定理 事件A和事件B为独立事件 则事件A与事件B同时发生的概率为各自概率的乘积 P AB P A P B 推理 A1 A2 An彼此独立 则P A1A2A3 An P A1 P A2 P A3 P An 二 概率的计算 例 播种玉米 种子的发芽率为90 每穴两粒 则 C 两粒种子均发芽 C AB P C P A P B 0 81 求 概率分布 第三部分 三 概率分布 一 离散型变量的概率分布 要了解离散型随机变量x的统计规律 必须知道它的一切可能值xi及其每种可能值的概率pi 对离散型变量x的一切可能值xi i 1 2 3 及其对应的概率pi P x xi pi i 1 2 3 三 概率分布 例 此表给出了该鱼群年龄构成的全部 我们称之为该鱼群年龄的概率分布 三 概率分布 此表列出了性别变量的取值及相应值的概率 揭示了观察婴儿性别试验的统计规律 用随机变量的可能取值及取相应值的概率来表示随机试验的规律称为随机变量的分布律或概率函数 例 三 概率分布 P x xi pi i 1 2 3 设离散型变量x的所有一切可能值xi i 1 2 3 取相应值的概率为pi 则P x xi 称为离散型随机变量x的概率函数 三 概率分布 离散型变量的概率分布的特点 特点 Pi 0 i 1 2 1 三 概率分布 二 连续型变量的概率分布 当试验资料为连续型变量 一般通过分组整理成频率分布表 如果从总体中抽取样本的容量n相当大 则频率分布就趋于稳定 我们将它近似地看成总体概率分布 直方图中同一组内的频率是相等的 三 概率分布 直方图中每一矩形的面积就表示该组的频率 三 概率分布 当n无限大时 频率转化为概率 频率密度也转化为概率密度 阶梯形曲线也就转化为一条光滑的连续曲线 这时频率分布也就转化为概率分布了 此曲线为总体的概率密度曲线 曲线函数f x 称为概率密度函数 三 概率分布 三 概率分布 对于一个连续型随机变量x 取值于区间 a b 内的概率为函数f x 从a到b的积分 即 连续型随机变量的概率由概率分布密度函数所确定 概率密度函数f x 曲线与x轴所围成的面积为1 大数定律 第四部分 四 大数定律 大数定律 是概率论中用来阐述大量随机现象平均结果稳定性的一系列定律的总称 主要内容 样本容量越大 样本统计数与总体参数之差越小 四 大数定律 贝努里大数定律 辛钦大数定律 四 大数定律 1 贝努里大数定律 设m是n次独立试验中事件A出现的次数 而p是事件A在每次试验中出现的概率 则对于任意小的正数 有如下关系 四 大数定律 2 辛钦大数定律 设x1 x2 x3 xn是来自同一总体的变量 对于任意小的正数 有如下关系 几种常见的理论分布 第二节 随机变量的概率分布 probabilitydistribution 离散型变量 discreterandomvariable 连续型变量 continuousrandomvariable 二项分布泊松分布 正态分布 变量 一 二项分布 二项分布是一种离散型随机变量的分布 对于某个性状 常常可以把其资料分为两个类型 试验结果只能是 非此即彼 构成对立事件 将这种事件构成的总体称为二项总体 其概率分布称为二项分布 离散型随机变量的分布 哺乳动物 种子 穗子 生物个体 雄性 雌性 发芽 不发芽 有芒 无芒 成活 死亡 对立事件 一 二项分布的概率函数 非此即彼 一 二项分布 在种子发芽试验中 设事件A为 种子发芽 则A为 种子不发芽 取4粒种子 n 4 来做试验 求有2粒种子发芽 x 2 的概率 在贝努里试验中 独立将此试验重复n次 求在n次试验中 一种结果A出现x次的概率P x 是多少 在4次试验中 事件A发生2次的方式有以下种 由于试验是独立的 按概率的乘法法则 于是有 P P P P P P P 又由于以上各种方式中 任何二种方式都是互不相容的 按概率的加法法则 在4粒种子中正好有2粒种子发芽的概率为 P4 2 P P P 若把上式与二项展开式相比较就可以发现 在n重贝努里试验中 事件A发生x次的概率恰好等于展开式中的第x 1项 所以把P x 称为随机变量x服从参数为n和p的二项分布 binomialdistribution 也称为贝努里分布 记作B n p 这种 非此即彼 的事件所构成的总体称为二项总体 x x x x 二项总体 试验只有两个对立结果 记为A和A 出现概率分别为p和q 1 p 重复性 每次试验条件不变时 事件A出现为恒定概率p 独立性 任何一次试验中事件A的出现与其余各次试验结果无关 一 二项分布 二项分布的两个条件 n 试验次数 或样本含量 n 4x 在n次试验中事件A出现的次数x 2p 事件A发生的概率 每次试验是恒定的 p 0 91 p 事件A不发生的概率1 p 0 1p x X的概率函数 P X x P 2 则4粒种子有两粒发芽的概率为 P x p2q4 2 6 0 92 0 12 0 0486 例 由于二项式中p q 1 p q n 1 p 0 p 1 p 2 p x p n 1 一 二项分布 或者n个事件构成一个完全事件系 所以有 现已求出某事件发生的概率 若试验N次 则该事件发生的理论次数为 理论次数 NP x 二项分布的概率累积函数为 二 二项分布概率函数 概率的计算 样本容量的确定 p x Cnxpx 1 p n x 3 1 若每次观察4株 共观察100次 问得红花为0 1 2 3 4株的概率各为多少 一 二项分布的计算 例 豌豆红花和白花杂交后 在F2红花 白花 3 1 F1 F2 概率函数Cnxpxqn xP x F x NP x P 0 C40p0q40 00390 00390 39P 1 C41p1q30 04690 05084 69P 2 C42p2q20 21090 261721 09P 3 C43p3q10 42190 683642 19P 4 C44p4q00 31641 00031 64合计1 000100 表观察4株出现红花的概率分布表 p 0 75q 1 p 0 25 例2 鸡蛋孵化率为 每次选5个进行孵化 试求孵出小鸡的各种可能概率 若做1000次试验 其理论次数分别为多少 例 某小麦品种在田间出现自然变异的概率为0 0045 1 调查100株 获得两株或两株以上变异植株的概率是多少 2 期望有0 99的概率获得1株或1株以上的变异植株 至少应调查多少株 n 100 p 0 0045 P x 2 1 P 0 P 1 0 0751 P 0 0 01 n 1021 株 二 样本容量的确定 一 二项分布 三 二项分布的形状和参数 1 当p值较小且n不大时 分布是偏倚的 随n的增大 分布趋于对称 二项分布的形状由n和p两个参数决定 B n p 一 二项分布 三 二项分布的形状和参数 2 当p值趋于0 5时 分布趋于对称 统计学证明 服从二项分布B n p 的随机变量所构成的总体的平均数 标准差 与n p这两个参数有关 一 二项分布 三 二项分布的形状和参数 np 在二项分布中 事件A发生的频率x n称为二项成数 即百分数或频率 则二项成数的平均数和标准差分别为 也称为二项总体百分数的标准误 当p未知时 常以样本百分数来估计 此时上式改写为 称为样本百分数标准误 例 豌豆红花纯合基因型和白花纯合基因型杂交后 在F2代红花植株与白花植株出现的比例为3 1 每次观察4株 n 4 红花出现概率为p 3 4 0 75 1 红花出现的平均株数 np 3 0 株 n1 0 1 2 3 4 总体 红花出现株数 一 二项分布 三 二项分布的形状和参数 1 红花出现的频率的平均数 p np n 3 0 4 0 75 p 二项分布的百分数 成数 二 泊松分布 二 泊松分布 泊松分布 Poissondistribution 是一种可以用来描述和分析随机地发生在单位空间或时间里的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 健康管理考试口诀及答案
- 高数题库及答案资源
- 2025年森林管护工考试题及答案
- 成长足迹课件
- 2025年重庆地理补考试卷及答案
- 特岗化学考试真题及答案
- 情景剧表演课课件
- 护理员理论考试题及答案
- 瑜伽导师考试题目及答案
- 火车司机选拔考试题及答案
- 2025广东中山大学附属第一医院惠亚医院事业编制人员招聘37人(第二批次)笔试备考试题及答案解析
- 精神卫生防治业务技能竞赛理论试题库300题(含答案)
- 校服专业知识培训内容课件
- 2025年生物制药靶点发现与验证技术临床试验监管政策报告
- 2025年全国质量月数智驱动筑基强链创新质量生态宣传
- 2025海航航空食品(北京)有限公司招聘260人笔试参考题库附答案解析
- 睿卡古筝课件
- 电路维修安全知识培训课件
- 炼铜厂安全知识培训课件
- 2025至2030中国压力袜(弹性袜)行业项目调研及市场前景预测评估报告
- 2026届新高考历史热点冲刺复习秦统一多民族封建国家的建立
评论
0/150
提交评论