




已阅读5页,还剩83页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章理论分布与抽样分布 第一节试验数据资料的整理与描述第二节二项分布第三节正态分布第四节抽样分布 第一节试验数据资料的整理与描述 一 相关统计学术语二 试验数据资料的性质三 次数分布表与分布图四 数量资料的特征数 一 相关统计学术语 1数据与变量 数据 组成样本的每种性状的观察值的集合 也称资料 变量 构成数据的每一个观察值 2参数与统计数 参数 由总体的全部变量计算所得到的总体某一特征数 用希腊字母表示 如 表示总体平均数 表示总体标准差 统计数 由样本的全部变量计算所得到的样本某一特征数 用拉丁字母表示 如表示样本平均数 s表示样本标准差 二 试验数据资料的性质 1数量性状资料 quantitativetrait 指可以通过一定的度量方式而用数字描述的性状 其度量有计数和量测两种方式 其所得的变量不同 1 不连续性或间断性变量 指用计数方法获得的资料 如出苗数 叶片数等 其各个观察值必须以整数表示 不允许有带小数点的数值存在 2 连续性变量 指用称量 度量或测量方法得到的数据 如千粒重等 其各个观察值并不限于整数 小数位数的多少 因称量的精度而异 二 试验数据资料的性质 2质量性状资料 qualitativetrait 指只能观察叙述而不能测量的性状 即属性性状如果实的色泽 叶色 叶片上毛茸的有无等 要获得这些性状的数量资料 可采用下列3种方法 三 次数分布表与分布图 1不连续性数量性状变量资料的整理 采用单项式分组法进行整理 特点 用样本变量自然值进行分组 每组均用一个或几个观察值来表示 分组时 可将数据资料中每个观察值分别归入相应的组内 然后制成次数分布表 1 如果观察值个数较少 或变异幅度较小 就以每一个变量为一组进行整理 2 如果观察值个数较多 或变异幅度较大 就以相邻的几个变量为一组进行整理 三 次数分布表与分布图 第11页 例1 2 1 100个麦穗的每穗小穗数 三 次数分布表与分布图 100个麦穗每穗小穗数的次数分布表 图 频率 小穗数 三 次数分布表与分布图 2连续性数量性状变量资料的整理 类似于不连续性变量资料的第2种情况 第12页例1 2 2 120个黄瓜叶片中叶绿素a含量的测定值 三 次数分布表与分布图 2连续性数量性状变量资料的整理 1 求极差 极差 所有数据中最大观察值与最小观察值的差值 也称全距 表示整个样本的变异幅度 用R表示 R 1 95 1 64 mg g鲜重 0 31mg g鲜重 2 确定组数 组数要根据样本的容量 全距 便于计算 能反映资料的真实面貌等因素来确定 三 次数分布表与分布图 2连续性数量性状变量资料的整理 3 计算组距 组距 每组内的上下限范围 分组时要求各组的距离相同 即各组是等组距的 组距 极差 组数 0 31 15mg g鲜重 0 02mg g鲜重 三 次数分布表与分布图 2连续性数量性状变量资料的整理 4 确定组限与组中值 组限 每组观察值的界限 包括上限和下限 组限要明确 最好比原始资料的数字多一位小数 这样可使观察值归组时不至于含糊不清 为了把资料中最小和最大的观察值包括在内 最小一组的下限必须小于最小观察值 最大一组的上限必须大于最大观察值 组中值 每组下限和上限的中间值 为了避免第一组中观察值数过多 一般第一组的组中值最好接近或等于资料中的最小值 组中值 下限 上限 2 下限 1 2组距 上限 1 2组距 三 次数分布表与分布图 2连续性变量资料的整理 频率 叶绿素a含量 mg g鲜重 三 次数分布表与分布图 3质量性状变量资料的整理 整理前 把资料按各种质量性状进行分类 分类数等于组数 根据各个观察值在质量属性上的具体表现 归入相应的组内 即可得到属性分布的规律性认识 第14页例1 2 3 水稻杂种F2代植株米粒性状的分离情况 四 数量资料的特征数 120个黄瓜叶片中叶绿素a含量的次数分布图 离散性 一 平均数 平均数的意义数据资料的代表值 表示全部观察值的中心位置 代表该组数据与其他数据进行比较平均数的种类 算术平均数 几何平均数 中位数 大小居中的观察值 Md 众数 次数最多的观察值 M0 一 平均数 算术平均数的性质离均差之和为零 即各观察值与其平均数之差的总和等于零 一 平均数 算术平均数的性质离均差平方和最小 即各观察值与其平均数的差数的平方的总和 小于各观察值与任何一个数值的差数的平方的总和 二 变异数 引入变异数的意义平均数作为数据资料的代表 其代表性的强弱由各观察值变异程度的大小决定 A组10 8 10 11 11B组2 18 8 15 7 使用平均数描述数据资料是不够的 还需要引进一个表示变异程度的统计数 即变异数 常用的有极差 方差 标准差和变异系数 二 变异数 极差定义 又称全距 R 最大和最小观察值的差值 缺点 由观察值中两个极端值决定 不能反映全部观察值的信息 而且容易受资料中不正常极端值的影响 优点 快速简单 A组10 8 10 11 11R 3B组2 18 15 8 7R 16C组2 18 10 10 10R 16 二 变异数 方差离均差 可以反映全部观察值的变异情况 但 A组8 8 12 12B组8 12 平方和 各个离均差的平方的总和 二 变异数 方差方差 用观察值数目来除平方和 为什么用n 1 而不用n 总体方差 样本方差 二 变异数 n 1称为自由度 df 多数情况下 这样 用样本SS代替总体SS就会使 2值偏小 为了校正 分母使用较小的n 1而不是n 当n 30时 分母必须使用n 1 当n 30时 n和n 1差异不大 分母可使用n 二 变异数 标准差方差的缺点度量单位也平方平方使数值的量增大 与实际变异度有差距 标准差 方差的平方根 标准差的优点 保留方差的优点 度量单位上与平均数一致 在数量水平上也比较客观 数量资料的表示方法 二 变异数 变异系数标准差的缺点 比较两个样本的变异程度时 两个样本的单位 平均数和性质必须相同 如果不同 需要引入表示相对变异程度的变异数 即变异系数 CV 变异系数在田间试验中有重要用途 如在空白试验时 可作为土壤差异的指标 但变异系数同时受标准差和平均数的影响 因此 在使用变异系数时 要同时列举平均数和标准差 否则可能会引起误解 二 变异数 变异系数例 小麦A品种的株高为95 9 02 cm B品种为75 8 50 cm 问哪个品种株高整齐度好 直接用标准差比较 9 02 8 50 cm B品种较整齐 但二者平均数不相同 需用变异系数比较 9 5 11 3 A品种较整齐 三 自由度的含义 自由度样本内独立而能自由变动的离均差个数 如一个样本为 3 4 5 6 7 平均数为5 前面 4个数的离均差分别为 2 1 0 1 那么第5个数的离均差必须为2 才能满足各观察值的离均差之和为零这个特性 一般来说 样本自由度等于观察值的个数 n 减受条件约束的个数 k 即df n k 在应用上 小样本一定要用自由度来估计标准差 大样本的n和n 1相差不大 也可不用自由度 而直接用n作除数 但大样本与小样本之间没有明确的界限和统一的规定 所以一般样本在估计标准差时 都用自由度 四 标准差的计算 1 直接计算 在直接计算标准差时 先求出 再求 最后再计算s 这样比较麻烦 而且当由四舍五入而来时 容易引起计算误差 所以将作如下变形 2 利用矫正数 矫正数 C 120个黄瓜叶片中叶绿素a含量的平均数与标准差 mg g鲜重 mg g鲜重 四 标准差的计算 3 减去常数法 如果观察值较大或较小 可将各观察值都减去 或加上 一个常数 所得的s值不变 第二节二项式分布 一 二项总体二 二项式分布三 二项式分布的概率计算方法四 二项式分布的形状五 二项式分布的参数六 多项式分布七 泊松分布 一 二项总体 二项总体 由非此即彼的两项 对立事件 构成的总体黄瓜种子发芽和不发芽桃果实的有毛和无毛豌豆的黄色与绿色 圆粒与皱粒等 此 事件以变量 1 表示 具概率p 彼 事件以变量 0 表示 具概率q 因而二项总体又称为0 1总体 其概率则显然有 p q 1或q 1 p 二 二项式分布 二项式分布 如果从二项总体进行n次重复抽样 设出现 1 的次数为k 那么k的取值可能为0 1 2 n 共有n 1种可能取值 这n 1种取值各有其概率 因而由变量k及其概率就构成了一个分布 这个分布叫做二项式概率分布 简称二项式分布或二项分布 三 二项式分布的概率计算方法 例 在两个班63名学生中 有30名女学生 1 33名男学生 0 如果从全体学生中抽取3人次参加志愿者 那么女学生被抽到2次的概率是多少 3个 1 的概率 30 63 3 27000 2500472个 1 1个 0 的概率 3 30 63 2 33 63 89100 2500471个 1 2个 0 的概率 3 30 63 33 63 2 98010 2500473个 0 的概率 33 63 3 35937 250047总概率 27000 89100 98010 35937 250047 1 女学生被抽到2次的概率3 30 63 2 33 63 89100 250047每一个复合事件的概率必等于该事件出现的组合数目乘以单个事件的概率这一复合事件的可能组合数目则相当于从n个物体中任取k个物体的组合数二项分布的概率计算公式 应用举例 P19 例1 3 1 一批玉米种子的出苗率为0 8 现每穴播5粒 问每穴出3棵苗的概率是多少 问每穴至少出2棵苗的概率是多少 应用举例 P19 例1 3 1 四 二项式分布的形状 左图为上述抽取男女学生的概率分布图右图为学生总数为64名 男女学生各为32名的概率分布图如果p q 二项式分布呈对称形状 如果p q 则表现偏斜形状 如果n足够大 即使p q 图形也对称 当n 时 就变为二项分布的极限分布 即正态分布 五 二项式分布的参数 平均数 和方差 2 或标准差 是描述总体分布的两个重要参数二项式分布的 np 2 npq 如抽取学生参加志愿者的实验中 女学生被抽中的平均人次数为 np 3 30 63 1 43人次 六 多项式分布 多项总体 如果总体内包含2种以上的特性或分类标志 可以将总体中的个体分为几类 这样的总体称为多项总体 如 给某一人群使用一种新药 可能有的疗效好 有的无疗效 而有的会产生副作用 多项式分布 研究多项总体随机变量的概率分布 四 泊松分布 如果在二项分布中 p或q很小而n很大时 它描述的是大量试验中的随机稀疏现象 这样的分布为二项分布的极限分布 称为泊松概率分布 简称泊松分布 某种昆虫在一定面积上的分布等泊松分布的概率函数为其中 np k 0 1 2 e 2 71828 为自然对数的底数 泊松分布的 2 泊松分布的形状由 的大小决定 当 值小时分布呈很偏斜形状 增大后则逐渐对称 趋近于下面要讲的正态分布 实例 P20例1 3 2 第三节正态分布 一 研究正态分布的意义二 正态分布的定义三 正态分布曲线的特征四 正态分布的标准化五 正态分布的概率计算六 两尾概率和一尾概率 一 研究正态分布的意义 什么是正态 试验中许多数量指标总是在正常范围内有差异 偏离正常 表现过高或过低的情况总是比较少 而且越不正常的可能性越少 这就是所谓的常态或称为 正态 正态分布是连续性变数的理论分布 研究正态分布的意义 客观世界中有许多现象的数据服从正态分布 适当条件下可以用来做二项分布和其它间断性或连续性分布的近似分布 虽然有些总体并不服从正态分布 但从总体中抽出的样本平均数和其它一些统计数的分布 在样本容量大时仍然趋近正态分布 二 正态分布的定义 如果连续性随机变量x的概率分布密度函数为则称随机变量x服从正态分布 记为x N 2 其中 为平均数 2为方差 N专指正态曲线其概率分布函数为 三 正态分布曲线的特征 1 正态分布曲线是以x 为对称轴的对称曲线 且当x 时有最大值f 其算术平均数 中数和众数均为 2 正态分布曲线是以参数 和 的不同而表现为一系列曲线 确定它在横轴上的位置 而 确定它的宽窄 3 正态分布资料的次数分布表现为多数次数集中于算术平均数 附近 且在 x 左右相等范围内具有相等次数 在 x 3 以上次数极少 4 正态曲线在 x 1 处有 拐点 曲线两尾向左右伸展 永不接触横轴 所以当y 分布曲线以x轴为渐近线 曲线全距为 5 正态曲线与横轴之间的总面积等于1 因此在曲线下横轴的任何定值 例如从x x1到x x2之间的面积 等于介于这两个定值间面积占总面积的成数 或者说等于x落于这个区间内的概率 正态曲线的任意x1到x2之间的面积或概率乃完全以曲线的 和 确定的 应用举例 水稻140行产量资料的样本分布表现出接近正态分布 其 157 9g s 36 4g n 3 n逐渐增大 n 四 正态分布的标准化 正态分布的参数为 0 2 1时的正态分布称为标准正态分布记作u N 0 1 3 2 10123 概率密度函数 概率分布函数 psai fai 标准化变换 u称为标准正态变量或标准正态离差附表2为正态分布表 从中可以查到u在某一个区间内取值的概率 五 正态分布的概率计算 1 标准正态分布的概率计算u在 u1 u2 内取值的概率为 P u2 u1 u2 和 u1 可由附表2查得 u1u2 P u1 u u2 fN u u 其它计算 P 0 u u1 u1 0 5P u u1 1 u1 P u u1 2 1 u1 1 P u1 u u1 P u u1 2 1 u1 熟记以下几种概率P 1 u 1 0 6826P 2 u 2 0 9545P 3 u 3 0 9973P 1 96 u 1 96 0 95P 2 58 u 2 58 0 99 2 一般正态分布的概率计算将区间的上下限作标准化变换 查附表2计算 如 设x服从 30 26 2 5 102的正态分布 求P 21 64 x 32 98 令则P 21 64 x 32 98 P 1 69 u 0 53 0 65643 六 两尾概率和一尾概率 两尾概率 随机变量x落在 k 区间之外的概率 一尾概率 随机变量x小于 k 或大于 k 的概率 利用附表3可查得已知两尾概率时的u值 应用举例 如从附表3可查得P 0 01时u 2 5758 即表示 P u 2 5758 0 01P 0 05时u 1 9599 即表示 P u 1 9599 0 05如果仅计算一尾 则为两尾概率值的1 2 例如计算P u 1 6448 1 2 P u 1 6448 1 2 0 1 0 05 第四节抽样分布 一 引言二 样本平均数的抽样分布三 样本总和数的抽样分布四 两个独立随机样本平均数差数的抽样分布五 正态总体抽样的分布规律六 二项成数分布七 二项次数分布 一 引言 统计学主要任务 总体和样本的关系研究方向总体 样本 抽样分布 样本 总体 统计推断 抽样分布 从总体中随机抽取若干样本 样本观察值的统计数分布 抽样分布是统计推断的基础 二 样本平均数的抽样分布 从容量为N的有限总体中抽样 若每次抽取容量为n的样本 那么一共可以得到Nn个样本 每个样本可以计算一个平均数 所有可能的样本的平均数集合起来便构成一个新总体 每个样本平均数构成新总体的一个随机变量 其概率分布称为样本平均数抽样分布 样本平均数与原总体平均数相比往往表现出不同程度的差异 这种差异是由随机抽样造成的 称为抽样误差 样本平均数抽样总体的标准差称为标准误 样本平均数抽样总体与原总体特征参数的关系 实例验证 设有一个包含4个个体的有限总体 N 4 变量为2 3 4 5 从该总体中抽取样本容量n 2的复置随机抽样 计算样本平均数总体的平均数与标准差 样本平均数抽样总体原总体 总体变量x与样本平均数变量概率分布间的关系 1 若总体随机变量x服从正态分布 则从此总体中抽取的随机样本的统计数也是正态分布 2 若随机变量x不服从正态分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 日照市莒县中小学美术教师招聘考试试题及答案
- 2025年机务检修考试试题及答案
- 2025年铁路机务试题及答案
- 高企调账合同模板(3篇)
- qc知识考试试题及答案
- 现代农业企业代理记账服务合同
- 文化产业项目投资担保合同模板
- 消费电子行业商标许可及技术创新协议
- 剑桥数学专业测试题及答案
- 园长专业考试试题及答案
- GB/T 21220-2024软磁金属材料
- 2.1 地表形态变化的内外力作用-内力作用 中图版(2019)地理选择性必修一高二上学期
- 数字化印花工艺智能化
- 成人鼻肠管的留置与维护
- 专题02 概率与统计解答题综合(解析版)
- MOOC 模拟电子电路实验-东南大学 中国大学慕课答案
- 多格列艾汀使用指南2024课件
- MOOC 创业基础-暨南大学 中国大学慕课答案
- (2024年)面神经炎课件完整版
- GB/T 41666.4-2024地下无压排水管网非开挖修复用塑料管道系统第4部分:原位固化内衬法
- 云端药历健保署电子病历-慈济大学医学资讯学系
评论
0/150
提交评论