第二章 试验资料的整理与特征数的计算修_第1页
第二章 试验资料的整理与特征数的计算修_第2页
第二章 试验资料的整理与特征数的计算修_第3页
第二章 试验资料的整理与特征数的计算修_第4页
第二章 试验资料的整理与特征数的计算修_第5页
已阅读5页,还剩90页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章试验资料的整理与特征数的计算 本章内容 第一节试验资料的搜集与整理一 试验资料的类型二 试验资料的搜集三 试验资料的整理第二节试验资料特征数的计算一 平均数二 变异数 一 试验资料的类型 二 试验资料的搜集 三 试验资料的整理 对试验资料进行分类是统计归纳的基础 试验资料类型 数量性状资料 质量性状资料 属性性状资料 计数资料 非连续变量资料 计量资料 连续变量资料 数量性状是指能够以计数和测量或度量的方式表示其特征的性状 观察测定数量性状而获得的数据就是数量性状资料 数量性状资料的获得有计数和测量两种方式 因而数量性状资料又分为计数资料和计量资料两种 一 数量性状资料 1 计数资料指用计数方式获得的数量性状资料 在这类资料中 它的各个观察值只能以整数表示 在两个相邻整数间不得有任何带小数的数值出现 因此各观察值是不连续的 所以该类资料也称为非连续变量资料或间断变量资料或离散变量资料 2 计量资料指用测量或度量法获得的数量性状资料 其数据是用长度 重量 容积 温度 浓度等来表示 要带单位 这种资料的各个观测值不一定是整数 两个相邻的整数间可以有带小数的任何数值出现 它们之间的变异是连续性的 因此计量资料也称为连续变量资料 二 质量性状资料质量性状是指能观察到而不能直接测量的性状 观察质量性状而获得的数据就是质量性状资料 也称为属性性状资料 这类性状本身不能直接用数值表示 要获得这类性状的数据资料 须对其观察结果作数量化处理 其方法有以下两种 1 统计次数法在一定的总体或样本中 根据某一质量性状的类别统计其次数 以次数作为质量性状的数据 例如 在研究豌豆的花色遗传时 红花与白花杂交 子二代中红花 紫花和白花的株数分类统计如下表 这种由质量性状数量化得来的资料又叫次数资料 2 评分法对某一质量性状分成不同级别 对不同级别进行评分来表示其性状差异的方法 从而将质量性状进行数量化 以便统计分析 如 小麦感染锈病的严重程度可划分为0 免疫 1 高度抵抗 2 中度抵抗 3 感染 级 一 试验资料的类型 二 试验资料的搜集 三 试验资料的整理 调查 试验 资料搜集的方法 一 调查调查是对已经存在的事情的资料按某种方案进行收集的方法 资料的调查又可以分为两种 普查和抽样调查 1 普查是对研究对象的全部个体逐一进行调查的方法 普查一般要求在一定的时间或范围进行 要求准确和全面 2 抽样调查是根据一定的原则从研究对象中抽取一部分具有代表性的个体进行调查的方法 通过抽样将获得的样本资料进行统计处理 然后利用样本的特征数对总体进行推断 随机抽样必须满足2个条件 一是总体中每个个体被抽中的机会是均等的 二是总体中任意一个个体是相互独立的 是否被抽中不受其他个体的影响 生物学研究中 进行普查的情况较少 多数情况下还是进行抽样调查 二 试验试验是对已有的或没有的事物加以处理的方法 常见的试验设计方法有 对比设计 随机区组设计 平衡不完全区组设计 裂区设计 拉丁方设计 正交设计 正交旋转设计等等 试验设计须遵循的三大原则是 随机 重复和局部控制 一 试验资料的类型 二 试验资料的搜集 三 试验资料的整理 三 试验资料的整理 一 原始资料的检查与核对 调查 试验 原始数据 核对 检查 订正 检查和核对原始资料的目的 确保原始资料的完整性和正确性 二 次数 频数 分布表 统计表的结构和要求 结构简单 层次分明 安排合理 重点突出 数据准确 表号标题 1 标题简明扼要 准确地说明表的内容 有时须注明时间 地点 2 标目标目分横标目和纵标目两项 横标目列在表的左侧 纵标目列在表的上端 标目需注明计算单位 如 kg cm等等 3 数字一律用阿拉伯数字 数字以小数点对齐 小数位数一致 无数字的用 表示 数字是 0 的 则填写 0 4 线条多用三线表 上下两条边线略粗 计数资料基本上采用单项式分组法进行整理 特点 用样本变量自然值进行分组 每组用一个或几个变量值来表示 11 17 来亨鸡每月产蛋数变动范围 分为7组 统计各组次数 计算频率和累积频率 制表 每月产蛋数次数频率累积频率FrequencyPercentCumulativePercent1120 020 021270 070 0913190 190 2814350 350 6315210 210 8416110 110 951750 051 00 表2 2100只来亨鸡每月产蛋数次数分布表 累积频率 按某种标志对数据进行分组后 分布在各组内的数据个数称为频数或次数 各组频数与全部频数之和的比值称为频率或比重 为了统计分析的需要 观察某一数值以下或某一数值以上的频率之和 叫做累积频率 或叫做对频率的累计 从变量值小的一方向变量值大的一方累加 称为向上累积 反之为向下累积 频率的最终累积值为100 1自然值进行分组 最大值17 最小值11 2数据主要集中在14 向两侧分布逐渐减少 表2 3小麦品种300个麦穗穗粒数的次数分布表 45组 9组 计量资料一般采用组距式分组法 全距 组数 组距 组限 归组 制表 表2 4150尾鲢鱼体长 cm 1 求全距 又称极差 range R Xmax Xmin 85 37 48 cm 2 确定组数和组距 classboundary 组数是根据样本观测数的多少及组距的大小来确定的 同时考虑到对资料要求的精确度以及进一步计算是否方便 组数 组距 多 小 统计数精确 计算不方便 少 大 统计数不精确 计算方便 组数的确定 表2 5样本容量与分组数的关系 组距的确定 即每组内的上下限范围 组距 全距 组数 48 10 4 8 10组 5cm 3 确定组限 classlimit 和组中值 classmidvalue 组限是指每个组变量值的起止界限 上限 下限 组中值是两个组限的中间值 表2 4150尾鲢鱼体长 cm 最小一组的下限必须小于资料中的最小值 最大一组的上限必须大于资料中的最大值 组限可取到10分位或5分位上 临界值只写下限不写上限 35 40 45 85 4 分组 确定好组数和各组上下限后 可按原始资料中各观测值的次序 将各个数值归于各组 计算各组的观测数次数 频率 累积频率 制成一个次数分布表 计数的方法 卡片法 唱票法 画 正 字 组限组中值次数频率累积频率FrequencyPercentCumulativePercent35 37 530 02000 020040 42 540 02670 046745 47 5170 11330 160050 52 5280 18670 346755 57 5400 26660 613360 62 5250 16670 780065 67 5170 11330 897370 72 560 04000 933375 77 570 04670 980080 82 520 01330 993385 87 510 00671 0000 表2 6150尾鲢鱼体长的次数分布表 三 次数 频数 分布图 定义 把次数分布资料画成统计图形 特点 直观 形象 包括 条形图 直方图 多边形图 饼图和散点图 统计图绘制的基本要求 1 标题简明扼要 列于图的下方 2 纵 横两轴应有刻度 注明单位 3 横轴由左至右 纵轴由下而上 数值由小到大 图形长宽比例约5 4或6 5 4 图中需用不同颜色或线条代表不同事物时 应有图例说明 图2 1月产蛋数次数分布柱形图 图2 2月产蛋数频率分布柱形图 条形图 barchart 又称柱形图 计数资料 特点 柱形之间要间隔一定的距离 横坐标 变量的自然值纵坐标 次数 质量性状资料 2饼图 piechart 图1来亨鸡月产蛋次数分布图 计数资料 质量性状资料 3直方图 histogram 又称矩形图 计量资料 特点 各组之间没有距离 横坐标 各组组限纵坐标 次数 4多边形图 polygon 又称折线图 broken linechart 计量资料 图2 3鲢鱼体长次数分布图 横坐标 各组组中值纵坐标 次数 5散点图 scatter a 正向直线关系 b 负向直线关系 c 曲线关系 计量资料 计数资料 4035302520151050 集中性是变量在趋势上有着向某一中心聚集 或者说以某一数值为中心而分布的性质 离散性是变量有着离中分散变异的性质 变量的分布具有两种明显的基本特征 集中性和离散性 集中性 离散性 平均数 变异数 算术平均数 中位数 众数 几何平均数 极差 方差 标准差 变异系数 调和平均数 特征数 一 平均数 平均数是统计学中最常用的统计量 是计量资料的代表值 表示资料中观测数的中心位置 并且可作为资料的代表与另一组相比较 以确定二者的差异情况 一 平均数的种类 算术平均数 中位数 众数 几何平均数 1 算术平均数 arithmeticmean 定义 总体或样本资料中所有观测数的总和除以观测数的个数所得的商 简称平均数 均数或均值 样本 2 中位数 median 资料中所有观测数依大小顺序排列 居于中间位置的观测数称为中位数或中数 Md 1 当观测值个数n为奇数时 n 1 2位置的观测值 即x n 1 2为中位数 Md 2 当观测值个数为偶数时 n 2和 n 2 1 位置的两个观测值之和的1 2为中位数 即 3 众数 mode 资料中出现次数最多的那个观测值或次数最多一组的组中值 中点值 M0 注意 1 对于某些数据而言 如均匀分布 并不存在众数 2 对于某些数据存在两个或两个以上的众数 3 主要用来描述频率分布 4 几何平均数 geometricmean 资料中有n个观测数 其乘积开n次方所得数值 G 适用范围 几何均数适用于变量X为对数正态分布 经对数转换后呈正态分布的资料 G 二 算术平均数的计算方法 直接计算法 减去常数法 加权平均法 1 直接计算法主要用于样本含量n 30以下 未经分组资料平均数的计算 例 随机抽取20株小麦测量它们的株高 cm 分别为 79858486848382838384818081828182828280求小麦的平均株高 2 减去 加上 常数法若变量的值都比较大 或都比较小 且接近某一常数a时 可将它们的值都减去 或加上 常数a 得到一组新的数据 再计算其平均数 例 设a为80 cm 则有 7985848684838283832 1546432338180818281828282804101212220 80 3 加权平均法对于样本含量n 30以上且已分组的资料 可以在次数分布表的基础上采用加权法计算平均数 计算公式为 第i组的次数fi是权衡第i个自然值xi在资料中所占比重大小的数量 因此将fi称为是xi的 权数 加权法也由此而得名 例 式中 第i组的组中值 第i组的次数 分组数 若为分组资料 则用每组组中值乘以该组次数之和再除以总次数来计算 例 将100头长白母猪的仔猪一月窝重 单位 kg 资料整理成次数分布表如下 求其加权数平均数 表100头长白母猪仔猪一月窝重次数分布表 即这100头长白母猪仔猪一月龄平均窝重为45 2kg 计算若干个来自同一总体的样本平均数的平均数时 如果样本含量不等 也应采用加权法计算 例 某牛群有黑白花奶牛1500头 其平均体重为750kg 而另一牛群有黑白花奶牛1200头 平均体重为725kg 如果将这两个牛群混合在一起 其混合后平均体重为多少 此例两个牛群所包含的牛的头数不等 要计算两个牛群混合后的平均体重 应以两个牛群牛的头数为权 求两个牛群平均体重的加权平均数 即 离均差之和等于零 离均差平方和最小 p18 三 算术平均数的重要性质 四 算术平均数的作用 1 指出一组数据资料内变量的中心位置 标志着资料所代表性状的数量水平和质量水平 2 作为样本或资料的代表数与其他资料进行比较 二 变异数 变异数的种类 极差 方差 标准差 变异系数 一 极差 全距 range 极差是数据分布的两端变异的最大范围 即样本变量值最大值和最小值之差 用R表示 它是资料中各观测值变异程度大小的最简便的统计量 例 150尾鲢鱼体长R 85 37 48 cm R max x1 x2 xn min x1 x2 xn x1 x2 xn max x1 x2 xn min 当资料很多而又要迅速对资料的变异程度作出判断时 可以利用极差 用途 如何准确地表示样本内各个观测值的变异程度 平均数 可以求出各个观测值与平均数的离差 即离均差 离均差可以反映出一个观测值偏离平均数的性质和程度 离均差之和为零 平方和 SS 平方和的平均数 自由度 degreeoffreedom df 其统计意义是样本内独立而能自由变动的的观测值个数 均方 meansquare MS 方差 variance 二 方差 Variance 样本 总体 样本方差带有原观测单位的平方单位 在仅表示一个资料中各观测值的变异程度而不作其它分析时 常需要与平均数配合使用 这时应将平方单位还原 即求出样本方差的平方根 为了便于比较 用离均差平方和除以样本容量n 得到平均的平方和 简称方差 标准差 三 标准差 standarddeviation Sd 样本 总体 三 标准差 standarddeviation Sd P20 x 411 x2 18841 X 6 X 2 76 三 标准差 standarddeviation Sd 对于分组的资料 应采用加权的公式进行 例 总和201646135524 三 标准差 standarddeviation Sd 特性 标准差的大小 受多个观测数影响 如果观测数与观测数间差异较大 则离均差也大 因而标准差也大 反之则小 1 各观测数加上或减去一个常数 其标准差不变 2 各观测数乘以或除以一个常数a 其标准差扩大或缩小a倍 观测值个数 观测值总个数 四 变异系数 coefficientofvariability CV 定义 样本的标准差除以样本平均数 所得到的比值就是变异系数 特点 是样本变量的相对变异量 不带单位 可以比较不同样本相对变异程度的大小 四 变异系数 coefficientofvariability CV 大田 穗粒数65 0 标准差18 9丰产田 穗粒数44 6 标准差18 3 大田 CV 18 9 65 29 08 丰产田 CV 18 3 44 6 41 03 问 哪种栽植田水稻穗粒数变异程度较大 四 变异系数 coefficientofvariability CV 用途 1 比较单位不同的多组资料的变异度 例 某地20岁男子100人 其身高均数为166 06cm 标准差为4 95cm 其体重均数为53 72kg 标准差为4 96kg 比较身高与体重的变异情况 身高 CV 2 98 体重 CV 9 23 该地20岁男子体重的变异大于身高的变异 四 变异系数 coefficientofvariability CV 用途 2 比较均数相差悬殊的多组资料的变异度 练习题 试分别计算出以下两个玉米品种的10个果穗长度 cm 的标准差及变异系数 并解释所得结果 郑单21 19 21 20 20 18 19 22 21 21 19浚单22 16 21 24 15 26 18 20 19 22 19 作业 一 某地100例30 40岁健康男子血清总胆固醇 mol L 1 测定结果如下 4 773 376 143 953 564 234 314 715 694 124 564 375 396 305 217 225 543 935 216 515 185 774 795 125 205 104 704 743 504 694 384 896 255

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论