




已阅读5页,还剩56页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章统计数据的收集 整理 教学基本要求 了解资料的类型 理解次数分布表与次数分布图的概念 掌握次数分布表与次数分布图的制作方法 了解常用统计量的种类 理解样本平均数 样本标准差 样本变异系数的意义 作用 掌握样本平均数 样本标准差 样本变异系数的计算方法 教学重点难点 重点 大样本连续型变数资料的分组方法 次数分布表与次数分布图的制作 样本平均数 样本标准差 样本变异系数的意义 作用和计算方法 难点 分组数列的确定 样本标准差的统计意义教学建议 分组收集资料 一 攻关目标 建立节水型的优质高效农业发展模式 提高区域农业水资源利用率及生产效率 为节水条件下农业高效持续发展提供技术支持和示范模式 第一章实验数据的收集 整理 1 1资料的分类1 2数据的收集1 3资料的检查和核对1 4资料的整理和分组1 5特征数1 5 1平均数1 5 2变异数 3 一 攻关目标 建立节水型的优质高效农业发展模式 提高区域农业水资源利用率及生产效率 为节水条件下农业高效持续发展提供技术支持和示范模式 第一节资料的分类 正确地进行资料的分类是资料整理的前提 在调查或试验中 由观察 测量所得的数据按其性质的不同 一般可以分为 数量性状资料质量性状资料 4 一 攻关目标 建立节水型的优质高效农业发展模式 提高区域农业水资源利用率及生产效率 为节水条件下农业高效持续发展提供技术支持和示范模式 第一节资料的分类 一 数量性状资料能由计数和量测的方式获得的性状数量资料为数量性状资料 因数量性状 quantitativetrait 的度量有计数和量测两种方式 其所得数据不同 5 一 攻关目标 建立节水型的优质高效农业发展模式 提高区域农业水资源利用率及生产效率 为节水条件下农业高效持续发展提供技术支持和示范模式 第一节资料的分类 1 连续型数据 continuousvariable 指由称量 度量或测量 分析化验等方法所得到的数据 其各个变量并不仅限于整数 在两个相邻数值之间可以有微量差异的其他数值存在 例如 测定粒重 产量 株高 长度 营养元素的含量等 6 一 攻关目标 建立节水型的优质高效农业发展模式 提高区域农业水资源利用率及生产效率 为节水条件下农业高效持续发展提供技术支持和示范模式 第一节资料的分类 2 间断型数据 discretevariable 是指由计数方法所获得的数据 其各个数据必须以整数表示 在两个相邻的整数间不能有带小数的数值存在 由于两个整数间是不连续的故称为不连续型或间断型数据 如动物头数 穗数 每穗粒数等 7 一 攻关目标 建立节水型的优质高效农业发展模式 提高区域农业水资源利用率及生产效率 为节水条件下农业高效持续发展提供技术支持和示范模式 第一节资料的分类 二 质量性状资料质量性状 qualitativetrait 指能观察而不能量测的性状 即属性性状 如肤色 花 子粒等器官的颜色 绒毛的有无等 由只能观察描述或感觉而难以量测的性状获得的数量资料为质量性状资料 这些性状本身不能以数字来表示 要获得这类性状的数量资料 可采用下列两种方法进行数量化 8 一 攻关目标 建立节水型的优质高效农业发展模式 提高区域农业水资源利用率及生产效率 为节水条件下农业高效持续发展提供技术支持和示范模式 第一节资料的分类 1 统计次数法在一定总体或样本内 统计其具有某个性状的个体数目及具有不同性状的个体数目 按类别计其次数或相对次数 以次数作为质量性状的数据 例如在320株水稻植株中有240株为紫色柱头的 80株黄色柱头的 这类由质量性状数量化得来的资料也称为次数 或频次 资料 9 一 攻关目标 建立节水型的优质高效农业发展模式 提高区域农业水资源利用率及生产效率 为节水条件下农业高效持续发展提供技术支持和示范模式 第一节资料的分类 2 给予每类性状以相对数量的方法 给分法 对某一质量性状 因其类别不同 分别给予不同的级别或分值 例如 小麦子粒颜色有白有红 可令白色的数量值为0 呈红色的数量值为1 从这类变异所得资料 处理方法同间断型变数资料 第二节数据的收集 1 数据的收集方法 调查试验2 收集数据的要求 1 突出研究目的2 严格执行研究方案3 控制误差 一 攻关目标 第三节资料的检查和核对 检查和核对原始资料的目的在于确保原始资料的完整性和正确性 完整性是指原始资料无遗缺或重复 正确性是指原始资料的测量和记载无差错或未进行不合理的归并 要特别注意特大 特小和异常数据 有重复 异常或遗漏的资料 应予以删除或补齐 有错误 相互矛盾的资料应进行更正 必要时复查 资料的检查与核对工作虽然简单 但却是一项非常重要的步骤 只有完整 正确的资料 才能真实地反映出调查或试验的客观情况 才能经过统计分析得出正确的结论 第四节资料的整理和分组 试验或调查研究所得资料 经检查核对后 根据资料中观测值的多少确定是否分组 当观测值不多 n 30 时 不必分组 直接进行统计分析 倘包含很多观察值 未加整理很难得到明确的概念 如果把这些观察值按数值大小或数据的类别进行分组 制成不同组别或不同分类单位的频数分布表 就可以看出资料中不同表现的观察值与其频率间的规律性 即可以看出资料的频率分布的初步情况 从而对资料得到一个初步概念 以便统计分析 13 一 攻关目标 第四节资料的整理和分组 一 次 频 数分布表的编制将数据可能出现的整个范围化分成若干个互斥的组区间 再统计出现在各个组区间内的数据个数 次数 可以发现数据都有着一定的分布规律 由不同区间内数据出现的次数组成的分布 就叫做变数的次数分布 简称次 频 数分布 资料整理方法之一 就是编制次 频 数分布表 次 频 数分布表的制作方法因数据种类不同而略有不同 分述如下 14 一 攻关目标 第四节资料的整理和分组 一 间断型数据资料的整理1 相同观察值归一组以某小麦品种的每穗小穗数为例 随机采取100个麦穗 计数每穗小穗数 未加整理的资料列成表 15 第四节资料的整理和分组 上述资料为间断型数据资料 每穗小穗数在15 20的范围内变动 有6个不同的观察值 把所有观察值按每穗小穗数多少加以归类 共分为6组 组与组间相差为1小穗 称为组距 这样可得次数分布表 从表中看到 一堆杂乱的原始资料 经初步整理后 就可了解资料的大致情况 另外 经过整理的资料也便于进一步的分析 P3例1 1属此类 16 第四节资料的整理和分组 2 相邻几个观察值归一组资料观察值较多 变异幅度较大 若以每一观察值为一组 则组数太多 而每组内包含的观察值太少 资料的规律性显示不出来 对这类资料 可扩大为以几个相邻观察值为一组 适当减少组数 资料的规律性就较明显 对资料进一步计算分析也比较方便 如每组包含若干粒数的幅度 例如以5粒为一组 则可使组数适当减少 17 一 攻关目标 第四节资料的整理和分组 从下表可以看出 半数多的稻穗的每穗粒数在46 60粒间 大部分稻穗的每穗粒数在41 70间 但也有少数稻穗少到26 30粒的 多到81 85的 18 一 攻关目标 第四节资料的整理和分组 二 连续型数据资料的整理连续型数据资料不能按间断型数据资料的分组方法进行整理 在分组前需要确定全距 组数 组距 组中值及组限 然后将全部观测值划线计数归组 制作成次 频 数分布表 以140行水稻试验的产量为例 说明整理方法 19 第四节资料的整理和分组 次 频 数分布表的制作步骤 1 数据排序 将所取得的数据按从小到大排列 升序 或从大到小排列 降序 2 求极差R 资料中最大观察值与最小观察值之差 即整个样本的变异幅度 用R表示 即R Ymax Ymin从表中查到最大观察值为254g 最小观察值为75g 极差为 R 254 75 179g 20 第四节资料的整理和分组 3 确定组数和组距 组数指将数据出现的整个数量范围分成多少个组区间 每组的距离称为组距 组数和组距是相互决定的 一般以达到既简化资料又不影响反映资料的规律性为原则 组数过多或过少 不能反映资料的规律性 如果组数过多 看不到资料的集中情况 且不便于以后的继续分析 21 第四节资料的整理和分组 3 确定组数和组距 在确定组数和组距时应考虑 1 数据个数的多少 2 极差的大小 3 便于计算 4 能反映出资料的真实面貌等方面 22 第四节资料的整理和分组 样本大小 即样本内包含观察值个数的多少 与组数多少的关系可参照下表来确定 23 第四节资料的整理和分组 确定组距 指每个组区间的高限和低限的差值 组距的大小由全距与组数确定 记作i i 极差 分组数以140行水稻产量为例 样本内观察值的个数为140 查表可分为8 16组 假定分为12组 则组距为i 179 12 14 9g 15g以15g作为组距 方便分组 24 第四节资料的整理和分组 4 确定组界和组中值 组值 每组应有明确的界限 才能使各个观察值划入一定的组内 为此必须选定适当的组中点值及组限 各组的最大值与最小值称为组界 最小值称为下界 最大值称为上界 反映各组的的变异范围 组中值是各组的上界 数值大者 与下界之和除以2所得 即 组中值 上限 下限 2 组下限 1 2组距 组上限 1 2组距每组组中值是该组的代表数值 25 第四节资料的整理和分组 确定组距后 首先要选定第一组的组中值 第一组的中点值以最接近最小观察值为好 确定第一组的组限以后 其余各组的组中值和组限便可依次确定 以140行水稻产量为例 选定第一组的中点值为75g 与最小观察值75g相等 则第二组的中点值为75 15 90g 余类推 各组的中点值选定后 就可以求得各组组界 第一组的组限为67 5 82 5g 按照此法计算其余各组的组界 26 第四节资料的整理和分组 注意 组值最好为整数或与观察值的位数相同 以便于以后的计算 组限要明确 最好比原始资料的数字多一位小数 便于归组 最末一组的上限应大于资料中的最大值 27 第四节资料的整理和分组 5 归组 按依次表将观察值归入各个组内 并统计各组数据出现的次数 制成频数分布表 例如表中第一个观察值177应归于第8组 组限为172 5 187 5 依次把140个观察值都进行归组 即可制成140行水稻产量的次数分布表 上限不在内 约定 28 第四节资料的整理和分组 三 属性数据资料的整理属性数据的资料 也可以用类似次数分布的方法来整理 在整理前 把资料按各种质量性状进行分类 分类数等于组数 然后根据各个体在质量属性上的具体表现 分别归入相应的组中 即可得到属性分布的规律性认识 例如 某水稻杂种第二代植株米粒性状的分离情况 归于下表 29 第四节资料的整理和分组 如果把频数分布表中频次换算成频率 组频数 总数 则可做成频率分布表 如P3表1 1 P5表1 3 30 第四节资料的整理和分组 二 频数分布图 试验资料除用频数分布表来表示外 也可以用图形来表示 频数分布图可以更形象地表明频数分布的情况 较普遍应用的图示有 方柱形图 多边形图 条形图和饼图 31 第四节资料的整理和分组 一 方柱形图方柱形图 histogram 适用于表示连续型数据的频数分布 以140行水稻产量的次数分布表为例加以说明 1 等分横轴 在横轴上分为13等分 因第一组下限不是从0开始 在其前加 每一等分代表一组 第一组的上限即为第二组的下限 如此依次类推 2 标定次数 在纵轴上标定次数 横坐标与纵坐标的长度比例一般为5 4或6 5为好 3 画方柱 查表3 6第一组有次数为2 所以在两组限处绘两条纵线 其高度等于纵坐标上两个单位 再画一横线连接两纵线的顶端 成为方柱形 其余各组可依次绘制 即成方柱形次数分布图3 1 32 第四节资料的整理和分组 二 多边形图多边形图是表示连续型数据资料的一种普通方法 且在同一图上可比较两组以上的资料 以140行水稻产量次数分布为例 图示时 以每组的中点值为代表 在横坐标各等分的中点向上等于该组单位数处标标点 表示该组含有的次数 把各点依次用直线连接 所成图形即为频数多边形图 多边形图的折线在左边最小组的组中点外和右边最大组的组中点外 应各伸出一个组距的距离而交于横轴 因该两组次数为0 这可以使多边形的面积大致上与方柱形图相同 33 第四节资料的整理和分组 三 条形图条形图 bardiagram 适用于表示间断型数据和属性数据资料的次数分布状况 一般其横轴标出间断的中点值或分类性状 纵轴标出次数 现以水稻杂种第二代米粒性状的分离情况为例 在横轴上按等距离分别标定4种米粒性状 在纵轴上标定次数 f 可画成水稻杂种第二代植株4种米粒性状分离情况条形图 34 第四节资料的整理和分组 四 饼图饼图 piediagram 适用于间断型数据和属性数据资料 用以表示这些数据中各种属性或各种间断性数据观察值在总观察个数中的百分比 如图中白米糯稻在F2群体中占8 白米非糯 红米糯稻和红米非糯分别占17 21 和54 35 第四节资料的整理和分组 频数 率 分布的意义 1 可以看出数据分布的集中性 2 可以看出数据分布的变异性 3 可以看出数据分布的形状 总之 通过资料的整理做成频数分布表或频率分布表 可以看出数据分布的规律性 且便于下一步的统计分析 第五节特征数 一 平均数二 变异数三 变异系数 37 第五节特征数 由次数分布可以看到任何一个变数的分布具有两种明显的基本特征 即集中性和离散性 集中性是变数在趋势上有着向某一中心聚集 或者说以某一数值为中心而分布的性质 离散性是变数又有着离中的分散变异的性质 为了反映变数分布的这两种基本性质 显然必须算出它们的特征数 反映集中性的特征数是平均数 反映离散性的特征数为变异数 38 第五节特征数 一 平均数1 平均数的意义和种类平均数是数据的代表值 是统计学中最常用的统计量 表示资料中观察值的中心位置 并且可作为资料的代表而与另一组资料相比较 借以明确两者之间相差的情况 平均数的种类较多 主要有 算术平均数中数众数几何平均数其定义分述于下 39 第五节特征数 1 算术平均数一个数量资料中各个观察值的总和除以观察值个数所得的商数 称为算术平均数 记作 因其应用广泛 简称平均数或均数 mean 均数的大小决定于样本的各观察值 2 中数将资料内所有观察值从大到小排序 居中间位置的观察值称为中数 median 计作Md 3 众数资料中最常见的一数 或次数最多一组的中点值 称为众数 mode 计作Mo 4 几何平均数如有n个观察值 其相乘积开n次方 即为几何平均数 geometricmean 用G代表 40 第五节特征数 2 算术平均数的计算算术平均数可根据样本大小及分组情况而采用直接法或加权法计算 直接法主要用于样本含量n 30以下 未经分组资料平均数的计算 设某一资料包含n个观测值 y1 y2 yn 则样本平均数可通过下式计算 其中 为总和符号 表示从第一个观测值y1累加到第n个观测值yn 当在意义上已明确时 可简写为 y 改写为 41 第五节特征数 例 在水稻品种比较试验中 湘矮早四号的5个小区产量分别为20 0 19 0 21 0 17 5 18 5kg 求该品种的小区平均产量 由定义式有 42 第五节特征数 加权法对于样本含量n 30以上且已分组的资料 可在次数分布表的基础上采用加权法计算算术平均数 即用组中点值代表该组出现的观测值以计算平均数 其公式为 3 2 式中 第i组的组中值 第i组的次数 分组数第i组的次数fi是权衡第i组组中值yi在资料中所占比重大小的数量 因此fi称为是yi的 权 加权法也由此而得名 43 第五节特征数 例 利用表3 6资料计算平均每行水稻产量 若采用直接法 因此 两者的结果十分相近 44 第五节特征数 平均数的基本性质 样本各观测值与平均数之差的和为零 简称离均差 即离均差之和等于零 或简写成 样本各观测值与平均数之差的平方和 较各个观察值与任意其他数值的差数平方的总和为小 即离均差平方和为最小 常数a 以上两个性质可用代数方法予以证明 统计学中常用样本平均数 作为总体平均数 的估计量 并已证明样本平均数是总体平均数 的无偏估计量 45 二 变异数每个样本有一批观察值 除以平均数作为样本的平均表现外 还应该考虑样本内各个观察值的变异情况 才能通过样本的观察数据更好地描述样本 乃至描述样本所代表的总体 如果各观测值变异小 则平均数对样本的代表性强 如果各观测值变异大 则平均数代表性弱 因而仅用平均数对一个资料的特征作统计描述是不全面的 还需引入一个表示资料中观测值变异程度大小的统计量 为此必须有度量变异的统计数 常用的变异程度指标有 极差 方差 标准差和变异系数 第五节特征数 46 1 极差极差 又称全距 记作R 是资料中最大观察值与最小观察值的差数 全距大 则资料中各观测值变异程度大 全距小 则资料中各观测值变异程度小 极差虽可以对资料的变异有所说明 但它只是两个极端数据决定的 没有充分利用资料的全部信息 而且易于受到资料中不正常的极端值的影响 所以用它来代表整个样本的变异度是有缺陷的 当资料很多而又要迅速对资料的变异程度作出判断时 可以利用全距这个统计量 第五节特征数 47 2 方差及标准差 1 方差 标准差的定义为了正确反映资料的变异度 较合理的方法是根据样本全部观察值来度量资料的变异度 为了准确地表示样本内各个观测值的变异程度 人们首先会考虑到以平均数为标准 求出各个观测值与平均数的离差 即 称为离均差 虽然离均差能表达一个观测值偏离平均数的性质和程度 但因为离均差有正 有负 离均差之和为零 即 0 因而不能用离均差之和 来表示资料中所有观测值的总偏离程度 第五节特征数 48 为了解决离均差有正 有负 离均差之和为零的问题 可以采用将离均差平方的办法来解决离均差有正 有负及离均差之和为零的问题 先将各个离均差平方 即 2 再求离均差平方和 即 简称平方和 记为SS 由于离差平方和常随样本大小而改变 为了消除样本大小的影响 用平方和除以样本大小 即 求出离均差平方和的平均数 第五节特征数 49 为了使所得的统计量是相应总体参数的无偏估计量 统计学证明 在求离均差平方和的平均数时 分母不用样本含量n 而用自由度n 1 于是 我们采用统计量表示资料的变异程度 统计量称为均方 meansquare缩写为MS 又称样本方差 记为S2 即 第五节特征数 50 相应的总体参数叫总体方差 记为 对于有限总体而言 计算公式为 由于样本方差带有原观测单位的平方单位 在仅表示一个资料中各观测值的变异程度而不作其它分析时 常需要与平均数配合使用 这时应将平方单位还原 即应求出样本方差的平方根 统计学上把样本方差S2的平方根叫做样本标准差 记为S 即 第五节特征数 51 由于所以上式可改写为 相应的总体参数叫总体标准差 记为 对于有限总体而言 的计算公式为 在统计学中 常用样本标准差S估计总体标准差 第五节特征数 52 2 方差 标准差的计算方法 直接法对于未分组或小样本资料 可直接计算标准差 例 设某一水稻单株粒重的样本有5个观察值 以克为单位 其数为2 8 7 5 4 用y代表 此例n 5 经计算得 y 26 y2 22 8 代入公式得 该水稻单株粒重的标准差为2 39g 矫正数 记作C 上法为矫正数法 可以比较简便地算出标准差 第五节特征数 53 加权法若样本较大 并已获得如次数分布表 可采用加权法计算标准差 计算公式为 式中 f为各组次数 y为各组的组中值 f n为总次数 例P15 第五节特征数 54 标准差的特性 标准差的大小 受资料中每个观测值的影响 如观测值间变异大 求得的标准差也大 反之则小 在资料服从正态分布的条件下 资料中约有68 26 的观测值在平均数左右一倍标准差 S 范围内 约有95 43 的观测值在平均数左右两倍标准差 2S 范围内 约有99 73 的观测值在平均数左右三倍标准差 3S 范围内 也就是说全距近似地等于6倍标准差 可用 来粗略估计标准差 第五节特征数 55 3 偏斜度和峭度平均数和标准差给出了包含在样本内的大量信息 这就基本上满足了我们的需要 然而 有时我们会遇到一个大样本 它的变化是规则的 但频数分布是不对称的 这时 还需要使用另一些特征数来弥补和S的不足 其中之一是度量数据围绕众数呈不对称的程度 即通常所称的偏斜度 skewness 虽然有几种不同的度量偏斜的方法 但是建立在三阶中心矩 thirdcentralmoment 基
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 多版本性能回归检测-洞察及研究
- 部队交友授课课件
- 河北省保定市竞秀区2024-2025学年八年级下学期期末考试物理试题(含答案)
- 服务化架构转型案例-洞察及研究
- 110kV变电站电气设备安装调试施工组织设计与对策
- 基于工业互联网的凸模导套全生命周期溯源系统构建与数据孤岛破除策略
- 基于区块链技术的焊接参数数据安全共享与防篡改方案
- 国际标准缺失背景下设备性能量化评价体系构建
- 国际供应链波动下凹钢关键原料进口替代与国产化替代策略
- 可降解液压油介质在极端工况下的化学稳定性与环保平衡策略
- 《无人机基础概论》无人机专业全套教学课件
- 卡西欧 fx-991CN X 科学计算器使用说明书
- 滇桂黔文旅产业融合水平测度与比较
- 安全总监培训课件
- 陕西物业资质管理办法
- 婴儿配方奶粉管理办法
- 甘油二酯油与心脏健康科学指南
- 英语电影配音教学课件
- 办公场所消防培训课件
- 中央厨房体系管理制度
- 2025-2030年中国铜包铝线行业市场现状供需分析及投资评估规划分析研究报告
评论
0/150
提交评论