第二章-试验资料的整理与特征数的计算最新.ppt_第1页
第二章-试验资料的整理与特征数的计算最新.ppt_第2页
第二章-试验资料的整理与特征数的计算最新.ppt_第3页
第二章-试验资料的整理与特征数的计算最新.ppt_第4页
第二章-试验资料的整理与特征数的计算最新.ppt_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章试验资料的整理与特征数的计算 学习要求 掌握 不同数据类型分布图的制作及应用 平均数的计算及应用 变异数的计算及应用熟悉 资料分类 原始数据的检查 核对 次数表 统计图的Excel编制 了解 数据收集内容和方法 统计软件Excel的其他作图功能 偏斜度系数和峭度系数的计算 本章主要内容 第一节试验资料的搜集与整理第二节试验资料特征数的计算 第一节试验资料的搜集与整理 一 试验资料的类型二 试验资料的搜集三 试验资料的整理 一 试验资料的类型 数量性状资料 连续型资料 计量资料 离散型资料 计数资料 指用量测手段得到的数量性状资料 即用度量衡等计量工具直接测定的数量性状资料 其数据是长度 容积 重量等来表示 例如 身高 产奶量 体重 绵羊剪毛量等 这类数据通常是非整数 数据的变异是连续的 由记录不同类别个体的数目所得到的数据 各个观测值只能以整数表示 在相邻的整数间不得有带小数的数值出现 例如 猪的产仔数 鸡的产蛋数 鱼的尾数等 质量性状资料 统计次数法 评分法 于一定总体内 根据某一质量性状的类别统计其次数或频数 以次数或频数来作为质量性状的数据 用数字级别表示某现象在表现程度上的差别 二 试验资料的搜集 调查 survey 试验 experiment 对于直接调查取得的原始数据 完整性 单位或个体数目是否有遗漏 所调查的项目或指标是否齐全 调查过程是否存在偏见 准确性准确性 数据是否符合实际 计算是否有失误 造成数据不准确的原因主要表现在两方面 数据本身的错误 取样差错 不具有代表性 三 试验资料的整理 一 原始数据的检查和核对 对于间接获得的第二手数据 要注意数据的真实性 使用性和时效性数据的筛选 包括纠正或剔除错误数据 去除异常数据 二 频数表 frequencytable 和频数图 frequencygraph 1 离散型数据频数表和频数图的绘制例1 以50枚受精种蛋孵化出雏鸡的天数 数据见表1 为例 绘制频数表和频数图 表150枚受精种蛋孵化出雏鸡的天数 解 小鸡出壳的天数在19 24天范围内变动 有6个不同的观测值 以各个不同观测值分组 共分为6组 开始建立频数 率 表 打正字或划线 从表中我们可以迅速而直观地看出 孵化天数大多集中在21 23天 以22天的最多 孵化天数较短 19 20天 和较长 24天 的都较少 频数 率 图是频数 率 的图形表示 注意 离散型数据频数图上方条间有间隙 2 连续型数据频数表和频数图的绘制例2 以120头母羊的体重资料 数据见表2 为例 绘制频数表和频数直方图表2120母羊的体重资料 单位 kg 解 1 数据排序 sort 从原始数据中找出最大值和最小值 并求出极差 range max 65 min 37 极差R max min 65 37 28 2 决定划分组数 一般来说 数据较少时 如50 100个数 可以分为7 10组 数据较多时 可分为15 20组 本题中n 120 所以初步确定组数为10组 3 根据极差与决定划分的组数 确定组距 组限 classlimit 组中值 midvalue 组距 极差 组数 28 10 2 8 3 组距一般取整数 组限就是依据原始数据用来分组的每组的上下限 组中值就是每一组组限的平均值 组下限 4 在频数表中列出全部组界 组界和中值 由于测量精度的原因 第一组 组限为37 39 实际代表从36 5kg到39 5kg的所有数据 因为连续型数据一般是小数 这里只是因为测量精度以及记录的方便以整数表示出来 例如 真实值为39 3公斤的数据会四舍五入成39公斤被记录 它会被包括在第一组内 36 5 39 5称为组界 表示组的实际界限 5 统计每组频数 完成频数表 连续型数据分组频率表的一般步骤 将观察数据排序 求全距确定组数确定组限 组距和组中值列出全部组界 组界和中值形成频数分布表 连续型数据频数直方图 histogram 的绘制 首先得到频数表 然后以组界为横坐标 以频数为纵坐标 以每一组的组界为一个边 相应的频数为另一个边 作矩形 构成直方图 注意 1 连续型直方图方条间没有间隙 因为它以组界为方条的底部坐标 2 但方条的标识可以用组限标出 如上图 为了直观的需要 其它的统计图 请参考课本 可以看出数据的集中情况 频数最高的组值或中值称为 众数 可以直观地看出数据的变异情况 分析数据分布的概率和数据的离散情况从频数 率 表或频数 率 图中 可以看出图形的形状 分析数据的分布规律 符合什么分布 绘制频数 率 分布的意义 样本 总体 频数 率 分布的不恒定性 第二节试验资料特征数的计算 1 数据的集中性 以哪点为中心集中分布 2 数据的变异性 数据间相互差异程度 3 数据分布的对称性 4 数据分布的陡峭性 以平均数衡量 以标准差或变异系数衡量 以峭度衡量 以偏斜度衡量 1 2 是重点 3 4 作一般了解 注意 一 平均数 1 算术平均数 arithmeticmean 定义 资料中各观测值的总和除以观测值个数所得的商 简称为平均数或均数 记为 算术平均数的计算根据样本的大小以及分组情况分为 直接法 加权法 计算机程序法 1 直接法 主要用于未经分组资料平均数的计算 此时样本含量往往较小 如n 30 求和符号 以后经常用到 这里提醒以下它的常用的三个运算法则 算术平均数的基本特征 算术平均数的计算与样本内的每个值都有关 它的大小受每个值的影响若每个都乘以相同的数k 平均数亦应乘以k若每个都加上相同的数A 平均数亦应加上A如果是n1个数的平均数 是n2个数的平均数 那么全部n1 n2个数的算术平均数是加权平均数 weightedmean 例1某种公牛站测得10头成年公牛的体重分别为500 520 535 560 585 600 480 510 505 490 kg 求其平均体重 2 加权法 主要用于样本含量大且已经分组的资料 或称频数资料 平均数的计算 在获得频数分布表的基础上采用加权法计算平均数 计算公式为 例2 根据本章第二节例二得到的120头母羊体重资料的频数表 计算这个样本的平均数 3 计算机程序法 方法一 第一步打开 excel 输入全班每位同学各科考试成绩 一般以每行记录一名学生的各科成绩 也可以每列记录一名学生的各科成绩 第二步选择 单击 工具 下拉菜单 第三步选择 单击 数据分析 选项 第四步从弹出的 分析工具 中选择 单击 描述统计 并单击 确定 第五步在对话框中的 输入区域 框内键入要计算的单元格区域 如果包括字段行 则须选中 标志位于第一行 复选框 若分组方式为逐行 则该复选框选定标志位于第一列 在 输出选项 中选择输出区域 选择 汇总统计 该选项给出全部描述统计量 单击 确定 方法二 第一步打开 excel 输入全班每位同学各科考试成绩 一般以每行记录一名学生的各科成绩 也可以每列记录一名学生的各科成绩 第二步在适当的单元格内输入计算公式 以每行记录一名学生的各科成绩为例 假设第一行依次为姓名及各考试科目名称 最后一名学生第一科的成绩所在单元格为B45 则可在B46单元格输入计算公式 average b2 b45 然后回车 或者在适当的单元格内插入函数 选择 插入 下拉菜单 然后选择 函数 接下来从弹出的对话框左边的函数类别中选择 统计 再从对话框右边的函数名中选择 Average 最后单击 确定 第三步选定第二步计算结果所在单元格 复制其他考试科目的平均成绩 张村有个张千万 隔壁九个穷光蛋 平均起来算一算 人人都是张百万 2 中位数 median 定义 将样本内所有观测值从小到大排列 位于中间的那个值 称为中位数 如果是奇数个数据 很容易从数列中找出中间位置的数 如果是偶数个数据 则就需要将中间位置上的两个数取其算术平均数作为中位数 中位数具备算术平均数的第二 三条性质 不具备第一条 第四条性质 年龄中位数可用于同一时期不同人口的对比分析 也可用于同一人口不同时期的对比分析 国际上通常用年龄中位数指标作为划分人口年龄构成类型的标准 年龄中位数在20岁以下为年轻型人口 年龄中位数在20 30岁之间为成年型人口 年龄中位数在30岁以上为老年型人口 年龄中位数向上移动的轨迹 反映了人口总体逐渐老化的过程 3 众数 mode 定义 样本中出现次数最多的那个值或对于分组资料而言频数最多那组的组中值 称为众数 具备算术平均数的第二 三条性质 不具备第一条 第四条性质 众数主要用来描述频数分布的 中位数和众数在生物统计学中很少使用 4 算术平均数 中位数和众数的比较 算术平均数 众数和中位数之间的关系与次数分布数列有关 三种统计量的计算方法不同 三者之间可以相等也可以不等 无固定大小的关系三者反映数据的特征不同 适用范围不同 二 标准差 standarddeviation A组资料 1 4 5 5 10平均数为 5B组资料 4 5 5 5 6平均数仍为 5这里的平均数5对于A组资料的代表性好 还是对于B组资料的代表性好 表示数据变异特征的数值叫变异数 数据变异程度的衡量方法 范围 range 或极差 平均离差 meandeviation 和标准离差 standarddeviation 或标准差 讨论 但如何基于离差构造一个衡量样本总变异性的量化的指标呢 但由于离均差平方和常随样本的大小而改变 为了消除样本大小的影响 应将离均差平方和除以样本容量n 严格的统计学证明显示 离均差平方和除以n 1时性质最好 可以证明 公式 和 是等同的 2 1标准差的计算 例3 计算10只辽宁绒山羊产绒量 450 450 500 500 500 550 550 550 600 650 g 的标准差 第一种方法 直接法 第二种方法 编码法具体做法 选取一个常数c 数值上接近平均数 然后将原始数据减去c 再计算标准差 这里我们选择c 500 2 2已分组资料 频数资料 标准差的计算 例4 根据本章第二节例二得到的120头母羊体重资料的频数表 计算这个样本的标准差 解 2 3标准差的性质 1 标准差的大小受资料中每个观测值的影响 如果观测值相互之间的差异大 则求得的标准差也大 反之则小 2 在计算标准差时 各个观测值同时加上或减去一个常数 其数值不变 3 当每个观测值乘以或除以某一个常数a 则标准差是原来标准差的a倍或1 a倍 4 在资料服从正态分布情况下 约有68 26 的观测值在平均数左右一倍标准差范围内 约有95 43 的观测值在平均数左右两倍标准差范围内 约有99 73 的观测值在平均数左右三倍标准差范围内 2 4利用标准差查找资料的不寻常值 如果资料的某个观测值在离平均值两倍标准差外 这个观测值通常称为资料的不寻常值 例5 调查得到一个NBA球队的5位球员的身高为67 72 76 76 和84英寸 请问84英寸的那个球员在这个球队里是不是不寻常的高 因为84英寸的球员在离平均值两倍标准差范围内 他不是不寻常的高 三 偏斜度 skewness 和峭度 kurtosis 中心距 偏斜度 变量数据围绕众数呈不对称分布的程度 用 g1 表示 偏斜度是一个纯数 不带任何单位 它的大小说明曲线偏斜的程度峭度 反映频率分布陡峭程度的统计量 用 g2 表示 正偏 数据频率分布的正方向尾巴特别长 负偏 数据频率分布的负方向尾巴特别长 3 2峭度 峭度 0 峭度 0 峭度 0 四 变异系数 coefficientofvariability CV 变异系数是衡量资料变异程度的另一指标 它与标准差的不同之处是 变异系数用于两个或多个资料的变异程度的比较时 变异系数的计算公式为 例6 假设有两个小麦品种A和B 它们株高的平均数和标准差分别为A 120 5 0B 70 4 0问哪个小麦品种较为整齐 解 单比较标准差是不合理的 因为两个品种的平均数不接近 正确的比较方法是比较这两个样本的变异系数 品种A的变异系数为5 0 120 0 042品种B的变异系数为4 0 70 0 057 所以说 品种A比品种B更为整齐 注意 在做曲线形状描述时 必须是一个大样本 g1和g2的计算才可靠g1一般要求样本含量在200以上g2一般要求样本含量在1000

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论