




已阅读5页,还剩27页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章数据的基本分析 本章提要 算术平均数和几何平均数的计算算术平均数的性质极差 方差和标准差的计算方差与标准差之间的关系标准差的性质 第一节平均数的计算 平均值 mean average 观测值的平均水平和集中趋势的表示常用的平均值有 算术平均数几何平均数调和平均数众数中位数百分位数在本专业的统计和日常工作中 以算术平均值和几何平均值最为常见 使用最频繁调和平均数一般用在速度类问题方面众数 中位数由于计算工具的改进已用得不多 算术平均数 arithmeticmean 是最常用的平均值 简称为平均值 或均值算术平均数有两种计算方法 1 直接法 2 加权法在次数分布表或资料分类的基础上进行计算 用加权法计算得的算术平均值称加权平均值 weightedmean 或 加权法第二式中的是频数 而 加权平均值用表示 在很多情况下 与算术平均值不一定相等 特别是当我们用组距式分组法中每一组的组中值作为每一组的组平均值时更是如此直接法所得到的平均值有两个基本性质 1 离均差之和为零 用公式表示 即2 离均差平方和为最小 即其中 为不等于的任意一个数 用直接法所得到的算术平均值的这两个基本性质很重要 同学们可以自己加以证明需要指出的是 加权平均值不具有这两个基本性质对于总体来说 我们通常用表示其平均数当总体为有限 且总体容量为时 总体平均值的计算公式为 但一般情况下 总体平均值总是未知的 需要用样本平均值来进行估计 因此 样本的代表性就显得尤为重要 几何平均值 geometricmean 主要用于非线性数据的统计分析 如增长率 疫病的潜伏期 药物效价 抗体滴度等的平均值几何平均值用表示 在实际计算时可将其转换为对数形式进行计算 分组资料几何平均值的计算公式为 算术平均数一般用在加性 additive 资料 或称线性 linear 资料中所谓加性资料或线性资料是指这些资料是可加的 或每一个数据可分解成若干个可加的部分 如人体和动物体的身高 体重等外形性状 人类和家畜的生理 生化数值等 这些资料一般服从或近似服从正态分布几何平均数一般用在非加性 non additive 或非线性 non linear 资料中 如平均增长率 药物或疫苗的平均效价 抗体滴度等 调和平均值 harmonicmean 一般用在平均速度 有效群体 平均样本量等方面其公式为 第二节变异数的概念及计算 用一个平均值作为资料特征值进行统计描述是不够的 还需要有表示数据离散程度描述的统计量常用来表示变异数的计算变异数 variable 观测值离散程度的表示 用来表示平均值代表性的强弱变异数大 说明数据离散程度大 平均值的代表性差 反之 变异数小 说明数据离散程度小 平均值的代表性好因此 仅数据离散性的变异数有以下几个 极差方差标准差 极差 rangeR 将资料中的最大值数据减去最小值数据 即为极差显然 一批数据不管其样本量有多大 计算极差总是只用两个值 一个最大值 一个最小值 其余数据都没有用上 因此这是不合理的 也没有统计学意义 样本与样本的离散程度也无法进行比较 如以下两个样本 23 25 26 31 45 47 48其极差为2523 32 32 34 36 36 48其极差为25 显然第一个样本的离散程度比第二个样本要来得大 但仅从极差上是看不出来的 因为两个样本的极差都等于25 方差 varianceVs2 合理的方法应当使某一个数据都参与到计算离差的过程中去 将某一个数据均与平均值相比较 即某一个数据均与平均值相减显然有多少个数据 就有多少个差值 且这些差值之和必为0 算术平均数的第一个性质 将这些差值平方以后再相加 得到一个值这个值不会等于0 且由于各个差值都平方了 其中离平均值较远的数值在表现离差时的作用更明显了 但由于每个样本在很多情况下不会一样大 因此应将这一平方和 SS 平均一下 以利于比较如上例的两批数据 23 25 26 31 45 47 48其平均值为35离均差平方和为SS 754 用自由度平均一下 得125 66723 32 34 34 37 37 48其平均值为35离均差平方和为SS 332 用自由度平均一下 得55 333显然第二个样本较第一个样本要集中一些 125 667为第一个样本的方差值 S2 55 333为第二个样本的方差值 S2 方差值是平方以后的值 因此使用中不太方便 标准差 standarddeviation 将方差开一下平方根 得上例中 第一个样本的标准差为11 21第二个样本的标准差为7 44标准差由于已经过了开平方 其单位与平均数是一致的 因此标准差是统计学中经常使用的一个值得到平均值和标准差后 这批数据可以用下式来表示 总体 样本 是参数是统计量 总体标准差 样本标准差 上面两个式子中 每一个公式的后面部分是如何从前面部分变来的 请同学们作为作业自行推导比较两个标准差的计算公式 我们会发现 这两个公式是不同的 总体标准差用总体含量N来得到 而样本标准差则用n 1来得到n 1在这里称为自由度 degreeoffreedomdf 自由度的含义和说明对于样本容量为n的样本来说 每一个观测值都有一个离均差 即n个离均差 由于受的限制 因此只有n 1个离均差是自由的 有一个离均差失去了 自由 在统计学中 若某个统计量的计算受到k个条件的限制 则其自由度就为n k 在估计样本方差时受到了平均数的限制 因此样本方差的自由度就是n 1 估计平均数时没有限制条件 因此平均数的自由度就是n 样本方差有一个十分重要的作用 就是用来估计总体方差 由于 根据平均数的第二个性质可知 必小于 因此如用必定偏小将分母改为n 1 则可适当增大值 使样本方差的数学期望更接近于总体方差因此使用自由度的目的就是为了能用样本方差更好地 无偏 unbias 地估计总体方差 小样本资料必须用n 1来计算方差 即标准差 大样本时n与n 1相差无几 因此大样本时也可用n代替n 1由于大小样本的界限没有严格的规定 因此在一般状况下仍宜使用n 1在一般情况下 样本方差通常也称为均方 Meanofsquare 用或表示之加权平均数的标准差公式 有了平均数和标准差 我们就可以用一个比较简单的方法来表示一个样本或一批资料 标准差的特性 变量越离散 标准差越大 反之 标准差越大 表示数据越离散 资料的变异程度越大各变量加减一个常数 标准差不变各变量乘一个常数a 标准差将扩大a倍 资料服从正态分布时 观测值的分布为 68 27 的数据分布在的范围内95 45 的数据分布在的范围内99 73 的数据分布在的范围内另外还有两个十分重要的分布范围 内包含了95 的变量内包含了99 的变量 标准差还有一个用途就是检查资料中是否有异常数据 一般认为 超出平均数两倍 实际应为1 96倍 标准差以外的数据即为异常数据 发现这种数据后应对资料进行复查 校核和追溯 必要时应进行更正 有人认为应将其从资料中剔除例 有一批大银鱼体重资料为 4 0 3 4 3 8 3 5 3 9 4 6 7 0g 现怀疑7 0这一数值可能是异常数据 经计算 得 显然 7 0已超出4 31 1 96 1 25 6 767 0为一异常值 在无法追溯的情况下应将其舍去 舍去7 0这一异常值后 重新计算这批资料的平均数和标准差 得 再检查这批数据 发现已没有超出1 96倍标准差的数据了 即所有的数据均为正常值了 变异系数 coefficientofvariationc v 不同单位的资料很难比较其变异程度 因此应将标准差相对化 变异系数就是相对化的标准差 变异系数的大小既受标准差的影响 同时还受平均数的影响 因此变异系数不能单独使用 在计算变异系数时必须将平均值和标准差同时标出变异系数只有在资料间相互比较时才使用 思考与习题 1 算术平均数 几何平均数 调和平均数各自的计算法则是什么 2 用直接法计算得到的算术平均数的两个重要性质是什么 试证明之 3 方差 标准差 变异系数有何关系 对于一批资料来说 平均数和变异数各起什么作用 两者有何联系 4 从两个鱼池中各随机捕捞10尾青鱼 测量其体重 得如下数据 试分别计算两批鱼的平均数 标准差和变异系数 并进行比较 鱼池1 0 901 101 001 000 800 901 201 101 100 90鱼池2 0 701 101 200 801 100 801 000 901 200
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年事业单位工勤技能-河南-河南图书资料员一级(高级技师)历年参考题库典型考点含答案解析
- 2024版承包出租房合同
- 2025年事业单位工勤技能-河北-河北水工监测工一级(高级技师)历年参考题库含答案解析
- 2025年事业单位工勤技能-江苏-江苏水利机械运行维护工二级(技师)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-新疆-新疆护理员一级(高级技师)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-广西-广西机械热加工五级(初级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-广西-广西堤灌维护工五级(初级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-广东-广东经济岗位工一级(高级技师)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-安徽-安徽计算机文字录入处理员一级(高级技师)历年参考题库典型考点含答案解析
- 2025年中级卫生职称-主治医师-急诊医学(中级)代码:392历年参考题库典型考点含答案解析
- 2025-2030中国奶酪行业市场发展现状及竞争格局与投资前景研究报告
- 垫资过桥合同协议
- 2024储能参与电力市场
- 医院各部门应急预案与流程图全集(2024版)
- 【《汽车前轴结构优化及轻量化性能研究(论文)》13000字】
- 2025年健身教练专业试卷-健身教练职业资格认证考试复习指南
- 家政就业安置合同范本7篇
- 技术经纪人(初级)考试试题(附答案)
- 内审首次会议上的讲话
- 砖厂安全生产应急预案演练计划
- 老旧小区综合整治项目成品保护和工程保修的管理措施
评论
0/150
提交评论