试验设计与数据分析-数理统计多媒体教学软件.ppt_第1页
试验设计与数据分析-数理统计多媒体教学软件.ppt_第2页
试验设计与数据分析-数理统计多媒体教学软件.ppt_第3页
试验设计与数据分析-数理统计多媒体教学软件.ppt_第4页
试验设计与数据分析-数理统计多媒体教学软件.ppt_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试验设计与数据分析 shanxiuniversity 2008年2月修订版本4 0qblin 结束 HOWWETEACHISALSOWHATWETEACH HOWWELEARNISALSOWHATWELEARN 我们教育的方式本身也是我们教育的内容 我们学习的方式本身也是我们学习的内容 课程介绍 学时40 学分2考核方式 课堂参与 15 小组作业 35 期末考试 50 学习情况考评表 目录 第一章绪论第二章常用统计分布第三章参数估计第四章假设检验第五章方差分析第六章回归分析 第七章试验设计第八章非参数统计分析第九章主成分分析和因子分析第十章科技绘图第十一章常用统计软件 第一章绪论 1 0引言1 1基本概念1 2真值 基本单位和标准参考物质1 3有效数字及其计算规则1 4异常数据的处理 欢迎你步入数理统计的广阔天空 1 0引言 科学试验的基本过程 调研选题 收集文献提出假设 试验设计进行试验 数据分析得出结论 科学研究过程中 误差是客观存在的 任何一种研究分析的结果 都必然带有不确定度 我们需要对自己试验研究的数据进行处理 判断其最可能的值是多少 其可靠性 或置信度 又如何 数理统计方法就是处理数据的一种科学的方法 在实验工作中 很多因素都会影响实验的结果 如何安排这些多因素的实验 以求用较少的实验次数 获得比较多的信息和正确的结论 试验设计方法可以帮助我们合理地设计和安排实验 在仪器分析中 我们测量的是仪器所显示的信号 电讯号 光讯号 频率信号等 而我们欲求的则是物质的含量或浓度 在这些讯号和含量之间 应当用怎样的数学关系或图形把它们的关系表达出来 回归分析和相关分析就是研究随机现象中变量之间关系的数据分析方法 在实际工作中往往由于试样来源困难 太贵或量太大 以及破坏性试验等客观条件的限制 不能对全部试样进行测试 只好根据对试样有限次测定值来推断整体的真实性 而数理统计方法的引入 有效的提高了分析测试工作的质量与效率 因此日益受到分析工作者的重视 应该强调的是 数理统计方法虽然是一种良好的数学工具 它可以指导科学实验 但它不能代替严格 严密的科学实验 只有在可靠的实验基础上 它才能发挥作用 因此 那种认为只要对数据进行统计处理 实验本身就可以马马虎虎的想法完全错误的 1 1一些基本概念 准确度和精密度重复性和再现性误差和偏差系统误差 随机误差和不确定度平均值和中位数方差和标准偏差检测限与定量限 准确度和精密度 准确度 实验值和真值之间相符的程度 精密度 或称精度 各实验值彼此之间相符的程度 精密度是保证准确度的先决条件 没有好的精密度就不可能有好的准确度 但良好的精密度并不一定有好的准确度 准确度和精密度 重复性和再现性 重复性 由一个分析者 在一个给定的实验室中 用一套给定的仪器 在短时期内 对某物理量进行反复定量测量所得的结果 也称为室内精密度 再现性 由不同实验室的不同分析者和仪器 共同对一个物理量进行定量测量的结果 也称为室间精密度 误差和偏差 误差 测量值和真值的差数 x 偏差 测量值和平均值的差数 也叫离差 d x 总体与样本 我们所研究对象的某特性值的全体 叫做总体 又叫母体 其中的每个单元叫做个体 对分析化学来讲 在指定条件下 作无限次测量所得的无限多的数据的集合 就叫做总体 其中每个数据就是一个个体 自总体中随机抽出的一组测量值 称为样本 又叫子样 样本中所含个体 测量值 的数目 叫做样本容量 即样本的大小 系统误差 系统误差总是存在于一系列同样的或相似的测量中 因此它是不能用任何取平均值的办法消除的 系统误差是由于某些比较确定的原因所引起的 它对分析结果的影响比较固定 即系统误差的正或负 通常是固定的 其大小也有一定的规律性 重复测量多次 不能消除系统误差 只有找出产生系统误差的原因 测定它的大小 然后加以校正 才能消除系统误差对测量准确度的影响 系统误差 随机误差 随机误差是由于无法控制的因素所造成的 随机误差是随机变量 它的值或大或小 它的符号有正有负 所以单个地看 随机误差是没有规律的 象随机误差这样一类随机变量是服从统计规律的 因此我们可以用数理统计的方法处理它们 随机误差 不确定度 在实际分析测试中 随机误差和系统误差通常都有可能同时存在于测试数据中 在最终结果中应予以合并考虑 这种合并估计称作为不确定度 uncertainty 过失误差 过失误差是一种显然与事实不符的误差 没有一定的规律 它主要是由于实验人员粗心大意造成的 如读数错误 记录错误或操作失误等 所以只要实验者加强工作责任心 过失误差是完全可以避免的 平均值 算术平均值 河水平均深度1 6M 士兵平均身高1 7M 数据分析中 平均值的分析比较非常重要 但如果不能正确的运用 仅仅应用平均值会让我们犯错 平均温度20度 一般认为 测量次数n 样本平均值和样本标准偏差s 是表达测量结果的三个要素 四分位差 这三个分割点的数值就称为四分位数 其中第二个四分位数就是中位数 四分位差 就是第三个四分位数 与第一个四分位数 之差 用公式表示 即 把一个变量数列分为四等分 形成三个分割点 四分位差的计算 差方和Q 测量值对平均值的偏差的平方的加和 叫差方和 自由度 在统计推断中常常会碰到自由度这一概念 不少人对这一概念不好理解 如果我们有10个数 而且你知道了均值和其中的9个数的值 那么你就可以推出第10个数 让10个人挑选10支不同颜色的铅笔 只有9人有自由挑选的可能 因为当这9人都挑好之后 你别无选择 因此这个问题的自由度为9 自由度 degreeoffreedom 是指可以自由取值的数据的个数 数据离散程度的测度 一批统计数据相对它的均值而言 这些数据的离散程度如何 数据波动的统计量通常有三种 样本方差与样本标准差 数据波动的统计量 极差 相对标准偏差 极差R 一组数据中最大值与最小值之差 叫极差 又叫全距 量距或范围 方差 方差 variance 是测量值在其总体均值周围分布状况的一种量度 方差表征随机变量分布的离散程度 总体方差的定义是 测量值对总体均值的误差的平方的统计平均 记作 总体方差 方差越大 测量值在其总体均值左右分布得越宽 越不集中 样本方差 只作过有限次测量的样本方差 通常用s2表示 s2是测量值对样本均值的偏差的平方的平均 而且在求平均时 使用自由度f n 1作为分母 标准偏差 方差的平方根的正值 叫标准偏差 或标准差 总体标准差记作 样本标准差记作s 均值与标准差概念的直观理解 设有两组样本数据分别为 2 4 6 8 104 5 6 7 8把这两组数据分别标在下面的直线轴上 0 0 2 4 6 8 10 4 5 6 7 8 第一组数据的 第二组数据的 由这两组数据的均值和标准差 结合上面的图形 我们可以直观地看到这两组数据均以6为中心 但前面5个数的离散程度要大于后面5个数的离散程度 第一组数的标准差是3 16 第二组数的标准差1 58 这个例子让我们更直观地体会到标准差以及均值的意义 相对标准偏差 相对标准偏差 relativestandarddeviation RSD 是标准偏差与平均值的比值 表示偏差值与平均值的相对大小 有时也用百分数表示 在某些场合也把相对偏差叫做变异系数 coefficientofvariation 用CV或表示 应用 某两企业工人的劳动生产率资料如下 作用 在不同总体对比分析中 不能直接比较不同总体之间的标准偏差 而只能采用相对标准偏差 计算公式 检测限 一种分析物质的检测限或检出限 limitofdetection LOD 可叙述为 能够给出与 空白 或 背景 信号有 显著差异 的仪器响应信号 y 的被测物的浓度 目前分析工作者较为认同的定义为 产生一个等于空白均值信号 yb 加上空白标准偏差 sb 的3倍的响应信号的被测物质的浓度 即 LOD yb 3sb通常把yb 6sb叫做保证检出限 定量限 定量限 limitofquantification LOQ 为 LOQ yb ksb当最大允许标准偏差为5 则k 20 当最大允许标准偏差为10 则k 10可以进行多次空白测定而获得yb和sb在采用校正曲线法进行测定时 可以直接从回归直线来获得yb和sb 回归直线的截距可作为yb的估计值 即空白信号 可采用sy x取代sb 数据基本分析的软件实现 Stat BasicStatistics DisplayDescriptiveStatistics StoreDescriptiveStatistics 基本输出结果1 DisplayDescriptiveStatistics 在绘图窗口的输出 分布图 箱形图 置信区间 基本输出结果2 DisplayDescriptiveStatistics 程序输出窗口 StoreDescriptiveStatistics 在工作表中的结果输出 关于身高数据的统计量分析 1 2真值 基本单位和标准参考物质 任何测量都带有误差 所以测量不能获真值 只能逐渐逼近真值 我们知道真值有三类 理论真值 约定真值 相对真值 如三角形内角之和等于180 就是理论真值 由国际计量大会定义的单位就是约定真值 标准参考物质的证书上所给出的数值则是相对真值 国际单位制 SI 的基本单位 由国际计量大会决议约定的国际单位制 SI 的基本单位有七个 1 长度单位 米 m 米是光在真空中 在1 299792458秒的时间间隔内运行距离的长度 1983年 2 质量单位 千克 kg 千克等于国际千克原器的质量 1989年 3 时间单位 秒 s 秒等于铯133 Cs133 原子基态的两个超精细能级之间跃迁的辐射周期的9192631770倍的持续时间 1967年 电流强度单位 安培 A 安培是一恒定电流强度 若保持在真空内相距1米的 两无限长的 圆截面极小的 平行直导线内 此电流在这两导线之间每米长度上产生的力等到于2 10 7牛顿 N 1948年 热力学温度单位 开尔文 K 热力学温度单位开尔文是水三相点的热力学温度的1 273 16 1967年 物质的量的单位 摩尔 mol 摩尔是一物系的物质的量 该物系中所包含的结构粒子数与0 012千克 kg 碳12 C12 的原子数相等 在使用摩尔时应指明结构粒子 它可以是原子 分子 离子 电子以及其它粒子 或是这些粒子的特定组合体 1971年 光强度单位 坎德拉 cd 坎德拉为一光源在给定方向的发光强度 该光源发出频率为540 1012赫 Hz 的单色辐射 其辐射强度沿此方向为1 683瓦 W 每球面度 1979年 标准参考物质 标准参考物质通常指的是由公认的权威机构发售的 带有证书的物质 它的一种或多种特性已被确定 可以用来校准测量装置或验证测量方法 在我国 通常把标准物质叫作标准试样或标样 标准参考物质应具备下列条件 1经公认为权威的机构鉴定 并给予证书 2具有良好特性 如具有很好的均匀性和稳定性等 3具有充当测量标准的准确度水平 它的准确度至少要高于实际测量的3倍 4能制备出一定的数量 在全国范围内满足方法验证 仪器校准 质量控制等方面的需要 标准参考物质是由很多分析工作者 用不同方法仔细分析过的 用原理上根本不同的方法 得到基本上相同的值 而各种不同的方法几乎不会有相同的系统误差 因此证书上给出的这些数值通常在一定范围内是准确的 可以当作相对真值看待 除了标准物质以外 人们也常使用工作标准或 管理样 工作标准或 管理样 都是二等标准物质 通常由指定的研究机构 或生产厂 或本单位自己制备的 它所给出的参考值 在准确度上可能稍逊于标准物质 且未经权威机构认可 但因管理样比较便宜 容易获得 在组成上它可能更接近于被测试样 所以在日常的分析工作中 常用管理样 1 3有效数字及其计算规则 有效数字就是在测量中所能得到的有实际意义的数字 只作定位用的 0 除外 1在记录一个测量所得的数量时 数据中只应保留一位不确定数字 有效数字是包括全部可靠数字以及一位不确定数字在内的有意义的数字的位数 2在运算中弃去多余数字时 一律以 四舍六入五留双 为原则 而不要 四舍五入 3几个数相加减时 保留有效数字的位数 决定于绝对误差最大的一个数据 4几个数相乘除时 以有效数字位数最少的为标准 即以相对误差最大的数据为标准 弃去过多的位数 在作乘 除 开方 乘方运算时 若第一位有效数字等于或大于8 则有效数字可多计一位 例如 8 03毫升的有效数字可视作四位 5在所有计算式中 常数 e的数值 以及 1 2等系数的有效数字位数 可以认为无限制 需要几位就可以取几位 6在对数计算中 所取对数位数 应与真数的有效数字位数相等 例如 pH12 25和 H 5 6 10 13M Ka 5 8 10 10 logKa 9 24等 都是两位有效数字 换言之 对数的有效数字位数 只计小数点以后的数字的位数 不计对数的整数部分 7如果要舍去的不止一位数 而是几位数字 则应该一次完成 而不应该连续修约 8在修约标准偏差的值或其它表示不确定度的值时 修约的结果通常是使准确度的估计值变得更差一些 例如 标准偏差s 0 213单位 取两位有效数字时 要入为0 22单位 而取一位有效数字时 就要入为0 3单位 9平均值的有效数字位数 通常和测量值相同 当样本容量较大 在运算过程中 为减少舍入误差 平均值可比单次测量值多保留一位数 1 4异常数据的处理 在整理试验数据时 往往会遇到这种情况 即在一组试验数据里 发现少数几个偏差特别大的可疑数据 这类数据又称为异常值 exceptionaldata 或离群值 outlier 它们往往是由于过失误差引起的 对于异常数据的取舍一定要慎重 一般处理原则如下 在试验过程中 若发现异常数据 应停止试验 分析原因 及时纠正错误 试验结束后 在分析试验结果时 如发现异常数据 则应先找出产生差异的原因 再对其进行取舍 在分析试验结果时 如不清楚产生异常值的确切原因 则应对数据进行统计处理再做取舍 对于舍去的数据 在试验报告中应注明舍去的原因或所选用的统计方法 总之 对于可疑数据要慎重 不能任意抛弃和修改 往往通过对可疑数据的考察 可以发现引起系统误差的原因 进而改进试验方法 有时甚至得到新试验方法的线索 检验可疑数据 常用的统计方法有拉依达 Pauta 准则 格拉布斯 Grubbs 准则 狄克逊 Dixon 准则 肖维勒 Chauvenet 准则 t检验法 F检验法等 若数据较少 则可重做一组数据 下面介绍几种检验可疑数据的统计方法 拉依达 Pauta 准则 如果可疑数据xp与试验数据的算术平均值的偏差的绝对值 dp 大于3倍 或2倍 的标准偏差 即 dp xp 3s或2s则应将xp从该组试验值中剔除 至于选择3s还是2s与显著性水平 有关 显著性水平 表示的是检验出错的几率为 或者是检验的可信度为1 3s相当于显著水平 0 01 2s相当于显著水平 0 05 拉依达准则方法简单 无须查表 用起来方便 该检验法适用于试验次数较多或要求不高时 这是因为 当n 10时 用 s作界限 即使有异常数据也无法剔除 若用 s作界限 则 次以内的试

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论