



全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
环境科学领域学术论文中常用数理统计方法的正确使用问题环境科学领域学术论文中常用数理统计方法的正确使用问题 在环境科学研究中 经常会涉及到对随机变量大小 离散及分布特征描述以 及对 2 个或多个随机变量之间关系比较的问题 而对随机变量及随机变量之间的 关系进行定量描述的数学工具就是数理统计 由于能否正确使用各种数理统计方 法关系到能否得出客观和可信的结论 对环境科学领域学术论文中常用数理统计 方法 主要是相关分析和回归分析 的正确使用问题进行了初步分析 希望能对 人们有所帮助 1 1 统计软件的选择统计软件的选择 在进行统计分析时 尽管作者可以自行编写计算程序 但在统计软件很普及 的今天 这样做是毫无必要的 因此 出于对工作效率以及对算法的可靠性 通 用性和可比性的考虑 多数科技期刊都要求作者采用专门的数理统计软件进行统 计分析 我们在处理稿件时经常发现的问题是 作者未使用专门的数理统计软件 而采用 Excel 这样的电子表格软件进行统计分析 由于电子表格软件提供的统计 分析功能十分有限 很难满足实际需要 除非比较简单的分析 我们不主张作者 采用这样的软件 目前 国际上已开发出的专门用于统计分析的商业软件很多 比 较 著 名 有SPSS Statistical Package for Social Sciences SAS Statistical Analysis System BMDP 和 STATISTICA 等 其中 SPSS 是专 门为社会科学领域的研究者设计的 但是 此软件在自然科学领域也得到广泛应 用 BMDP 是专门为生物学和医学领域研究者编制的统计软件 目前 国际学术 界有一条不成文的约定 凡是用 SPSS 和 SAS 软件进行统计分析所获得的结果 在国际学术交流中不必说明具体算法 由此可见 SPSS 和 SAS 软件已被各领域 研究者普遍认可 我们建议 环境科学学报 的作者们在进行统计分析时尽量使 用这 2 个专门的统计软件 目前 有关这 2 个软件的使用教程在书店中可很容易 地买到 2 2 均值的计算均值的计算 在处理实验数据或采样数据时 经常会遇到对相同采样或相同实验条件下同 一随机变量的多个不同取值进行统计处理的问题 此时 多数作者会不假思索地 直接给出算术平均值和标准差 显然 这种做法是不严谨的 在数理统计学中 作为描述随机变量总体大小特征的统计量有算术平均值 几何平均值和中位数 等 何时用算术平均值 何时用几何平均值 以及何时用中位数 这不能由研究 者根据主观意愿随意确定 而要根据随机变量的分布特征确定 反映随机变量总 体大小特征的统计量是数学期望 而在随机变量的分布服从正态分布时 其总体 的数学期望就是其算术平均值 此时 可用样本的算术平均值描述随机变量的大 小特征 如果所研究的随机变量不服从正态分布 则算术平均值不能准确反映该 变量的大小特征 在这种情况下 可通过假设检验来判断随机变量是否服从对数 正态分布 如果服从对数正态分布 则可用几何平均值描述该随机变量总体的大 小 此时 就可以计算变量的几何平均值 如果随机变量既不服从正态分布也不 服从对数正态分布 则按现有的数理统计学知识 尚无合适的统计量描述该变量 的大小特征 退而求其次 此时可用中位数来描述变量的大小特征 3 3 相关分析中相关系数的选择相关分析中相关系数的选择 在相关分析中 作者们常犯的错误是简单地计算 Pearson 积矩相关系数 而且既不给出正态分布检验结果 也往往不明确指出所计算的相关系数就是 Pearson 积矩相关系数 常用的相关系数除有 Pearson 积矩相关系数外 还有 Spearman 秩相关系数和 Kendall 秩相关系数等 其中 Pearson 积矩相关系数 可用于描述 2 个随机变量的线性相关程度 相应的相关分析方法称为 参数相关 分析 该方法的检验功效高 检验结果明确 Spearman 或 Kendall 秩相关系 数用来判断两个随机变量在二维和多维空间中是否具有某种共变趋势 而不考虑 其变化的幅度 相应的相关分析称为 非参数相关分析 该方法的检验功效 较参数方法稍差 检验结果也不如参数方法明确 各种成熟的统计软件如 SPSS SAS 等均提供了这些相关系数的计算模块 在相关分析中 计算各种相关系数是 有前提的 对于二元相关分析 如果 2 个随机变量服从二元正态分布 或 2 个随 机变量经数据变换后服从二元正态分布 则可以用 Pearson 积矩相关系数描述 这 2 个随机变量间的相关关系 此时描述的是线性相关关系 而不宜选用功效 较低的 Spearman 或 Kendall 秩相关系数 如果样本数据或其变换值不服从正态 分布 则计算 Pearson 积矩相关系数就毫无意义 退而求其次 此时只能计算 Spearman 或 Kendall 秩相关系数 尽管这样做会导致检验功效的降低 因此在 报告相关分析结果时 还应提供正态分布检验结果 以证明计算所选择的相关系 数是妥当的 需要指出的是 由于 Spearman 或 Kendall 秩相关系数是基于顺序 变量 秩 设计的相关系数 因此 如果所采集的数据不是确定的数值而仅仅是 秩 则使用 Spearman 或 Kendall 秩相关系数进行非参数相关分析就成为唯一的 选择 4 4 相关分析与回归分析的区别相关分析与回归分析的区别 相关分析和回归分析是极为常用的 2 种数理统计方法 在环境科学及其它科 学研究领域有着广泛的用途 然而 由于这 2 种数理统计方法在计算方面存在很 多相似之处 且在一些数理统计教科书中没有系统阐明这 2 种数理统计方法的内 在差别 从而使一些研究者不能严格区分相关分析与回归分析 最常见的错误是 用回归分析的结果解释相关性问题 例如 作者将 回归直线 曲线 图 称为 相关性图 或 相关关系图 将回归直线的 R2 拟合度 或称 可决系数 错误地称为 相关系数 或 相关系数的平方 根据回归分析的结果宣称 2 个 变量之间存在正的或负的相关关系 相关分析与回归分析均为研究 2 个或多个随机变量间关联性的方法 但 2 种数理统计方法存在本质的差别 即它们用于不同的研究目的 相关分析的目的 在于检验两个随机变量的共变趋势 即共同变化的程度 回归分析的目的则在 于试图用自变量来预测因变量的值 在相关分析中 两个变量必须同时都是随机 变量 如果其中的一个变量不是随机变量 就不能进行相关分析 这是相关分析 方法本身所决定的 对于回归分析 其中的因变量肯定为随机变量 这是回归分 析方法本身所决定的 而自变量则可以是普通变量 规范的叫法是 固定变量 有确定的取值 也可以是随机变量 如果自变量是普通变量 采用的回归方法就 是最为常用的 最小二乘法 即模型 回归分析 如果自变量是随机变量 所 采用的回归方法与计算者的目的有关 在以预测为目的的情况下 仍采用 最 小二乘法 在以估值为目的的情况下须使用相对严谨的 主轴法 约化主轴 法 或 Bartlett 法 即模型 回归分析 显然 对于回归分析 如果是模型 回归分析 就根本不可能回答变量的 相关性 问题 因为普通变量与随机变 量之间不存在 相关性 这一概念 问题在于 大多数的回归分析都是模型 回 归分析 此时 即使作者想描述 2 个变量间的 共变趋势 而改用相关分析 也会因相关分析的前提不存在而使分析结果毫无意义 如果是模型 回归分析 鉴于两个随机变量客观上存在 相关性 问题 但因回归分析方法本身不能提供 针对自变量和因变量之间相关关系的准确的检验手段 因此 若以预测为目的 最好不提 相关性 问题 若以探索两者的 共变趋势 为目的 建议作者改用 相关分析 需要特别指出的是 回归分析中的 R 2 在数学上恰好是 Pearson 积矩相关系 数 r 的平方 因此 这极易使作者们错误地理解 R 2的含义 认为 R2就是 相关 系数 或 相关系数的平方 问题在于 对于自变量是普通变量 即其取值具 有确定性 因变量为随机变量的模型 回归分析 2 个变量之间的 相关性 概念根本不存在 又何谈 相关系数 呢 说明 二元回归可决系数符号用小 写 r 2 5 5 显著性水平显著性水平 相关分析及正态分布检验等均为基于假设检验的统计分析方法 而显著性水 平的确定是假设检验中至关重要的问题 显著性水平反映了拒绝某一原假设时所 犯错误的可能性 通常 拒绝客观上正确的原假设的几率用 值表示 该值被称 为假设检验的显著性水平 Significant level 值一般在进行假设检验前由 研究者根据需要确定 常用的取值是 0 05 或 0 01 对于前者 相当于在原假设 事实上正确的情况下 研究者接受这一假设的可能性为 95 对于后者 则研究 者接受事实上正确的原假设的可能性为 99 显然 降低 值可以减少拒绝原假 设的可能性 因此 在报告统计分析结果时 必须给出 值 在进行统计分析时 各种统计软件通常在给出检验统计量的同时 也给出该检验统计量取值的相伴概 率 即某特定取值及更极端可能值出现的准确概率 用 p 表示 p 值是否小于 事先确定的 值 是接受或拒绝原假设的依据 如果 p 值小于事先已确定的 值 就意味着原假设成立的可能性很小 因而可以拒绝原假设 相反 如果 p 值大于 事先已确定的 值 就意味着原假设成立的可能性较大 因而不能拒绝原假设 在计算机软件尚不普及的情况下 计算检验统计量并与特定显著性水平的临界值 比较是简洁的方法 但在计算机软件很普及的今天 建议直接使用 p 值进行统计 推断 并在结果中给出 p 以表达精确错误率 以二元相关分析为例 相关分析中的原假设是 相关系数为零 即 2 个随 机变量间不存在显著的相关关系 如果计算出的检验统计量的相伴概率 p 值 低于事先给定 值 如 0 05 就可以认为 相关系数为零 的可能性很低 2 个随机变量之间存在明显的相关关系 与相关分析不同 在正态分布检验时 原 假设是 样本数据来自服从正态分布的总体 此时 如果计算出的检验统计量 的相伴概率 p 值 低于事先给定 值 如 0 05 则表明数据不服从正态分布 在本刊来稿中 作者在描述相关分析结果时常有的失误是仅给出相关系数的 值 而不给出显著性水平 这就无法判断 2 个随机变量间的相关性是否显著 此 外 作者在论文中常常用 显著相关 和 极显著相关 来描述相关分析结果 即认为 p 值小于 0 05 就是显著相关关系 或显著相关 小于 0 01 就是极显著 相关关系 或极显著相关 显然 这也是不规范的 在假设检验中 只有 显 著 和 不显著 没有 极显著 这样的提法 令人遗憾的是 有些统计软件 教程中也有此种提法 只要计算出的检验统计量的相伴概率 p 值 低于事先 确定的 值 就可以认为检验结果 显著 相关分析的原假设是 相关系数为 零 故此处的 显著 实际意味着 相关系数不为零 或说 2 个随机变量间 有显著的相关关系 同样 只要计算出的检验统计量的相伴概率 p 值 高于 事先确定的 值 就可以认为检验结果 不显著 因此 不能认为 p 值小于 0 05 就是 显著相关 p 值小于 0 01 就是 极显著相关 换言之 在进行相关分 析时 不能同时使用 0 05 和 0 01 这 2 个显著性水平来决定是否拒绝原假设 只 能使用其中的 1 个 规范的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 气密测试培训课件
- 三级指挥员培训课件
- 2025普工招聘笔试题库及答案
- Quinolinic-acid-13C3-15N-2-3-Pyridinedicarboxylic-Acid-sup-13-sup-C-sub-3-sub-sup-15-sup-N-生命科学试剂-MCE
- DSPE-PEG3400-TAASGVRSMH-生命科学试剂-MCE
- 2025年铁路职业技能竞赛(线路工)理论考试练习题+答案
- 2配电室着火应急预案
- 2025年旅游综合管理试题题库及答案
- 2025版校园食堂员工劳动合同及安全生产责任制协议
- 2025年绿色环保食品包装设计项目委托合同
- 2025年0-3岁儿童发展指南
- (2025年标准)政府基金协议书
- 个人与公司合作合同协议
- 2025数字量化混凝土配合比设计标准
- 中职校长外出培训汇报
- 软件系统运维操作手册
- 江苏省低空空域协同管理办法(试行)
- 三升四数学综合练习(60天)暑假每日一练
- 直肠癌个案护理
- 西门塔尔牛养殖技术课件
- 油库培训大纲及课件
评论
0/150
提交评论