多元统计分析在数学建模中的应用.pdf_第1页
多元统计分析在数学建模中的应用.pdf_第2页
多元统计分析在数学建模中的应用.pdf_第3页
多元统计分析在数学建模中的应用.pdf_第4页
多元统计分析在数学建模中的应用.pdf_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第 卷第 期 年 月 上 海 工 程 技 术 大 学 学 报 文章编号 收稿日期 作者简介 江开忠 男 副教授 博士 研究方向为知识发现 搜索技术 智能计算等 多元统计分析在数学建模中的应用 江开忠 古 晞 许伯生 李 路 上海工程技术大学 基础教学学院 上海 同济大学 理学部 上海 摘要 以 年全国大学生数学建模竞赛的 题 重金属污染问题 及 年全国研究生数学 建模竞赛的 题 小麦发育后期茎秆特征和抗倒性问题 为例 运用 统计工具箱中多元 统计分析函数进行了多元统计分析 从而显示出多元统计分析在数学建模中的独特优势 关键词 多元统计分析 重金属污染 抗倒伏 中图分类号 文献标志码 数学建模侧重于对实际问题的处理 近几年的 数学建模题目均源于应用领域中的实际问题 庞大 的信息数据量往往对参赛选手在数据的处理和分 析上提出更高的要求 要从表面上看起来杂乱无章 的数据中发现和提炼出规律性的结论 不仅需要对 所研究的专业领域有很好的了解 而且要掌握必要 的统计分析工具 多元统计分析是近三四十年统计 学中发展迅速的一个分支 内容十分丰富 应用范 围极为广泛 随着计算机的普及和软件的发展 信 息储存手段以及数据信息成倍增长 使得多元分析 的方法已广泛应用于自然科学和社会科学的各个 领域 国内外实际应用中卓有成效的成果已经证 明 多元分析方法是处理多维数据不可缺少的重要 工具 并日益显示出无比的魅力 本文介绍了多元统计分析在数学建模中的应 用 同 时 考 虑 到 具 有 和 等统计软件不可比拟的操作简单 接口方 便 扩充能力强和应用范围广泛等优势 以 作为算法的实现平台 对多元统计分析方法的具体 应用进行了实例说明 第 期 江开忠 等 多元统计分析在数学建模中的应用 统计工具箱中多元统计分 析函数 统计工具箱是 提供的一个强有力的统 计分析工具 几乎包括了统计分析方面的所有概 念 理论 方法 算法及其实现 统计工具 箱有功能函数 多个 其中基本内容可分为 部分 描述统计 统计可视化 概率分布 假设检验 线性模型 非线性模型 多元统计分析 统计过程控 制 试验设计和隐马尔可夫模型 常用的多元统计 分析函数见表 表 多元统计分析常用函数 函数类描 述调用格式 本文以全国大学生数学建模竞赛和研究生数 学建模竞赛中的两道题目为例 对多元统计分析法 的应用进行了说明 城市表层土壤重金属污染的多元 统计分析 以 年 全 国大 学 生 数 学 建 模 竞 赛 的 题 为例 随着城市经济的快速发展和城市人口的不断 增加 人类活动对城市环境质量的影响日渐突出 对城市土壤地质环境异常的查证 以及如何应用查 证获得的海量数据资料开展城市环境质量评价 研 究人类活动影响下城市地质环境的演变模式 日益 成为人们关注的焦点 本文对某城市城区土壤地质环境进行调查 为 此 将所考察的城区划分为间距 左右的网格 子区域 按照每平方公里 个采样点对表层土 深度 进行取样 编号 并用 记录采样 点的位置 对每个网格子区域的取样应用专门仪器 测试分析 获得了每个样本所含的多种化学元素的 质量浓度 数据 见表 此外 按照 的间距在那些远离人群及工 业活动的自然区取样 将其作为该城区表层土壤中 元素的背景值 见表 表 抽样点主要重金属元素质量浓度 编号 观测点坐标 上 海 工 程 技 术 大 学 学 报第 卷 表 主要重金属元素的背景值 元 素平均值标准偏差范围元 素平均值标准偏差范围 标准化数据 利用表 中各重金属质量浓度的均值与标准 偏差对表 数据进行标准化 设第 种重金属的质 量浓度均值为 标准偏差为 则对表 中的第 个抽样点的第 种重金属质量浓度数据进行标准 化 即 同样 对 个背景值范围也进行标准化可知 即 个重金属污染的质量浓度标准化 取值范围均为 抽样点单指标超标认定标准 若 表明 第 个抽样点的第 种重金属质量浓度超标 否 则 认为正常 抽样点多指标超标的认定采用内梅 罗污染指数或毒性加权认定 超标区域的主成分分析 主成分分析是把原来多个指标简化为少数几 个互不相关的综合指标的一种多元统计方法 以达 到数据简化 揭示变量之间内在关系和进行统计解 释等目的 为进一步分析总体性质和数据的统计特 性提供重要的信息 主成分分析的数学模型 设 协方差矩阵为 的特征根为 设 的线性函数为 使得 的方差尽 可能地大 且 即 当累积贡献率越大时 相应的主成分 的能 力就越强 反之 则越弱 基于内梅罗污染指数超标区域局部的主成 分分析 内梅罗指数法是国家技术监督局于 年实 施 年修订的国家标准 地下水质量标准 推荐的方法 计算综合评分值 的指数计算公式为 槡 式中 为抽样点各指标的最大值 为抽样点各 指标的平均值 根据内梅罗污染指数可知 编号为 的抽样点 污染最严重 其污染指数达到 编号为 的抽样点的污染指数为 污染指数第三大 的抽样点编号为 污染指数为 以编号为 的抽样点为中心 为半径 的圆内所有 个抽样点的标准化数据作为观测矩 阵 使用 中的 命令实现主成分 分析 其结果见表 表 基于内梅罗污染指数局部主成分分析结果 主成分 特征向量 特征根 累积贡 献率 第 期 江开忠 等 多元统计分析在数学建模中的应用 第 主成分为 第 主成分的贡献率为 说明 中包 含原始变量 的信息 因此可以用主成分 替代原来的 个重金属变量 而在第 主成分中 汞 起到了决定性的作用 这说明在 号抽样 点及其周围的污染 主要是由重金属汞引起的 基于重金属毒性超标区域局部主成分分析 瑞典著名地球化学家 于 提出 的潜在生态危害指数法 是目前最为常用的评价重金属污染 程度的方法之一 该方法的重点之一是确定重金属 的毒性系数 根据该方法 种重金属的潜在毒 性系数见表 表 各重金属的毒性系数 元 素 毒性系数 毒性权重 根据毒性系数计算各重金属的毒性权重见 表 对各抽样点标准化数据进行加权并求和 同 样得到编号为 的抽样点毒性污染最严重 其污染 指数达到 其次是编号为 的抽样点 污 染指数为 再次是编号为 的抽样点 污染 指数为 以 号抽样点为中心 为半径的圆内 所有 个抽样点的标准化数据 按毒性加权后作 为观测矩阵 并使用 中 命令实 现主成分分析 其结果见表 表 基于重金属毒性局部主成分分析结果 主成分 特征向量 特征根 累积贡 献率 比较表 与表 发现 表 第 主成分的贡献 率比表 第 主成分的贡献率大 达到 且表 第 主成分的系数向 集中 说明在该局 部区域的毒性污染基本上是由金属汞引起的 其他 金属的毒性污染可以忽略不计 小麦发育后期茎秆特征与抗倒性 中的多元统计分析 以 年 全 国 研 究 生 数 学 建 模 竞 赛 的 题 为例 小麦高产 超高产的研究是小麦育种家关注的 热点问题 随着产量的增加 小麦的单茎穗重不断增 加 但穗重的增加同时使茎秆的负荷增大 导致容易 倒伏 倒伏不但造成小麦减产 而且影响小麦的籽粒 品质 因此要实现小麦高产优质的跨越 就必须解决 或尽量减少小麦的倒伏问题 解决倒伏问题的方法 之一就是针对不同的产量 寻找小麦抗倒伏能力最 佳的茎秆性状 包括株高 茎长 各节间长 各节茎外 径 壁厚 茎秆自重 穗长 穗重等 根据文献 研究表明 小麦倒伏指数在乳熟期最小 然后增大 在小麦成熟时 茎秆倒伏指数达到最大 表 为小麦 品种矮抗 在腊熟期各性状測量数据 数据清理 由于小麦同一品种 同一母体生长环境相同 因此假设样本母体第 个指标 服从正态分布 即 为第 个个体的第 个指标 观测值 第 个指标的样本均值为 样本均方差为 槡 异常个体的认定 对个 体 若 存 在 使得 上 海 工 程 技 术 大 学 学 报第 卷 则认为个体 为异常个体 将异 常个体从样本中清除 表 中 个体 和 出现异常 因此将 个体 和 从样本中清除 其余个体的所有 指标均正常 后续数据处理与分析均基于数据清理 后的数据 表 矮抗 小麦腊熟期各性状測量数据 编号 基部第 节基部第 节基部第 节基部第 节 长 粗 长 粗 长 粗 长 粗 茎重心 壁厚 鲜重 强度 机械强度与性状的相关性分析 设观测矩阵 使用 中命令 实现相关性分析 其结果见表 表 机械强度与茎秆特征相关系数 相关系数 从表 可知 小麦茎秆机械强度与节的长度基 本不具有显著的相关性 即小麦的矮化不一定有利 于小麦抗伏倒 机械强度与第 节的粗度均 成显著的正相关 说明小麦的粗壮化有利于小麦抗 伏倒 并且机械强度与第 节粗度的相关系数 大于与第 节的相关系数 这说明加大第 节粗度对提高小麦茎秆机械强度 从而提高小麦抗 伏倒有重要作用 这些结论与目前已有的研究成果 基本一致 另外 机械强度与小麦的鲜重也呈现显 著的正相关 这是因为机械强度与粗度呈正相关 而粗壮的小麦自然鲜重也较大 综上 从有利于抗倒伏方面考虑 育种上应选 择较粗的茎秆 在栽培上应控制株高 以提高水稻 的生物学产量 并适当增加水稻植株的高度 有利 于改善群体的通风透光状况 机械强度的回归分析 假定被解释变量 与多个解释变量 之间具有线性关系 是解释变量的多元线性函 数 称为多元线性回归模型 即 式中 为随机误差项 且 为 个未知参数 使用 中命令 实现回归分析 根 据表 首先假定机械强度 的解释变量只有与 最相关的基部第 节的粗度 依次逐步加入 等 可得到各回归方程见表 表 机械强度 与 各次方回归系数 编号 回归系数 值 第 期 江开忠 等 多元统计分析在数学建模中的应用 从表 可知 机械强度 与 的拟合优度与调整的拟合优度达到最大 因此 与 的各次拟合中 拟合到 的 次方效果 最好 在 的 次拟合的基础上 依次加入小麦的 其余特征变量 可得到各项回归系数与调整的拟合 优度 见表 从表 可知 在 的 次拟合的基础上 加入特 征 可使调整拟合优度得到最大的提高 此时 可得 矮抗 小麦机械强度 的回归方程为 式中 如果在此回归方程的基础上 依次加入 则调整拟合优度会降低 综上 上述回归方程可以认为是拟合优度最好 的线性代数回归方程 表 依次加入其余特征的回归系数 加入 特征 回归系数 加入特 征系数 值 结 语 本文利用 的统计分析函数对 年 全国大学生和研究生数学建模竞赛试题进行了多 元统计分析 分析结论得出 数据采样所在城市污 染最严重的局部区域的毒性污染来源主要是金属 汞 矮抗 小麦的机械强度与基部第 节粗度 的 次多项式加上基部第 节长度的拟合度最好 其调整的拟合优度可达 多元分析方法作为处理多维数据不可缺少的 重要工具 日益显示出其无比的魅力 若与其他建 模工具结合使用 可以获得较好的效果 参考文献 全国大学生数学建模竞赛组委会 高教社杯全 国大学生数学建模竞赛赛题 李亚松 张兆吉 费宇红 等 内梅罗指数评价法的修 正及其应用 水资源保护 徐争启 倪师

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论