数学建模统计建模论文.pdf_第1页
数学建模统计建模论文.pdf_第2页
数学建模统计建模论文.pdf_第3页
数学建模统计建模论文.pdf_第4页
数学建模统计建模论文.pdf_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

历年数模竞赛试题的统计分析 摘要 全国大学生数学建模竞赛作为大学生热门赛事, 其试题难度趋势及建模方法 是直接关系到比赛好坏。本文也是围绕该问题,利用主成分统计方法及历年赛题 相关文献建立一系列数学模型对历年赛题进行综合评价预测和重要性建模方法 排序,最后由模型的求解结果提出建设性意见。 对于问题一:本文利用主成分分析方法建立了综合评价预测模型,在实际基 础上对影响赛题难易度的因素设置合理的值, 再利用第一主成分对历年赛题进行 综合评价,评价结果为,2010 年的赛题最难,其次是 2015 年,在此基础上建立 主成分回归方程,对 2016 年赛题难易程度的预测,结果为该年的获奖率较高, 难度不大。 对于问题二:本文在综合评价预测模型基础上建立了重要性排序模型。通过 对历年的赛题解题方法进行统计分析,建立评价函数,最后得到建模方法的重要 性排序。建模中所用方法最多、最重要的是运筹规划,次之是网络优化和数值运 算。 对于问题三, 我们在问题一和问题二的求解结果的基础上提出短期建议应提 高运筹规划,网络优化和数值运算的掌握与应用,并在长期建议中提出提高阅读 能力,拓宽知识面和学习计算机新型算法等建议。 该模型思路方法清晰,适合对数模竞赛题进行统计分析。 关键字:主成分分析;评价;预测;排序 1 介绍 1.1 背景 自 80 年代开始,我国的数学建模教学和数学建模竞赛日益蓬勃地发展起来。 到如今,全国数学建模竞赛已成为全国大学生及研究生的重要赛事,且竞赛成绩 也成为了衡量一个高等学府实力的一个标准。 数学建模竞赛有利于推进高校学生 的综合素质教育,还有利于建立高校学生把实际问题和数学方法联立的思想方 法。正因为如此,提前的科学性教学以及对历年赛题的分析也变得尤为重要。 1.2 问题重述 全国大学生数学建模竞赛题型众多,对于建模竞赛试题题型及难度趋势的把 握,关系到赛前准备工作的落实及比赛成绩的好坏。但是将每个题目都做一遍显 然不可能,一种思路是对题目的特点进行分析,作出判断,用于指导赛前的各项 准备工作。 请根据历年的全国题目(必选)和有关高校的选拔题目(自选)的特点(例如数 据、方法、规模等),建立模型进行分析,解决以下问题: 1、对建模题目的难度趋势进行综合评价和预测。 2、根据这些题目常用的建模方法作统计分析,对常用建模方法的重要性进 行排序。 3、对建模培训的内容、方式等方面给出建议报告。 1.3 问题分析 针对以上问题,进行如下分析: 对于问题一:本问题主要是解决对建模题目的难度进行综合评价,并对建模 题目进行预测。首先我们通过查阅文献,对历届的赛题进行难易度分析,选取了 针对数模竞赛问题的难易度影响因素,并且根据每一个因素取值不同特点,可将 其分为连续变量、分类变量、等级变量,并给出了变量范围。通过主成分分析的 方法,对历届的赛题的难易度进行综合评价,然后建立主成分回归方程对 2016 年建模题目难度进行预测。 对于问题二:本问题主要对历代建模题目的题目方法统计,然后对建模方法 的重要性进行排列。我们通过查阅文献,对历年的赛题解题方法进行统计分析, 然后在问题一模型的基础上, 建立评价函数, 对建模使用方法的重要性进行排序。 最后,对重要的建模的方法进行分析。 对于问题三: 本问题是在前两问题求解的基础上如何有效地进行建模培训和 学习提出建设性意见。 利用问题一的历年赛题难度评价结果和问题二的重要性建 模方法结果,针对因素分析提出学习内容方面建议,针对使用方法分析提出重点 学习使用方法建议。 1.4 问题假设 1.假设影响数模问题的难度趋势因素不完全相关。 2.由于各个因素影响数模问题的难度趋势是有差异的,假设随机因素服从 2 (0,)N。 1.5 符号解释 ij x, ij y:第i组样本数据中第j个变量的值 X:样本阵 Y:X做标准化后的标准化矩阵 j x:矩阵X中第j的均值 j a:矩阵X中第j的标准差 R:标准化的矩阵Y的样本相关系数阵 j F, j Q:第j个主成分 Y Q:评价函数 i c:第i个指标的权重 A:重要性综合评价 2 模型建立与求解 2.1 综合评价预测模型 2.1.1 模型的建立 由假设 1,影响数模问题的难度趋势因素不完全相关,利用统计中主成分思想 来筛选因素是有意义的, 主成分的基本思想是利用线性代数中的正交变换将一组 相关变量生成新的不相关的新的变量,然后对新的变量进行降维处理,以高精度 形成低维系统 1。 通过查阅相关文献 2, 制定了影响数学建模题目难易程度的因素, 具体见表 1, 而且我们根据每一个因素取值不同特点,可将其分为连续变量、分类变量、等级 变量,并给出了变量范围。 表 1 数学建模题目难易程度的因素 影响因素 变量性质 变量范围 易.难 题目阅读量 连续变量 150500n 150.500 条件的利用情况 分类变量 0,1 0.1 考查知识点的多少 等级变量 15n 1.5 数学过程的复杂性 等级变量 15n 1.5 数据收集的难易程度 等级变量 15n 1.5 问题的开放性 分类变量 0,1 0.1 情景特征的建模难度 等级变量 15n 1.5 问题的可思考性 分类变量 0,1 0.1 问题情景的新颖性 等级变量 15n 1.5 问题的表达方式 分类变量 0,1 0.1 分布设问情况 等级变量 15n 1.5 计算机算法的容易度 分类变量 0,1 0.1 由表 1 得,设影响因素构成的向量为 1212 ( ,)x xx。 则样本阵为: 11121 1 21222 2 12 T n T n T nnnn n xxxx xxxx X xxxx (1) 其中, ij x表示第i组样本数据中第j个变量的值。 对X做标准化变换得标准化矩阵Y为 11121 1 21222 2 12 T n T n T nnnn n yyyy yyyy Y yyyy (2) 其中, ijj ij j xx y a , j x, j a代表矩阵X中第j的均值与标准差。 计算标准化的矩阵Y的样本相关系数阵R 1 T Y Y R n (3) 计算相关系数矩阵R的特征值 0 n RI (4) 解得n个特征值 12 0 n ,取前m个主成分 j F(1,2jm), 需要由下式确定: 1 1 0.8 m j j n j j (5) 其中(5)式也成为累计贡献率,它的意义是前m个主成分综合原始变量所含信 息的能力。 在假设 2 的基础上得到主成分回归方程, 此方程可以对未来赛题的难易程度 作出预测,方程为: 1 122nn fxxx(1,2,12n ) (6) 2.1.2 模型的求解 通过查阅 2009 年至 2015 年全国大学生数学建模赛题分析的相关文献 3, 我 们由此为依据得到影响题目难易程度的具体变量值,查阅浙江赛区 2009 年至 2015 荣获全国一等奖的比率作为衡量题目难易程度的指标,比率越高,题目越 简单,具体见表 2。 表 2 数模赛题难易程度的具体变量值及获奖率 年份 2009 2010 2011 2012 2013 2014 2015 题目阅读量 500 195 387 457 483 302 189 条件的利用情况 1 0 1 0 0 0 1 考查知识点的多少 4 5 4 4 4 5 5 数学过程的复杂性 4 5 3 4 5 5 5 数据收集的难易程度 4 4 2 3 4 5 4 问题的开放性 1 1 0 1 0 1 1 情景特征的建模难度 2 3 2 3 4 4 5 问题的可思考性 0 1 0 0 1 0 1 问题情景的新颖性 3 5 2 3 5 3 4 问题的表达方式 0 1 0 0 0 0 1 分布设问情况 4 5 3 4 4 4 4 计算机算法的容易度 1 0 1 1 1 1 1 获奖率 0.036585 0.052922 0.043513 0.051459 0.052672 0.050833 0.044715 由(1)(5)式,通过 SAS 编程计算,得到表 3 的结果 表 3 影响因素的相关参数 特征值 累计贡献率 1 6.28847749 0.524 2 1.7731475 0.6718 3 1.56782999 0.8025 4 1.45721733 0.9239 5 0.60155408 0.974 6 0.31177361 1 由于前三个主成分的累计贡献率已经达到 0.8,因此3m ,具体主成分见表 4, 表 4 影响因素的样本主成分 主成分 1 主成分 2 主成分 3 x1 -0.293936 0.44339 -0.051158 x2 -0.163226 -0.492259 0.041319 x3 0.329157 -0.263566 0.259519 x4 0.359983 0.269671 0.135596 x5 0.272626 0.278789 0.412325 x6 0.190478 -0.188215 0.480923 x7 0.26401 0.141776 0.220633 x8 0.300956 0.045613 -0.404933 x9 0.319979 0.271372 -0.345077 x10 0.314979 -0.405917 -0.170298 x11 0.33737 0.105441 -0.071855 x12 -0.250454 0.184495 0.37782 由于第一主成分的特征值最大,我们选取第一主成分对赛题难易程度排序,结 果见表 5。 表 5 赛题难易程度排序 名次 年份 1 2010 2 2015 3 2014 4 2013 5 2012 6 2009 7 2011 由(6)式由 SAS 软件求得主成分回归方程如下: 将表 2 的结果代入回归方程得到各年获奖率的理论值,具体见表 6。 表 6 各年的获奖率实际值与理论值 年份 实际值 理论值 相对误差 2009 0.036585 0.044683207 0.221353205 2010 0.052922 0.051731732 0.022490987 2011 0.043513 0.041019729 0.057299451 2012 0.051459 0.04670392 0.092405216 2013 0.052672 0.054144838 0.027962447 2014 0.050833 0.047626081 0.063087345 2015 0.044715 0.046783305 0.046255283 将表 6 结果利用 Matlab 画出图像,得到图 1。 图 1 各年的获奖率实际值与理论值图像 大数据近年来是许多学者研究的方向 4,我们以此为背景利用主成分回归方 程对 2016 年赛题的难易程度进行预测,具体结果见表 7。 表 7 2016 年赛题的难易程度预测 年份 2016 题目阅读量 300 条件的利用情况 1 考查知识点的多少 4 12345 678910 1112 .0000047480.0023848960.0007970.001094120.000507 0.0013732330.0003469810.0016632640.0011664360.000591037 0.001225 0.0345920 6310.000836938 xxxxx xxxxx x f x 数学过程的复杂性 4 数据收集的难易程度 4 问题的开放性 0 情景特征的建模难度 5 问题的可思考性 1 问题情景的新颖性 5 问题的表达方式 0 分布设问情况 4 计算机算法的容易度 1 获奖率 0.050143919 2.1.3 结果分析 由主成分分析综合评价结果表 5 发现, 2010 年的赛题最难, 其次是 2015 年, 这是因为这两年考察知识点、数学过程的复杂性等级较高,而且问题具有一定的 开放性、新颖性,建模难度比较大,这些都是和实际情况相符合。 由表 6 和图 1 结果不难发现,主成分回归方程用来预测的相对误差较小,理 论值和实际值的曲线非常接近,说明主成分回归方程用来预测较为合理,利用此 方程来预测 2016 年赛题的难度趋势,由表 7 得知,该年的获奖率较高,说明试 题大家普遍都能做,难度不大。 2.2 重要性排序模型 2.2.1 模型的建立 我们选取综合评价预测模型的相关方法,即主成分分析方法,建立评价函数, 最后对各个数模方法的重要性进行排序。 同样,设影响因素构成的向量为 12 (,) n y yy。 根据实际数据调查 3,对历年数模问题的方法进行统计,具体见表 2,0 表示 没有用到该方法,1 表示用到了该方法。 表 1 对公共安全因素评判打分 年份 1 w 2 w L w 方法 1 y 11 y 11 y 1L y 2 y 21 y 22 y 2L y n y 1n y 2n y nL y 则样本阵为: 11121 1 21222 2 12 T n T n T nnnn n yyyy yyyy Y yyyy (7) 其中, ij y表示第i组样本数据中第j个变量的值。 对Y做标准化变换得标准化矩阵Z为 11121 1 21222 2 12 T n T n T nnnn n zzzz zzzz Z zzzz (8) 在(3)(4)式基础上,解得n个特征值 12 0 n 特征值越大,对应 的因素也就越重要,因此根据特征值的大小,可以将方法的重要程度按从大到小 排列。一般来说特征值所对应方法无法确定,而主成分最大的优点是利用低维向 量系统就可进行评价,只需取部分主成分构造评价函数得到评价权重,即可对重 要的影响因素进行筛选,取前m个主成分 j Q(1,2jm),需要由(5)式确 定, 利用前m个主成分构造评价函数: 1122 11 (/) mm YjjjLn jj QQb wb wb w (9) 由此得到原有指标得分值: 1 ,(1,2, ) L Yijij j Vb yin (10) 由(7)式得到各指标的权重: 1 / n iYiYi i cVV (11) 再由表 2 的结果,运用模糊评判 5,计算各类方法用到的总数: 1 1 L iij j ry (1,2,in) (12) 由(12)式得到各类方法归一化的矩阵: 111 1 211 1 11 1 /00 0/00 00/ n i i n i i n ni i rr rr R rr (13) 最后得到重要性的综合评判: ij Ac R (14) 2.2.2 模型的求解 通过查阅 1993 年至 2015 年全国大学生数学建模赛题方法的相关文献 3, 得到 表 8 的结果。1 表示运用该方法,0 表示没有运用该方法。 表 8 1993 年至 2015 年赛题的建模方法 1993 1994 1995 1996 1997 1998 1999 2000 运筹规划 1 1 1 1 1 1 1 1 网络优化 1 0 0 1 0 1 1 1 数值计算 1 1 1 0 1 1 1 0 统计与评价 0 0 0 0 0 0 0 0 微分方程与差分 方程 0 0 0 1 0 0 0 0 计算机模拟 1 0 0 0 1 0 1 1 几何与微积分 0 0 0 0 0 0 0 0 续表 8 2001 2002 2003 2004 2005 2006 2007 2008 运筹规划 1 1 1 0 1 1 1 0 网络优化 0 0 0 1 0 1 1 1 数值计算 1 0 0 1 1 1 1 1 统计与评价 0 1 0 1 1 0 0 1 微分方程与差分 方程 0 0 1 0 0 0 1 0 计算机模拟 0 0 0 0 0 0 0 0 几何与微积分 0 0 0 0 0 0 0 0 续表 8 2009 2010 2011 2012 2013 2014 2015 运筹规划 0 0 1 1 1 0 1 网络优化 0 0 0 0 0 1 1 数值计算 1 1 1 0 1 0 0 统计与评价 1 1 1 1 1 0 1 微分方程与差分 方程 0 0 0 0 0 1 0 计算机模拟 1 0 0 0 0 0 0 几何与微积分 0 1 0 0 0 1 0 由(7)、(8)、(3)(5)式,通过 SAS 编程计算,得到表 9 结果。 表 9 建模方法的相关参数 特征值 贡献率 累计贡献 率 1 8.93661956 0.3885 0.3885 2 5.14980931 0.2239 0.6125 3 3.31791534 0.1443 0.7567 4 2.78368969 0.121 0.8777 5 2.1757972 0.0946 0.9723 6 0.63616889 0.0277 1 由于前四个主成分的累计贡献率已经达到 0.8,因此4m, 表 10 建模方法样本的主成分 主成分 1 主成分 2 主成分 3 主成分 4 x1 0.211482 0.219838 -0.281344 -0.016169 x2 0.301503 0.050412 -0.011771 -0.141351 x3 0.301503 0.050412 -0.011771 -0.141351 x4 0.032873 0.343386 0.284405 0.17103 x5 0.225157 0.071869 -0.204958 -0.361372 x6 0.261559 0.193988 -0.087131 0.216168 x7 0.211482 0.219838 -0.281344 -0.016169 x8 0.085384 0.28239 -0.061541 -0.01805 x9 0.301503 0.050412 -0.011771 -0.141351 x10 0.172941 -0.159786 0.372745 -0.014027 x11 0.050991 0.214069 0.395226 -0.190797 x12 0.121161 -0.169018 -0.164976 0.465196 x13 0.283971 -0.208416 0.120466 -0.010924 x14 0.261559 0.193988 -0.087131 0.216168 x15 0.158972 0.280834 0.064603 0.172912 x16 0.121161 -0.169018 -0.164976 0.465196 x17 0.084759 -0.291138 -0.282804 -0.112345 x18 0.017203 -0.369235 -0.090192 0.061307 x19 0.283971 -0.208416 0.120466 -0.010924 x20 0.172941 -0.159786 0.372745 -0.014027 x21 0.283971 -0.208416 0.120466 -0.010924 x22 -0.233894 0.182566 0.073747 0.243261 x23 0.144198 0.002105 0.263883 0.332398 由(9)(11)式,得到指标的分值及权重,具体见表 11。 表 11 指标的分值及权重 1Y V 2Y V 3Y V 4Y V 5Y V 6Y V 7Y V 2.151468 1.247506 1.325564 0.519753 0.453466 0.235456 0.10425 1 c 2 c 3 c 4 c 5 c 6 c 7 c 0.369099 0.214018 0.22741 0.089167 0.077795 0.040394 0.01788 再由(12)(14)式,得到重要性方法排列结果: 0.03566974,0.05513,0.01351,0.004715,0.003(0.1006606,0.00)3,054A 2.2.3 结果分析 由上述结果不难发现,运筹规划方法占的比重是最大的,其次网络优化方法以 及数值计算方法也比较大, 运筹规划方法包括线性规划、 非线性规划、 动态规划、 决策论、排队论等优化知识,网络优化包括图论等。这和数学建模本身来说是比 较相符,在现实意义下,优化问题一直是热门问题,也是一个难点问题,因此求 解结果较为合理。 3 数学建模建设性报

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论