




已阅读5页,还剩19页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
管理工程决策方法课程论文院 系 物流学院 专 业 物流工程 班 级 物工一班 目录关键词1第1章 绪论11.1研究目的11.2数据来源11.3研究思路2第2章 数据挖掘与处理32.1数据挖掘简介32.1.1数据挖掘的定义32.1.2挖掘数据的类型32.1.3数据挖掘的任务32.1.4数据挖掘的步骤42.2数据处理42.2时间序列数据准备52.3聚类分析和回归数据准备6第3章 地区生产总值数据分析63.1 2012-2017年时间序列分析63.1.1时间序列分析简介63.1.2数据分析73.2 2008-2011年各地区生产总值聚类分析113.2.1聚类分析及算法简介113.2.2数据分析123.3 2008年-2011年各城市地区生产总值回归分析163.3.1线性回归介绍163.3.2数据分析17第4章 总结2022地级市地区生产总值数据分析关键词:地区生产总值;时间序列;聚类分析;回归分析第1章 绪论1.1研究目的地区生产总值(地区GDP)是一个地区的所有常住单位在一定时期内所生产的全部最终产品和服务的价值总和是反映经济总体状况最重要的指标,GDP就像天气的卫星云图一样,能够提供经济状况的完整图像,能够帮助领导者判断经济是在萎缩还是在膨胀,是需要刺激还是需要控制,是处于严重衰退还是处于通胀威胁之中。如果没有像GDP这样的总量指标,政策制定者就会陷入杂乱无章的数字海洋而不知所措。,地区GDP可以反映一个地区的经济发展规模,判断其经济总体实力和经济发展的快慢,还可以用来进行经济结构分析,是宏观经济决策的重要依据。所以通过研究各地区的生产总值,可以让我们了解全国各地区的经济发展水平并将同一级别的城市进行聚类,同时也有利于进行相应的政策支持。1.2数据来源此数据来自2009-2011年中国城市统计年鉴的地级市地区生产总值(如下图)图1- 1数据来源1.3研究思路图1- 2研究思路第2章 数据挖掘与处理2.1数据挖掘简介2.1.1数据挖掘的定义数据挖掘是从大量的原始数据中采用多种方法去寻找数据间隐含的有趣模式和知识的过程。如果数据挖掘的过程可形象的比喻成从黄金矿山中幵釆黄金(如图2-1所示),那么原始数据具的大容量、含噪音和异质数据就像是矿山上的废渔一样;挖掘算法好比肝釆工具一样具有多样化特点;数据间隐藏的模式和知识就如黄金一样事先人们是看不到的、但是对人们又非常有用。12.1.2挖掘数据的类型数掘挖掘足一种通用的技术,它可以挖掘任何对目标应用有意义的数据。这些数据大致可分以下四类:(1)数据库数据作为数据挖掘研究中最主要的数据形式,关系数据库拥有丰富的数据源。它是许多表的汇集,每个表都包含许多字段,并且存放大量的记录。每一个记录代表一个对象,被唯一的关键字所标识,并且被其它字段描述它的属性。(2)数据仓库数据仓库是按照某一主题组织的、经过清理加工和整理的、能够反映历史各阶段信息的、相对较稳定的数据的累积。(3)事务数据事务数据库中的每一个记录表示一个事务,每个事务拥有唯一的标识号,以及组成事务的项的列表。(4)其它类型的数据除了上述三种数据以外,还有很多其它数据也可以作为数据挖掘的数据源。例如工程设计数据(如集成电路)、多媒体和文本数据(如音频、视频)、数据流(如视频监控)、空间数据(如导航地图)等等。2.1.3数据挖掘的任务数据的挖掘任务包括两类,第一类任务用于刻画目标数据中数据的性质,第二类任务用于在当前数据上分析判断,然后做出预测。前者属于描述性任务,而后者属于预测性任务。一般而言,数据的挖掘任务有如下6种任务:(1)数据特征化与区分(2)关联分析 (3)分类(4)聚类分析 (5)离群点分析 (6)序列模式2.1.4数据挖掘的步骤(1)确定问题明确数据挖掘任务的具体需求和确定挖掘釆用的具体方法(如关联、分类、聚类等)。(2)数据收集和预处理此步骤主要包括数据的选择、预处理以及转换。1数据选择就是确定挖掘任务的目标数据,依据任务要求,从相关数据源中选取任务相关数据。2、数据预处理一般包括空缺处理、平滑噪声、数据规约、数据类型转换、数据集成等处理。3、数据转换是指从对象的初始属性中选取挖掘任务相关的属性,来提高挖掘的整体效率。(3)数据挖掘根据所选定的挖掘方法,对上面步骤处理好的数据,选择合适的挖掘算法进行数据挖掘得出模型。(4)分析和评估对上面步骤中挖掘所得的模型进行评估分析。需要注意的是整个数据挖掘的过程是需要不断反馈和修正的。当在挖掘的过程中发现由于数据不合适或者挖掘方法不恰当,造成挖掘的结果不够理想,那么需要重复挖掘过程,如果有需要的话,可以从头重新开始。(5)知识的应用将最后确定的有用挖掘结果(知识)应用到问题中去。2.2数据处理在数据挖掘整体过程中,海量的原始数据中存在着大量杂乱的、重复的、不完整的数据,严重影响到数据挖掘算法的执行效率,甚至可能导致挖掘结果的偏差。为此,在数据挖掘算法执行之前,必须对收集到的原始数据进行预处理,以改进数据的质量,提高数据挖掘过程的效率、精度和性能。数据预处理主要包括数据清理、数据集成、数据变换与数据归约等技术图2- 1剔除各省名称和空值2.2时间序列数据准备选取各城市地区生产总值的全市数值列汇总到时间序列原数据表格图2- 22.3聚类分析和回归数据准备将2008-2011年数据整理图2- 3第3章 地区生产总值数据分析3.1 2012-2017年时间序列分析3.1.1时间序列分析简介时间序列:是指将某种现象某一个统计指标在不同时间上的各个数值,按时间先后顺序排列而形成的序列。时间序列法是一种定量预测方法,亦称简单外延方法。在统计学中作为一种常用的预测手段被广泛应用。时间序列分析在第二次世界大战前应用于经济预测。二次大战中和战后,在军事科学、空间科学、气象预报和工业自动化等部门的应用更加广泛。时间序列分析(Time series analysis)是一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。时间序列分析方法:它包括一般统计分析(如自相关分析,谱分析等),统计模型的建立与推断,以及关于时间序列的最优预测、控制与滤波等内容。经典的统计分析都假定数据序列具有独立性,而时间序列分析则侧重研究数据序列的互相依赖关系。后者实际上是对离散指标的随机过程的统计分析,所以又可看作是随机过程统计的一个组成部分。例如,记录了某地区第一个月,第二个月,第N个月的降雨量,利用时间序列分析方法,可以对未来各月的雨量进行预报。随着计算机的相关软件的开发,数学知识不再是空谈理论,时间序列分析主要是建立在数理统计等知识之上,应用相关数理知识在相关方面的应用等。3.1.2数据分析(1)导入2008年-2009年数据图3- 1(2)读取值图3- 2(3)设置时间区间和初始年份时间以年为单位,初始年份为2008年图3- 3并预测未来五年图3- 4采用指数平滑方法,指数平滑方法:最近的过去态势,在某种程度上会持续到最近的未来,所以将较大的权值放在最近的数据样本上。 原理:任一期的指数平滑值都是本期实际观察值与前一期指数平滑值的加权平均。基本思想:预测值是以前观察值的加权和,且对不同的数据给予不同的权值,新数据给较大的权值,旧数据给较小的权值。图3- 5(4)选定地区生产总值进行绘图图3- 6(5)运行预测如下图3- 7(6)图形如下指数平滑建模结果如下图3- 8专家建模器结果如下图3- 9模型如下图3- 103.2 2008-2011年各地区生产总值聚类分析3.2.1聚类分析及算法简介(1)聚类分析(Cluster Analysis)又称群分析,是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。聚类分析起源于分类学,在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量的分类。随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验和专业知识难以确切地进行分类,于是人们逐渐地把数学工具引用到了分类学中,形成了数值分类学,之后又将多元分析的技术引入到数值分类学形成了聚类分析。聚类分析被应用于很多方面,在商业上,聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征;在生物上,聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识;在地理上,聚类能够帮助在地球中被观察的数据库商趋于的相似性;在保险行业上,聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组;在因特网应用上,聚类分析被用来在网上进行文档归类来修复信息。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。(2)聚类方法的特征1、聚类分析简单、直观;2、聚类分析主要应用于探索性的研究,其分析的结果可以提供多个可能的解,选择最终的解需要研究者的主观判断和后续的分析;3、不管实际数据中是否真正存在不同的类别,利用聚类分析都能得到分成若干类别的解;4、聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终的解都可能产生实质性的影响;5、研究者在使用聚类分析时应特别注意可能影响结果的各个因素;6、异常值和特殊的变量对聚类有较大影响,当分类变量的测量尺度不一致时,需要事先做标准化处理。(3)K-means算法也称k-平均算法。k-means是一种迭代算法,初始的k个簇被随机的定义之后,这些簇将被不断地更新,并在更新中被优化,当无法再进一步优化(或者达到一定的迭代次数)时算法才停止,然后生成模型。在k-means算法中,每个簇有一个中心,称为“质心”,k个簇就相应地有k个质心。一个样本究竟被划分到哪个簇,就看它和哪个质心的“相异度”最小。在k-means算法中,衡量相异度的指标是“距离”。所以也可以这么说,一个样本究竟被划分到哪个簇,就看它和哪个质心的“距离”最小。这里的距离,则是由样本的每一个属性的取值来共同参与决定的。3.2.2数据分析(1)建立模型如下图3- 11(2)导入2008年地区生产总值数据图3- 12(3)读取值图3- 13(4)设置聚类数并运行图3- 14(5)得到结果图3- 15由上图可知聚类7占所有的34.1%,而这些城市多是通辽市,呼伦贝尔市,巴彦淖尔市,吉林市,四平市这些城市大多市辖区地区生产总值增长率较高都保持在20%以上,且其发展水平在国家各城市发展水平的中部,有较高发展前景。(6)分别带入2009.2010.2011年数据取得结果图3- 16 2009年图3- 17 2010年图3- 18 2011年分别选取通辽市,呼伦贝尔市,巴彦淖尔市,吉林市,四平市等城市进行跟踪对比得到下图表3- 12008年通辽市5861392198527818952264862022.9聚类-7呼伦贝尔市5050392789263186873019916.323.6聚类-7巴彦淖尔市35514741077553204232024317.321.9聚类-7吉林市100801285661847232773121518.419.43聚类-7四平市47524971048197142671790920.821.98聚类-7辽源市21650001314033175452751920.623.5聚类-7通化市35362771346214155592963020.0823.26聚类-7白山市23745231249657182732111321.820.9聚类-7松原市60734942300620217104343720.321.53聚类-72009年通辽市7419620.02606818254023508718.918.6聚类-2呼伦贝尔市6326600102331823413398231515.9聚类-6巴彦淖尔市43906001281000252372397317.819.6聚类-2吉林市1.30E+077079309300163828120.718.4聚类-2四平市59654761491734177392191419.422聚类-2辽源市27118561661196219893480221.1722.3聚类-2通化市44732621749540197033850722.118.5聚类-2白山市30034881541413231592604619.919.7聚类-2松原市8067183268629428486508572214.7聚类-22010年 通辽市96139353199544311474271216.916.2聚类-7 吉林市150047768316415345834529616.516.6聚类-7 通化市51800171939646228204300715.310.9聚类-7 松原市90083043501639314214432414.018.37聚类-7呼伦贝尔市77926531304521288824878517.120.1聚类-5巴彦淖尔市50986581573300293842940219.317.4聚类-5 四平市65859471737496194682472719.319.5聚类-5 辽源市33618202025790271604241622.819.17聚类-5 白山市35663481890411274953186521.526聚类-52011年 通辽市11766183381421138157498431614.1聚类-7 吉林市1800637610241814414795582412.515.5聚类-7 松原市110284624223642381365299412.6610.26聚类-7巴彦淖尔市60332921789072354633343013.515.9聚类-9 四平市77955272056605229422815414.214.5聚类-9 辽源市41014262417827331375050814.113聚类-9 通化市62708442033307276904533717.154.5聚类-9 白山市43316702179728335243626217.28.89聚类-9呼伦贝尔市93201381624152344526008619.2923.19聚类-2由上表可以看出在2008年到2009年,9所城市发展情况差不多,地区生产总值都在稳步提升,但到2010年开始聚类层次不一致的情况,且有些城市增速放缓,到2011年更加明显聚类更加不一致,以通辽市、吉林市、松原市为代表的聚类5继续保持快速上升趋势。而通化市的增速则放缓了。3.3 2008年-2011年各城市地区生产总值回归分析3.3.1线性回归介绍线性回归是一种古老类型的技术统计,是重要的也是最有用的挖掘工具之一。线性回归能够使挖掘者找到数据中最有价值和最深入的发现,同时,也很容易解释在被发现的关系上发生了什么。本质上,线性回归是一种探索式、验证性的方式,寻找穿过状态空间的单独一条直线以便使这条直线尽可能地靠近空间中的所有点。当状态空间多于二维时,它不是恰好一条直线。在三维空间中,它是一个面,在多维空间中,它将是二维空间中直线的高纬度模拟。以二维的状态空间
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 硕士外语测试模拟题汇编与试题及答案
- 2025年中学教师资格《综合素质》教学反思与总结重点试题及答案
- 2025年医保知识考试题库及答案(医保目录解读与医疗保险法规执行效果试题)
- 2025年医保知识竞赛题库及答案:医保患者权益保障要点解析与案例分析
- 医疗机构危机管理与应急救援伦理观
- 区块链技术助力打造安全可靠的食品供应链
- 医疗行业中的多级供应链优化策略
- 核电辐射安全知识
- 区块链技术驱动的供应链透明度提升策略
- 护士职业发展试题及答案
- 新技术、新工艺、对提高工程质量、缩短工期、降低造价的可行性
- 金属矿床地下开采复习题及答案
- GB 5009.34-2022食品安全国家标准食品中二氧化硫的测定
- 教学课件《断裂力学》
- 慢阻肺的管理课件
- 电工基本知识培训资料课件
- 北师大版《相遇问题》公开课课件
- 邻补角、对顶角、同位角、内错角、同旁内角经典习题-一对一专用
- HP系列培训手册
- 毕业论文-原油电脱水方法与机理的研究
- 陕西省2022年普通高中学业水平考试(真题)
评论
0/150
提交评论