全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1/5数据挖掘技术在经济统计中的应用管窥数据挖掘技术在经济统计中的应用管窥自从我国实行改革开放的政策后,我国社会经济不断发展。随着改革开放的深入,十分必要对经济活动进行合情合理的经济分析。数据挖掘技术作为新的统计方法,用来分析社会经济的活动状况,受到社会各界的广泛关注。利用数据挖掘技术分析数据,满足信息使用者的使用需求,推动我国经济又好又快发展。一、数据挖掘技术的概念随着我国社会经济的进步和发展,数据信息量越来越庞大,如何对这些庞大和繁琐的信息进行处理成为经济统计的难题。传统的数据处理方法已经远远不能满足现在数据使用者的使用需要,所以数据挖掘技术在这种背景下应运而生。数据挖掘技术与传统的数据处理方式存在较大的不同之处。传统的数据处理主要是运用一些数据处理软件,分析经济统计数据,以此来得出经济发展状况。传统的数据处理是简单分析各项数据,停留在数据分析的表面,并没有从深度和广度中进一步分析和处理数据。数据挖掘技术能从庞大的数据信息库中搜索到有价值有品质的数据信息,然后对这些信息进行分析和处理,满足信息使用者的使用需求。数据挖掘技术能解决我国经济发展经济统计2/5困难的窘境,使数据使用者能真正利用好这些对我国经济发展有用的信息。数据挖掘技术能改善数据质量,提高数据利用率,加强数据之间深层次联系。二、数据挖掘技术的应用预处理方法收集到的数据并不一定是齐全的,有些数据是不一致的,有些数据存在噪声,还有些数据存在空值。数据预处理方法是一种最基础的处理方法,它能事先把经济统计数据信息进行预先处理。数据预处理由数据清理、数据集成、数据变换三部分组成。数据清理指的是通过一定的方法把经济统计数据信息中不全的、存在噪声和空值的信息给去掉。一般采取的方法有四种本文由论文联盟HTTP/收集整理,分别是均值法、平滑法、预测法和频率统计法。具体情况具体分析,对于不同的经济统计数据信息要采取适合的方法。当经济统计数据中的数据存在噪声或数据点是空值的情况时,可以采取均值法进行数据清理。对于数据中的噪声和空值,也可以采取平滑法。平滑法和均值法的不同之处是,平滑法用加权平均数代替了均值法中的平均数,这种方法充分考虑到数据中的每一个数据对数据结果的权重影响。使用平滑法能让计算出的结果更加接近真实值。而均值法是利用均值来填补数据中的空缺,能得到比较高准确度的统计3/5分析数据。这两种方法都有各自不同的特点,要根据实际情况,选取适宜的数据处理方法。数据集成是指把各种不同的数据进行集合,使这些不同的数据成为一个集体。数据集成要考虑到既能把各种数据集合起来,又能保证数据的准确性。社会经济的不断发展,导致数据信息量十分庞大。提供数据信息的来源是多方的,既有官方提供的数据信息,又有民间提供的信息,又或者是社会主体提供的数据信息。但数据集成也会出现问题,主要是两个问题,一个是模式集成问题,另一个是冗余问题。模式集成问题是指实体识别存在问题。因为数据挖掘的过程中,多个数据通过多种数据模式呈现出来。冗余问题主要是指数据存在多余,所以要让数据量保持在一个比较低的水平,抛去繁琐的数据。数据挖掘的目的就是通过某种方式方法把经济统计数据以一个最简的状态呈现出来。就数据挖掘本身而言,它就是对经济统计数据进行深一层次的加工,把挖掘出来的数据和其他呈现正相关的数据进行简单优化,为数据使用者提供使用便利,也为数据管理提供管理方便,还为数据决策者提供决策依据。数据变换是指通过一定的方式方法把数据变换成符合信息挖掘要求的数据。数据变换包括数据规范化和数据泛化。数据规范化中包含了零均值规范化、最大规范化、最小规范化。数据泛化指用高层次的数据替代低层次的数4/5据。这其中也包括了数据的连续性。现在的处理方法很难连续处理数据,所以就出现了数据的离散化。数据的离散化是指通过划分区间,用标号代替某些数据,以此来达到数据的连续性。在实际计算过程中,要尽量减少数据的收集量,减少数据的收集量被称作概念分层。决策树方法决策树作为一种快速分类的方法,能使数据以直观的方式呈现出来。在数据挖掘过程中,十分必要对数据进行系统的分析。数据经过系统的分析后,就要进行数据输出,分析数据的输出在数据挖掘中处于很重要的步骤,因为输出的分析数据的数据形式对信息使用者产生很大的影响。经济决策的管理者正是依靠这些数据对经济活动作出规划和决策。运用决策树的分类方法进行分类,首先要先构建起完善的决策树结构。第一,建立好分析输出的基本模型,运用训练集建立一棵决策树,并且精简决策树;第二,已经建立完毕的决策树进行数据分类,分类从决策树的根部开始,逐渐到树干、树丫,一直到数据的输入满足设置好的条件才停止,这种过程是一个递归的过程,是一步一步进行的。在实际决策树应用中,实现决策树停止的有两个条件一个是一个节点上所有的数据全部属于同一个类别,数据就会停止;另一个是已经没有分类属性可以继续对数5/5据进行进一步的再次分割。决策树的分类主要解决数据挖掘预测和数据分类方面的问题。决策树构建完毕后,可以根据实际数据使用需求,数据使用者对已经构建完毕的决策树进行适当的调整。调整的目的是使决策树分类的数据信息能充分满足信息使用者的需求,减少决策树数据输出的起伏变化,保证决策树的稳定,保证信息质量。三、总结我国是社会主义市场经济体制,要根据市场动态,制定各项决策并加以实施。经济
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- (三诊)成都市2023级高三下学期定时练习历史试卷(含答案)
- 华亭煤业集团有限责任公司新窑煤矿矿山地质环境保护与土地复垦方案
- 自驾游路线规划与车辆检查清单
- (正式版)T∕CCASC 0057.4-2025 离子膜法烧碱生产安全操作规程 第4部分:浓缩与固碱加工
- 2026西交康桥教育集团招聘笔试备考题库及答案解析
- 2026年河南省事业单位联考招聘工作人员13685名考试参考题库及答案解析
- 乐山市五通桥区紧密型城市医疗集团(医共体) 2026年编外招聘(8人)考试模拟试题及答案解析
- 海盐农商银行2026年专业化人才岗位常态化招聘进行时!笔试参考题库及答案解析
- 2026云南临沧耿马傣族佤族自治县人民医院招聘6人考试模拟试题及答案解析
- 2026浙江台州市椒江区财政局面向社会招聘1人考试模拟试题及答案解析
- 拉萨市2026届高三第二次联考 英语+答案
- 外科非计划再次手术原因整改措施
- 高低压电气配电柜验收标准及规范
- 敬重老师 主题班会课件
- 卫生统计报工作制度
- GA/T 2329-2025法庭科学虹膜图像相似度检验技术规范
- 低值易耗品管理办法
- 2026届福建省厦门市高三3月质检地理含答案
- 《中职生劳动教育》中等职业院校公共素质课全套教学课件
- GB 13690-2009化学品分类和危险性公示通则
- GA 1551.6-2021石油石化系统治安反恐防范要求第6部分:石油天然气管道企业
评论
0/150
提交评论