




已阅读5页,还剩1页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
u电子政务中的数据挖掘及其应用u 山东省基础地理信息与数字化技术重点实验室开放基金资助项目(SD2003-3)和中国矿业大学科学基金资助项目(D200403)李幸丽 杜培军 张华鹏中国矿业大学地理信息与遥感科学系 江苏徐州 221008E-mail: 摘要:在分析电子政务中数据特点的基础上,概述了电子政务中的数据挖掘的方法和流程,提出需要重点研究的若干关键问题包括框架体系构建、挖掘算法设计、知识管理与分析评价等,最后对数据挖掘在电子政务决策中的应用进行了探讨。关键词:电子政务 数据挖掘 决策支持Abstract: Based on the analysis to the data characteristics in E-Government, the methods and process of data mining in E-government are summarized. Some key issues including establishment of framework, design of DM algorithms, knowledge management and assessment are discussed. Finally the applications of knowledge discovered from E-government databases to decision-making support are discussed.1. 引言电子政务是随着社会经济飞速发展、人们对政府和职能部门高效运转的要求越来越高,政府重塑理论和新公共管理理论的发展而产生的。电子政务自产生后就得到了快速发展并且迅速成为支持工业化大政府向新型管理体系转变的重要技术保证。电子政务的核心是实现行政和日常事务网上管理,建立政府、社会和公众之间的有机服务系统,将大量决策权下放给团体和个人。经过多年的实践,我国电子政务建设和应用已初见成效。人口基础信息库、法人单位基础信息库、自然资源和空间地理基础数据库、宏观经济数据库的建立产生了海量的空间数据和非空间数据。这些数据中隐藏了丰富的知识和规则,但目前的许多系统只是实现数据的输入、查询、统计等功能,难以发现数据中存在的关联、关系和规则,无法从大量的数据中提取有用信息以预测发展趋势。将这些规则从海量的数据中提取出来,将有望为电子政务空间辅助决策系统建立提供支持。这个信息提取过程应当以数据挖掘和知识发现为基础。本文在分析电子政务中数据的特点的基础上,讨论电子政务中的数据挖掘的方法和流程,探讨其中若干关键问题,并分析数据挖掘在电子政务中的应用。2. 电子政务中数据特点的分析电子政务建设是一项复杂的系统工程,涉及到社会的各个层次、各个方面,其中涉及的数据也是海量的、复杂的,并且有其自身的特点。归纳起来主要有:(1)数据量极大。空间数据基础设施为电子政务打下了良好基础,为国家信息化电子政务建设提供了有效的地理空间数据支撑。其中包含各种地形数据库、数字高程模型、各种比例尺的地图等。仅仅空间数据的数据量已经是巨大的了,另外还有一些非空间数据,如属性数据,由文本、图像、音频、视频等组成的网络数据,网络服务器访问记录、浏览器日志记录、用户简介、注册信息、用户对话或交易信息、用户提问方式等数据,数据量极其巨大。(2)数据来源广。政府事务和管理涉及到方方面面,数据都是从不同部门,用不同方式得到的。例如空间地理基础数据库中的数据主要包括各种比例尺的基础地理数据和专题数据;多平台、多光谱、多时相、多尺度的遥感影像数据等;其他非空间数据有各种统计资料、文字、影像、视频资料等。数据来源的多样化也使得数据类型多样化、表达方式多样化、数据库异构化、数据存储分布化。 (3)数据的动态性。随着电子政务的建设及应用的发展,电子政务中各种数据库中的数据都在不断扩充、不断增加;应用过程中也在不断的产生新数据。因此与电子政务有关的数据是在不断更新变化的。 除了以上一些总体特征以外,电子政务中的空间数据和非空间数据也有各自不同的特征。对于空间数据,有以下一些特征:(1) 空间性。这是空间数据的主要特性,主要描述了空间物体的位置、形态等。(2) 抽象性。空间数据描述的是现实世界中的地物和地貌特征,必然要经过抽象处理才能在信息系统中存储和表达。(3) 多尺度与多态性。不同的观察尺度具有不同的比例尺和不同的精度,同一地物在不同的情况下会有形态差异。(4) 多时空性。一个系统中的数据源既有同一时间不同空间的数据系列;也有同一空间不同时间序列的数据。数据挖掘必须针对数据的特点进行,在以后的部分中我们将根据这些特点来分析电子政务中的数据挖掘。3. 电子政务中的数据挖掘3.1. 电子政务中数据挖掘概述简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识的过程,有时也被人们称为知识挖掘、知识提取、知识发现、数据/模式分析等。它是现代数据库技术发展与人工智能(及其学习、模式识别)技术相结合的产物。在数据挖掘领域,数据挖掘功能发现的模式类别主要有关联规则、分类、聚类、概念描述和偏差检测等。这些模式也是电子政务数据挖掘所需要的。例如在税务部门可以利用数据挖掘的偏差检测,对同一类型纳税人数据进行分析挖掘,可以发现偷税漏税问题。所发现的规则模式在电子政务中的应用我们会在第4部分中详细介绍,这里不再赘述。数据挖掘的结果就主要体现在这些模式的发现上,这是一个极其复杂的过程。其中核心的问题就是用何种方法来有效地从已知数据中挖掘知识。在电子政务中数据挖掘的常用方法主要有决策树方法、统计的方法、归纳法、神经网络方法、遗传算法、粗糙集方法、人工智能、模糊集方法等。电子政务中的数据挖掘是指为政府各种业务活动、工作、决策寻找知识,一般电子政务中数据挖掘的过程应该包括数据准备、挖掘处理、知识表达与解释三个阶段。数据准备是为电子政务数据挖掘提供挖掘对象的阶段。主要是针对需求分析的结果做挖掘对象的准备工作,其主要内容有数据的预处理(如抽取、转化、净化、理解等)以及建立数据挖掘处理集等。通过数据准备提高数据挖掘质量,减少数据的杂乱性、冗余性和不完整性。挖掘操作是数据挖掘的核心,主要是通过算法引擎选择挖掘算法后,对数据准备阶段建立的数据挖掘处理集进行挖掘,从中发现感兴趣的知识。表达和解释阶段是对挖掘结果进行分析,提取出最有价值的信息,以图表形式或其他可视化手段展现给用户。3.2. 若干关键问题以上我们简单讨论了电子政务中数据挖掘的方法和挖掘过程,但是要使电子政务中的数据挖掘满足实际需要,提高数据挖掘的质量,还需要解决若干关键问题。(1) 电子政务数据挖掘框架体系构建数据挖掘是比较系统的工作, 为其构建框架体系已在研究者中达到共识。由于涉及电子政务的数据库在数据格式、组织体系等方面都不同于一般的事务型数据库,因此必须针对电子政务中数据的特点,构建电子政务中知识发现的框架体系,并解决其中的基本问题。首先要明确目标与任务,确定电子政务中通过数据挖掘可以获得的知识与规则。从数据挖掘的角度看,常见的挖掘任务包括特征规则挖掘、辨识规则挖掘、互联规则挖掘、分类规则挖掘、数据聚类、预测、趋势性规则挖掘。而在空间数据挖掘中,主要可以发现普遍的几何知识、空间分布规律、空间关联规则、空间分类(聚类)规则、空间特征规则、空间区分规则、空间演变规则等。那么,对于包含空间数据挖掘的电子政务数据挖掘,可以发现哪些知识与规则,它们有哪些特点,针对这些特点如何采取相应的技术流程和处理策略,显然这也是构建知识发现框架体系的基础问题,只有目标和任务明确了,才能进一步开展研究。数据预处理用户界面知识表达与评价数据挖掘服务器数据挖掘引擎数据库或数据仓库服务器源数据库知识库图1 典型数据挖掘系统模型根据数据挖掘过程的几个阶段,一般数据挖掘系统应该包括数据载体、服务器、数据挖掘引擎、知识库、模式评估模块、用户界面等几个主要组成部分。如图1是一个典型的数据挖掘系统模型。从整体上看,一般数据挖掘的框架可以应用于电子政务数据挖掘,但是,必须根据挖掘目的需要对具体方面进行细化,针对电子政务中数据的特点,添加相应的模块。例如针对电子政务数据来源广,类型多的特点,需要在数据处理时添加一个数据转换接口等。 (2)数据预处理数据预处理是数据挖掘中的重要一环。除了一般的抽取净化等操作外,还必须在实施数据挖掘处理时选择合适的数据模型。因为电子政务中的数据类型众多,存储方式也不同,有以文件方式存储的,也有以二进制大对象方式存储在大型数据库中的,另外还有的是在面向对象数据库中直接作为对象管理的。这就需要将所有参加挖掘的数据进行组织,以统一的接口供挖掘算法处理。(3)挖掘算法挖掘算法是数据挖掘中最核心的内容。针对电子政务的数据挖掘除了要使用一般数据挖掘的算法外,还应针对电子政务中数据的特点设计新的算法。主要有以下几个方面:增量数据挖掘:增量式数据挖掘应在不丢失原有知识的前提下,针对新的数据挖掘其中的知识,对原有的知识进行增删、修改,从而得到较为完善、精化的知识。针对电子政务中数据动态增加与更新的特点,增量数据挖掘算法将数据挖掘与数据更新相结合,随着数据量的增加合理组织参与挖掘的数据和挖掘流程,一方面进行知识更新,修正和加强先前发现的知识,另一方面发现一些新的知识,如空间演变规律与模式等。并行数据挖掘:海量数据信息并行处理是当前研究的热点。并行处理技术可将一个复杂的挖掘分解为多个子过程,每个子过程可以并行执行,这样可以大大加速数据挖掘的过程。特别是对于电子政务中分布式数据库的特点,并行数据挖掘将具有明显优势。交互式数据挖掘:目前许多知识发现和数据挖掘系统缺乏与用户的交互,难以有效利用已有领域的知识。此后应向交互式发展,用用户的背景知识和指导作用加快挖掘的进程,并可以确保挖掘知识的有效性。网络数据挖掘:当电子政务初步实现后,人们利用网络将会越来越多。网络数据挖据将包括网络内容的挖掘、网络结构的挖掘和网络用法的挖掘。网络结构挖掘有助于用户找到相关主题的权威站点,网络用法挖掘则可以了解用户的网络行为数据所具有的意义。不确定性挖掘:由于电子政务数据的多源性,多尺度性和多态性,不确定性也是不可避免。在挖掘时,要考虑不确定性的影响。因此要针对不确定数据、模糊数据建立稳健的挖掘算法,避免原始数据不确定性导致挖掘产生错误或不可信的知识和规则。(4)知识评价与管理合理评价挖掘的知识、确定其可信度及在应用中的权重,并对知识进行有效的管理,使知识应用中的重要问题,也是数据挖掘与知识发现走向现实应用的关键之一。这些问题应该给以足够的重视,以保证提供知识的合理性、科学性、准确性和可靠性。除了以上几点之外,数据挖掘多平台支持、与其他系统的集成也是要考虑的重要问题。4. 数据挖掘在电子政务中的应用通过数据挖掘实现知识获取,可以逐步建立起智能的辅助决策系统,为电子政务中的决策服务。主要体现在:(1)数据挖掘可以实现电子政务中典型空间信息的自动提取。例如利用这一点可以实现工程的建筑选址。对几个待选地点的遥感图像进行典型信息自动提取,分析各个地点的地形地貌等特点,找出最合适的建筑地点。也可以从TM图像中提取水体、居民地以及植被等信息,在此基础上进行城市规划,或者为旅游业发展服务。还可以对数字城市中的各种资源分布进行状态分析,为城市各种资源在空间上的优化配置、在时间上的合理利用,宏观、全局地制定城市规划和发展战略,减少资源浪费,为实现可持续发展提供科学决策的依据。(2)数据挖掘可以提高政府对各种突发事件的快速响应能力。利用数据挖掘工具,对历史记载下来的突发事件进行挖掘,从中提取、总结、升华相关经验教训,得到今后应对突发事件的各种知识,制定出有效高效的措施,提高政府的快速响应能力。例如在面向洪水管理的电子政务系统中会商决策的子系统中,可以加入数据挖掘模块,根据挖掘的知识做出防洪调度方案或者应急处理方案,确保防洪工程安全、充分发挥防洪工程效益、尽量减少洪灾损失。(3)数据挖掘可以帮助解决政府的许多日常工作。通过数据挖掘可以对宏观政策、法规的研究制订以及日常招聘招标等工作快速反应,更好的为民众、为社会服务。例如在公务员招聘中,可以根据用人单位的需求确定挖掘目标,进行数据挖掘,自动挑选出最符合要求的报名者以供选择。(4)数据挖掘可以促进政府电子贸易的发展。运用网络数据挖掘技术自动发现系统的访问模式和用户的行为模式,从而进行预测分析。例如,可以通过评价用户对某一信息资源浏览所花费的时间可以推断出用户对何种资源感兴趣;应用聚类分析来识别用户的访问动机和访问趋势。(5)数据挖掘可以优化政府网站设计。通过对网站内容的挖掘,可以有效组织网站信息,把握用户兴趣,吸引更多的用户。(6)数据挖掘是电子政务辅助决策系统的重要技术手段。例如在辅助决策系统中通过对各种经济资源的挖掘确定未来经济的走势,从而制定出相应的经济策略。5. 结论综上所述,数据挖掘是电子政务一项重要的应用技术和支持技术,可以为各级政府的决策提供科学的依据,提高各项政策制订的科学性和合理性。随着分析决策难度的增强,人们对决策分析工作的智能化、自动化要求越来越高,数据挖掘将成为实现政府决策支持的核心技术,以数据挖掘为依托的政府决策支持系统将发挥重要作用。今后应面向电子政务的研究,重点研究实用的数据挖掘算法,开发业务型数据挖掘平台和工具,实现其与电子政务系统的集成,促进电子政务向智能化分析的发展。 参考文献 1 中国地理信息系统协会政务信息系统专业委员会,电子政务与地理信息系统应用研讨会论文集,昆明,2004 2 孙正兴,戚鲁. 电子政务原理与技术M. 北京:人民邮电出版社.2003.4 3 苏新宁,吴鹏,朱
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO 15614-11:2025 EN Specification and qualification of welding procedures for metallic materials - Welding procedure test - Part 11: Electron and laser beam welding
- 2025华电内蒙古腾格里大基地项目面向华电系统内外公开招聘106人笔试题库历年考点版附带答案详解
- 2025中建材(安徽)新材料基金管理有限公司招聘1人笔试题库历年考点版附带答案详解
- 2025中国联合网络通信有限公司贵州省分公司校园招聘(81个岗位)笔试题库历年考点版附带答案详解
- 2025年电子竞技行业电竞产业与全球赛事研究报告
- 2025年传媒行业传统媒体数字化转型探讨报告
- 2025年智能物流行业智能物流系统应用与全球物流发展研究报告
- 2025年肿瘤康复学化疗不良反应处理模拟测试答案及解析
- 2025年房地产行业政策调控与城市发展规划研究报告
- 2025年建筑行业建筑设计与城市规划研究报告
- 文学类文本阅读2026届高三9月名校模考试分类汇编五
- 2025年9月20日云南省直机关遴选公务员笔试真题及答案解析
- 合同纠纷民事起诉状模板示例
- 招行ai面试题库大全及答案
- 投标服务响应应急方案(3篇)
- 第4课 探究智慧农业应用领域 课件【教科版】《信息科技》八年级上册
- 无人机航拍课件
- 2025支付宝财经内容生态报告
- 水务集团招聘考试笔试试题及答案
- 35kv变电运维协议合同
- 生存分析教学课件
评论
0/150
提交评论