




全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
u面向电子政务的数据挖掘系统分析与设计 u 山东省基础地理信息与数字化技术重点实验室开放基金资助项目(SD2003-3)和中国矿业大学科学基金资助项目(D200403)李幸丽 杜培军 张华鹏中国矿业大学地理信息与遥感科学系 江苏徐州 221008E-mail: 摘要:在分析面向电子政务的数据挖掘系统特点的基础上,探讨了系统设计的要求和目标,并提出一个面向电子政务的数据挖掘系统的设计方案,包括框架体系、功能设计和实现方案。关键字:数据挖掘 系统 电子政务Abstract: Based on the analysis of the characteristics of data mining system oriented E-government, the requirements and goals of design are discussed and a scheme to a data mining system is propounded, including the frame of system, function and implementation scheme.1. 引言电子政务,就是指政府机构运用现代信息和通信技术,将管理和服务通过网络技术集成,在Internet上实现政府组织结构和工作流程的优化重组,超越时间和空间及部门之间的分隔限制,向社会提供高效优质、规范透明和全方位的管理与服务。目前,我国的电子政务系统正在中共中央办公厅提出的“三网一库”的基本构架下快速发展,成千上万数据库被各级政府、部门开发建设出来,加之多年累积下来的业务数据,“数据爆炸”问题进一步加剧。如何高效、准确地提取数据,提高决策的科学性和规范性,以达到提高政府办公效率、促进经济发展的目的,需要科学的工具和方法。数据挖掘技术正是满足这种需要而产生的一种综合技术,包含了统计学、机器学习、人工智能、数据库、知识获取、模式识别、分布式多媒体环境的智能代理等。本文则重在分析面向电子政务数据挖掘特点的基础上,就如何设计开发相应的数据挖掘系统这一问题进行研究和讨论。2. 面向电子政务数据挖掘系统的特点、设计要求及目标2.1. 系统特点由于电子政务建设是一项复杂的系统工程,涉及到了社会的各个层次,因此涵盖的数据量是极大的,其中既包括表示空间地理位置的空间数据,还有一些由文本、图像、音频等组成的非空间数据。这些数据的来源非常广泛,数据类型多样化。从系统内部的数据源角度看,面向电子政务的数据挖掘系统要处理的数据类型更多,数据模型更复杂。其次,电子政务是基于计算机和网络技术发展的,各级政府或者单位用户的数据资源不是存在于一个数据库中的,是存在于地理分布的各个数据库中,其中的数据有可能是结构化的,也有可能是非结构化的。所以系统所处的计算环境是分布式和异构的。再者,所设计的数据挖掘系统并不仅仅只是为某一个阶层服务的。它所服务的群体有可能使政府,企业或者公众。因此,用户类型的多样性也成为面向电子政务数据挖掘系统的特点。2.2. 系统设计要求及目标电子政务中各个阶层有不同的决策任务要求,例如资源决策支持、土地管理决策支持、城市规划决策支持、人事编制决策支持等等。这就要求数据挖掘系统能够完成多种类型的数据挖掘任务,如分类模式的发现、关联规则的发现、序列模式的发现、聚类模式的发现等等。这就要求在设计系统时应尽可能使得系统功能完备。同时需要注意的是这些不同规则模式的发现包括了很多方面的数据挖掘操作,这些操作所要求的数据源形式不同、输出不同、所需参数不同,就需要各种挖掘操作相对独立。进行数据挖掘操作不可避免的就是与数据库或者数据仓库进行频繁交互,这也是数据挖掘过程本身决定的。并且挖掘所涉及的数据量都是很大的,这就需要系统与底层数据库系统紧密耦合、尽量使用DBMS的各种功能。另外,电子政务的主要技术之一是Internet/Web技术,并且电子政务中的所涉及到的各个阶层的活动大多是依赖于网络的。因此,作为决策支持工具的数据挖掘系统应该支持和适应这个环境。可扩展性和可移植性是评价一个软件好坏的重要标准,并且数据挖掘技术及数据挖掘系统不是一成不变的。这就要求我们在设计系统时应注意系统在体系结构上的可扩展性。最后,面向电子政务的数据挖掘系统是为支持决策分析服务的,其使用者不是计算机工作者,而是决策者和普通政务工作人员,因此系统应提供友好的用户界面。归纳起来,设计一个面向电子政务的挖掘系统需要考虑的目标主要有:(1)系统功能及工具的完备性和相对独立性;(2)数据库的数据的存取能力及对数据模型的支持能力;(3)基于Web的发布和表现能力;(4)系统体系结构的可扩展性。(5)用户界面的友好性。 用户界面图形界面任务界面Web界面数据挖掘模块(各种挖掘工具)预处理模块数据库管理模块(DBMS)数据库/数据仓库外部数据文件图1 电子政务数据挖掘系统框架3. 系统框架及功能设计3.1. 系统框架在系统框架的设计上应充分考虑到以上部分所讨论的系统设计要求,考虑系统的完整性、协调性和高效性。图1是一个面向电子政务数据挖掘系统的基本框架,整个系统将用户界面、数据预处理模块、数据挖掘模块、数据库和外部文件紧密地结合在一起,构成了一个层次结构。在图1中,数据库、数据仓库和外部文件都是数据挖掘的数据源,存放着各种各样的数据,这些数据复杂难以理解,存在大量的冗余。为了便于以后各步骤易于操作,需要对数据仓库中的数据进行清洗、集成和筛选。由图1可知,该数据挖掘系统主要有用户界面、数据挖掘部件、数据预处理部件和DBMS系统组成,以下部分将对各部分功能分别讨论。3.2. 系统各部件功能(1)用户界面 用户界面数据表现部件,它又包括图形界面、WEB界面、数据挖掘源于操作界面、知识表示等部分。主要提供以下几种功能:n 任务提交:为用户搜集和预处理相关数据集、提交数据挖掘任务提供支持。选择待挖掘的数据库及使用算法的各个参数值等。n 结果表现:从数据库或外部文件中挖掘的知识有多种表现形式,该系统提供关联规则的文本形式、分类规则的树形表现等等。n 操作维护:即支持用户调整各种算法的参数、修改属性数据等等。(2)数据预处理部件 数据预处理模块中包括数据清洗、数据集成和数据转换,此模块对整个系统的可用性非常重要。主要是完成将异构数据转换为同构,将非关系数据源转换为关系数据库表的形式。数据预处理的方法比较多,如数据压缩、数据离散、标准化处理和概化处理等方法,依据不同的数据类型和不同需要,选择不同的预处理方法。 (3)数据挖掘模块 数据挖掘模块式整个系统的核心,按所挖掘的知识类型分为以下几部分:分类规则挖掘工具,关联规则挖掘工具,预测工具、聚类分析工具等。分类的基本思想是:根据一些已定义好类别的数据信息,产生一个可以描述数据类别或对未知类别的数据进行分类的分类器。实现此功能的算法一般有C4.5,C5.0,ID3等。关联规则挖掘工具完成关联规则的挖掘功能,实现此功能经典的算法是Apriori算法,并且可以对其进行诸多优化工作。预测工具一般支持电子政务环境中的一些特许功能,例如对多时相的遥感数据进行分析,可以发现某一地区土地利用变化趋势或者森林火灾趋势等。(4)数据库管理模块此模块实现数据库管理功能,不仅能管理底层待挖掘库中的各种数据。也可将挖掘结果保留,方便了重新挖掘、增量挖掘。4. 实现方案设计传统的C/S应用软件模式大都是基于“肥客户机”的两层结构应用软件。这种结构的突出的问题是系统的可伸缩性较差和安装维护困难。为解决上述问题,人们提出了三层结构的应用软件体系结构。三层体系结构由客户机、应用服务器和数据库服务器3部分组成。客户机软件与客户及应用服务器交互。应用服务器处理应用逻辑,必要时从数据库服务器获取数据,并将结果返回客户机。三层结构的特点包括:(1)应用逻辑被独立地放在应用层便于功能共享;(2)中间层隔离了客户对数据服务器的直接访问,包括了数据库的安全;(3)可以实现更多的优化策略,通过利用中间层硬件的并行性和对数据库的并行访问,可以在中间层实现对数据挖掘人物的并行处理;(4)整个系统的管理维护变得相对简单。另外,Web技术的发展使客户/服务器结构进一步发展为浏览器/服务器结构。客户机上只需安装一个标准的Web浏览器,就能以上述三层结构的工作方式访问存储于Web服务器上的大量应用程序。根据以上讨论,该系统采用客户/服务器三层结构。在客户端实现用户界面部分,数据预处理和挖掘模块集成放在应用服务器中实现,底层数据库/数据仓库放在数据库服务器端实现,中间应用服务器层包括数据预处理和各种挖掘工具。这样,客户端将挖掘请求发送给数据挖掘工具对象,将DMQL查询封装为该次请求参数;然后数据挖掘工具完成指定算法求解过程并将结果返回客户端。客户端的硬件及操作系统平台无特殊要求,只要有支持Java虚拟机的通用的Web浏览器即可。数据库系统可根据实际情况选用大型数据库系统(如Oracle等)或中小型数据库系统(如Microsoft SQL Sever、Access等)。5. 总结与展望国际上已经开发了一些集成的数据挖掘系统,正在逐步由研究成果向产品过渡。本文面向电子政务需求设计了一个提供数据挖掘应用技术研究的试验性平台,并集成了数据挖掘和数据准备的几个方面的功能。今后我们将为本系统集成更多的数据挖掘功能,开发完成原型系统,并选择代表性部分开展应用,从而推动数据挖掘技术在电子政务中的应用。参考文献 1 钱卫宁,魏藜,王焱,钱海蕾等. 一个面向大规模数据库的数据挖掘系统J. 软件学报,2002,13(08):1540-1545. 2 李云辉,柳炳祥,章义来等. 基于数据挖掘的电子政务数据分析系统J. 福建电脑,2005,1:36-37. 3 周斌,刘亚萍,吴泉源. 一个面向电子商务的数据挖掘系统得设计与实现J. 计算机所工程,2000,26(6):18-20. 4 王加才,江效尧. 一个开放数据挖掘系统的分析与设计J. 计算机工程与应用,2004,24:166-170. 5 石兴民,吕增建. 多层体系结构在数据挖掘系统中的应用研究J.电脑与信息技术,2004,1:1-4. 6 国嘉,王瑞敏,王家海. 开放式数据挖掘系统模型J. 舰船电子工程,2004,24(6):74-76. 7 Li,Sheng-tun. A web-aware interoperable data mining system. Expert systems with applications, 2002, 22: 1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《颈椎病课件》课件
- 我会排队-幼儿园托班安全教育
- 安全教育体系标准化建设
- 2025年1月工业分析与检验试题+参考答案解析
- 2024年1+x智能网联模考试题+答案(附解析)
- 1+x网店推广模考试题含答案(附解析)
- 《深入解读安全生产禁令》课件
- 电机远程控制考核试卷
- 腈纶纤维在汽车内饰中的应用考核试卷
- 猪肉食品安全管理制度
- 酒馆入股合同协议书
- 品质主管面试题及答案
- 基于核心素养下的高中数学情境教学研究
- 《阿里巴巴招聘案例》课件
- 福建省三明市2025年普通高中高三毕业班五月质量检测语文(三明四检)
- 中国精神课件
- 2025年福建福州市电子信息集团有限公司招聘笔试参考题库附带答案详解
- 2024年甘南州临潭县卫生健康系统引进紧缺卫生专业技术人才真题
- 成都市公共交通集团有限公司招聘笔试真题2024
- 天津市和平区二十中学2025届学业水平考试化学试题模拟卷(九)含解析
- 2025高中英语电子版单选题100道及答案
评论
0/150
提交评论