下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、电子政务中的网络数据挖掘作者:华南理工文章来源:计算机世界华南版点击数:蚤485更新时间:2005-1-26收藏此页随着电子政务的进一步发展,政府部门内部及政府部门之间的大量政务信息,经过前两年电子政务基础资源的大规 模建设,海量的政务信息资源挖掘和电子政务知识管理等深层次应用将逐步进入电子政务舞台,在优化决策流程、改进 决策方式、加快决策速度、提高决策质量等方面发挥越来越重要的作用 使电子政务的应用领域向知识共享、决策辅助 等纵深方向发展。如何在未来的建设中提高电子政务系统的层次,增强系统的功能,从而达到优化决策流程、改进决策方式、加快决 策速度、提高决策质量的目的?笔者认为,网络数据挖掘技
2、术是一种首选的技术。电子政务需要数据挖掘数据挖掘技术是人们对数据库技术不断研究和开发的结果,是继宽带网络之后的又一个技术热点。自1989年出 现以来,经过十多年的发展,数据挖掘技术已趋于成熟,并已投入商业应用。世界上比较有影响的典型数据挖掘系统有: SPSS 公司的C lementine,IBM 公司的 IntelligentMiner,SGI 公司的 SetMi ner,SAS 公司的 EnterpriseMiner,RuleQuestResearch 公司的 See5,还 有CoverStory、EXPLORA、KnowledgeDiscoveryWorkbench、DBMi ner、Qu
3、est等。知名的GartnerGroup的一次高级技术调查将数据挖掘和人工智能列为“未来3 5年内将对工业产生深远影响的五大关键技术之首”。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,抽取隐含在其中的、人们事先不 知道的,但又是潜在有用的信息和知识的过程。从更广义的角度来讲,数据挖掘就是在一些事实或观察数据的集合中寻 找模式的决策支持过程。因此,挖掘的对象不仅是数据库,还可以是任何组织在一起的数据集合。数据挖掘最初针对的 是大型数据库,而电子政务中的数据挖掘技术是基于网络的,即所谓的网络数据挖掘,它除了处理传统数据库中的数值 型的结构化数据外,处理更多的是文本、图形
4、、图像、WWW信息资源等半结构、非结构的数据。网络数据挖掘几个步骤和所需人才有人认为,网络数据挖掘就是利用数据挖掘技术,自动地从网络文档以及服务中发现和抽取信息的过程。可以将网络数据挖掘分为四个步骤:确定业务对象。虽然网络数据挖掘的最后结构是不可预测的 但对要探索的问题应该有所预见,不能盲目地 为了数据挖掘而数据挖掘。清晰地定义出业务问题 认清数据挖掘的目的是网络数据挖掘的重要一步。数据准备。网络数据挖掘的数据来自两个方面:一方面是客户的背景信息,主要来源于客户登记表;而另外 一部分数据主要来自浏览者的点击流(Click-stream),人们主要用这部分数据考察客户的行为表现。由 于客户的背景
5、信息涉及个人隐私,因此客户不愿意把个人信息如实填写在登记表上,这给数据分析和挖掘带来困难。在 这种情况下,不得不从浏览者的表现数据中推测客户的背景信息,进而再加以利用。数据准备首先检索所需的网络文档, 发现资源;然后进行数据预处理,从发现的网络资源中自动挑选和预处理得到专门的信息。网络数据挖掘。从单个的Web站点以及多个站点之间的网络资源中发现普遍的模式。结果分析。对挖掘出的结果,即普遍模式进行确认或者解释(不同公司有不同的标准)。在整个网络数据挖掘的过程中,被研究的业务对象是挖掘过程的基础,它驱动整个网络数据挖掘的全过程,同时, 也是检验挖掘结果和引导分析人员完成挖掘的依据。数据挖掘的过程并
6、非自动的,许多工作需要人工完成。数据挖掘对 数据有着严格的要求,先期的数据准备工作要占用60%的时间,且对数据挖掘的成败至关重要。网络数据挖掘离不开专业人员。由于网络数据挖掘的若干工作需要人工完成,并且数据挖掘过程是分步实现的,因 此不同步骤的工作需要具有不同专长的人员,大体可以将他们分为三类:业务分析人员:精通业务能够解释业务对象并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。数据分析人员:精通数据分析技术并较熟练地掌握统计学方法能够把业务需求转化为数据挖掘的各步操作 并为每步操作选择合适的技术。数据管理人员:精通数据管理技术能从数据库、数据仓库和各种网络资源中检索、收集适于挖掘的数
7、据。由此 可见数据挖掘是一个多种专家合作的过程也是一个在资金上和技术上高投入,同时获得高回报的过程。网络数据挖掘分类网络数据挖掘形式多样。根据不同的网络数据挖掘对象,人们将网络数据挖掘分为网络内容挖掘(Webcont entmining)、网络结构挖掘(Webstructuremining)以及网络用法挖掘(Webusa gemining)o网络信息内容是由文本、图像、音频、视频、元数据等形式的数据组成的。网络内容挖掘就是一个从网络信 息内容中发现有用信息的过程。由于网络信息内容有很多是多媒体数据,因此网络内容挖掘也将是一种多媒体数据挖掘 形式。网络结构挖掘就是挖掘Web潜在的链接结构模式。通
8、过分析一个网页链接和被链接数量以及对象来建立W eb自身的链接结构模式。这种模式可以用于网页归类,并且由此可以获得有关不同网页间相似度及关联度的信息。网 络结构挖掘有助于用户找到相关主题的权威站点。网络用法挖掘、网络内容挖掘和网络结构挖掘的挖掘对象是网上的原始数据,而网络用法挖掘面对的则是在 用户和网络交互的过程中抽取出来的第二手数据,包括网络服务器访问记录、代理服务器日志记录、浏览器日志记录、 用户简介、注册信息、用户对话或交易信息、用户提问方式等。通过网络用法挖掘,可以了解用户的网络行为数据所具 有的意义。网络数据挖掘有利于提高信息化水平电子政务位于世界各国积极倡导的“信息高速公路”五个领
9、域(电子政务、电子商务、远程教育、远程医疗、电子 娱乐)之首,说明政府信息化是社会信息化的基础。电子政务包括政府的信息服务、电子贸易、电子化政府、政府部门重构、群众参与政府五个方面的内容。将网络数 据挖掘技术引入电子政务中,可以大大提高政府信息化水平,促进整个社会的信息化。具体体现在以下几个方面:政府的电子贸易在服务器以及浏览器端日志记录的数据中隐藏着模式信息,运用网络用法挖掘技术可以自动 发现系统的访问模式和用户的行为模式,从而进行预测分析。目前,这项技术已经有效地运用在政府电子贸易中。网站设计通过对网站内容的挖掘,主要是对文本内容的挖掘,可以有效地组织网站信息,如采用自动归类技 术实现网站信息的层次性组织;同时可以结合对用户访问日志记录信息的挖掘,把握用户的兴趣,从而有助于开展网站 信息推送服务以及个人信息的定制服务,吸引更多的用户。搜索引擎网络数据挖掘是目前网络信息检索发展的一个关键。如通过对网页内容挖掘,可以实现对网页的聚 类、分类,实现网络信息的分类浏览与检索;同时,通过对用户所使用的提问式的历史记录的分析,可以有效地进行提 问扩展,提高用户的检索效果;另外,运用网络内容挖掘技术改进关键词加权
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 股骨干骨折切开复位内固定术后护理查房
- 健康安全防范措施承诺书(3篇)
- 品牌推广与传播执行方案
- 营销活动策划书内容与执行清单
- 安全操作运行岗位责任承诺书范文8篇
- 企业内训师授课技巧及内容模板
- 售后服务标准化服务流程顾客满意度调查
- 浙江省绍兴市上虞实验中学2026年下学期初三英语试题联考试卷含解析
- 四川省乐山市井研县重点达标名校2025-2026学年中考英语试题考前特训30天含解析
- 湖北省武汉市市新观察市级名校2026届初三下第二次联考语文试题试卷含解析
- 5.1人民代表大会制度 课件(23张幻灯片)+内嵌视频 道德与法治统编版八年级下册
- 2026年当辅警笔试题库及一套完整答案
- 2025年山东省委党校在职研究生招生考试(政治理论)历年参考题库含答案详解(5卷)
- GB/T 9966.16-2021天然石材试验方法第16部分:线性热膨胀系数的测定
- GB/T 3733.2-1983卡套式端直通接头体
- GA/T 1133-2014基于视频图像的车辆行驶速度技术鉴定
- 钢管工艺焊接方案
- 中石油公司油库管理制度与工作流程汇编
- 光纤熔接机培训方案
- 系统解剖动脉和静脉
- 大班幼儿仿编诗歌《爱是什么》
评论
0/150
提交评论