(计算机软件与理论专业论文)电子政务信息资源元数据库的研究与应用.pdf_第1页
(计算机软件与理论专业论文)电子政务信息资源元数据库的研究与应用.pdf_第2页
(计算机软件与理论专业论文)电子政务信息资源元数据库的研究与应用.pdf_第3页
(计算机软件与理论专业论文)电子政务信息资源元数据库的研究与应用.pdf_第4页
(计算机软件与理论专业论文)电子政务信息资源元数据库的研究与应用.pdf_第5页
已阅读5页,还剩75页未读 继续免费阅读

(计算机软件与理论专业论文)电子政务信息资源元数据库的研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 元数据最普遍的定义是“关于数据的数据( d a t aa b o u t d a t a ) ”,也就是描述某一资源的结构化数据。它提供有关资源存 储、资源分类、资源交换、资源访问等方面的信息,便于用户 查询、检索和访问相关信息资源。本文通过研究政务信息资源 元数据的内容和组织,建立基于元数据的政务信息资源描述规 范,构建政务信息资源元数据库,从而使电子政务中的互联互 通、信息共享、业务协同成为可能。 当前,由于在政务领域中存在着大量分布的、异构的各类 政务信息系统,信息资源的共享和交换受到了严重的制约,造 成了所谓“信息孤岛”现象的产生。将元数据应用在政务领域, 从各政府部门的信息系统中采集信息资源形成用户资源视图, 通过元数据描述和管理技术构建政务信息资源元数据库,为政 务信息资源的注册管理和目录交换服务打下坚实的基础。这正 是本文的研究目的。论文的基本思想是鉴于“元数据是描述数 据的数据”,通过寻找各类政务信息资源的共同特点,找到一种 适合政务信息资源的结构化描述方法,并以此为基础研究适合 政务信息资源元数据特点的存储策略和索引查询策略,构建政 务信息资源元数据库。 1 论文首先分析了当前流行的信息资源发现访问技术,在 总结了这些技术方法各自的优缺点的基础上,提出了基于元数 据的政务资源注册和目录服务体系,该体系既利用了目录服务 主题分类清晰的优点,又利用注册机制加强了政务信息资源的 管理。 2 论文研究了信息资源的采集方法和结构化表示技术,使 得信息资源通过元数据的方式得以被描述。文章通过分析研究 政务信息资游元敌掘怍的研究与应用 国际最有影响力的政务元数据标准,提出了面向注册管理和目 录服务的上海市政务信息资源描述规范建议。 3 政务信息资源元数据的存储和管理必须符合政务信息 资源元数据的特点和应用的客观需求。论文在分析当前x m l 数 据的存储和查询技术的基础上,提出了元数据库的存储策略、 索引查询策略,提出了一个构建政务信息资源元数据库的总体 设计方案。从预研和原型试验的目的出发,原型系统采用关系 数据库和文件系统相结合的方式来构建元数据库,阐述了种 基于元数据的政务信息资源注册和目录服务实现的实验性的方 法。最后对基于n x d 数据库来实现元数据库进行了一定的探索 研究,并比较了这两种实现方法的优缺点。 本论文的意义在于全面系统的将元数据的概念、理论和方 法引入到政务信息资源开发利用领域,通过设计和构建元数据 库模型和元数据存储管理原型系统,为基于元数据的政务信息 资源注册和目录服务体系的进一步应用打下了基础。 关键字:元数据,信息资源,电子政务,x m l ,元数据库 a b s t r a c t t h em o s tc o m m o nd e f i n i t i o no fm e d a mi s “d a t aa b o u td a t a ” am o r eh e l p f u ld e f r u i t i o ni st h a ti ti ss t r u c t u r e di n f o r m a t i o na b o u ta r e s o u r c e i tc a r lb eu s e dt od e s c r i b e ,e x p l a i n ,l o c a t e s ,o ro t h e r w i s e m a k e si te a s i e rt or e t r i e v e ,u s e ,o rm a n a g ea l li n f o r m a t i o nr e s o u r c e t h et h e s i se m p l o y st h ec o n t e n ta n do r g a n i z a t i o no fe g o v e r n m e n t m e t a d a t a , t od e s i g n a n d d e v e l o p am e t a d a t a s t o r a g e a n d m a n a g e m e n ts y s t e m , w h i c h m a k e st h e c o - u n d e r s t a n d i n g , c o o p e r a t i o na n de x c h a n g eo f e g o v e m m e n tp o s s i b l e n o w a d a y s ,d u et ot h eg r e a ta m o u n to fd i f f e r e n td i s t r i b u t e d i n f o r m a t i o ns y s t e mi nt h ee g o v e m m e n t , t h e ”i n f o r m a t i o ni s l a n d ” c u r r e n t l yu n d e r w a yt ot h ea p p l i c a t i o no fe g o v e m m e n t ,a n di th a s b e c o m et h eb o t t l e n e c ko fr e a l i z i n gt h er a p i dd e v e l o p m e n to ft h e f i e l d n l ep u r p o s eo ft h i st h e s i si st op u tt h em e t a d a t at h e o r yi n t o t h ee g o v e m m e mf i e l d w ea p p l yi tf r o mt h ee x t r a c t i o no ft h e i n f o r m a t i o nr e s o u r c e si nt h ed e p a r t m e n tt oc o n s t i t u t et h em e t a d a t a d a t a b a s et h a ti st h eb a s eo ft h er e g i s t e ra n dc a t a l o g u es e r v i c e 1 1 1 e b a s i ci d e ao ft h i st h e s i si sb a s e do nt h ec o n c e ! p tt h a t ”m e t a d a t ai s d a t aa b o u td a t a ”t h r o u g hs e a r c ht h ec o m m o nc h a r a c t e r sf r o m d i f f e r e n ti n f o r m a t i o n ,c o n s t i t u t et h ed e s c r i b em e t h o da n dr u l eo f t h e e g o v e r n m e n ti n f o r m a t i o nr e s o u r c e t h ea u t h o ro ft h i st h e s i sf i r s ta n a l y z e st h ec u r r e n ti n f o r m a t i o n d i s c o v e r yt e c h n i q u e s ,a n ds u m su pt h e i ra d v a n t a g e sa n dt h e d i s a d v a n t a g e s t h e nw eb r i n gf o r w a r dt h ei n f o r m a t i o nr e g i s t e ra n d c a t a l o g u es e r v i c es y s t e mb a s e do nm e t a d a t a t 1 1 i ss y s t e mn o to n l y h a st h ea d v a n t a g e so ft h ec a t a l o g u e ,b u ta l s om a k e si te a s i e rt o t t t 政务信息资动i 5 元数掘脚的研究与应用 m a n a g et h ee g o v e m m e n t i n f o r m a t i o nr e s o g l e s n es t a n d a r dd e s c r i p t i o no ft h ei n f o r m a t i o nr e s o u r c e si st h e k e yo fm a n a g e m e n ta n de x c h a n g e t m st h e s i sg i v e st h et e c h n i q u e s o ft h ei n f o r m a t i o nc o l l e c t i o na n ds t a n d a r d i z a t i o n n l em e t a d a t a m a n a g e m e n tm u s tb ep e r f o r m e da c c o r d i n gt oi t sc h a r a c t e r i s t i c sa n d t h ea p p l i c a t i o n sn e e d s t h et h e s i sg i v e sat o t a lf r a m ef o rt h e m e t a d a t am a n a g e m e n ts y s t e ma f t e ri n t r o d u c e dt h es t o r a g es t r a t e g y a n di n d e xs t r a t e g y i nv i e wo ft h ep r e l i m i n a r ys t u d ya n dp r o t o t y p e , t h ef l a tf i l es y s t e ma n dt h er e l a t i o n a ld a t a b a s ei sa d a p t e dt ob u i l da e g o v e r n m e n tm e t a d a t ad a t a b l e n et h e s i se x p l a i n st h et e c h n o l o g y o fr e a l i z i n gt h eo r i g i n a ls y s t e m ,d e p i c t sa ne x p e r i m e n t a lm e t h o do f i n f o r m a t i o nr e s o u r c e sr e g i s t e ra n dc a t a l o g u es e r v i c e n em e a n i n go ft h i st h e s i si st h a ti ti n t r o d u c e st h ec o n c e p t , t h e o r ya n dm e t h o do fm e t a d a t ai n t ot h ef i e l do fe g o v e r n m e n t t h r o u g hd e s i g n i n ga n dc o n s t r u c t i n gt h em e t a d a t ad a t a b a s em o d e l , a n dt h eo r i g i n a ls y s t e mo ft h ee g o v e r n m e n ti n f o r m a t i o nr e s o u r c e s m e t a d a t am a n a g e m e m ,i ts e t sag o o de x a m p l et ot h ea p p l i c a t i o no f m e m d a t ai nt h i sf i e l d r u nw e i ( c o m p u t e rs o f t w a r ea n dt h e o r y ) s u p e r v i s e db y k e yw o r d s :m e t a d a t a , i n f o r m a t i o nr e s o u r c e ,e g o v e m m e n t , x i v i l ,m e t a d a t ad a t a b a s e 学位论文原创性声明 本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的学位论文, 是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已明确 注明和引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写 过的作品及成果的内容。论文为本人亲自撰写,我对所写的内容负责,并 完全意识到本声明的法律结果由本人承担。 衫日翮吖 钮? 签年荔论期位日 学 学位论文版权使用授权书 学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学 校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被 查阅或借阅。本人授权东华大学可以将本学位论文的全部或部分内容编入 有关数据库进行检索,可以采用影印,缩印或扫描等复制手段保存和汇编 本学位论文。 保密口在年解密后适用本版权书。本学 位论文属于 不保密口。 指导教师签名;1 严锄 日期:西年;月p 日 伟 闵啪 轻, 细 戳 杉者旷 惴 咯 则 矽 论 取 雠 珊 籼 日 第一章绪论 1 1研究背景与问题提出 本文以上海市信息化发展专项资金项目“政务信息资源统一描述,注 册管理和目录服务标准”为背景,目标是为上海市电子政务系统提供统一 的描述、管理和发现政务信息资源的标准和系统建设原型。从而支持政务 信息资源快捷、方便的发现和获取,支持信息在部门之间的共享和交换, 支持多级多部门问的信息资源汇集和整合,支持信息资源的统一管理,支 持信息资源的增益性开发。一 近年来,我国电子政务信息化建设取得了巨大进展,信息资源总量不 断增加,质量逐步提高,在现代化建设中日益发挥重要作用。但随着电子 政务信息资源的膨胀,政务信息资源的管理和哭享大都是建立在各自独立 的领域和范围内,系统的应用仅以满足各自领域的信息获取为且的,相互 之闻没有联系,造成了政府部门之间所谓“信息孤岛”的问题。 在信息化社会里,信息已成为一种重要战略资源。信息资源是与物质、 能量同等重要的现代战略资源。国家发改委宏观经济研究院研究员曾澜“1 认为,信息资源的开发利用是国家信息化的核心任务,其开发利用水平直 接关系国民经济社会信息化的全局,政府信息资源是国家资源,是全社会 的公共资源和公共财富,政府信息共享是促进当前我国信息资源开发利用 的重点。 基于元数据的信息资源管理和共享技术,是国际上9 0 年代末期新兴 的研究热点。元数据最简单的定义是。关于数据的数据”( d a t a a b o u t d a t a ) 嘲,说得更详细一点就是:元数据是一种基本信息组织方法,它描述了关 于信息的标准化表示,为信息系统各个层次的内容提供规范的定义、描述、 交换和解析机制。为分布的、多种和多层内容构成的信息系统提供互操作 政务信息资i i i ! 元数杯璋的研究与应用 和整合的纽带,为计算机智能地识别、处理、集成各种信息内容、信息过 程和信息系统提供工具。 互联网上的所有应用都是建立在协议标准的基础之上,随着互联网向 语义网络( s e m a n t i cw e b ) 发展,网络将不再仅仅提供简单的通讯平台, 而能够通过规范的语义表达,达到机器之问的理解和人机交互,从而更好 地为人们发现信息、共享信息、交流思想服务。这也正是电子政务所要实 现的目标。许多新的、基于人类认知和语义的协议将被引入到网络中来, 这些协议的基础就是元数据。 当前我国正在加紧实施电子政务建设,面对大量而分散的政府信息资 源,从政府机关的角度而言,如何组织、控制、管理网络环境下的信息资 源,并提供高效优质的信息服务是其努力的目标:对广大百姓而言,如何 利用网络跨越政府机关多层组织的障碍,搜寻、判断、获取有价值的政府 信息则是其关注的焦点。因此研究政务信息资源如何标准化描述、如何利 用元数据对政务信息资源做更深一步的描述和管理,以及发展新一代获取 政府信息资源的发现检索机制,显得尤其重要。 1 2国外元数据相关研究 由子势蓖化和标准化是建立统一电子政府的关键措施之一,国际上一 些发达国家已经针对政务信息资源制定了完整的元数据标准和实施纲要, 并在政府信息系统中强制执行,从而保证政府部门在组织元数据时具有最 大程度的一致性。 目前国外的电子政务元数据标准及其应用主要有两大体系。一是以美 国g i l s 啪为基础的政府信息资源元数据标准。g i l s 是专为政府信息设计的 一种元数据格式,它规定了政务信息资源元数据的总统结构是:由若干 g i l s 核心元素( c o r ee l e m e n t s ) 组成,并可含有应用系统自定义元素或 与具体应用系统相容的其它z 3 9 5 0 属性规范( p r o f i l e s ) 中定义的元素 g i l s 核心元素中包括必选元素和可选元素,有些元素可重复出现,有些元 素可以包含若干子元素。g i l s 的特色是:由于是分散式的架构,各机构可 敢并f 矗息瓷撼元数掘库的研究与应用 自行建嚣和维护本身的资料,再利用网络以s g i l 格式上传,或者直接在 线上利用浏览器以网站形式的工具来登录;如果要批次处理,也可以利用 专属的资料库转换程式来进行转换。使用者的客户端可以透过网络一次搜 寻到不同单位的资料,而不必分次检索,而且,检索的资料也不限于已上 线的资料。g i l s 提供了使用者便利的界面,也省去了各单位整合资料的时 间。达到了即时公布、快速获取的目标。由于美国政府大力推动和有关法 律、标准的实行,g i l s 已在世界若干国家得到相当程度的应用。 国外电子政务元数据标准的另一大体系是以都伯林核心( d c ) “1 为基 础发展而来的,其中最典型的是英国的电子政务元数据标准( e - c - m s ) 6 1 。 - e - c m s 定义了公共部门使用的管理元数据的结构和规则,它包括一个核心 元素集合,这些元素包含可满足有效检索和管理官方信息的数据。它在 d u b l i n 核心标准的基础上添加了一些元素并进行了精简以满足公共部门 的特殊需要,其适用原则是:独立性、易用性、兼容性、稳定性、可扩展 性、可增值性和包容性。目前该标准已发展扩充到了2 5 个元素集,并辅 以元素精简( e l e m e n tr e f i n e m e n t s ) 和编码方案( e n c o d i n gs c h e m e s ) 来更加详细的限定元素的语义和取值范围。e - g m s 规定每个元素的值应适 用的格式与标准依次是首先遵照国际标准,其次是欧盟标准,最后遵照英 国国家标准。 简而言之;国外电子政务元数据发展非常迅速,电子政务元数据标准 已经推出,相关的元数据注册管理和资源共享机制也已经在电子政务领域 展开和应用。+ 1 。3国内元数据相关研究 相对手国外,目前国内政务领域对于元数据的研究应用才刚刚起步, 在2 0 0 5 年9 月,国家关于政务信息资源目录体系和交换体系标准初稿才 刚刚出台。在此之前,元数据的研究和应用都还局限在少数城市中,其中 北京、上海等城市走在前列,但只是在一些电子政务应用系统中,由于认 识到了元数据的重要性,在数据资源, h n a t - - 些描述性字段,尚未建立 3 政务信息资源元数 5 c 库的研究与应用 起元数据管理的机制和应用系统,所以在这一方面,国内基本上还处在起 步阶段。国内元数据研究应用比较多的集中在数字图书馆和地理空间等方 面。, 中国数字图书馆数字资源对象描述元数据标准,分别制定了地方志、 电子图书、古籍( 舆图、善本、拓片) 、会议论文、家谱、网络资源、学 位论文、音频资源等元数据规范和著录规则。在元数据标准中将元素分为 描述性元数据、结构性元数据和管理型元数据三部分,或者将元素分为核 心元素、系列核心元素和个别元素。在这些元数据标准或者直接引用d c 的部分元素或者建立了核心元素和d c 元素的映射关系。 中国国家地理信息元数据标准( 送审稿) 。该标准采用修改国际标 准i s o1 9 1 1 5 :2 0 0 3 地理信息元数据,并结合我国实际需求,将其转化 为符合我国国情的国家标准。除了制定了描述地理信息的元数据以外,还 提供了元数据录入软件中国可持续发展信息元数据与数据字典信息 录入系统。 1 4论文的研究内容和组织 现在国内关于元数据的研究和应用正在逐渐增多,现有文章大都是介 绍国外的研究成果或局限在国内的地理空间、数字图书馆等专业方面,至 于在政务领域构建基于元数据的应用研究还比较少。本文的基本思路是基 于对当前信息资源发现技术现状分析的基础上,明确研究的目的和现实意 义,以构建政务信息资源元数据库为应用背景,分析阐述了基于元数据的 政务信息资源描述方法、信息资源元数据从采集到实现目录服务的流程、 政务信息资源元数据库的管理模式以及其原型系统关键技术的实现。 论文首先分析了当前信息资源开发利用中出现的问题,基于网格的资 源发现技术,基于语义和模式识别的搜索引擎,这些资源发现技术都有一 些不足,都要依赖于信息资源本身的描述信息是否足够充分。都不能够很 精确的寻找到用户希望得到的资源。针对这些问题,论文提出了基于元数 据的政务信息资源注册和目录交换体系,它能够高效地发现、管理和共享 政务信息资源元数杯j 幸的研究与应用 政务信息资源。 由于使用硼l 来作为保存信息资源元数据的载体,针对目前瑚l 数据 的存储和索引查询存在的问题进行了分析,得出了适合政务信息资源元数 据的存储模式和索引方式。这种方式有利于注册系统和目录服务的推广应 用,在这些技术的基础上,构建了信息资源元数据库的模型,并论述了关 键模块的设计,最后介绍了基于该模型的原型系统的实现。 本文共分为7 章: 第一章总体介绍政务信息资源开发利用所面临的问题和元数据技术 的兴起,论述了研究背景、研究内容以及本文的主要工作。 第二章研究了当前信息资源发现机制的研究现状、元数据技术的基本 概念和元数据在信息资源开发利用中的作用,给出了基于元数据的政务信 息资源注册及目录服务体系的基本框架。 第三章研究了政务信息资源的采集及其标准化表示技术,给出了政务 信息资源的标准化表示方法。 基于第三章的研究内容,第四章进一步详细阐述了如何建立政务信息 元数据库以及建库所使用的关键技术,如存储策略、索引策略和查询策略。 第五章介绍了基于元数据库的应用,主要包括信息资源注册管理系统 和目录服务系统。 第六章介绍了综合各种技术的政务信息资源元数据痒原型系统。 第七章总结了全文的工作并展望以后的研究方向。 第二章政务信息资源与元数据 2 1政务信息资源概念 知识经济时代,信息资源正在取代物质资源和能源资源,成为社会经 济发展的支柱性资源。信息和资源本来具有它们各自独立的含义,把“信 息”和“资源”和在起称为“信息资源”,它就变成一个复杂的概念, 人们对它的理解也各不相同。 对于信息资源的定义有: 1 9 7 9 年美国信息管理专家霍顿( f w h o r t o n ) 指出,信息资源为单数 时,指信息内容,信息资源为复数时,指支持工具,包括供给、设备、环 境、人员、资金等m 3 。 乌家培先生的定义:对信息资源有两种理解。一种是狭义的理解,即 指信息内容本身。另一种是广义的理解,指的是除信息内容本身外,还包 括与其紧密相联的信息设备、信息人员、信息系统、信息两络等。狭义的 信息资源实际上还包括信息载体,嚣为信息内容不能离开信息载体而独立 存在嘲。 。 国家信息资源开发利用规划( 草案,1 9 9 7 ) :信息资源是指在经济、 政治、科技教育、国防、社会生活等各个领域、各个层次产生和使用的信 息内容。 关于信息资源开发利用的若干意见( 第十稿,2 0 0 2 1 2 ) 中,信息 资源指在国民经济和社会信息化过程中,有利用价值的、数字化、网络化 的信息内容。 本文的定义是:信息资源是人类活动各个领域所产生的和有使用价值 的各类信息集合。本定义包括有和为人类活动各个领域( 包括政治、军事、 经济、文化和社会生活等) 所产生的和有使用价值的各种信息集合,如数 6 政务信息疑 i i c 元数据j 年的研究与应用 据的集合、信息集合、知识集合,还包括各种来源,各种载体,各种表示 方式,各种传递方式和渠道,各种使用场合和用途。本定义吸收了学术界 和官方文献中的一些有代表性的定义或解释中的基本思想和要素,如:基 于人类实践活动,实用性,狭义理解,强调集合性( 有一定的数量规模、 富集度或丰裕度) 。而政务信息资源是指政府部门在履行管理国家行政事 务职责的业务过程中和政务信息化过程中产生的、有利用价值的、数字化、 网络化的信息内容。 政务信息资源的特点是信息量大、增长快速、存放分散、表现形式各 异、传输方式不统一。这些特点为信息资源的查找和共享带来了技术上的 困难。 从数量看,政府信息资源占到全社会信息资源总量的6 0 - 7 0 ;从地位 看,它在个国家政治、经济、科技、军事、文化领域中具有重要的战略 意义:从作用看,它是政府部门、企业单位、公众个人社会经济活动以及 信息内容产业发展普遍需要、不可或缺的重要资源。因此,有效管理、合 理开发和利用政务信息资源对促进政府职能转变、提高行政效率、增强监 管和服务能力、推动全社会信息化持续健康发展具有重要意义。 2 2 信息姿源发现技术分析 随着数字化信息占信息总量的比例越来越高,数字化信息的生产速度 不断加快,信息资源的总量急剧膨胀。如何管理这些迅速增长的信息资 源? 如何使公众或企业能够快速方便地找到自己希望获得的服务? 目前 流行的信息资源发现技术主要有下面几种。 2 2 1 基丰搜索引擎的信息资源发现 搜索引擎( s e a r c he n g i n e s ) 是指对聊霄站点资源和其它网络资源进行 标引和检索的一类检索系统机制,它们是网络信息检索工具的典型代表 m 。一个搜索引擎由搜索器,索引器、检索器和用户接口四个部分组成。 7 政务佶息资i 8 ;l 元致荆怍的研究与应用 如图2 - i 所示。 。 ,“拶5 一= 。” :口”0 + :- 一- - 搜索嚣 il 龇ti 索引薯 控索矗 。 fi i 妯ti 下弋一 用户 ll 接口1 ir 。e 瞳i 崮崮 图2 - i 搜索引擎框架结构圈 ( 1 ) 搜索器:搜索器的功能是在互联网中漫游、发现和搜集信息。它 常常是一个计算机程序日夜不停地运行。它要尽可能多、尽可能快地搜集 各种类型的新信息和定期更新已经搜集过的旧信息,以避免死连接和无效 连接。搜索器的实现常常采用分布式、并行计算技术,以提高信息发现和 更新的速度。商业搜索引擎的信息发现量可以达到每天几百万网页。 ( 2 ) 索引器:索引器的功能是理解搜索器所搜索的信息,从中抽取出 索引项。用于表示文档以及生成文档库的索引表。索引器可以使用集中式 索日i 算法或分布式索引算法。索引算法对索引器的性能( 如大规模峰值查 询时的响应速度) 有很大的影响。 ( 3 ) 检索器:检索器的功能是根据用户的查询在索引库中快速检出文 档,进行文档与查询的相关度评价,对将要输出的结果进行捧序,并实现 某种用户相关性反馈机制。检索器常用的信息检索模型有集合理论模型、 代数模型、概率模型和混合模型四种。 ( 4 ) 用户接口;用户接口的作用是输入用户查询、显示查询结果、提 供用户相关性反馈机制。用户输入接口可以分为简单接口和复杂接口两 种。简单接口只提供用户输入查询串的文本框,复杂接口可以让用户对查 询进行限制。 搜索引擎工作的一般流程包括使用r o b o t 程序以某种策略来遍历 w e b ,将w e b 上的网页下载到本地文档数据库形成原始信息库,对r o b o t 采集到的网页和相关描述信息经过分词特征项提取关键词词频统计等预 8 政务信息资豫元数槲悻的研究与应用 处理之后,进行索引组织并建立相应的索引数据库。当用户通过用户接口 进行查询时,接口模块分析用户的查询请求,根据一定的策略将检索要求 翻译成规范的查询表达式,然后由检索器按照相应的查询语法和匹配策 路,在索弓l 数据库中查找出与用户查询请求相匹配的文档( 称为相关文 档) ,计算二者之间的相关度,并对查询结果进行捧序,按一定的顺序或 其它组织形式返回给用户以及接受用户相关度反馈。 随着艚w 信息的指数级增加目前的搜索引擎存在搜索速度慢、无效 链接太多、重复信息或不相关信息较多等问题,越来越难以满足人们各种 信息需求,搜索引擎将向智能化、精确化、交叉语言检索、多媒体检索、 专业化等方向发展,以适应不同用户的需求。 2 2 2 基于目录索引的信息资源发现 为了帮助i n t e r n e t 上用户方便地查询到所需要的信息,人们按照图 书馆管理书目的方法设置了目录。其实i n t e r n e t 环境下的信息发现的第 一代研究的成果就是手工生成的书目。以电子文件或印刷书籍的形式传 播。网上目录一般以主题方式来组织,大主题下又包括若干小主题,这样 一层一层地查下去,直到比较具体的信息标题。目录存放在w w 服务器里, 各个主题通过超文本的方式组织在一起,用 通过耳录最终可得到所需信 息的网址,即可到相应的地方查找信息,这种通过目录帮助的方法获得所 需信息的网址继而查找信息的方法称为基于目录的信息查询方法。 有许多机构专门收集i n t e r n e t 上的信息地址。并编制成目录提供绘 网上用户。y a h 0 0 就是一个非常著名的基于耳录帮助的网址,其目录按照 一般主题组织,顶层按经济、计算机、教育、政治、新闻、科学等分成1 4 大类目录,每一大类又分成若干子类,层层递进。 与基于r o b o t 的搜索引擎所不同的是,目录索引型的索引数据库是依 靠编辑人员建立起来的,这些编辑人员在访问了某个w e b 站点后根据一套 自定的评判标准及主观印象撰写出对该站点的描述,并根锯站点的内容和 性质将其归属为一个预先分好的类别,分门别类地存放在相应的目录中, 9 政务信息资豫元数摊焯的研究与应用 用户在查询时,可以通过关键词搜索,也可以按分类目录逐层检索。 由于目录索引型的索引数据库是依靠人工来评价一个网站的内容,闪 此用户从目录搜索得到的结果往往比从基于r o b o t 的搜索引擎得到的结果 更具参考价值。事实上,现在很多搜索站点都同时提供有目录和基于r o b o t 的搜索服务,以便尽可能地为用户提供全面的查询结果。例如,y a h o o 在 目录检索服务的基础上,己经开始使用w e b 全文索引数据库提供与搜索引 擎类似的w e b 信息全文检索服务“。 2 2 3 基于a g e n t 的信息资源发现 a g e n t 起源于a i 领域,是具有特定性质的软件成分。究竟什么样的软 件属于a g e n t ,目前众说纷纭,尚无定论。从a g e n t 的词义来考察。主要 有两种解释,一是自主体,二是代理人。倾向于第一种解释的是人工智领 域的研究人员,这一解释强调的是a g e n t 对环境的认识能力和对环境产生 作用的行为能力。倾向于第二种解释的则是软件界的研究人员,这一解释 强调a g e n t 是代表用户,以主动服务方式完成一定任务操作的计算实体。 通常公认的a g e n t 应当具有的特征包括:主动性、持久性、感知能力、推 理能力、行为能力和通信能力。所以说具有自主性、推理学习能力、交互 性和机动性的a g e n t 技术,确实适合于i n t e r n e t 信息发,见的要求。而 i n t e r n e t 和信息发现也是a g e n t 技术发展的一个重要应用方向,也是目前 关于网络信息资源发现机制研究的热点“”。 通常的网上信息发现过程由以下的步骤组成:1 信息提交:用户向信 息发现系统提交所需要的信息类别和关键字等判别标准;2 信息发现:系 统根据用户要求返回符合的信息集合;3 信息获取:用户按照获得的信息 地址和说明选择并实际获取使用信息。利用a g e n t 进行网上信息发现,主 要思路是让具有一定智能的a g e n t 作为用户的代理,参与整个信息发现过 程的三个步骤,向用户屏蔽信息发现和获取过程的细节。 基于a g e n t 的网上信息发现系统因其学习能力,可不断发展进化。主 要的发展过程可分为三个阶段: 1 0 政务惦息资曲;:元数 l c 库的研究与j 、蔓用 i 初起阶段:a g e n t 系统开始工作,需要一个与用户的磨合时期。在这 一阶段内。a g e n t 的重要任务是了解熟悉用户的爱好和所处的网络环境, 增加自身的知识积累。本阶段内用户需要提供较全面的信息需求和反馈以 训练a g e n t 尽快成为熟练高效的信息发现助手。 2 成熟阶段:这一阶段a g e n t 的知识积累和服务能力都达到一定水平, 用户的信息发现兴趣也较稳定。用户可以轻松地享用a g e n t 提供的个性化 的信息服务 3 进化阶段:当用户个人兴趣发生转变和扩充时,a g e n t 需要相应调整 自己的服务重点,重新修正用户特征库和建立新的信息收集来源库。使自 身进化到一个新的服务水平。由于已经有相当的学习推理能力和基础,用 户的责任和负担比起初起阶段要轻。 基于a g e n t 的信息发现系统,根据系统结构不同可以大略分成以下的 类别: 1 单a g e n t 系统 单a g e n t 系统是指由单个a g e n t 组成的信息发现系统,建立在用户端 的计算机系统内,独立地为用户完成信息发现任务。这样的系统也可能由 多个承担不同责任的模块组成,但各模块阈关系紧密。统一控制,没有独 立的自主性。这类系统的设计和实现重点是根据用户的偏好进行信息查 询,注重对用户兴趣的学习和自适应,注重对所收集的文本进行信息分类。 2 多a g e n t 系统 多a g e n t 系统是指多个a g e n t 组成的信息发现系统,各个a g e n t 可能 分布式的散布在多个主机上,不同的a g e n t 之间有多个某种协作关系,但 每个a g e n t 都拥有独立的自主意识。一次信息发现的查询过程要通过多个 a g e n t 合作才能完成,可以克服单一a g e n t 完成信息发现任务的不足,不 同的a g e n t 在信息发现中担任不同的角色,分别完成与用户沟通、信息源 访问、结果信息过滤等任务 3 移动a g e n t 系统 这类基于a g e n t 的信息发现系统的特点在于利用了移动a g e n t 技术, 能够胜任信息发现任务的a g e n t 发送到不同的信息源服务器上,移动a g e n t 政务信息资源元数铽库的研究与应用 就是指含有执行代码,可持续性状态数组和一组属性,能够自我移动或 在不同主机间转移,以完成指定任务的有名对象,承担信息发现任务的移 动a g e n t 存放在信息数据的本地,它们对信息进行选择处理,仅将结果传 回用户。此种设计的一个最明显的好处是可以大大减轻网络的流量负于 l 。 移动a g e n t 信息发现系统可采用具有跨平台特性的j a v a 语言实现,它对 a g e n t 的职能性和自适应性要求更高,而目需要信息源服务器提供a g e n t 运行的支持环境,因此目前在实现上还有一定的难度。 现有基于a g e n t 的信息发现机制都有弱点,信息覆盖范围有限,单 a g e n t 系统中a g e n t 的负担过于繁重,多a g e n t 之问又产生了协调和管理 的麻烦,移动a g e n t 系统利用移动a g e n t 的灵活性提高信息发现效率,减 少网络传输的信息量,但目前支持技术和环境尚不够成熟。 现在出现的基于a g e n t 的信息发现系统多属实验性系统,缺乏实际使 用的检查和考验,由于目前a g e n t 的概念还没有公认的定义,对于它的不 同描述和应用导致缺乏对a g e n t 的结构和行为的统一标准,造成现有系统 中的a g e n t 风格迥异。难以沟通,妨碍了a g e n t 之间的通信和应用。 2 3 元数据技术概述 2 3 1 元数据的定义 元数据( m e d a m ) 最简单的一个定义是:关于数据的数据( d a ma b o u t d a m ) 。说得更详细一点就是:描述某一资源的结构化数据o “。长期以来 由于元数据本身较强的实践性,元数据这个概念的定义很繁杂,学术界对 于元数据自啶义一直争论不体。 美国联邦地理数据委员会( f g d c ) 和国际标准化组织( i s o ) 地理信 息委员会( i s o t c 2 1 1 ) 认为:元数据是关于数据内容、质量,条件以及 其他特征的数据“q 。 政务信息资滁元数荆库的研究与应用 国际档案理事会的电子文件指南中给出的定义是:元数据是关于 数据的数据但是,在定义完元数据这个概念之后,其又解释:“元数据 是关于文件的背景信息和结构的数据”“” 英国国家档案馆电子文件管理指南给出的定义是:元数据是单一 电子文件和文件组合的背景及其相互关系的结构化著录数据“ 在中国电子文件归档与管理规范这一国家标准中,电子文件的元 数据u e t a d a t a 被定义为:“描述电子文件数据属性的数据,包括文件的 格式、编排结构、硬件和软件环境、文件处理软件、字处理软件和图形处 理软件、字符集等数据。”“ 张晓林o ”主持的“分布环境下信息系统的开放描述研究”项目的一篇 报告数字图书馆的开放元数据机制中,将元数据放在开放环境中,从 异构系统互操作的角度,考虑如何描述信息内容的各个层次( 从单个信息 对象,到对象集合及其组织、管理和控制机制,甚至到信息系统本身) , 深入地研究了元数据的性质、整个体系和层次,将对元数据的狭义理解: “描述基础信息内容对象的工具”,拓展到了广义的范围:“元数据是一 种基本信息组织方法,为信息系统各个层次的内容提供规范的定义、描述、 交换和锯析机制,为分布的,多种和多层内容构成的信息系统提供互操作 和整合的纽带,为计算机智能地识别、处理、集成各种信息内容、信息过 程和信息系统提供工具。” 本文认同这个观点。由这个定义可以看出,元数据实际上就是对数据 进行著录而得到的著录信息,这些著录信息专门用于电子文件的管理,以 保证电子文件的真实性,可靠性,元数据就是为了提高电子文件的凭证性 两提出来的。创建元数据的过程就是3 c 寸文件特征进行描述的过程。元数据 不仅包括对文件本身的描述,还包括对文件的管理信息的描述。 2 。3 ,2 元数据的作用 藏一棵树的最好地方是森林。同样我们会无意识的在i n t e r n e t 中隐 政务信息资张元数据坶- 的研究与应用 藏信息,尽管我们目前可以通过电子方式得到数量惊人的信息和数据,但 是它们往往并不是我们所需求的,或者我们并不自信认为所得到的数据就 是避精确的。 这种问题的原因是复杂的,和人们寻找数据的方式有关,和搜索引擎 的工作方式有关,和信息存储及索引方式有关。充分的、始终如一的使用 元数据来描述信息资源并不能保证每个时候都能得到完美的结果,但是在 我们沉迷于大量信息资源的时候,它将有助于提高搜索的成功率。 经过多年的研究应用,元数据的作用已经越来越重要,也越来越受到 人们的重视,具体的来说元数据的作用可以归纳如下; 1 ) 对于i n t e r n e t 上和政务领域浩如烟海的资源来说,如果缺乏足够 的描述信息,人们就难以断定信息资源的价值而加以利用,从这个角度上 说,元数据保护了信息资源的价值。 2 ) 元数据可以帮助数据拥有者有效地管理和维护数据信息,并保证不 会因为人员或机构的变动引起数据丢失或者影响到数据的使用和维护; 3 ) 提供有关数据存贮、数据分类、数据内容、数据质量、数据交换、 数据访问等方面的信息,便于用户查询、检索和访问相关数据资源; 4 ) 帮助用户了解数据,以便就数据是否能满足其需求做出正确的判断 或者用于对检索结果进行过滤: 5 ) 元数据在处理非文本信息时也是很有效的,比如照片或者音乐, 表格和电子服务。一个搜索引擎不能够扫描到这些文件的关键字,因为它 们没有关键字。文件名和宽泛的目录信息不能够保证能被快速正确的搜索 到。 总之,元数据是使数据充分发挥作用的重要条件之一。它可以用于数 据文档建立、数据发布,数据浏览、数据转换等多个方面。元数据对于促 进数据的管理、使用和共享均有重要的作用,原始数据如果没有元数据, 就很难有效地进行管理和使用元数据对于建立数据交换网络也是十分重 要的,网络中心通过中心的元数据库可以实时地连接各个分发数据的分结 政务信息资豫元数据陴的研究与应用 点元数据库,帮助潜在的用户找到其特定应用所需要的数据,实现数据, l 事。 。 在电子政务和信息资源开发利用方面,元数据对于资源整合、数据管 理核数据共享的作用是巨大的。元数据和信息资源对象的关系在于元数据 能够提供一种潜力,这种潜力能够提高快速发现资源的能力、允许对非原 文对象的索引以及访问资源的可替代内容,元数据对于电子政务中的互联 互通、信息共享、业务协同有着十分重要的支持作用,是电子政务协同工 作和信息资源利用的软环境建设基础。 所以我们可以得出结论,元数据是一种可以提供独一无二的发现信息 资源的高质量的服务机制。 2 3 3 元数据类型 元数据根据它的具体功能一般分为描述型元数据、管理型元数据、结 构型元数据等等。 描述型元数据( i n t e l l e c t u a lm e t a d a t a ) ,用来描述、发现和鉴别

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论