




已阅读5页,还剩61页未读, 继续免费阅读
(系统工程专业论文)数字图书馆中资源搜索引擎.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
书馆中的资源搜索引擎 摘要 数字图书馆是一种新兴的大型分布式的信息系统,里面含有海量的 信息资源。如何找到自己想要的信息资源,就是资源搜索引擎的功能。 本文研究了数字图书馆中的资源搜索引擎( d l r s e ,d i g i t a l l i b r a r y r e s o u r c es e a r c he n g i n e ) 。 资源搜索引擎分为两部分:元数据检索和内容检索。本文在研究了 元数据的基础上,设计完成了元数据检索系统。同时研究了内容检索系 统。 提供个性化服务,实现“信息找人”,是资源检索系统的重要方向。 本文实现了用户建模,并且研究了数据挖掘技术的应用。 关键字: 数字图书馆元数据资源检索引擎元数据检索内容检索个性化服务 用户建模数据挖掘 些立奎望盔兰堡圭丝兰 塾主璺主堕主塑塑翌垫室! ! 兰 a b s t r a c t d i g i t a ll i b r a r yi s ah u g en e wt y p ed i s t r i b u t e di n f o r m a t i o ns y s t e m ,i tc o n t e n t s l a r g ei n f o r m a t i o n r e s o u r c e i ti sr s e ( r e s o u r c es e a r c he n g i n e ) sf u n c t i o nt of i n dw h a t w en e e di nt h ed i g i t a ll i b r a r y t h i sd i s s e r t a t i o ni sa b o u tt h ed i g i t a ll i b r a r yr e s o u r c e s e a r c he n g i n e ( d l r s e ) r e s o u r c es e a r c he n g i n eh a st w op a r t s :m e t ad a t as e a r c hs y s t e ma n dc o n t e n t s e a r c hs y s t e m t h i sd i s s e r t a t i o nd e s i g n e da n dd e v e l o p e dt h em e t ad a t as e a r c hs y s t e m b a s e do nm e t ad a t ar e s e a r c h i n g ia l s or e s e a r c h e dc o n t e n ts e a r c hs y s t e m i ti si m p o r t a n tt os u p p l yi n d i v i d u a ls e r v i c e si nt h ed i g i t a ll i b r a r y , i no t h e rw a y , “l e tt h ei n f o r m a t i o nr u nt ot h eu s e r s ”t h i sd i s s e r t a t i o nb u i l tt h eu s e rm o d e ,a n d d e s c r i b eh o wt ou s ed a t a - m i n i n gi nt h ed i g i t a ll i b r a r y k e y w o r d s : d i g i t a ll i b r a r y r e s o u r c es e a r c h e n g i n e m e t ad a t as e a r c h s y s t e m c o n t e n ts e a r c h s y s t e m i n d i v i d u a ls e r v i c e d a t a - m i n i n g m e t ad a t a u s e rm o d e l i n g 2 韭立銮望盔堂堡主丝塞墼兰里主堕主箜墼塑堡塞! ! 兰 第一章数字图书馆简介 1 1 数字图书馆的概念 数字图书馆是一种新兴的大型分布式的信息系统。计算机和互联网 经过了近二十年从概念到技术的讨论和研究之后,2 0 世纪9 0 年代初互 联网开始进入商业领域,并在随后的几年中获得了空前的发展。随着人 们对网络带宽需求的增加和宽带网络自身的发展,网络应用的类型在不 断扩大,互联网上信息的类型也变得越加丰富,比如文本、图形、视频、 音频等。计算机、网络以及通信的发展使得产生、处理、传播数字信息 的能力大大增加,而且数字信息在存储、传输和处理时比其它形式存储 的信息更方便,加之在过去的几十年中产生了海量的数字信息资源,所 以技术上需要一种系统技术来管理数字信息资源。因此,互联网技术领 域面临一系列问题:怎样合理和有效地对各类海量数字信息进行组织、 检索、访问、利用? 怎样有效利用互联网的优势向用户提供海量数字信 息服务? 针对这些问题,美国科学家在9 0 年代初提出了数字图书馆( d i g i t a l l i b r a r y ) 这一概念,力图为高速宽带互联网做好应用准备。数字图书馆 是一个驱动多媒体海量数字信息组织与互联网应用问题各方面研究的 技术领域。简单地说,数字图书馆是以电子格式去存储海量的多媒体信 息并能对这些信息资源进行高效的操作,如插入、删除、修改、检索, 及提供访问接口和信息保护等的信息系统。它曾成为克林顿政府倡导的 信息高速公路计划n i i 的重要部分,美国希望通过数字图书馆这一应用 推动国家信息基础设施的建设,并最终把传播和利用知识的高速信息公 路铺到每个美国人的家里。 传统图书馆是存储图书资料的仓库,它负责收集、选择和整理图书 资料,使其可以被查询利用。保存图书资料和提供便利的利用办法与环 ! ! 互銮望盔堂堡主笙苎墼兰里羔堕主堕墼塑堡室21 兰 境是图书馆的主要任务。数字图书馆所面对的领域远远超出了目前传统 图书馆的范围,它不仅需要存储数字化的图书、音视频作品、美术作品、 图像、电影、卡通作品、电子出版物、互联网新闻、各种各样的人文与 科学数据如卫星数据、气象数据、地理数据等,还要提供互联网上基于 内容的多媒体检索,包括对文本、音频、视频、图像、图形等数据的检 索与索引,使得合法用户可以通过互联网利用这些数据。用户也可以用 新的媒体工具把多个信息组合在一起生成新的媒体内容。数字图书馆将 逐步实现智能化、个性化和自动化服务,使得用户可以使用个人电脑通 过网络进行一些基于内容的检索,用户可以用各种形式提出查询请求, 甚至是用口语的形式。数字图书馆是一项非常有意义的研究内容,特别 是对教育领域,数字图书馆将成为非常重要的教育设施。在未来,数字 图书馆将无处不在,包括远程教育、电子商务和娱乐等。 需要说明的是,数字图书馆虽然被称之为“馆”,但它并不占用空 间,很大程度上也不受时间的限制,因为它的存在方式是将文字、图像、 声音等信息数字化,并通过国际互联网传输,从而做到信息资源全球共 享。与以往的图书馆最大的不同在于:它变集中“人”为集中信息和服 务“馆”的形式并不重要,其水平高下取决于“软件”质量。在专 家眼中,一个建设完备的数字图书馆应当成为:重要信息的生产基地, 多种信息资源的聚集中心;读者、专家、图书馆员交互的枢纽:信息发 现、搜索、捕捉的导航站点;为用户提供高水平服务的知识喷泉。 1 2 数字图书馆的特征和要素 数字图书馆作为信息社会发展的产物,具有其特有的特征和要素: ( 1 ) 数字化资源 数字化资源是数字图书馆的“物质”基础。数字图书馆的目的是直 接提供读者所需的最终信息,而不只是二次文献( 获得文献的线索) ,但 数字图书馆并不排斥书目数据,索引文摘等二次文献,它们也是数字图 ! ! 查銮望查兰蟹主兰苎墼主鬯主堕主墼童翌堡窭! ! 兰 书馆的组成部分。万千世界统一于数字图书馆中的“0 ”和“1 ”,书籍、 期刊、录音录像带、乃至古籍善本、稀世字画甚至x 光片,都消失了原 本的物理形态,只要有相同的属性,就能被同时获取。因此多媒体也是 数字图书馆的一个基本特征。 ( 2 ) 网络化存取 高速的数字通信网络是数字图书馆的存在基础,数字图书馆依附于 网络而存在,其对内的业务组织和对外的服务都是以网络为载体,得益 于网络也受制于网络,只有利用网络至极限,才能发挥数字图书馆作用 至极限。数字图书馆内部本身由局域网构成,一般是高速主干联接数台 服务器及工作站,外部通过数台广域网服务器面向浩瀚的国际互联网。 ( 3 ) 智能化检索 数字图书馆是一个大型的分布式海量数据库集,其资源不可计数, 要使用户在这浩瀚的数字化资源当中找到自己需要的内容,必须要求数 字图书馆提供一套智能化检索技术,使用户在最短的时间内找到最需要 的内容,因此说智能化检索是数字图书馆必不可少的基本要素,是数字 图书馆发展的有力支柱。这方面也是本文研究的重点。 ( 4 ) 分布式管理 分布式管理是数字图书馆发展的高级阶段,它意味着全球数字图书 馆遵循统一的访问协议之后,数字图书馆可以实现“联邦检索”,全球 数字图书馆将像现在的n t c m e t 联接网站一样,把全球的数字化资源联 为一体,联接成为一个巨大的图书馆。分布式管理之所以是数字图书馆 的基本要素,在于它强调标准协议的重要性,只有全球共同遵循t c p i p 协议,才有i n t e m e t 的今天。而数字图书馆技术还没有这样一个公认标 准协议,因此技术标准的选择和参与制订,对每一个数字图书馆研究者 都是至关重要的。 北方交通大学硕士论文数字图书馆中的资源搜索引擎 1 3 数字图书馆的作用和地位 ( 1 ) 数字图书馆是网络社会的信息基础设施之一 数字图书馆是一个海量分布式数据库,将资源信息实现数字化管 理,经过h n 7 - 整理,提供上网服务,供读者随时随地查阅。与传统的图 书馆藏书不同的是,数字图书馆中众多图书,不再孤立地散布于世界各 地的图书馆中,而是永久地存储在硬盘、软盘、光介质之中,或流动在 全球信息网络上,成为人类共享的知识财富。这是一个具有特殊重要地 位的产业分支。 数字图书馆就是被下一代超高速i n t e m e t 选定的管理信息资源的模 式,即是说,在2 1 世纪初的下一代i n t e m e t 上,信息资源上网必须按数 字图书馆模式来组织。因此说数字图书馆是网络社会信息基础设施之 一,这是它最根本的重要性所在。 ( 2 ) 数字图书馆是网络社区活动中心之一 数字图书馆是网络社区活动中心之一,这表现在以下几方面: 首先,数字图书馆应该是一个国家数字文化平台。其中包含的内容 很多,它既可能是网上图书馆,又可以是网上书店、音像店、文物店等, 还可能是网上文化中心等等。 第二,数字图书馆还应该是一个国家数字教育平台。这并不是说数 字图书馆可以取代学生教育。通常,人们在数字图书馆里是进行再教育, 再学习,包括文化的、休闲的以及其它各种各样的学习。因此,数字图 书馆也应该能够提供这样的功能,成为网上业余教育中心、在职教育中 一i i , 甚至趣味教育中心等等,很多家庭教育都可以在这里进行。 第三,数字图书馆也是一个国家数字资源中心。现在积累的数据越 来越多,如遥感数据、卫星数据、网上数据等,这些数据应该收集起来, 为今后的研究提供丰富的数据依据。数字图书馆就是这样一个数字资料 集中管理的地方,把上述资料及其它数字资源的资料,甚至一些产品资 j ! 杰銮望丕兰堡主丝苎墼兰里主堕生盟塑塑塑鲞! ! 兰 料保存起来,成为国家数字资料存储中心和数字资料处理中心。 ( 3 ) 数字图书馆是国家信息基础设施( n i i ) 建设的重要内容 数字图书馆是网上信息资源建设的核心。在未来社会中,作为存储 人类文明成果的宝库,数字图书馆只有以国家信息基础设施为基础发展 电子信息服务,才能适应社会发展的需求。数字图书馆的建设正是适应 这一需求的产物。在西方发达国家中央政府发布的国家信息基础设旖建 设计划书中主要包含两部分内容:一是网络通信设施,二是高质量的网 上信息资源。1 9 9 5 年美国国家信息基础设施蓝皮书中指出的属于国家级 挑战的项目一共有9 项内容,数字图书馆名列首位。此外,在其它的教 育与终身学习、电子商务、健康管理和政府信息公众存取等内容也都涉 及数字图书馆的内容和技术。 由此可见,数字图书馆绝不仅仅是数字化的图书馆,它应该是文化 的传播媒体,是文化产品的网络商务平台,是国家数字资源组织、开发 和利用的基础,是网络文化中心和网络文化的聚集地。 1 4 数字图书馆的发展历史与现状 目前世界上许多知名的大学、研究机构、公共图书馆及计算机公司 在数字图书馆的研究、开发方面展开了激烈的竞争,竞相推出各自的研 究、开发和实施计划。许多研究正在进行中,其中一批先行的实验性项 目已经开始试运行,并为社会公开提供查询服务。 1 4 1 国外数字图书馆发展情况 数字图书馆在美国已经作为“高性能计算和通信计划( h p c c ) ” 的子课题“信息基础技术应用( i t t a ) ”中的挑战性课题得到政府的支 持。从1 9 9 3 年开始,美国国家自然科学基金会( n s f ) 在联合受理“数 字图书馆预研( d i g i t a l l i b r a r i e s i n i t i a t i v e ,d l i ) ”联邦项目方面担当领导 角色。数字图书馆能够成为一个研究、开发、应用和实践的重要领域, 韭互奎望盔兰堡圭丝塞墼兰璺翌堕主墼篓塑堡茎! ! 兰 是和n s f 在整个9 0 年代的一贯支持分不开。虽然全球对数字图书馆的 投资,包括图书馆、大学、协会、企业、基金会和其它国家政府的总额 超过了数亿美元,但d l i 是其中最引人注目的计划,它是此领域的所有 论文的焦点。经过一年的讨论,1 9 9 4 年9 月,美国国家自然科学基金会、 美国国防部高级研究计划局( d a r p a ) 和美国国家宇航局( n a s a ) 共 同支持数字图书馆预研工程d l i ,该工程资助了六个子项目,分别由美 国的六所著名大学来承担,它们分别是斯坦福法学、卡内基梅隆大学、 加州大学伯克利分校、伊利诺伊大学、密执根大学、加州大学s a n t a b a r b a r a 分校。d l l 一期工程历时4 年,于1 9 9 8 年8 月底结束,取得了 一定的成果,引起了世界范围内各国政府和有关学者的关注i 在d l i 的影响和带动下,美国的许多著名大学都建立了专门进行数字图书馆领 域研究的实验室或研究中心,也为研究生开设了介绍该领域技术发展的 专业课,像德州大学普林斯顿大学。 在美国之后,许多国家也投资研究建造自己的数字图书馆,如法国、 意大利、英国、新加坡等。 法国若斯潘政府提出的题为为法国进入信息化社会做好准备的 实现社会信息化政府行动纲领中,将文化信息网的建设列为6 个优先发 展的主题之一,其要点涉及文化领域的各个方面。今年将投入使用拥有 3 0 0 0 多项资料节目的节目服务库同时增加4 0 0 个同文化内容有关的新 网址,供用户查阅和调用。同时法国还启动了另一重大工程法国文 化遗产数据化联接到互联网上,其上网内容包括著名的博物馆和多种文 化设施,还有5 万册不存在著作版权问题的著作等:利用现有文化设施, 如图书馆、多媒体厅等在今年内建立1 0 0 个多媒体文化中心。 加拿大政府在1 9 9 6 年5 月公布的建设信息社会:使加拿大进入 2 l 世纪的行动计划中,加拿大政府十分重视在信息内容上强调加拿大 文化和特色。该国设立了“文化产业发展基础”项目,协助厂商将文化 1 0 些互銮垄盔堂堡主丝苎墼兰里兰堕盟墼塑堡塞! ! 兰 产品数字化。为方便加拿大的文化产品和文化尽快上网,1 9 9 7 年遗产和 工业部联合成立了“数字化工作小组”,统筹全国的数字化工作。同时 还计划修改版权法,解决多媒体、因特网发展带来的知识产权问题。 英国政府与1 9 9 7 年提出了雄心勃勃的英国“全国学习网”计划, 并将于1 9 9 9 年正式推出有关示范项目。“全国学习网”主要由一系列拥 有丰富教育内容的专门网址互联而成,并使全国的大专院校、图书馆、 博物馆与“全国学习网”连通,从而使这些机构资源能够更好更充分地 被中小学利用,同时也使“全国学习网”成为继续教育职业培训的一个 主要渠道,进而扩大整个社会获取知识和接受教育的机会和途径,达到 创造一个网络化“知识社会”的目标。 各发展中国家也在加速文化信息网的建设,新加坡1 9 9 7 年开始综 合网商品化建设,计划用一年的时间将学校图书馆和社区中心与所有家 庭和公司连接。突尼斯决定从9 8 年3 月开始,将所有公共图书馆有计 划地同因特网联网,这一联网行动还将扩大到高等教育机构、科研单位 以及全部中、小学校。 1 4 2 我国数字图书馆发展情况 我国图书馆自动化及电子化虽起步较晚,但基于计算机和网络通讯 技术大环境的影响,以及外国高技术企业对中国市场的积极乐观态度, 为我国数字图书馆的建立创造了好的条件,如1 9 9 5 年i b m 公司在北京 建立了“数字图书馆项目办公室”,把数字图书馆技术作为中心研究课 题,通过提供小型机、推广硬件及软件的方法与国内清华、北大、复旦 等高校和科研机构开展广泛的合作、开发和推广其实验项目,这无疑推 动了我国数字图书馆的建设和发展。 清华大学数字化图书馆计划实施已全面展开,共包括四部分:一、 针对本馆馆藏资源的纸介质记录的计算机化服务:二、数字化数据库服 务,及把本馆图像和文献文字存贮在特定数据库服务中,运用中文全文 j ! 友銮望盔堂堡主丝苎墼主里羔堕生丝塑塑堡童! ! 兰 检索工具检索全文;三、针对光盘文献信息查询的参考数据库资源服务; 四、联网服务,通过网关接口为用户提供基于i n t e m e t 信息服务。 上海交大创建一个数字化图书馆的现实模型,拥有预计容量为 3 0 0 g b 的数字化馆藏,内容包括联机目录、电子参考书如索引、摘要、 辞典、百科全书、电子全文杂志和会议录等,及多媒体有声读物、影视 片、动画片和计算机软件等。 数字图书馆在中国从1 9 9 8 年开始升温,在国家科技部的支持下, 国家8 6 3 计划智能计算机系统主题专家组设立了数字图书馆重点项目一 一“中国数字图书馆示范工程”。该项目最终目标是建设中国数字图书 馆系统,这将是一个由国内许多单位联手参与的大文化工程,目标是建 立起一个跨地区、跨行业的巨大文化信息资源网络,使之成为我国的“国 家信息基础设旖”和“国家知识基础设施”一部分。 1 5 数字图书馆建设面临的技术挑战 数字图书馆作为一个海量、宽带多媒体网络系统,还有很多需要进 一步研究开发的技术问题,包括信息资源建设、存储与压缩、分类、查 询与检索、传输与保护、交互界面、输出与信息表现、多语言问题、工 具与平台、标准( 包括电子图书标准、元数据标准和多媒体标准) 等。 这些问题解决的好坏,将会直接影响数字图书馆建设的速度。本篇论文 重点探讨了数字图书馆中的资源内容检索。 在开始建设数字图书馆的时候,首先面临着一个严峻的事实:没有 相应的标准,这包括电子图书标准、元数据标准和多媒体信息标准。因 此在数字图书馆工程中相应技术标准的研究成为一个主要的研究课题。 由于信息的海量,在组织信息上采用何种方法是能否实现数字图书 馆资源共享的关键问题。目前世界上无论哪个国家在数字图书馆的研究 中对于这个问题的认识都是相同的。简单的全文检索,用于海量信息库 的查询,其结果往往是大量的查询垃圾和漫长的寻找过程。对于达到几 j ! 杰銮望盔兰堡圭丝苎墼主里翌堕盟墼塑垫室! ! 茎 十乃至几百个t b 的海量信息,这种简单的全文检索根本无法使用。例 如在美国有过一个对于1 t b 的信息系统使用简单的全文检索测试,用 了6 个小时才检索到满足用户要求的结果。 因此,世界各国普遍采用的方法是:对于资源的组织分为元数据和 对象数据;查询系统针对元数据的集合,知识产权保护针对对象数据的 集合。这样,利用元数据的共享,使得各种查询工具可以充分地发挥作 用。这种方法的好处是,充分利用对于信息的分类和特征的描述来构造 某些信息的特征数据,这些数据称为”元数据”,然后共享这个元数据, 查询系统在元数据库中寻找满足用户要求的信息,可以实现更多元数据 的共享。 例如:当今世界上每年有7 5 0 万种文献,假定每份文献有2 0 0 页, 每页有4 0 0 汉字。按一个汉字使用2 字节计算,如果将这些文献数字化, 需要存储空间为:7 5 0 0 0 0 0 2 0 0 4 0 0 2 = 1 2 0 0 g 。如果在这1 2 0 0 g 的全 文中检索关键词,所需使用的时间、检索出的无用信息等都是不可想象 的。而如果采用元数据方式,如果描述每种文献需要5 0 个字段,全部 字段平均的长度为1 5 0 0 字节,那么这些文献元数据的存储空间为: 7 5 0 0 0 0 0 x 1 5 0 0 = 1 0 2 5 g 。毫无疑问,在这1 0 2 5 g 的元数据库中查询文 献的特征,使用的时间和检索出信息的准确率与简单的全文检索相比将 获得极大的改善。 以上的例子,使我们对于直接使用目标的全文检索,还是对于目标 描述的数据进行查询有了商观的了解。所以,要解决的问题是:要对数 据加工进行进一步的处理,使数据分为元数据和对象数据两种。解决了 这个问题,可以有效地解决资源利用的关键问题,即让用户知道谁有什 么对象数据。采用元数据和对象数据的制作标准以后,就相当于大家都 用h t m l 语言一样简单,无论什么检索系统都可以对元数据进行检索 了。 13 北方交通大学硕士论文数字图书馆中的资源搜索引擎 图1 - 1 展示了元数据技术在数字图书馆系统框架中的重要地位。 对象数据库 用 户 图1 - 1 数字图书馆系统框图 以上分析可以看出元数据技术在数字图书馆中对检索速度和准确 率的重要性,因此,我们首先对元数据进行研究和设计。 第二章元数据研究 在本章我们首先研究元数据,然后给出数字图书馆中的资源搜索 引擎( d l r s e ,d i g i t a ll i b r a r y r e s o u r c es e a r c he n g i n e ) q b 设计的元数据库 数据结构。 2 1 元数据的概念 元数据通常被定义为“关于数据的数据”,它是对数字图书馆中的 资源进行描述的方法。但是,这个定义过于概念化,不够严密。因此, 一些组织给出了关于元数据的更详细的定义。 i e e e ( t h ei n s t i t u t eo fe l e c t r i c a la n de l e c t r o n i c se n g i n e e r s ,电气和 电子工程师委员会) 的海量存储系统和技术委员会( m a s ss t o r a g e s y s t e m s a n d t e c h n o l o g yc o m m i t t e e ,m s s & t c ) 在1 9 9 3 年8 月召开的元 1 4 韭互銮望盔堂堡圭堡塞墼主里主堕主盟童婆堡窭! ! 兰 数据研讨会上,提出了一个元数据的比较系统的定义:“元数据是关于 存储的信息实体、存储的管理以及存储和实体的使用信息。信息实体包 括语义或信息内容、存储的结构映射、要素的类型和编码、实体之间的 关系、格式、结构和类型、相关的数据、导出派生信息;存储的管理 包括定位、访问时间和访问方法;存储和实体的使用包括限制、用法和 历史记录。” 。 c i e s i n ( c o n s o r t i u mf o ri n t e m a t i o n a le a r t hs c i e n c e si n f o r m a t i o n n e t w o r k ) 对元数据的定义是:“元数据是关于数据和信息资源的描述信 息。它们描述、指向或者补充与之相关信息的内容。” 在i s o i e c1 1 1 7 9 中元数据的定义是:“元数据是使数据集能够被 用户理解和共享的信息和文档。” 人们很早就开始不自觉地利用元数据,例如,地图中的图例、图书 馆的卡片目录等都可以说是元数据。但是,元数据的重要性是在计算机 科学发展后才被人们认识到,并利用它来解决实际问题。例如,在数据 库中,元数据是对数据库各个对象的描述,对于关系数据库,这种描述 就是对表、列、数据库、视图或其它对象的定义。在这里,元数据被定 义为:元数据定义和描述了数据库中的有关信息,包括数据元素名、别 名、含义、类型、格式、使用范围及约定、来源、用途以及和其它数据 的关系等。 随着w w w 的不断发展,网络上信息资源正呈不断增多的趋势, 但随之而来的问题是,人们发现在海量的信息环境中,信息的查找和检 索变得越来越困难。在数字图书馆建设中有效地解决查找网络资源这一 问题,建立一个简单的并且在网络中为各个用户团体所接受的标准化元 数据元素集,成为了网络发展的迫切需要。 从本质上来说,元数据也是一种数据,元数据和通常所说的数据之 间没有绝对的界限。元数据是数据的补充说明,是使数据本身有意义的 1 5 韭互至望盔兰堡主丝壅墼主里羔堕主塑壅塑堡塞! ! 兰 必要条件。在形式上,元数据可以形式化为数据,以数据存在的各种形 式存在,比如自然语言描述、数据库表等。因此,元数据可以像普通数 据一样,在数据库中存储、处理和检索。 2 2 元数据的用途 元数据通常被定义为“关于数据的数据”,它主要用来描述任何 i n t e m e t 数据和资源,促进i n t e m e t 信息资源的组织和发现。具体用途包 括以下方面: ( 1 ) 描述i n t e m e t 数据内容,例如作者、标题、摘要等信息; ( 2 ) 使i n t e m e t 数据便于搜索: ( 3 ) 允许用户决定某些数据是否为他们所需要的数据; ( 4 ) 防止特定用户( 如小孩) 存取某些数据,例如暴力、色情等信 息: ( 5 ) 让用户可以重新得到或者使用数据的另一份拷贝,例如指出数 据的存储地址; ( 6 ) 知道怎样“读懂”数据,例如说明数据的格式、编码方式、解 密方法等; ( 7 ) 帮助决定利用什么样的数据实例( 如果提供多种格式) : ( 8 ) 给出影响数据使用的一些信息,例如数据使用的法律条件、数 据使用的范围、数据使用的时限等等; ( 9 ) 给出数据的历史过程,例如数据的最初来源、以后的演变历程; ( 1 0 ) 给出数据的联系信息,例如给出数据拥有者的e m a i l ; ( 1 1 ) 给出与其它资源的关系,例如给出版本数据的连接、使用本 数据所需的其它数据和程序; ( 1 2 ) 对数据管理的控制等等: ( 1 3 ) 对某些缺少文本的数据( 如图像和声音) 进行文字说明。 北方交通大学硕士论文数字图书馆中的资源搜索引擎 2 3 元数据的标准 元数据在i n t e r a c t 领域里起到举足轻重的作用,如果各资源信息提 供者都按照某种元数据标准组织、管理其数据,将有效地解决查找网络 资源这一问题,真正实现i n t e r n e t 信息资源共享。因此,许多国际标准 化组织都致力于制定相关领域的元数据规范。围绕着s g m l 、h t m l 、 x m l 等环境,产生了各种元数据规范,其中较有影响的有d u b l i n c o r e 、 p i c s 、w e bc o l l e c t i o n s 、c d f 、m c f 以及r d f 等。由于d u b l i nc o r e 规 范已经获得大量的肯定和应用,我们的系统主要采用了d u b l i nc o r e 规 范,下面,我们详细介绍一下它的情况和优点: d u b l i nc o r e 是d u b l i nc o r ee l e m e n ts e t ( 都柏林核心元素集) 的简 称,它是o c l c 等组织于1 9 9 5 年制定的一种i n t e m e t 网络资源描述规 范,由1 5 个元数据标记元素组成。 目前,d u b l i nc o r e 仍在开发、扩展之中。它的整个元素集是可扩 展的,其中的每一个标记都可重复使用或者有选择地使用,每一个元数 据元素都可以有子类型或予模式。 d u b l i nc o r e 在描述i n t e r a c t 资源方面有6 大特性:内在性 ( i n t r i n s i c a l i t y ) ;可扩展性( e x t e n s i b i l i t y ) ;独立句法结构( s y n t a x i n d e p e n d e n c e ) ;可选择性( o p t i o n a l i t y ) ;可重复性( r e p e a t a b i l i t y ) ;可 修改性( m o d i f i a b i l i t y ) 。 d u b l i nc o r e 的主要优点是: ( 1 ) 简单:d u b l i nc o r e 的1 5 个标记元素通俗易懂; ( 2 ) 灵活:它既可以用于规范的资源描述领域( 如图书情报领域) , 也可以用于非专业领域( 如w w w 网页) 。用户还可以根据自己的需要, 附加一些额外的结构或者对语义进行精确的定义; ( 3 1 一致:d u b l i nc o r e 已经成为一种国际范围内通用的适用于资源 1 7 韭立銮望盔堂堡主丝壅墼兰鬯立堕主盟墼塑堡耋! ! 兰 发现系统的元数据标准,它得到了来自英国、澳大利亚、瑞典、丹麦、 挪威、芬兰、德国、法国、日本、加拿大、美国等国的支持,已经有1 0 多种不同语种的版本。例如,1 9 9 5 年5 月1 8 日和1 9e t ,美国政府的“信 息基础设施技术与应用组( i i t a ) ”邀请了全美国家级数字式图书馆项 目的6 0 多位高级专家在雷斯敦主办了“( i i t a ) 数字式图书馆研讨会”, 会上特别强调了数字式图书馆在分布式信息资源的“可互操作性”以及 对用户的透明性。会后,美国加强了对元数据( m e t a d a t a ) 的研究和应 用。 2 4d l r s e 采用的元数据结构 2 4 1 设计思路 1 以d u b l i n 元数据核心为依据 d u b l i n 核心定义了1 5 个描述资源的要素,我们根据需要,对各个 要素进行利用、扩充,设计成多张表,实现系统的数据结构。 2 这些表的核心表是r e s o u r c eb a s i c 表 3 d u b l i nc o r e 定义的1 5 个要素和利用情况是 ( 1 ) 元素:t i t l e 名字:资源名 标识:n n e 定义:赋于资源的名称 注解:一般而言,这一名称指的是资源对象的正式公开的名称。 利用情况:保留 ( 2 ) 元素:c r e a t o r 名字:创建者 标识:c r e a t o r 1 8 i ! 查銮望盔兰堡主笙茎墼主里羔堕主箜塑婆垫墨! ! 芏 定义:创建资源内容的主要责任者。 注解:创建者的实例包括一个个人,一个组织或一个服务。一般 而言,用创建者的名字 来标识这一条目。 利用情况:保留 ( 3 ) 元素:s u b j e c t 名字:主题和关键词 标识:s u b j e c t 定义:有关资源内容的主题描述 注解:一般而言,一个主题和关键词通常采用描述资源内容的关 键词,短语或分类号。推荐主题和关键词最好是取自于一个受控词表或 是一个规范的分类体系。 利用情况:保留( 值从s u b j e c t _ l i s t 列表中取) ( 4 ) 元素:d e s c r i p t i o n 名字:说明 标识:d e s c r i p t i o n 定义:对资源内容的说明。 注解:说明元素可以包括但不限于以下部分:文摘,目录,对以图 形来表示内容的一个参照或者一个有关内容的自由文本描述。 利用情况:保留 ( 5 ) 元素:p u b l i s h e r 名字:出版者 标识:p u b l i s h e r 定义:使资源成为可以取得和利用状态的责任者 注解:出版者的实例包括一个个人,一个组织,或一种服务。一 般而言,用出版者的名字来标识这一条目。 1 9 韭互銮望盔兰堡主笙苎墼主塑羔堕主盟至塑堡童! l 兰 利用情况:利用r o l l e _ r a l i f i o n 和r o l el i s t 进行关联描述 ( 6 ) 元素:c o n 乜i b m o r 名字:其他责任者 标识:c o n t r i b u t o r 定义:对资源内容创建作出贡献的其他责任者 注解:其他责任者的实例包括一个个人,一个组织或一个服务。 一般而言,用其他责任者的名字来标识这一条目。 利用情况:利用m l l e r m n 和r o l e _ l i s t 进行关联描述 ( 7 ) 元素:d a t e 名字:日期 标识:d a t e 定义:与资源本身生命周期中的一个事件相关的日期 注解:一般而言,日期应与资源的创建或出版日期相关。建议采 用的日期格式应符合i s o8 6 0 1 w 3 c d t f 规范,并使用y y y y - m m d d 的格式 利用情况:利用d a t e r a l i f i o n 和d a t el i s t 进行关联描述 ( 8 ) 元素:t y p e 名字:类型 标识:t y p e 定义:有关资源内容的特征和类型 注解:资源类型包括描述资源内容的分类范畴,功能,特性或集 合层次的术语。建议采用来自于受控词表中的值( 比如都柏林核资源类 型工作草案 d c t l ) 。描述资源的物理或数字化表现形式,请使用格式 ( f o r m a t ) 元素 利用情况:保留( 值从t y p el i s t 列表中取) ( 9 ) 元素:f o r m a t 2 0 j ! 立奎婆丕兰堡圭鲨苎 墼主璺苎堕主塑童竖堡室! ! 兰 名字:形式 标识:f o r m a t 定义:资源的物理或数字化的表现形式。 注解:一般而言,形式可以包括资源的媒体形式或尺寸。形式元 素可以用来决定对资源进行操作或显示所需的软件和硬件。例如有关 大小及时长的标注。建议采用来自于受控词表中的值( 例如,因特网 媒体类型表 m i m e 定义了计算机媒体的格式) 利用情况:保留( 值从f o r m a tl i s t 列表中取) ( i o ) 元素:i d e n t i f i e r 名字:资源标识符 标识:i d e n t i f i e r 定义:在一给定的文本环境中对资源的参照引用 注解:建议对资源的标识采用一个符合正式标识体系的字串及数 字组合。例如正式的标识体系包括统一资源标识符( u i u ) ,资一资源定 位符( u r l ) ,数字对象标识符( d o i ) 和国际标准书号( i s b n ) 。 利用情况:扩展为两个描述: a i s b n ,作为一个字段保留 b 资源定位,用i d e n t i f i e r _ l o c a t i o n r e l a t i o n 和h o s t _ l i s t 关联描 述 ( 1 1 ) 元素:s o u r c e 名字:来源 标识:s o u r c e 定义:对一个资源的参照,而当前资源是源自这一参照资源。 注解:当前资源可能部分或全部源自来源所标识的资源。建议对 这一资源的标识采用一个符合正式标识系统的字串及数字组合 利用情况:保留 2 1 北方交通大学硕士论文数字圈避馆中堕童塑堡室! ! 笙 ( 1 2 ) 元素:l 髓g u a g e 名字:语种 标识:l a i l g u a g e 定义:描述资源知识内容的语种。 注解:建议本元素的值采用r f c1 7 6 6 中所定义的语种代码规范, 此标准定义了一个2 个英文字母的语言代码( 取自于i s o6 3 9 标准) , 作为一个可选项,也可以在其后加上一个2 个英文字母的国家代码( 取 自于i s o3 1 6 6 标准) 。例如,e n 为英语,疳为法语,或者使用e n u k 表 述为英国英语。 利用情况:保留( 值从l a n g u a g e l i s t 列表中取) ( 1 3 ) 元素:r e l a t i o n 名字:关联 标识:r e l a t i o n 定义:对相关资源的参照 注解:建议对关联的标识采用一个符合正式标识体系的字串及数 字组合。 利用情况:保留 ( 1 4 ) 元素:c o v e r a g e 名字:覆盖范围 标识:c o v e r a g e 定义:资源内容所涉及的外延与覆盖范围 注解:典型的覆盖范围包括空间位置描述( 一个地名或地理坐 标) 、时间段描述( 一个时间标识,日期或一个日期范围) 、或者权限描 述( 比如命名的授权实体) 。推荐覆盖范围最好是取自于一个受控词表 ( 例如地名词库 t g n 】) ,并应尽可能地使用由数字表示的坐标或日期 区间来描述地名与时间段。 2 2 j ! 立奎鎏盔兰堡主丝塞 墼兰里立堕墼鎏塑堡塞! ! 茎 利用情况:扩展为两个字段: a r e s o u r c et e m p o r a l b r e s o u r c e _ s p a t i a l 分别描述资源的内容的时间、空间特性,他们的值分别取自相应的 值列表。 ( 1 5 ) 元素:r i g h t s 名字:权限管理 标识:r i g h t s 定义:有关资源本身所有的或被赋予的权限信息 注解:一般而言,权限管理元素应包括一个对资源的权限管理声 明,或者是对提供这一信息的服务的参照。权限管理一般包括知识产权 ( i p r ) ,版权或其他各种各样的产权。如果没有权限管理元素的标注,不 可以对与资源相关的上述或其他权利的情况作出任何假定。 利用情况:通过r i g h t _ g r o u p 和r i g h t _ r e l a t i o n 进行权限管理。 4 扩展的字段有: ( 1 ) r e s o u r c e:用于和其他表进行关联number ( 2 ) r e s o u r c es i z e 资源文件的大小 ( 3 ) r e s o u r c e 资源下载次数download ( 4 ) r e s o u r c ea c c e s s 资源被访问次数 ( 5 ) 添加5 个备用字段,用于将来的扩展 2 4 2 数字图书馆元数据库结构 一基本表 北方交通大学硕士论文数字图书馆中的资源搜索引擎 元素名称字段名称类型 长度说明 n u m b e rr e s o u r c en u m b e r n 叮t2 0 资源编号 t i t l e r e s o u r c e j i t l e v a r c h a r 21 0 0资源名称 c r e a t o rr e s o u r c ec r e a t o r、,a r c h a r 2 1 0 创建者 p u b l i s h e r r e s o u r c e p u b l i s h e r 、,a r c h a r 21 0 出版者 c o n t r j b u t o r r e s o u r c t c o n t r i b u t o r、,a r c h a r 2 1 0 其他责任者 d a t e r e s o u r c ed a t ed a t e 相关日期 主题、关键词, s u b j e c tr e s o u r c es u b j e c t、,a r c h a r 22 0 0 空格隔开 d e s c r i p t i o nr e s o u r c ed e s cv a r c h a r 22 0 0 0 说明或者大纲 t y p er e s o u r c et y p ev a r c h a r 21 0 类别 f o r m a t r e s o u r c t f o r m a t 、,a r c h a r 21 0 格式 s i z er e s o u r c es i z ev a r c h a r 22 0 尺寸 i s b nr e s o u r c ei d e n t i f i e r、r a r c h a r 22 0标识符( i s b n s o u r c e r e s o u r c 邸o u r c e v a r c h a r 22 0 0 来源 l a n g u a g e r e s o u r c t l a n g v a r c h a r 25 语种( 两种标摊 本资源与其他 r e l a t i o nr e s o u r c er e l a t i o nr a r c h a r 25 源的关系 t e m p o r a lr e s o u r c et e m p o r a lv a r c h a r 25 时问特性 s p a t i a l r e s o u r c e - s p a t i a l v a r c h a r 25 空间特性 所属组( 用于实 r i g h tg r o u pr e s o u r c eg r o u pv a r c h a r 21 0 权限管理) h o s t r e s o u r c eh o s tv a r c h a r 25 主机编号 r t hr e s o u r c ep a t hv a r c h a r 22 5 5路径 a c c e s s r u l e r r e s o u r c 吣c c e s s r u l e r 5 0 0访问规则 d o w n l o a d t i m e s r e s o u r c ed o w n l o a dr n t1 0下载次数 a c c e s st i m e s r e s o u r c e c c e s s i n t1 0 访问次数 v a l u er e s o u r
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 45728-2025物联网群智感知技术架构
- GB/T 45701-2025校园配餐服务企业管理指南
- 江苏省连云港市2025年中考地理试卷真题及答案
- 铁道工程技术专业教学标准(高等职业教育专科)2025修订
- 2025年中国健身沙袋行业市场全景分析及前景机遇研判报告
- 年产1000吨稀土钕铁硼永磁体材料建设项目可行性研究报告
- 2025-2030年中国粘口鸡棉心项目投资可行性研究分析报告
- 税务师考试串讲班课件
- 患者安全目标2025
- 中国天津水务行业发展潜力分析及投资方向研究报告
- 校园网规划设计方案
- 城市公交特许经营协议
- 产业园招商居间合作协议
- 内蒙古乌海市2023--2024学年七年级下学期数学期末考试卷
- 完整版刑法知识考试题库大全附答案【夺分金卷】
- 湖北省部分学校2023-2024学年高二下学期期末考试地理试题
- 基于大数据的公路运输碳排放评估与控制
- 叙事护理学智慧树知到期末考试答案章节答案2024年中国人民解放军海军军医大学
- 工业机器人系统操作员国家职业技能考核标准(2023年版)
- 卡前列素氨丁三醇在产后出血的的应用课件
- 固废危废培训课件
评论
0/150
提交评论