




已阅读5页,还剩82页未读, 继续免费阅读
(计算机应用技术专业论文)基于db的逻辑文件系统的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
壮十d b 的逻辑史件系统的j 5 l 汁4 j 实腿 摘要 本文介绍了一个基于数据库的具有语义访问功能的逻辑文件系统的 设计,并以办公文档为例,具体介绍了如何以0 r a c l e 9i f s 为平台实现 这个逻辑文件系统。 首先给出了课题背景和课题意义,并简单比较了当前信息存储系统 的特点;然后研究分析了各语义文件系统以及本系统实现中用到的相关 技术,在此基础上确定了本系统的设计方案,并详细讨论了系统各模块 的实现细节;最后给出了本系统提供的主要的文件系统接口,并以 z - o f f i c e 文档编辑器为具体的应用,验证了本系统的设计。 本文介绍的逻辑文件系统继承了当前语义文件系统基于内容属性访 问的优点,并将基于语义的访问扩展到基于内容属性和内容结构的访问。 提供了多个基于内容结构的应用。本系统在设计的时候充分考虑到了通 用性、灵活性、可扩展性和共享性。 关键字:语义文件系统、内容访问、结构访问、逻辑映射 作者:费勤 指导老师:吕强 a b s t 。r a c t 。 r n e d e s i g n a n d i m p l e m e n t a t i o n o f a l o g i c a l f i l e s y s l e m b a s e d o n d a t a b a s e t h ed e s i g na n di m p l e m e n t a t i o no fal o g i c a lf i l es y s t e m b a s e do nd a t a b a s e a b s t r a c t t h i sp a p e ri n t r o d u c e st h ed e s i g no fal o g i cf i l es y s t e mb a s e d o nd a t a b a s ew h i c hp r o v i d e ss e m a n t i ca c c e s sf e a t u r e a 1 s o it d e s c r i b e si nd e t a i l sh o wt oi m p l e m e n tt h i sf i l es y s t e mb a s e do n o r a c l e 9i f sp l a t f o r m t h i s p a p e r f i r s tb r i n g sf o r w a r d t h eb a c k g r o u n da n d s i g n i f i c a n c eo ft b i ss u b j e c t ,f o l l o w e db y t h ec o m p a r i s o no ft h e i n f o r m a t i o ns t o r a g es y s t e m sn o w a d a y s w i t h c o n c l u d i n g t h e ir c h a r a c t e r i s t i c s t h e nt h i sp a p e ri n v e s t i g a t e s a n da n a l y s e s s e v e r a ls e m a n t i cf il es y s t e m sa n ds o m er e l a t e dt e c h n i q u e s ,o nt h e b a s i so fw h i c ht h ep a p e rd e t e r m i n e st h ed e s i g np l a no ft h ef i1 e s y s t e m ,w i t h t h ed e t a i l e di m p l e m e n t i o n o ft h e s y s t e m m o d u l e f i n a l l yt h i sp a p e rg i v e ss o m ef i l es y s t e mi n t e r f a c eo f t h i ss y s t e m ,a n du s e sz - o f f i c ed o c u m e n te d it o rt ov a l i d a t et h e d e s i g no ft h i ss y s t e m t h el o g i cf i l es y s t e mt h i sp a p e ri n t r o d u c e di n h e r i t s t h e c o n t e n ta t t r i b u t e sa c c e s sm e r i to fc u r r e n t s e m a n t i cf il e s y s t e m ,a n de x t e n ds e m a n t i ca c c e s st os u s t a i nt h e a c c e s sb a s e d o nc o n t e n ta t t r i b u t ea n dt h ea c c e s sb a s e do nc o n t e n ts t r u c t u r e i t p r o v i d e ss e v e r a la p p i c a t i o n sb a s e do n c o n t e n ts t r u c t u r e t h e d e s i g no ft h i sf il es y s t e me m p h a s i z et h ec u r r e n c y ,t h ea g il i t y , t h ee x p a n s i b i l i t ya n dt h es h a r e a b li t y k e y w o r d s :s e m a n t i c f i l es y s t e m a c c e s s b a s e do nc o n t e n t a t t r i b u t e ,a c c e s sb a s e do n c o n t e n ts t r u c t u r e ,l o g i cm a p p l n g w r i t t e nb yf e iq i n s u p e r v i s e db yl vq i a n g 苏州大学学位论文独创性声明及使用授权声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究t 作所 取得的成果。除文中已经注明引用的内容外,本论文不含其他个人或集体已经发表或 撰写过的研究成果,也不含为获得苏州大学或其它教育机构的学位证书而使用过的材 料。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人承 担本声明的法律责任。 研究生签名:娩 日 期:王物互吐 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文合作部、中国 社科院文献信息情报中心有权保留本人所送交学位论文的复印件和电子文档,可以采 用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一 致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论 文的全部或部分内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名: 导师签名: 墨;坠 日期:盘丝:垒 日期:z 堑:尘 基于d b 的逻辑文件系统的设计与实现 1 1 问题的提出 第一章绪论 在过去的几年里,我们见证了数字化存储数据的爆炸式增长。据1 9 9 9 年的一份研究报告,原始的数字化数据正以每年超过1 7 0 0 p e t a b y t e 的速 度增长【1 】。预计在1 9 9 9 年之后,数字化数据的增长速度将会增加到原来 的两倍左右【2 】。这种爆炸式增长不仅增加了对数据访问的复杂性,同时还 增加了文件系统花费在数据访问上的时间和资源等成本。 面对这种情况,文件系统所要解决的一个非常重要的问题就是:如 何为大量的数据提供便捷的访问。这种便捷的访问不仅仅是指快速地定 位数据,它还包括如何让用户正确地找到所需要的数据信息,并且 对这些数据进行处理。这就使问题发展成为怎样使文件系统获取文件内 容,并根据内容提炼用户所需的信息的问题。 1 2 信息存储系统的特点 目前,计算机所使用的信息存储系统主要包括:层次文件系统、数 据库系统和语义文件系统。 层次文件系统 层次文件系统产生于用户文件相对较少的时期,主要负责管理存储 在操作系统中的文件和资源。在层次文件系统中,数据被封装在文件中, 并且使用文件管理系统进行管理。文件系统为程序与数据提供了公用的 方法进行存取转换。用户只需给定一个代表某个程序或数据的文件名, 文件系统就能自动地找到文件所在的位置,实现对文件的各种操作。 在层次文件系统中,文件被当成一个整体管理,文件的内容对于文 件系统而言只是一串毫无意义的二进制字节流。文件系统只提供将文件 存储并且进行简单管理的功能,对于文件内容的解析工作被集成在特定 第一章绪论基于d b 的逻辑文件系统的设计与实现 的应用程序中,使用户对于文件内容的访问必须依赖于特定的应用程序。 虽然为了支持对更多文件的管理,文件系统供应商们也在不断的加强其 文件系统的功能,如提供基于文件名、文件扩展名的查找,但这不能根 本解决当前所面临的超大数据量的问题。图1 1 描述了传统文件系统中程 序与数据的关系。 图1 1 传统文件系统中程序与数据的关系 数据库系统 在二十世纪六十年代末,数据库系统出现。数据库系统主要用于结 构化文件的存储。在数据库系统中文件已不再是相互独立的,而是互有 关系的,对于文件内容的解析工作被数据库接管。这种关系包括一对多、 多对一和多对多关系。如在关系型数据库中,每一个文件被处理成一张 表,叫做关系。文件之间的联系也被处理为一个关系。每个关系都由类 型和值两个部分。所有记录型的集合构成了关系模式,而所有文件的集 合构成了关系型数据库。 然而在一种数据库模式中,文件只能以某一种特定逻辑结构进行组 织。如在关系型数据库中,文件只能以关系模式进行组织。而且,在数 据库系统中所有对于文件的访问都依赖于特定的数据库应用程序或接 口,脱离了这些,人们将无法访问自己存放在数据库中的文件。当前所 使用的数据库系统大多仅提供对结构化文件的支持。图1 2 描述了数据库 系统中程序与数据的关系。 铝恼黔 基于d b 的逻辑文件系统的设计与实现 第一章绪论 图1 2 数据库系统中程序与数据的关系 语义文件系统 语义文件系统的概念最早出现在上个世纪九十年代初,是由d a v i dk g i f f o r d 在其1 9 9 1 年发表的论文s e m a n t i cf i l es y s t e m s 中提出。g i f f o r d 将 对文件或目录自动建立索引称为语义。其初衷是为了通过基于语义的访 问方式提高用户对文件的使用效率,减少花费在检索上的时间成本。 g i f f o r d 将其提出的文件系统称为语义文件系统,简称s f s 【3 】。后人又在 g i f f o r d 的基础上提出了h a c 4 ,p s t o r e 5 1 等多个基于内容访问的文件系 统。 这些文件系统的一个主要的特点就是: 1 系统能够“理解”文件的内容 在语义文件系统中,系统通过解析模块抽取文件的内容,通过使用 针对不同格式文件的不同的解析模块,文件系统可以“读懂”任意类型 的文件,并将文件的内容信息作为文件的属性存储在系统中。 2 提供基于文件内容的访问机制 基于文件解析过程中抽取到的内容属性信息,语义文件系统能够向 用户提供基于文件内容的访问机制,使用户对文件的访问变得不仅仅只 能通过文件名。在语义文件系统中,文件名被作为与其他属性相同的属 性来看待。 3 降低访问文件内容时对应用程序的依赖性 在传统的文件系统中,对文件内容解析的工作被捆绑在与文件格式 相对应的应用程序中,对文件内容的访问必须依赖于特定的应用程序。 而在语义文件系统中,这部分工作被下放到文件系统中。即使脱离了应 用程序,用户仍然能够了解到文件的内容信息。从而形成r 一种胖服务 器端+ 瘦客户端的应用模式,使文件内容对于客户端应用程序的依赖程度 瓤市绪论 苹十d b 的逻辑文件系统的设汁- i 实脱 大大降低。从而使用户在寻找对自己有用的内容时无需将文件逐个打开 就可了解到文件的内容,由此大大降低了用户在正确定位信息过程中所 花费的时间、资源等成本。 图l 3 描述了语义文件系统中应用程序与数据之间的关系。经过文件 系统的解析之后,文件被拆分成若干个内容组件,包括内容属性组件和 内容主体部分组件。 图1 1 3 语义文件系统中程序与数据的关系 基于对现有的信息存储系统优缺点的研究和对于当前信息定位所面 临的情况的分析,我们认为语义文件系统相对来说是一个较好的解决方 案。 当前的语义文件系统对文件内容的解析工作仅停留在将文件内容的 属性信息与内容主体部分分离。而文件的内容不仅仅只包括上述两个部 分,g u n a rf i e d l e r 和b e r n h a r d 在其发表的论文t o w a r d sl i n g u i s t i c f o u n d a t i o n so f c o n t e n tm a n a g e m e n t 中提出内容是由一系列的元素及整合 或相关的模式组成【6 】。这种模式包括结构模式和功能模式等。 在现有的语义文件系统的基础上我们提出了对语义和内容的更深入 的理解,并基于这种理解给出了一个解决方案。 1 3 课题的内容及意义 语义在股意义上足指词句在语言环境中的意义。我们认为语义文什 摧十d b 的逻辑j 件系统的l 垃汁j 实现 系统中涉及到的语义是一个动词,是指对内容意义的使用。所谓语义文 件系统是指在文件系统中加入基于语义的访问机制,使文件系统可以基 于文件内容进行访问。由于内容可分为元素和内容的模式,凶此语义文 件系统不仅要向用户提供基于文件内容元素的访问方式,还需要向用户 提供基于内容模式的访问。在现阶段,我们仅对内容模式的一个方面一 一内容的结构模式进行研究。 针对人们在日常办公中正面临着大数据量、文档种类繁多的现状, 我们设计了一个具有语义功能的逻辑文件系统l 2 f s 。l 2 f s 能够“理 解”办公中所涉及到的大部分文档的内容,并且为用户提供多样化的访 问方式。 1 3 1 课题内容 本逻辑文件系统针对用户在办公领域内所涉及到的办公文档这一类 型,主要包括以下内容: 针对办公文档定义了一个通用的文件接口; 提供了一套针对办公文档的文件解析的规则,对文档进行详细解析, 抽取其内容属性和内容结构; 提供了一个针对办公文档的通用的结构化存储库,使用树型结构存储 文档的各个内容组件,包括:文档属性、文档内容块和文档子内容块, 由此很好地保存了文档各内容主体组件之间的层次关系; 提供了灵活的映射机制,将解析后的文档按照内容的逻辑结构进行映 射,并按照用户多种需求进行组合; 基于解析后的文档提供了多个有特色的基于内容属性元素和内容结 构的应用,包括:分类映射、关联查询和添加自定义属性。 1 3 2 课题的意义 本系统提出了一套抽取文档内容的解析规j l j j ,这种规则包括抽取文 档内容属性元素和内容的结构信息。采用一个树型结构存储已结构化文 第一章绪论璀十d b 的逻轼文件系统的址汁o = 妥观 档的各内容组件。并且基于文档的内容组件,建立多样化的基于文档内 容属性元素和内容主体结构的访问机制。在本系统中,对于文档内容和 结构的解析工作被放入文件系统内。其主要具有以下几点意义: 使用户对于文档内容的访问脱离了对特定应用程序的依赖。 本系统提供了基于文件内容属性和文件内容结构的访问,拓宽了语义 的范畴。 本系统继承并发展了以往语义文件系统提供的基于文件内容属性的 多样化的访问机制,提供了将文档按照用途进行分类的方式和关联查 询,拓宽了用户基于文件内容访问的途径。 将文档的内容主体部分进行多级结构化,使用户能够自由定制文档。 当用户需要编辑文档的某个部分时,只需向文件系统请求文档的相应 内容而不需要取得整篇文档。由此减少了用户在文档编辑过程中的数 据流量,减轻了系统负担。同时使多个用户在对同一篇文档进行操作 过程中产生冲突的几率大大降低。 将文档的内容主体部分进行多级结构化,为文档的二维版本化操作提 供实现基础。 将文档的内容主体部分进行多级结构化,为文档内部实现多级安全控 制机制提供实现基础。 采用树型结构存储为本课题组提出的协同算法提供实现基础。 1 4 论文结构 本文的内容是以如下方式组织: 第一章绪论,给出课题背景、课题内容及课题意义。主要介绍了当 前各种信息存储系统的特点并提出本课题冉容的内容及意义。 第二章技术背景,对本文所要用到的技术做j ,简要介绍,指出了系 统的开发和这些技术的关系,为后续章节做好技术方而的准备r :作。 第三章系统总体解决方案,对系统进行总体设计分析,给出了系统 的目标、系统的特点、系统网络结构和系统功能设计,并基于功能设计 作l 叶j 了系统的整体框架设计,并给出系统的开发平台和技术。 堆十d b 的逻辑史件系统的没计j 实脱 第四章主要模块的设计与实现,介绍了系统各模块的设计与实现的 过程。 第五章接口演示,给出了本系统已经实现的文件系统接口,并给出 了系统接口演示的实例。 第六章应用实例,以本人所在的研究所开发的z o f f i c e 文档编辑器所 使用的z o f f i c e 文档作为应用实例验证了本系统的设计。 第七章结束语,总结了本系统的功能及特点,并给出本系统需要完 善之处和下一步的研究方向。 第一草技术背最 堆十d b 的逻辑立件系统的| 殳汁j 实现 第二章技术背景 2 1 各种语义文件系统的研究和比较 当前的语义文件系统主要有s f s ( s e m a n t i cf i l es y s t e m ) 、h a c 、 p s t o r e 、s e d a r 、p r o s p e r o 、p r e s t o 、o r a c l e 9i f s 等,下文将对其中有代表 性的几个系统进行说明。 2 1 1s f s ( s e m a n t i of ii os y s t e m ) 3 1 语义文件系统的概念最早是由d a v i dk g i f f o r d 在其1 9 9 1 年发表的 论文s e m a n t i cf i l es y s t e m s 中提出的,我们简称其为s f s 。g i f f o r d 提出 s f s 是一个信息存储系统,并将根据抽取器在系统更新过程中抽取到的 语义信息建立的索引称为语义。该系统包括以下几个特点: 使用针对特定文件类型的抽取器自动抽取文件的内容信息。通过使用 不同的解析器,语义文件系统可以理解各种类型文件的内容。 基于抽取到的内容信息向用户提供多样化的基于内容属性的访问机 制。g i f f o r d 指出设计这个语义文件系统的初衷是为了提高用户对文件 的使用效率,减少花费在检索上的时间成本。其快速访问机制是通过 对文件内容的自动抽取和基于关键属性的索引实现的。通过按照用户 查询的关键字生成相应的语义目录,s f s 向用户提供了它的访问界面。 s f s 是一个可扩充的系统,其可扩充性体现在用户可以通过增加自定 义的解析器使系统支持更多的文件类型,并通过一张记录解析器和文 件类型对应关系的表来决定为什么样的文件类型指定什么样的解析 器。 s f s 首次提出了让文件系统理解文件内容的思想,并基于这种思想 构建了一个原型系统来验证在对人量文件处理的过程中语义文件系统较 传统文件系统的优越性。从奉质上看,s f s 是一个基于属性的查询系统, 基十d b 的逻辑义件系统的设计与实现 第二审技术背景 根据用户的台询关键字生成相应的虚拟目录,并以这些关键字来命名相 应的虚拟目录。s f s 仅支持基于文件内容属性元素的访问,并没有涉及 到基于文件内容模式( s c h e m a ) 的访问。 2 1 2h a c h l 1 9 9 9 年m i c r o s o f tc o r p 的b u r r ag o p a l 在s f s 的基础 :,继承了s f s 基于内容访问的机制,提出s f s 之所以没有被广泛的使用足因为s f s 并 不完全,不能满足人们口常事务处理中涉及到的所有的需求。基于这些 原因,b u r r a 等人提出了另个具有内容访i 、口j 功能的文件系统h a c ,h a c 全称h i e r a r c h i c a la n dc o n t e n t 。它具有以下几个特点: h a c 是个新型的文件系统,将传统的层次文件系统与基于内容访问 的文件系统相结合。它并不是扩展了一个已有的基丁内容访问的文件 系统,而是在传统的层次文件系统的基础上加入r 基于内容访问的机 制。 h a c 允许将所有相关的资料放在同一个语义目录中。用户新建一个语 义目录时,系统详细地记录它的路径和查询的内容,并自动的新建一 个目录,将其与用户的查询相关联,同时使用c b a 机制来对查询进 行评估。在新的语义目录中,h a c 为每个符合查询的文件自动地创建 新的符号链接,这些符号链接指明了语义日录中的文件的真正的物理 位置,在语义目录中可包含符号链接和常规文件。h a c 巾的语义目录 在用途上同标准的层次目录足相同的。 h a c 很好的解决了多个相关查询中产牛的范围不一致问题,并为数据 1 i 一致性提供了一个妥协的解决方案。 h a c 是对s f s 的推广,针对s f s 在实用性卜i 的不足提出了切实的解 决方案。从另一个侧面看,h a c 是对现有层次文件系统的改进,使其能 够适应不断增加的数据量。是在现阶段对传统文件系统和语义文件系统 的个妥协的解决与案,随着语义文件系统的功能的不断加强,这种解 决方案最终将被取代。 第二章技术背景基于d b 的逻辑文什系统的设计与实现 2 1 3p s t o r e ” 在总结前人研究成果和分析各语义文件系统不足的基础卜h p 实验 室的z h i c h e nx u 等人提出了一个能够理解文件语义信息的文件存储系 统,称之为p s t o r e 。该系统主要包括以下几个特点: 该系统使用一个通用的数据模型来存放文件的语义信息。该数据模型 包括两个主要特征:可扩展性和支持数据框架的动态更新。 提出了一个对基本的语义信息类型提供访问支持和表现的框架。 列举了一系列可获取丰富语义信息的工具和应用程序。 然而p s t o r e 在实现过程中还面临着一个难题怎样动态更新数据 的框架结构。 虽然p s t o r e 并没有完全实现,但其设计者提出的数据模型和框架比当 时其他的语义文件系统更灵活、更通用。其设计思想在整个语义文什系 统领域内都是非常值得借鉴的。图2 1 说明了p s t o r e 的框架结构。 图2 1p s t o r e 的框架结构 2 1 40 r a c i ein t e r n e tf ii es y s t e m o r a c l ei n t e r n e tf i l es y s t e m ( 简称o r a c l e 9i f s ) 是o r a c l e 数据库和 o r a c l e 9 i a p p l i c a t i o ns e r v e r 的一个新特性,是对o r a c l e 9 i 关系型数据库革 命性的扩展。与传统文件系统不同,在o r a c l e 9i f s 中文件被存储在关系 皋十d b 的逻辑文件系统的设计j 实现 型数据库中而非本地硬盘驱动器上。在o r a c l e 9i f s 中文件系统的所有内 容包括文件系统本身到元数据被存放在o r a c l e 9 i 数据库中;o r a c l e 9i f s 管理所有同数据库的交互,并使用一个知识库来将物理上存储在行集和 列中的内容映射成作为标准文件系统的文件和文件夹。同时o r a c l e 9i f s 的软件开发包提供了几个不同的组件,软件开发人员可以添加和修改部 分应用程序来开发适合自身需求的应用系统。o r a c l e 9i f s 同时还是一个 非常便于访问的文件系统,用户可以使用多种不同的网络协议访问存储 在o r a c l e 9i f s 中的文件和文件夹。图2 2 描述了o r a c l e 9i f s 的体系结构。 图2 2o r a c l e 9i f s 的体系结构 简而言之,o r a c l e 9i f s 提供了以下这些关键的优越性: 通用的访问; 用户可以通过不同的协议来访问相同的文件和文件夹,o r a c l e 9i f s 支持用户通过h t t p 、s m b 、w e b d a v 、f t p 、i m a p 4 、n f s 、w c p 、s m t p 和n t f s 对其进行访问。 整合存储所有的用户数据: 用户可将不同类型的数据全都存放在o r a c l e 9i f s 中,使其不需要在 多个服务器问查找、转换数据。简化了用户日常工作中的数据处理l 作, 人大提高了_ l :作效率。 将内容管理功能整合到文件系统中; o r a c l e 9i f s 提供了许多重要的内容管理特征,帮助管理用户内容。 皋于d b 的逻j = 文件系统的砹汁一i 实现 它提供的内容管理特征主要包括: 高级查找:o r a c l e 9i f s 使用o r a c l ei n t e r m e d i at e x t 来索引数据的内 容,向用户提供基于文件内容的全文查询机制。 版本控制:o r a c l e 9i f s 为用户提供将内容版本化的功能,并且用户 可以查看一个己版本化的文档的历史版本。 基于a c l 的安全机制:o r a c l e 9i f s 使用a c l 安全模式帮助用户控 制对于文件的访问,同时管理员还可通过扩展其提供的a c l 提供更加灵 活、更有针对性地安全机制。 检入、检出:o r a c l e 9i f s 使用检入、检出功能向用户提供对已版本 化的文件的无冲突修改。 多重文件夹包含机制:用户可将同一个文件放在多个文件夹下面, 使用户可将同一个文件进行不同方式的组织。 扩展属性:o r a c l e 9i f s 支持用户自定义文件的属性。 便于开发,可使用j a v a 和x m l 对其进行开发; o r a c l e 9i f s 软件开发包提供了几个不同的组件,开发人员可以添加 和修改部分应用程序j 这些组件包括子类、解析器、重现器、j s p 、代理 等。 从提供的对文件的处理和访问机制上看,o r a c l e 9i f s 实质上是一个 具有基本语义功能的数据库文件系统。 2 2 都柏林核心集n 3 2 2 1 什么是元数据 元数据最早产生于当图书馆对书卷进行编号的时候。元数据的前缀 1 e t a 源于希腊文字,表示“在r f l 间”,“和在起”,“在 后而”或者“在以后”。也就是说元数据不是一个完全成熟的具备表 意功能的数据,而是成熟数据的“随从者”,它从某些侧面支持并表示成 熟数据。沃维克卡斯若认为“元数据中的要素描述r 一种资源信,皂、,或 者足帮助提供获得某利,信息资源的途径。”这样一种元数据的集合就可以 堆十d b 的逻辑义件系统的设计1 j 实见筘一章技术背景 描述一种或者许多种信息资源。元数据本身也是一种信息资源。元数据 的主要目标就是使信息检索更加便利与高效。 2 2 2 都柏林核心( d u b i i nc o r e ) 的标准 都柏林核心元数据集是为了提高信息资源特别是网络资源检索效率 做出的回应,是一个由计算机专家、网络专家和图书馆专家所组成的非 正式小组开发的一种网络信息资源描述解决方案。它于1 9 9 5 年3 月在美 国俄亥俄州都柏林市问世,1 9 9 8 年9 月,i n t e r a c t 工程专题组( i e t f ) 将 其作为一个正式标准予以发布。 目前都柏林核心集一共有1 5 个元素: 题目( t i t l e ) 说明信息资源的名称,属于资源内容特性。 创作者( c r e a t e ) 说明首要负责信息资源智力内容的个人或组织,属于知识产权。 主题( s u b j e c t ) 说明描述信息资源内容的题目或者关键词或词组,属于资源内容特 征。 描述( d e s c r i p t i o n ) 说明信息资源内容的文本描述。包括文件一类的文摘或者是可视信息 资源的内容描述,属于资源内容特征。 出版者( p u b l i s h e r ) 说明负责以目前形式获得信息资源的实体,如一个出版公司、大学的 一个系或是一个法人实体,属于知识产权。 其他参与者或是贡献者( c o n t r i b u t o r s ) 说明除“创作者”项规定之外的个人或组织,他们对信息资源的智力 内容做出r 重要贡献,但他们的贡献是次于在“创作者”项中规定的 个人或实体的贡献的,属于知识产权。 h 期( d a t e ) 说明信息资源的f j 扳同期,属于资源外部特征。 1 1 第二章投术背景堆十d b 的逻辑_ 盘:件系统的垃计r ,实现 资源类型( r e s o u r c et y p e ) 说明信息资源的类型或所属范围,属于资源外部特征。 格式( f o r m a t ) 说明信息资源的数据格式,如h t m l 、t x t 、a s p 。 资源标识符( r e s o u r c ei d e n t i f i e r ) 说明唯一确认信息资源的字符或数字,属于资源外部特征。 来源( r e s o u r c e ) 说明信息与源文件的联系,属于资源外部特征。 语种( l a n g u a g e ) 说明信息资源描述所用的语言,属于资源内容。 关联( r e l a t i o n ) 说明被描述的信息资源与其他信息资源的联系。 范围( c o v e r a g e ) 说明信息资源的空间位置与时间上的持续性特征。 版权( r i g h t ) 说明一个版本标记或版权管理声明,属于知识产权。 2 2 3 都柏林核心集的特点 都柏林核心集具有以下特点: 简洁灵活性。 一共包含1 5 个元素,且易于理解,每个元素可任意选择或重复使用。 适合各种背景的人士使用,即使没有正式编目工作经验的人,只要稍加 培训就可以掌握。避免j ,搜索引擎中著录过于简单而导致检索效率严重 低下的弊端,也避免rm a r c 目录过于专业化和复杂化。 通用性 不针对某个特定的学科或领域,支持对任何内容的资源进行描述, 增加了跨学科的语义互操作。陀。 扩展性 每个元素都可以通过使刚模式体系、语言种类、类型等修饰词来进 1 】 桀j 二d b 的逻辑文件系统的设计j 实现 一步扩展,可避免描述过于简单。 适应性 传统的m a r c 著录格式为了实现对网络资源信息的著录,增加了8 5 6 字段,专供对网络信息资源的u r l 进行著录,并实现了超文本链接。但 是其复杂的著录格式以及依靠编目人员对信息进行撼述,不能适应网络 信息资源不稳定、更新快、类型多样的发展趋势。而d c 的著录信息是 网页制作者提供的,其著录的项目与网页的信息相吻合,并适应网络信 息不断变化发展的趋势。 兼容性 通过内嵌在x m l 语言中来实现其对网络信息资源的描述。由于x m l 解决了h t m l 存在的诸多问题,它已被认为是第二代i n t e r n e t 信息资源 的标准。现在的浏览器已经或正在考虑支持x m l 。 2 3 相关性 2 3 1 与语义文件系统的相关性 当前,各语义文件系统提供将文件内容的属性和内容主体部分分离, 并基于内容属性提供基于属性的访问机制,由此拓宽了用户对文件的访 问途缝譬这些系统对包含丰富语义信息的文件内容的主体部分处理甚少, 本系统针对当前语义文件系统这方而的不足而提出,在提供属性访问的 基础上,提供基于内容主体部分结构的访问。 基于p s t o r e 的设计者提出的设计方案,本系统给出了针对办公文档 的可行的解决方案。 2 3 。2 与都柏林核心集的相关性 都柏林元数据是关丁语义学,关丁资源所试图进行的表示,是网络信 息资源描述的基础的元数据元素核心集。 木系统以都柏林核心集为基础,并在其基础上加入了办公文档的一些 堆j d b 的逻辑史件系统的设计o o 实现 通用的属性。本系统中的文档、文档内容块和文档予内容块的属性即为 文档的元数据。 基于d b 的逻辑义件系统的设计与实现 第三审系统总体解决方案 3 1 系统设计分析 第三章系统总体解决方案 本文在第一章中,阐述了文件系统当前所面临的大数据量的巨人j 玉 力,分析比较了层次文件系统、数据库系统和语义文件系统在数据处理 卜的特点,发现语义文件系统能够比较好地解决这一问题。 但是,当前的语义文件系统也具有其局限性: 从基于内容访问的角度来看,当前语义文件系统所提供的基于内容的 访问机制仅仅是基于文件内容属性的访问。其提出的将文件解析并抽 取语义信息的解决方案仅停留在将文件的属性信息和内容主体部分 分离,并没有对内容的主体部分进行处理,对用户提供的基于内容的 访问机制相当有限。 从文件处理的层次来看,现有的语义文件系统对数据的处理基本上都 只是停留在文件一级。 3 1 1 设计目标 因此,木系统在进行整体规划的u 寸候就将日标定为:解决现有语义 文件系统在文件处理层次上的1 i 足,以及拓宽基于内容访问的范畴。基 于这些并结合当前语义文件系统的优越之处,提出了本系统的设计目标: 支持基于文件内容属性元素的访问 提供基于文件内容属性元素的访问机制足一个语义文件系统必各的 功能,因此奉系统也必须要提供这样的功能,才能被称为是具有语义的 文件系统。并且还要在这基础之上进行扩展,提供更强大的基于内容属 性元素的访问机制。 支持基于文件内容结构的访问 内容结构是文件内容模式的一个特例,是文件内容的重要组成部分, 第三章系统总体解决方案 基于d b 的逻辑文件系统的设计7 实现 因此提供基于文件内容结构的访问机制也是一个语义文件系统非常重要 的特性。 提供针对办公领域的通用的文档接口 办公领域内常会涉及到许多不同格式的文档。这些文档虽格式互彳i 相同,但在内容属性元素和内容结构方面有着很人的相似性。因此设计 一个通用的文档接口将降低多利t 格式办公文档在使用本系统时的复杂 性。 提供可扩展的接口 可扩展性对个系统来说是非常重要的特性,因此在设计系统的时 候必须考虑到为系统预留可扩展的接口。 提供基于文件内容元素和内容结构的多样化的应用 文件系统主要提供将文件存储和对文件进行操作的功能,因此木系 统在将文件结构化存储的基础上,还提供了多个基丁这种存储结构的多 样化的访问方式。 支持非本地用户对系统的访问 为方便用户共享文件,本系统还提供对嘲络用户的支持。通过网络 协议,使位于其它计算机上的客户端应用程序也可使用本系统。 3 1 2 系统网络结构 为支持本地客户端和非本地客户端对系统的访问和使用,我们将系 统部署为图3 1 所示的结构: 挂十d b 的逻辑史件系统的没汁1 j 实现 第二章系统总体解决方案 用户可以直接在装有本系统的机器上使用系统提供的功能。也可以 通过s o c k e t 协议与本系统进行数据交换。 3 1 3 系统平台选择 考虑到完全重新开发一个具有语义功能的逻辑文件系统的复杂性和 自身研究条件的限制,我们决定选择一个现有的平台进行二次开发。 o r a c l e 9i f s 是一个具有基本语义功能的数据库文件系统。使用 o r a c l e 9 i 数据库作为存储介质,为构建于其上的语义文件系统提供了 海量的存储介质。同时还使数据库的可用性、可靠性、安全性和统一 管理的优点为文件系统所继承。 o r a c l e 9i f s 为二次开发提供了强大的j a v a a p i 。 在o r a c l e 9i f s 中文件内容被存入若干个对象内,并且通过对象之间的 关系相互关联。这种机制非常适合本系统对其进行扩展来建立结构化 存储库。 基于以上几点,本系统选择o r a c l e 9i f s 作为二次开发的平台。 3 1 4 系统技术选择 在系统实现技术方面,我们选择了j a v a 和x m l 作为实现本系统的 丰要技术。 io ) 首先,o r a c l e 9i f s 是用j a v a 书写的,由此o r a c l e 9i f s 是一个j a v a 应用,其各组件在不同机器的不同的j v m 上运行,知识库是使用j d b c 同数据库进行通信。 其次,同其他j a v a 应用类似,o r a c l e 9i f s 在它的环境中包含面向对 象开发的基础类层次。o r a c l e 9i f s 提供的j a v aa p i 包含了文件系统的所 有功能,包括标准文件系统操作、o r a c l e 9i f s 的内容管理特征。其开发 环境中的一个主要的优点就是为编程人员提供了强大的功能。 综上所述,我们选择j a v a 作为我们的开发语言。 在数据接口层,x m l 技术是一个较好的选择。 x m l 具有良好的数据存储格式、可扩展性、高度结构化和便于网络 传输的特点。同时,x m l 具有很强的数据描述能力和自描述性,已经成 为各个领域大规模的数据交换的重要标准,是近年来技术研究和商业应 用的热点之一。 3 。2 功能设计 从功能上看,本系统包括文档接口层模块、内容解析模块、组合模 块、结构化存储模型、逻辑映射模块和应用层模块。 文档接口模块 本系统首先参照都柏林核心集的有关规范,针对企业日常办公中使 用最频繁的办公文档定义了一个通用的文档接口。包括文档的基本属性 信息、内容属性信息、工作流信息、权限信息、版本信息和文档正文信 息,并使用x m l 语言进行设计。通过这个接口将各种不同格式的文档转 换成一种通用的格式进行处理。 内容解析模块 提供了一套文档内容抽取规则,包括:抽取文档的属性信息、将文 档内容按照用户指定的方式结构化、抽取文档内容块的属性信息、对文 档内容块自动进行二次结构化、抽取文档子内容块的属性信息,并采取 树型结构组织文档的各个内容组件。 由此使义档的内容块和子内容块从某种程度上讲具有厂同义档同样 壮十d b 的逻辑文件系统的设计j 实现 筘二章系统总体解决方案 的地位,用户对文档的操作被细化到了文档内容块和子内容块一级,为 用户对文档进行自定义的定制提供了底层的支持,同时减小了若干个用 户在对同一篇文档进行操作过程中产生冲突的几率。 组合模块 提供了将文档各内容组件重新合成一篇文档的功能。这种功能包括 将文档按照其被结构化之前的原样组合、选取文档的部分内容组合以及 按照选取的部分文档内容和这些内容的上下文关联部分组合的功能。 结构化存储模型 为完整地保存文档各内容组件及相互之间的关系,我们提供了一个 通用的结构化存储库。在这个结构化存储库内,文档、文档内容块和文 档子内容块根据其相互之间的层次关系被存入一个树型的存储结构内, 内容的属性信息被作为相应的内容块的属性信息存储。 逻辑映射模块 将文档解析是为了更好地使用文档,因此本系统提供了一套将解析 后的文档进行映射的机制。包括将文档及文档内容块按照标题映射,取 若干个文档内容块进行组合,按照文档内容主体部分的逻辑结构映射, 按照文档的逻辑结构取若干个部分进行组合,并且提供了对上下文关联 的支持。用户还可以根据自身需要对文档的内容块进行增加和删除操作, 并且被修改后的文档通过系统提供的更新机制自动进行更新。 应用层模块 本系统应用层模块主要包括分类模块、查询模块和添加自定义属性 模块。 分类模块主要提供将文档和文档内容块按照所属的分类向用户显示 的功能。用户可在系统中创建自定义的分类,并将文档或文档内容块添 加到分类中。由此,当用户选择某一个分类时就会出现该分类下所包含 的所有的文档或文档的内容块。 查询模块主要包括基于属性的查询和基丁全文检索的查询,并且还 为这两种查询分别提供关联匹配的功能。如用户选择基于属性的查咖, 并选择关联匹配时,若用户奄找所有文档名包含“计算机”的文档,系 第_ = = 三章系统总体解谀方案 雎十d b 的逻辑文件系统的醴t ,实现 统会自动地将文档名包含“电脑”和“p c ”的文档一同找到,并返回给 用户。 自定义属性添加模块主要为用户提供r 一个为文档或文档内容块以 及系统内的各个分类添加自定义属性的接口。用户可以通过这个接口为 文档或文档的内容块和各个分类添加一些自定义的属性。 3 3 系统特点 本系统主要包括以下几个特点: 灵活性 本系统最主要的特点就是灵活性,以对文档内容的详细结构化为基 础向用户提供了多种对文档内容的访问方式,使用户能够根据自身多变 的需求来选择对文档的组织方式和使用方式。 通用性 通用性主要表现在向用户提供了一个通用的文档接口,通过这个接 口将不同格式的文档信息用同一种形式表现,并基于这种表现形式对文 档的内容进行分析处理。本系统在程序级和用户接口层都提供了对于用 户自定义的属性的支持,使用户能够按照自己的具体需求进行系统定制。 可扩展性 本系统为用户预留了自定义属性的接口,用户可以通过这个接口为 系统内的文档、文档内容组件及分类添加自定义的属性信息。用户还可 以通过添加针对其他类型文件的解析器来使系统支持其他的文件类型。 共享性 通过使用s o c k e t 协议网络用户可以将其文档存放到本系统中,使其 他用户也能够使
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 五 总复习说课稿-2025-2026学年小学数学二年级下册浙教版
- Unit 3 写作说课稿 2024-2025学年沪教版英语七年级上册
- 2025年合同终止协议的样本
- 2025建筑材料商品混凝土供求合同
- 2025河南省农业生产设备租赁合同
- 2025合伙经营合同范本
- 2025企业采购销售合同
- 人教版部编道德与法治八年级上册3.1维护秩序说课稿
- 4.7 逻辑代数应用举例说课稿-2025-2026学年中职基础课-职业模块 工科类-语文版-(数学)-51
- 第一节 传染病说课稿-2025-2026学年初中生物学北京版八年级下册-北京版
- 2025年未来就业报告
- 使用吹风机课件
- 安检流程课件
- 中国未来50年产业发展趋势白皮书(第四期)
- 2025年财会类资产评估师资产评估基础-资产评估基础参考题库含答案解析(5卷)
- 公安宣传打击黄赌毒课件
- GB/T 882-2008销轴
- 德国凯尔锚固技术公司石陶幕墙设计和施工中的应用
- (高清版)外墙饰面砖工程施工及验收规程JGJ126-2015
- 定价转让之同期资料模板
- 公路养护技师、高级工、初级工考试复习重点
评论
0/150
提交评论