(计算机应用技术专业论文)海洋文献元数据的语义标注技术研究.pdf_第1页
(计算机应用技术专业论文)海洋文献元数据的语义标注技术研究.pdf_第2页
(计算机应用技术专业论文)海洋文献元数据的语义标注技术研究.pdf_第3页
(计算机应用技术专业论文)海洋文献元数据的语义标注技术研究.pdf_第4页
(计算机应用技术专业论文)海洋文献元数据的语义标注技术研究.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

(计算机应用技术专业论文)海洋文献元数据的语义标注技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

海洋文献元数据的语义标注技术研究 摘要 现在海洋科学蓬勃发展,海洋文献元数据的规模也随着日益扩大。海洋学科 的交叉和差异性导致海洋文献元数据的异构性;所以海洋文献元数据的共享和互 操作问题亟需解决。语义元数据能够描述资源的语义信息,实现资源数据在语义 层次上的共享和互操作。语义标注技术能够将元数据转化为语义元数据;故本文 研究海洋文献元数据的语义标注技术。 本文通过研究分析国外语义标注工具和方法,总结出海洋文献元数据的语义 标注技术有两大关键技术:文献元数据的自动分类挑选和自动语义标注。文献元 数据的自动分类挑选技术能够自动地从海量文献元数据中挑选出标注需要的海 洋文献元数据;自动语义标注技术能够自动地将海洋文献元数据转换为语义元数 据。上述两个技术及其实现是本文研究的核心内容。 本文将基于机器学习的文本分类理论应用于文献元数据的自动分类挑选技 术;使用文献的摘要信息作为分类文本,通过实验对比最大熵、支持向量机和 , a d a b o o s t 三种分类方法的分类效果;实验结果表明:最大熵是最合适的分类方法, 其查准率为9 9 2 4 9 2 、查全率为9 4 4 2 8 6 。本文使用c 拌语言设计实现了文献元 数据的自动分类系统,该系统使用最大熵作为分类方法。 本文深入分析x m ls c h e m a ,发现其结构定义隐含语义信息。本文提出一种 本体自动构建算法,该算法通过解析x m ls c h e m a ,获取结构定义隐含的语义信 息,自动构建原始的领域本体。本算法能够有效地减少本体构建的工作量。由于 该算法能够产生舳结构和本体之间的语义映射关系,本文又提出了一种元数 据自动语义标注方法。该方法使用本文提出的本体自动构建算法产生语义映射关 系,根据语义映射关系实现元数据的自动语义标注。本方法能够广泛适用于x m l s c h e m a s , 准定义的元数据,比g r d d l 适用范围广。本文使用j a v a 和j e n a 实现了 本体自动构建算法和自动语义标注方法。 本文研究的海洋文献元数据的语义标注技术适用于任何领域的知识元数据, 具有较强的通用性。 关键词:海洋文献元数据;语义标注;本体构建:x 札s c h e m a r e s e a r c h e so ns e m a n tica n n o t a tio rt e c h n oio g yf o r m a rib elit e r a t u r em e t a d a t a a b s t r a c t n o w a d a y s ,m a r i n el i t e r a t u r em e t a d a t ai sd e v e l o p i n gf a s tw i t ht h ef l o u r i s ho f m a r i n e s c i e n c e d i f f e r e n tm a r i n es u b j e c t sa r ei n t e r - c r o s s e di nt h er e s e a r c ha r e a ;m a r i n e l i t e r a t u r em e t a d a t ao fd i f f e r e n ts u b j e c t sa r eh e t e r o g e n e o u s t h e r e f o r e ,s o l u t i o n sf o r t h es h a r ea n d i n t e r o p e r a b i l i t yo fm a r i n el i t e r a t u r em e t a d a t aa r eu r g e n t l yn e e d e d s e m a n t i cm e t a d a t ac a l ld e s c r i b es e m a n t i ci n f o r m a t i o no fr e s o u r c e ,a n ds u p p o r td a t a s h a r ea n di n t e r o p e r a b i l i t yi nt h es e m a n t i cl e v e l s e m a n t i ca n n o t a t i o nt e c h n o l o g yc a n t r a n s l a t em e t a d a t ai n t os e m a n t i cm e t a d a t a b a s e do i lt h i sg r o u n d ,t h et h e s i s i n v e s t i g a t e ss e m a n t i ca n n o t a t i o nt e c h n o l o g yf o rm a r i n el i t e r a t u r em e t a d a t a f r o mo u rr e s e a r c ha n da n a l y s i so ff o r m e r l yp r o p o s e ds e m a n t i ca n n o t a t i o nt o o l sa n d m e t h o d s ,t h i st h e s i ss h o w st h a ts e m a n t i ca n n o t a t i o nt e c h n o l o g yf o rm a d n el i t e r a t u r e m e t a d a t ai sc h a r a c t e r i z e db yt w ok e yt e c h n o l o g i e s :t h et e c h n o l o g yo fa u t o m a t i c m a r i n el i t e r a t u r em e t a d a t as e l e c t i o n ( a m l m s ) a n dt h et e c h n o l o g yo fa u t o m a t i c s e m a n t i ca n n o t a t i o nf o rm a r i n el i t e r a t u r em e t a d a t a ( a s a m l m ) m a r i n el i t e r a t u r e m e t , a d a mc a l lb ec l a s s i f i e da n ds e l e c t e da u t o m a t i c a l l yb yu s i n ga m l m s 。m e a n w h i l e , t h ea s a m l mt h e nc a r la u t o m a t i c a l l yt r a n s l a t et h ec h o s e nm e t a d a t ai n t os e m a n t i c m e t a d a t a t h et w ot e c h n o l o g i e sa n dt h e i ri m p l e m e n t a t i o na r et h ef o c u so ft h et h e s i s l ca m l m si sb a s e do nt h et h e o r yo fm a c h i n e l e a r n i n g b a s e dt e x tc a t e g o r i z a t i o n t h i st h e s i sc o m p a r e st h em o s tt h r e ef a m o u sc l a s s i f i e r si n c l u d i n gm a x i m u me n t r o p y m o d e lf m e m ) ,s u p p o r tv e c t o rm a c h i n e ( s v m ) a n da d a b o o s t t h er e s u l to f c o m p a r i s o ne x p e r i m e n ts h o w st h a tt h eb e s tc l a s s i f i e rf o ra m l m s i st h em a x i m u m e n t r o p ym o d e l w h o s e p r e c i s i o na n dr e c a l lr e a c h9 9 2 4 9 2 a n d9 4 4 2 8 6 r e s p e c t i v e l y n l ca u t o m a t i cc l a s s i f i c a t i o ns y s t e mf o rl i t e r a t u r em e t a d a t ai si m p l e m e n t e d 诚也c 群 t l i st h e s i sd e e p l ya n a l y z e sx m ls c h e m a , a n df i n d st h a tt h e r ea r em u c hs e m a n t i c s o ft h ed o m a i nk n o w l e d g ei n h e r i n gi nt h es t r u c t u r eo fm e t a d a t a b a s eo nt h i s i n v e s t i g a t i o n , t h et h e s i sp r e s e n t sa l la l g o r i t h mf o ra u t o m a t i cg e n e r a t i o no fo n t o l o g y , w h i c he x t r a c t st h es e m a n t i c sa n d g e n e r a t e so r i g i n a ld o m a i no n t o l o g ya u t o m a t i c a l l yb y p a r s i n gx m ls c h e m a f u r t h e rm o r e ,t h i sa l g o r i t h mt a i lg e n e r a t es e m a n t i cm a p p i n g b e t w e e nt h es t r t l c m r eo fx m la n do n t o l o g y s ot h i st h e s i sp r o p o s e san e w m e t h o do f a u t o m a t i cs e m a n t i ca n n o t a t i o nf o rm e t a d a t a t h em e t h o dg e t st h es e m a n t i cm a p p i n g b yt h ea l g o r i t h m ,a n da n n o t a t e sm e t a d a t aa u t o m a t i c a l l yw i t ht h e g u i d a n c eo ft h e s e m a n t i cm a p p i n g t h i sm e t h o dc a nb ew i d e l yu s e df o rt h e m e t , a d a md e f i n e db yx m l s c h e m a , a n dh a sw i d e ru s a g et h a ng r d d l t h em e t h o di s i m p l e m e n t e dw i lj a v a a n dj e n a t h et e c h n o l o g i e so fs e m a n t i ca n n o t a t i o n f o rm a r i n el i t 翻麓“i r 弓m e t 甜a l aa r e u n i v e r s a la n d a p p l i c a b l ef o rm e t a d a t ai no t h e rf i e l d 。 k e y w o r d s :m a ri n el i t e r a t u r em e t a d a t a ;s e m a n t i c a n n o t a t i o n ;o n t o i o g y g e n e r a tio n :x m ls c h e m a i i l 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含未获得 逵i 翅进直基地盏蔓缱墨主盟鲍:奎拦亘窒2 或其他教育机构的学位或证书使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 学位论文作者签名:王后型签字日期:如簿f 月上日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,有权保留并 向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人 授权学校可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用 影印、缩印或扫描等复制手段保存、汇编学位论文。( 保密的学位论文在解密后 适用本授权书) 学位论文作者签名:互偿筮 新擀砚 签字日期:纠年月2 日 签字日期:加p 7 年f 月l 日 海洋文献元数据的语义标注技术研究 1 1 课题提出及研究意义 1 1 1 课题提出 第一章引言 2 l 世纪是海洋的世纪,基础海洋科学、应用海洋科学、海洋高新技术不断 取得重大进步,并正在形成包括研究生命起源、地球起源、全球气候变化规律等 在内的“海洋大科学 。海洋科学是- i 7 综合性很强的科学,它涉及物理、化学、 地质、大气和生命科学等诸多学科。 随着海洋科学的发展,海洋文献元数据的数量也与日俱增。由于学科的明显 交叉性和综合性,海洋科学领域的研究迫切需要解决海洋文献元数据共享和互操 作问题。目前海洋文献元数据普遍采用x m l 表示,学科的差异性导致元数据的异 构,制约了海洋文献元数据的共享和互操作。 语义w e b 中的语义元数据能够描述网络资源的语义信息,计算机通过语义元 数据“理解网络资源的语义,从而实现异构数据共享、语义查询等,进而提供 智能知识服务【l j 。 因此使用语义元数据描述海洋文献数据能够解决海洋文献元数据的共享和 互操作问题。语义标注技术能够将元数据转换为语义元数据。元数据规模巨大, 因此手工标注费时费力而且容易出错,是不现实的方法:元数据的自动语义标注 技术成为信息科学领域的研究热点。 1 1 2 课题来源 本课题来源自山东省自然科学基金项目“基于o n t o l o g y 的海洋科技文献 共享平台研发”和教育部新世纪优秀人才支持计划项目“海洋本体构建方法 研究 。 海洋科技文献共享平台是基于o n t o l o g y ( 本体) 、能够处理语义信息的w e b 信息检索、抽取、发布的系统,对w e b 上丰富的海洋科技文献资料进行有效的 海洋文献元数据的语义标注技术研究 组织管理。该平台利用元数据、o n t o l o g y 和语义w e b 技术,实现对海洋科技信 息资源的合理存储、组织、管理与共享;利用o n t o l o g y 的规范化定义提高系统的 查找智能性、可靠性、可维护性,非常适合于目前的网络环境尤其是因特网环境 下的信息集成与共享。 图1 1 为该平台的系统构架图。其中语义标注与抽取模块需要将信息获取模 块获得的w e b 信息元数据标注成语义元数据。 明户落嘲辨衙 j f i l l, i i ll 图1 1 基于o n t o l o g y 的海洋科技文献共享平台系统结构图【2 】 海洋本体构建方法研究项目研究领域专家帮助下的本体构建方法,以最大限 度地利用专家的领域知识和降低本体的构建对领域专家的依赖;构建海洋科学本 体和学科知识本体。其中一个研究内容是研究本体学习理论,探索从科学文献电 子资源和海洋元数据中获取学科知识的方法。该研究内容需要包含语义的海洋文 献资源库。 海洋文献元数据的语义标注技术研究 l i1 3 研究意义 元数据的语义标注技术能够使元数据转换成语义元数据。语义元数据能够实 现异构海洋文献元数据在语义层次上的共享和互操作。 元数据的语义标注技术能够为海洋科技文献共享平台提供语义元数据库。 海洋文献元数据包含丰富的海洋科学知识,为构建海洋科学知识本体提供有 效的语义资源。 本文研究的海洋文献元数据的语义标注技术适用于任何领域的知识元数据, 具有较强的通用性。 1 2 语义标注描述 语义标注将文档中的概念和概念之间的关系标记出来形成语义元数据,计算 机通过读取语义元数据“理解”文档的语义。e y a lo r e n 对标注、规范化标注和 语义标注给出了形式化定义c 3 j : 定义1 1 ( 标注) : 标注a 可以用四元组( q ,d ,口o ,q ) 描述,其中q 是标注的主体( 被标注的数 据) 、是标注的客体( 标注后的数据) 、口,是定义了q 和巳的关系类型,即谓 语( 或标注关系) 、群是标注发生的上下文,可以是标注时间、标注者或者标注 有效范围。 定义1 - 2 ( 规范化标注) : 规范化标注4 ,是一个标注彳其中q 、a ,、吼和都是u r i 定义1 0 ( 语义标注) : 语义标注4 是一个规范化标注4 ,其中郎和q 是具有语义的u r i ,对应 于口。的语义定义。 根据定义1 3 ,语义标注可咀描述为:将具有u p , 的资源标记为对应领域本 体中语义定义的实例。 3 海洋文献元数据的语义标注技术研究 1 3 研究现状 1 3 1 国内外研究现状 语义标注的研究经历了手工标注、半自动语义标注平台和自动语义标注三个 阶段。 ( 一)手工标注 手工标注工具像s e m a n t i cw o r d d ,能够为资源制作者提供制作和标注的集 成环境。但是手工标注易出错、代价昂贵,而且不能处理已有的未标注文档;所 以手工标注导致了瓶颈。 ( 二)半自动语义标注平台 为了克服手工标注的瓶颈,半自动语义标注平台应运而生。语义标注平台主 要研究文本或网页文档的半自动标注。根据领域专家事先构建的本体中的概念和 关系定义,在待标注的文档中提取含有文档语义的实例数据,然后将这些实例数 据与本体中相应的概念和关系相联系,从而实现文档的语义标注。由于待标注的 文档是无结构的文本文档或半结构的网页文档,从文档中提取实例数据要使用信 息提取( i n f o r m a t i o ne x t r a c t i o n ) 技术。 根据使用的信息提取技术,语义标注平台主要分为两大类:一类是基于模板 ( p a t t e r n ) ;另一类是基于机器学习( m a c h i n el e a r n i n g ) 【5 1 。 大多数基于模板的方法起源于b r i n 6 】提出的基本方法:最初有一组定义好的 实体( e n t i t y ) 集;扫描待标注的文档集( c o r p u s ) ,从中找出存在实体的模板; 然后用模板发现新的实体;循环这个过程直到没有发现新的实体或者用户中断过 程。语义标注工具g a t e 中的j a p e ( j a v aa n n o t a t i o np a t t e r ne n g i n e ) 则采用规 则( r u l e s ) 方法【7 】嘲。f f a p e 提供了基于正规表达式的标注有限状态转换,通过 j a p e 手工设立的各种规则,来实现分词、分句和命名实体识别等功能。 基于机器学习的方法则是使用概率或归纳的方法发现文档中的实体,如 d a t a m o l d 算法使用隐马尔科夫模型( h i d d e nm a r k o vm o d e l ) 从h t m l 网页中发 现实例数据。还有,语义标注平台a m a r d i l l o 【9 和o n t 一0 一m a t 1 0 】中的自适应信息 提取( a d a p t i v ei n f o r m a t i o ne x t r a c t i o n ,a i e ) 工具a m i l c a r e ,它的核心 4 海洋文献元数据的语义标注技术研究 算法一( l p ) 2 也是基于机器学习算法。 ( 三)自动语义标注 自动语义标注的研究对象是结构化数据。m i c h e l 1 1 1 在2 0 0 2 年提出了一个算 法:直接将x m l 描述的元数据转换成r d f 描述的语义元数据;见算法1 1 。 算法1 1 : b e g i n : s t e p l 用x m l 文档的u r l 作为“a c t i v er e s o u r c e ; s t e p 2 使用深度优先搜索遍历x m l 的每个e l e m e n t s 包括a t t r i b u t e s : s t e p 3 遍历到一个e l e m e n t , f f je l e l m e n t 的名字遍历o n t o l o g y ,确定该e l e m e n t 在o n t o l o g y 中对应的是p r o p e r t y 还是c l a s s 还是纯文字内容: 域该e l e m e n t 对应一个p r o p e r t y :o n t o :p r o p ) i f i 没有不完整的r d f 三元组) 创建三元组的前两部分: e l s ei f ( 有不完整的r d f 三元组) 用一个新资源补全这个r d f 三元组,然后创建一个三元组的 前两部分: , e l s ei f ( 该e l e m e n t 对应一个c l a s s :o n t o :c l s ) 诚有不完整的r d f 三元组) 用一个新资源补全这个r d f 三元组,然后创建一个三元组的 前两部分: 并将a n n or e s o u r c e1 作为“a c t i v er e s o u r c e e l s ei f ( “a c t i v er e s o b l e e ”是文档本身) 创建下列三元组: 海洋文献元数据的语义标注技术研究 并将a l m l o r e s o u r c e - i 作为“a c t i v er e s o u r c e ”) e l s e 定义一个p r o p e r t y o n t o :h a s c l s ( 概念之间的关系) ,创建以下三 元组: e l s ei f ( e l e m e n t 是纯文本) i f ( 有不完整的r d f 三元组) 补全该三元组: e l s e 创建一下三元组 , ) s t e p 4 继续深度优先遍历x m l 树,当回溯到一个对应于c l a s s 的e l e m e n t 时, 使用上一个a c t i v er e s o u r c e ; e n d 自动语义标注方法还有g r d d l 1 2 1 。g r d d l 是w 3 c 组织发布的一种将x m l 或 x t h m l 中的资源描述转化为r d f 格式资源描述的机制;其英文全称为:g l e a n i n g r e s o u r c ed e s c r i p ti o nf r o md i a l e c t so fl a n g u a g e ,对应的中文名称为:从方 言中采撷资源描述。 g r d d l 的基本思想和x s l t ( ) ( m l 样式语言转换) 相似。x s l t 用于x m l 转换成 x h t m l ,将结构化的内容与其显示格式分离;g r d d l 将资源的描述结构与其权威 意义( 即语义) 分离。g r d d l 机制总体上是通过定义转换算法,将页面中使用 各种方言描述的资源直接转换成r d f 。具体机制如下:一 1 ) 定义转换算法,转换算法使用x s l 描述,单独存放在一个具有u r l 的 x s l 格式的文档中。转换算法的构建是建立在一种假设上:x m l 中的标 签具有潜在语义【1 3 】。 2 ) 在页面上加入标签,标明该页面中含有可用g r d d l 抽取的资源,并标 明转换算法的u r l ,则该页面是g r d d l 格式的。 3 ) 具有g r d d l 解析功能的客户端读到页面时,先通过标签判断是否是 g r d d l 格式的,如果是,获取转换算法,通过x s l 处理器将页面中的 6 海洋文献元数据的语义标注技术研究 资源转换成r d f 描述。 g r d d l 详细介绍见w 3 c 文档 1 4 1 。 国内语义标注的研究重点在完善n 多 i - 比较好的语义标注工具,使其能够很好 地支持中文嗍【1 6 1 。 1 3 2 研究分析 语义标注平台都是半自动的,其信息提取过程需要人为干预,基于模板的方 法需要手工定义初始实体集或模板;基于机器学习的方法需要手工标注一批文档 集。而且语义标注平台都依赖于提前构建好的领域本体,手工构建领域本体需要 领域专家的大量工作。 算法1 1 有一个前提假设:元数据中标签名称和其对应本体中的资源概念名 称必须一致,表现为:x m l 标签和r d f 资源标签必须同名。如果不同,该算法 就不能使用;这严重限制了自动语义标注的灵活性。 g r d d l 机制需要x s l 描述的转换算法,虽然目前已经有针对一些常用x m l 标准的转换算法,但是对于其他标准和用户自定义的x m l 格式,都需要用户自 己手工编写转换算法,这也影响了该机制的普及。 最后,以上的语义标注方法都存在一个j 口- j 题:定义1 3 中的标注主体口。,即 待标注数据通常都是领域相关的,需要事先从多领域海量元数据中挑选出来,但 是上述技术都没有给出一个明确的解决方案。本课题需要从数千万文献元数据中 挑出海洋文献元数据,然后对其进行语义标注,手工挑出是不现实的。因此在语 义标注之前,需要使用文本分类技术对海洋文献元数据进行自动分类,由计算机 自动挑选出海洋文献元数据。 1 4 本文研究的目的和内容 1 - 4 1 研究目的 研究现状的分析发现:语义标注是构建语义元数据的关键技术。因此本课题 的目的是研究海洋文献元数据的语义标注技术,包括以下两个方面: 7 海洋文献元数据的语义标注技术研究 1 ) 研究文献元数据自动分类,自动挑选出海洋文献元数据,用于自动语义 标注。 2 ) 研究实现海洋文献元数据的自动语义标注方法。 1 4 2 研究内容 本课题的研究内容是以下两个方面: 1 ) 研究基于机器学习的文本分类技术,实验对比分类方法在元数据分类中 的效果,选取效果最好的分类方法构建文献元数据分类挑选系统。 2 ) 研究海洋元数据的自动语义标注方法。分析x m l 元数据本身潜在的语义 信息,研究自动语义标注方法。 1 5 本文的章节安排 第二章介绍元数据和语义元数据的相关知识,包括元数据的概念、其表示语 言瑚l ;资源描述框架( r d f ) ;语义w e b 和本体的简要概念;语义元数据的 概念和表示等。最后说明元数据与语义元数据的区别。 第三章和第四章为本文的核心内容,研究了海洋文献元数据语义标注的两个 方面的技术。 第三章详细介绍海洋文献元数据分类挑选系统,该系统使用基于机器学习的 文本分类理论作指导。该章内容安排如下:首先描述基于机器学习的文本分类问 题和海洋文献元数据分类问题;然后介绍文本分类系统的架构。通过实验对最大 熵、支持向量机和a d a b o o s t 三种分类方法的分类效果进行比较,实验结果表明 最大熵最适合本课题的分类方法,所以文献元数据分类挑选系统采用最大熵作为 分类器,该系统能够自动从文献元数据挑选出涉海类的元数据。本章最后介绍了 文献元数据分类挑选系统的实现。 第四章详细介绍本论文提出的一种元数据自动语义标注方法。首先通过描述 自动语义标注问题,指出自动语义标注需要语义映射。本文深入分析) c m l s c h e m a ,发现其结构定义隐含语义信息。本文提出一种本体自动构建算法,该 算法通过解析 g m ls c h e m a ,获取结构定义隐含的语义信息,自动构建原始的领 域本体。本算法能够有效地减少本体构建的工作量。由于该算法能够产生y - a v i l 8 海洋文献元数据的语义标注技术研究 结构和本体之间的语义映射关系,本文又提出了一种元数据自动语义标注方法。 该方法使用本文提出的本体自动构建算法产生语义映射关系,根据语义映射关系 实现元数据的自动语义标注。最后本章介绍了该算法和方法的实现。 第五章为总结和展望。总结了本文所作的工作和不足,描述了下一步工作需 要解决的问题。 9 海洋文献元数据的语义标注技术研究 2 1 元数据与x m l 2 1 1 元数据 第二章元数据和语义元数据 定义2 1 【1 7 】:元数据是关于网络信息或其他信息的机器可理解的信息 元数据是网络信息资源的一种描述方式,是关于数据的数据。元数据记录由 一系列属性或元素组成,这些在资源描述中是必不可少的。例如,一篇科技文献 的元数据包含描述该文献的数据,如:题目,作者,摘要,关键词,内容等元素。 元数据最基本的作用就是管理数据,从而实现数据的查询、阅读、交换和共 享。元数据的主要作用如下: 1 ) 用来组织和管理网络信息,并挖掘信息资源,这正是信息的特点和优点 所在。通过元数据可以在万维网上准确地识别、定位和访问信息。 2 ) 帮助用户查询所需信息。 3 ) 用来建立信息的数据目录和数据交换中心。通过数据目录和数据交换中 心等提供的元数据内容,用户可以共享信息、维护数据结果,以及对它 们进行优化等。 4 ) 提供数据转换方面的信息。用户在获取信息的同时便可以得到元数据信 息。通过元数据,人们可以接受并理解信息,与自己的信息集成在一起, 进行不同方面的科学分析和决策。 元数据表示语言通常是各种标记语言,如s g m l ( s t a n d a r dg e n e r i cm a r k u p l a n g u a g e ,标准通用标记语言) 、h t m l ( h y p e rt e x tm a r k u pl a n g u a g e ,超文本 标记语言) 、x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展标记语言) 等。通常不 同领域会根据需求定义一个或几个元数据标准。标准的设定是为了实现领域中的 数据信息交换和共享,为研究和生产服务。比较重要的元数据标准有d u b i nc o r e 出版界的元数据标准、h l 7 描述医学网络资源的元数据、i m s i m s 全 球学习联盟制定的电子学习( e l e a r n i n g ) 标准。 l o 海洋文献元数据的语义标注技术研究 x m l 是w 3 c 于1 9 9 8 年2 月发布的一种标准,是s g m l 的一个简化子集。它将 s g m l 的丰富功能与h t m l 的易用性结合到一起;因此自推出以来,迅速得到软件 开发商的支持和程序开发人员的喜爱,显示出强大的生命力。 x m l 较好地解决了h t m l 无法表示数据内容等问题,并且它允许各个组织、 个人建立适合自己需要的标记集合,因此x m l 在政府、金融、证券、邮电、保险、 税务、司法、出版以及电子商务等方面得到了广泛的应用。 ( 一) x g l 的优点 x m l 的最大优点在于它的数据存储格式不受显示格式的制约。一般来说,一 篇文档包括3 个要素:数据、结构以及显示方式。x m l 把文档的三要素单独开来, 分别处理。首先将显示格式从数据内容中独立出来,保存在样式单文件 ( s t y l e s h e e t ) 中,这样如果需要改变文档的显示方式,只要修改样式单文件就 行了。其次,x m l 的自我描述性质能够很好地表现许多复杂的数据关系,使得基 于x m l 的应用程序可以在x m l 文件中准确高效地搜索相关的数据内容,忽略其他 不相关内容。 ( 二) x m l 的结构 x m l 的结构有3 个部分:一个可选的文件头;文件主体包括一个或多个 元素,形式是一棵分级的树:一个“混杂的 结尾部分一由注释、处理指令和 空白组成。 x m l 文档内容的基本单元是元素( e l e m e n t ) ,其语法格式如下; j 文本内容 元素由起始标记、元素内容和结束标记组成。用户要把描述的数据对象放在 起始标记和结束标记之间。x m l 元素通过嵌套使相关信息构成层次结构。 有关x m l 的详细介绍请参看w 3 c 的文档【1 8 1 。 海洋文献元数据的语义标注技术研究 2 2 元数据的互操作和r d f 2 2 1 元数据的互操作性 随着网络应用的发展,一个应用需要涉及多个领域的数据,就需要这些领域 中的元数据能够可互操作( i n t e r o p e r a b i l i t y ) 。元数据的互操作性要求元数据具 有以下两方面的要求: 1 ) 元数据不仅表示数据的数据,还要显式地表示元数据之间的关系。元数 据之间的关系能够反映不同领域数据之间的关系,为元数据的互操作提 供索引。 2 ) 元数据不仅是机器可读的,还是机器可理解的。机器通过读取元数据不 仅能够获取元数据信息,还能获取元数据间的关系。 x m l 不能很好地描述元数据之间的关系:虽然x i v l l 通过元素间的嵌套关系能 够表示元数据间存在关系,但是不能够显式地描述这种关系。 资源描述框架( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ,简记为r d f ) 是w 3 c 在 1 9 9 9 年2 月颁布的推荐标准( r e c o m m e n d a t i o n ) 【1 9 1 ,制定的目的主要是为元数据 在w e b 上的各种应用提供一个基础结构( i n f r a s t r u c t u r e ) 使应用程序间能够在 w e b 上交换元数据,以促进网络资源的自动化【2 0 】。 ( 一)r d f 的含义 r d f 提供一个通用的数据模型支持w e b 资源的描述【2 1 1 。其主要含义如下: 1 ) 资源。r d f 可处理的w e b 资源含义极广,包括一切在w e b 上被命名、具 有u r i 引用的资源。 2 ) 描述。对资源特性的一个声明,包括资源本身的属性和资源之间的关系。 3 ) 框架。与被描述资源及其领域无关的通用数据模型。r d f 定义一种机制 以描述非特定领域的资源,而不定义任何特定领域的语义。因此r d f 和 领域无关,适合描述任何领域的信息。 ( 二)r d f 模型 1 2 海洋文献元数据的语义标注技术研究 r d f 定义了一个简单的数据模型,通过性质( p r o p e r t y ) 和值( v a l u e ) 来 描述资源以及资源之间的关系。在r d f 模型中,如果将r d f 的性质看作是资源的 : 属性,则r d f 模型也可以看作是传统的 对模型。r d f 性质还可以用来 表示资源之间的关系,因此r d f 模型类似于一个实体关系图。 1 ) 模型表示 r d f 模型的表示方法有3 种:图示法、模型和三元组。对于以下资源描述: “论文西松烷二萜类海洋活性成分研究进展的作者是李国强 ,这一描述包 含一下3 部分,如表2 一l 所示: 表2 1r d f 三元组 主体( s u b j e c t ) 谓词( p r e d ic a t e ) 客体( o b j e c t ) 资源( r e s o u r c e ) 论文西松烷二萜类海 属性( p r o p e r t y ) 文本( 1 i t e r a l ) 作者“李国强” 洋活性成分研究进展 主体( s u b j e c t ) 、谓词( p r e d i c a t e ) 、客体( o b j e c t ) 构成了r d f 模型三元 组 p ,j ,9 ) ,其中p ,s ,0 分别对应于r d f 语句的谓词、主体和客体。 r d f 语句可以看作是一个有向标记图:每个资源和文本都是一个结点。一 个三元组 办s ,0 为一个从s 指向0 的标记为p 的箭头,如图2 - 1 ( a ) 所示;其中 资源以椭圆形结点表示,文本以矩形结点表示,而指定的性质以箭头表示。值得 注意的是:箭头的方向是从主体指向客体。所以上述资源描述可以表示为图2 1 ( b ) 。 一s ) 一 。 i 图2 1 简单的语句图表示 海洋文献元数据的语义标注技术研究 对作者“李国强 更详细地描述,经过扩展性质,“作者”的取值类型就从 原来的文本字符串变成一个资源;对该资源分配一个唯一的标识符( i d ) 。同时 对论文资源进行扩展,则扩展后的r d f 模型表示为 图2 - 2 带有i d 的扩展资源表示 2 ) 模型组成 r d f 模型由资源( r e s o u r c e ) 、性质( p r o p e r t y ) 和语句( s t a t e m e n t ) 3 种 对象组成。r e s o u r c e 和p r o p e r t y 关系类似于e - r 模型,而s t a t e m e n t 则对该关 系进行具体描述。r d f 通过这个抽象的数据模型为定义和使用元数据建立了一个 框架,元数据元素可看成其描述的资源的性质。 资源定义:所有能用r d f 表达式来表述的事物都可称为“资源。资源通 常是以一个唯一资源标识符( u r i ) 加上一个可选的锚( a n c h o r ) i d 的形式来表 示的。任何事物都可以有一个u r i ,u r i 的可扩展性使得任何实体都可以获得一 个i d 。 性质定义:性质用来描述资源的某个特定方面,如特征、属性或者关系。 每个性质都有特定的含义,规定了它的取值范围、所能描述的资源的类型、以及 与其他性质之间的关系。r d f 性质还可以用来标识资源之间的关系。 语句定义:r d f 语句有一个特定的资源和一个指定的性质以及资源的这 个性质的取值组成,即:主体,谓词和客体。 ( 三)r d f 语法 r d f 采用x m l 作为交换语法,还沿用了x m l 中命名空间( n a m e s p a c e ) 的思 想,给每个性质和定义该性质的模式关联起来。 r d f 数据模型有两种x m l 语法:序列化语法( s e r i a l i z a t i o ns y n t a x ) 和简 1 4 海洋文献元数据的语义标注技术研究 略语法( a b b r e v i a t i o ns y n t a x ) 。序列化语法以一种非常形式化的方式描述了 r d f 数据模型的全部功能;而简略语法提供了一种更为简洁的形式来表示r d f 数 : 据模型的一部分。 2 2 3r d f 模式 r d f 数据模型本身没有提供专门的机制来描述资源的性质与其他资源之间 的关系。r d f 只提供了一个表达元数据的模型,没有定义任何特定领域的语义。 r d f 词汇描述语言,或称为r d f 模式( r d fs c h e m a ,简记为r d f s ) 就是弥补r d f 这一弱点。r d f s 是对r d f 的一种补充,i l d f s 定义了类和性质,用来描述其他的 类和性质,增强r d f 对资源的描述能力。 r d f s 提供了一些建模僚语,用来定义一个描述类、类与类之间关系的简单 模型。因此r d f s 为r d f 提供了一种机制来定义领域相关的属性以及用于使用这 些属性的资源类。 r d f s 的基本模型是c l a s s 定义和s u b c l a s s o f 语句s t a t e m e n t ,p r o p e r t y 定 义和s u b p r o p e r t y o f 语句,d o m a i n 和r a n g e 语句( 可以限制对上面的c l a s s 和 p r o p e r t y 的组合) ,t y p e 语句( 用于声明c l a s s 的一个实例r e s o u r c e ) 。 详细的r d f s 介绍参看w 3 c 的文档圆。 2 2 4r d f 与x m l ) 【 i i l 用标记来描述文档中的文本,却没有提供一种机制来描述标记本身。r d f 提供了这样的能力。但r d f 并不仅仅是) ( m l 上的一个扩展,而是一个描述网络资 源的通用框架模型。x m l 标记只是这些资源的一种。 x m l 和r d f 的目标不同。) 【i i i l 的目的在于提供一个易用的语法对计算机交换 的一切数据编码,并定义其数据结构;x 札并没有提供任何关于数据的解释。 r d f 则是一个描述元数据的模型,并给出了数据的一些解释。r d f s 更扩展了 这个功能口3 1 。 r d f 和x m l 是互相补充的:) 【m l 描述数据的结构,依赖r d f 来描述数据的语 义:r d f 是一个元数据的模型,依赖x m l 来编码和传输这种元数据。 1 5 海洋文献元数据的语义标注技术研究 2 3 语义信息模型和本体 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论