(计算机软件与理论专业论文)oaipmh中元数据相似度计算的研究与实现.pdf_第1页
(计算机软件与理论专业论文)oaipmh中元数据相似度计算的研究与实现.pdf_第2页
(计算机软件与理论专业论文)oaipmh中元数据相似度计算的研究与实现.pdf_第3页
(计算机软件与理论专业论文)oaipmh中元数据相似度计算的研究与实现.pdf_第4页
(计算机软件与理论专业论文)oaipmh中元数据相似度计算的研究与实现.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

(计算机软件与理论专业论文)oaipmh中元数据相似度计算的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

0 ai - p m h 中元数据相似度计算的研究与实现 中文摘要 0 a i 协议( o a i p m h ) 作为一种新兴的元数据互操作协议,为实现元数据的传 播、共享和分发提供了解决办法。由于它的简单、低门槛、跨平台等优点,在众多 领域中得到了应用。随着o a i 协议应用的不断扩展,该协议中元数据资源呈现出快速 增长的态势,如何发现元数据间的关联,得到有用知识,以便用户从海量的元数据 信息中获取所需、感兴趣的信息内容,成为目前迫切需要解决的问题。相似度计算 作为发现信息关联,得到知识的基础,被广泛应用于信息检索、推荐和挖掘等领域, 在信息处理中占据着重要的地位。 本文在深入研究国内外相似度计算方法的基础上,结合元数据的结构特点,将 相似度计算引入0 a i 协议中,对元数据间的相似性进行度量,提出了一种基于向量空 间模型的o a i p m h 中元数据相似度计算方法。考虑到元数据不同元素位置的特征项 对权重计算结果的影响,该方法在选择出元数据特征项后,采用位置权重系数改进 的 i f i d f 方法计算特征项权重,将元数据对象映射成空间中的向量,通过空间中向 量夹角计算来度量元数据间相似度。本文设计和实现了o a i p m h 服务提供者,并在 其中集成了元数据相似度计算功能,将该功能作为服务提供者的一个模块,来组织 服务提供者收集回来的元数据。实验分析表明,该方法对元数据相似度计算是可行 的,有效的从元数据集中挖掘出相似元数据。通过此模块计算元数据间相似度,在 用户查询浏览元数据时,自动推荐与所浏览元数据相似的资源,便于用户找到感兴 趣的信息。这样不仅为用户提供了更好的增值服务、提高了信息服务质量,而且还 满足了用户查询需求。 关键词:o a i p m h ;元数据相似度计算;向量空间模型;位置权重系数 r e s e a r c ho na n di m p l e m e n t a t i o no fm e t a d a t as i m i l a r i t yc a l c u l a t i o n i nt h e0 a i p m h g r a d u a t en a m e :z h i ju nz h a o m a jo r :c o m p u t e rs o f t w a r ea n dt h e o r y d i r e c t e db y :l i c h a oc h e n a b s t r a c t a san e wk i n do fm e t a d a t ai n t e r o p e r a b i l i t yp r o t o c o l ,o a i p m hp r o v i d e s au s e f u ls o l u t i o nf o rm e t a d a t at r a n s m i s s i o n ,s h a r i n ga n d d i s s e m i n a t i o n b e c a u s et h ep r o t o c o lh a st h ea d v a n t a g e so fs i m p l i c i t y , l o w t h r e s h o l da n d p l a t f o r mc r o s s i n g ,i th a sb e e nw i d e l yu s e di n m a n yf i e l d s w i t ht h e c o n t i n u o u s e x p a n s i o no ft h ea p p l i c a t i o nf o ro a i p m h ,t h em e t a d a t a r e s o u r c e sa r es h o w i n gf a s t - g r o w i n gt r e n d i no r d e rt om a k eu s e r so b t a i nt h e i n f o r m a t i o nt h e yc a r ea b o u tf r o mr i c hm e t a d a t a ,i ti s u r g e n tt of i n dt h e r e l a t i o n s h i pa m o n gm e t a d a t aa n dg e tu s e f u lk n o w l e d g e a st h ef o u n d a t i o no f f i n d i n gi n f o r m a t i o nr e l a t i o n s h i pa n dg e t t i n gk n o w l e d g e ,s i m i l a r i t yc a l c u l a t i o n h a sb e e n w i d e l ya p p l i e d i ni n f o r m a t i o n r e t r i e v a l i n f o r m a t i o n r e c o m m e n d a t i o na n di n f o r m a t i o nm i n i n g ,a n di ta l s op l a y sa ni m p o r t a n tr o l e i ni n f o r m a t i o np r o c e s s i n g b a s e do nad e e ps t u d yo ns i m i l a r i t yc a l c u l a t i o nm e t h o d sa th o m ea n d a b r o a d ,a n dc o m b i n i n gw i t ht h es t r u c t u r a lc h a r a c t e r i s t i c so fm e t a d a t a , s i m i l a r i t yc a l c u l a t i o ni si n t r o d u c e di n t o0 a i p m ha n dam e t h o dw h i c hi s u s e dt oc a l c u l a t em e t a d a t as i m i l a r i t yi nt h eo a i p m hb a s e do nv s mi s p r o p o s e d t a k i n gt h ei m p a c to fc h a r a c t e r i s t i ci t e m si nd i f f e r e n tp o s i t i o no n t h er e s u l to fc a l c u l a t i n gw e i g h t si nt oa c c o u n t ,w eu s et h ei m p r o v e dt f i d f m e t h o db yi n t r o d u c i n gp o s i t i o nw e i g h tc o e f f i c i e n tt oc a l c u l a t et h ew e i g h t so f c h a r a c t e r i s t i ci t e m sa f t e rc h o o s i n go u tm e t a d a t ac h a r a c t e r i s t i ci t e m s w em a p m e t a d a t ao b je c tt os p a c ev e c t o r , a n dt h e nc a l c u l a t em e t a d a t as i m i l a r i t yb y s p a c ev e c t o ra n g l e i nt h i sp a p e r , w ed e s i g na n di m p l e m e n tas e r v i c ep r o v i d e r s y s t e ma n di n t e g r a t em e t a d a t as i m i l a r i t yc a l c u l a t i o nf u n c t i o ni n t os e r v i c e i i i p r o v i d e ri nt h eo a i - p m h t h r o u g ht h ee x p e r i m e n t a lr e s u l t sw ec a ns e et h a t t h em e t h o do fc a l c u l a t i n gt h es i m i l a r i t yo fm e t a d a t ai se f f e c t i v ea n df e a s i b l e , a n dw ec a ng e ts i m i l a rm e t a d a t af r o mm e t a d a t as e t s a f t e rc a l c u l a t i n gt h e s i m i l a r i t yc a l c u l a t i o na m o n gm e t a d a t ai nt h eo a i p m h ,s i m i l a rm e t a d a t a a r e p r o v i d e dt ou s e r sw h e nt h e ya r eb r o w s i n ga n ds e a r c h i n gi n f o r m a t i o nt h a t t h e ya r ei n t e r e s t e di n b yt h i sw a y , w ec a na f f o r dp e o p l em u c hb e t t e r a p p r e c i a t i o ns e r v i c e ,h e l pp e o p l eg e t t i n gt h ei n f o r m a t i o nt h e yc a r ea b o u ta n d g r e a t l yi m p r o v ei n f o r m a t i o ns e r v i c eq u a l i t y k e yw o r d s :o a i p m i - i ;m e t a d a t as i m i l a r i t yc a l c u l a t i o n ;v s m ;p o s i t i o n w e i g h tc o e f f i c i e n t w 声明尸明 本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究 做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的 法律责任由本人承担。 储签名:冬i :蔓里嗍鲨! :篁:兰 关于学位论文使用权的说明 本人完全了解太原科技大学有关保管、使用学位论文的规定,其 中包括:学校有权保管、并向有关部门送交学位论文的原件、复印 件与电子版;学校可以采用影印、缩印或其它复制手段复制并保存 学位论文;学校可允许学位论文被查阅或借阅;学校可以学术交 流为目的,复制赠送和交换学位论文;学校可以公布学位论文的全 部或部分内容( 保密学位论文在解密后遵守此规定) 。 作者签名:叁王金率 日期:娑互:兰:竖 导师繇殛啉掣:生! 第一章绪论 第一章绪论 1 1 研究背景 为了满足人们对信息的需求,许多机构和单位建立了数字化服务平台。在这些 平台中,数字资源有着不同的数据格式和表达方式,导致了描述和组织标准的差异, 这就需要人们在不同的检索系统中输入不同的检索式,增加了检索的复杂性。因此, 通过跨服务平台的信息资源互操作来实现资源共享,并为用户提供统一的资源检索 是当前研究的主要课题。 0 a i 协议是近几年提出的一种简单、灵活、低门槛、易实现的元数据互操作协议, 为元数据的共享和互操作提供了新的解决办法。该协议的最大优点是可以轻易发布 多种不同格式元数据,具有良好的开放性和可扩展性。随着0 a i 协议的发展与广泛应 用,越来越多的机构开始通过o 础协议来发布元数据,使得服务提供者收集的元数据 量急剧增加。同时,在服务提供者中( 如a r c ) ,已经开发了许多以关键词作为主 要匹配手段的元数据搜索引擎。但这些搜索引擎只是提供了简单的索引,没有对元 数据进行深层次的挖掘。用户在信息检索时,往往会获得很多结果,其中很大一部 分对于用户来说是无用或无关的,人们为了找到想要的结果,常常需要浏览查询几 十条或几百条的元数据,造成用户浏览的烦琐和时间的浪费,带来了极大不便。面 对海量的元数据信息,如何发现它们之间的关联得到有用知识,进而有效组织元数 据,以便用户发现所需、感兴趣的信息内容,成为目前迫切需要解决的问题。 解决问题的一个途径就是将相似度计算引入o a i 协议中,对元数据进行相似度度 量。相似度计算作为信息处理中一项基础性技术,起着关键作用,被广泛应用于信 息检索、推荐和深层次智能处理等领域。通过信息的相似度计算可以对其进行有效 的组织,从而得到有用知识。针对相似度计算在信息处理中的重要作用,有必要对 元数据进行相似度计算。通过相似度计算为用户推荐相似元数据,方便用户获取所 需信息资源。 基于向量空间模型的相似度计算方法已被广泛的应用于相似度计算领域。它将 文本简化为特征向量表示,把文本相似度计算问题简化为空间向量的运算,使得问 题的复杂性大大降低;而且向量空间模型中可以使用不同的权重评价方法,使得模 型的适应性比较广泛。 鉴于如上论述,本文结合o a i 协议中元数据的结构特点,提出了一种基于向量空 o a i - p m h 中元数据相似度计算的研究与实现 间模型的元数据相似度计算方法。通过相似度计算,在用户浏览时自动推荐与所浏 览元数据相似的信息资源,更好的满足用户需要。 1 2 国内外研究现状 1 2 1 相似度计算研究现状 ( 1 ) 文本相似度计算研究现状 目前,国内外很多学者对于研究文本相似度计算问题的方面提出了一些解决方 案,如: g e r a r ds a l t o n 等提出的向量空间模型,它的基本思想是使用空间的相似性来解决 文本上的相似性。在文本相似度计算方法中,基于向量空间模型的文本相似度计算 方法是最常用的,该方法根据文本中的词语将文本映射为n 维空间向量,然后通过计 算空间向量间的距离来确定文本间的相似度。n i r e n b u r g 等提出了两种串匹配的方法, 即规范的“切块+ 匹配+ 重组方法和整句级匹配的方法。这两种方法都是以词作为 基本单位进行相似度计算的。相似度计算采用罚分制度,两个句子匹配所得到的总 罚分值是由句子中每个单词对所得罚分组合而成【l 】。挪威a g d e r 大学的v l a d i m i r o l e s h c h u k 等人提出基于o n t o l o g y 的文本相似度计算方法,将本体论引入了相似度计 算,能够用于语义相似度的计算【2 。3 1 。 国内学者潘谦红、王炬等提出利用属性论计算文本相似度。该方法建立文本属 性重心剖分模型,通过坐标点之间的距离来计算确定词与词之间的相似性,接着利 用坐标点与单纯形的关系计算词与文本之间的相似性,最后通过单纯形与单纯形的 关系衡量文本之间的相似度【4 1 。张焕炯、王国胜等提出基于汉明距离的文本相似度计 算方法,并提出了汉明码概念。与别的文本相似度计算方法相比较,此方法用码字 的方法来表征文本的信息特征,跳出了传统的借用向量空间的理念,这为联合描述 文本的信息特征提供了可能;而且只利用模2 加等运算,相似度计算量明显减少【5 】。 晋耀红提出了基于语境框架的文本相似度计算方法,把文本内容抽象成领域( 静态 范畴) 、情境( 动态描述) 、背景( 褒贬、参照等) 三个框架。从语境框架着手, 根据语境相似度的计算,实现了文本间语义相似度的量化,有效的处理语言中的褒 贬倾向、同义、多义等现象 6 1 。此外,霍华、冯博琴提出的基于压缩稀疏矩阵矢量相 乘的相似度计算方法,此方法能够减少计算和存储空间的开销,它仅存储非零元素, 然后用压缩稀疏矩阵矢量相乘的方法计算文本间的相似度【7 1 。 上述各种文本相似度计算方法均在特定领域取得了良好的效果,但还都存在着 2 第一章绪论 缺点与不足,尚需进一步加以改进。 ( 2 ) x m l 文档相似度计算研究现状 x m l 是一种典型的半结构化数据,它既能表示关系、对象等结构化的数据,也 能表示w e b 这样的半结构、非结构的数据,在数据交换和集成中得到大量应用。近 几年来人们开始研究用x m l 文档对象描述方法解决语义表示问题,而如何有效地计 算x m l 文档之间的相似度( s t r u c t u r a ls i m i l a r i t y ) 成为目前研究的热点,许多学者对 其进行了研究。t a i 最早提出了利用树的编辑距离来度量两x m l 文档间的相似度,在 此基上,z h a n g 和s h a s h a 等提出了计算两棵树间的编辑距离的算法。树编辑距离算法 的基本思想是将两棵树间的距离定义为利用编辑操作将一棵树转化为另一棵树所需 的代价【8 驯。但这种方法以固定的方式来描述元素结构之间的相互联系,在不同数据 集上其表现是有较大差异的。因此该方法缺乏可推广性和通用性j 同时算法的复杂 性较耐1 0 1 。l e e 等人创建了一个自动机,该自动机用于抽取x m l 文档的最小嵌套结构, 然后运用序列模式挖掘算法( s e q u e n t i a lp a t t e mm i n i n g ) 挖掘出最大频繁序列模式, 并计算出频繁序列模式在x m l 最小嵌套结构中所占的比重【1 1 1 。这种方法较准确的实 现了x m l 文档结构相似度的量化,但实现较为复杂。 路燕提出了对候选d t d 与用户查询结构的距离算法。该算法利用已有的度量算 法结合x m l 文档树型结构来度量文档之间的相似性【1 2 l ,可这只是从结构上度量了文 档间的相似性,现实世界中相似性不仅仅体现在结构上,更多的是隐含在文本中的 相似性。w a n gl i a n 等人通过判断x m l 文档结构间距离大小来计算x m l 文档间相似 度。这种方法需要对每一个x m l 文档进行分析,并根据文档的结构信息构建一个有 向图,然后在这个有向图的基础上衡量x m l 文档的相似度【1 3 1 。x m l 文档相似度的大 小是用两个有向图中所包含的公共边数与两个文档中边数较大的一个比值大小来确 定的,可是一些结构不同的x m l 文档可能由一样的元素构成,因此这种方法存在一 定的局限性,只是考虑了公共边的数目。 以上这些x m l 文档的相似度计算方法针对性较强,大多都是针对文档结构关系 进行相似度计算,缺乏可推广性和通用性,实际效果有限。 1 2 2 相似度计算应用研究现状 相似度计算作为信息处理的基础性技术,长期以来受到了众多学者的关注和研 究,并且关于相似度计算的文献总量在逐年递增。随着相似度计算研究的深入,其 应用领域也再不断扩大,下面是一些相似度计算在实际中的应用。 随着i n t e r n e t 迅猛的发展,互联网逐渐成为当今世界上最大的信息库,并为用户 o a i - p m h 中元数据相似度计算的研究与实现 提供了一个广阔的信息获取渠道,但其中不乏大量转载、重复信息。在搜索信息过 程中,必然会搜索到大量内容相似或者相同的资源,造成了信息搜索时间和信息存 储空间的浪费。因此需要对信息进行相似度计算,通过相似度计算实现信息消重处 理。这样不仅提高了信息搜索速度,而且还节省了存储空间。入侵监测系统( i n t r u s i o n d e t e c t i o ns y s t e m s ,i d s ) 是网络安全系统中继防火墙之后的第二道闸门,担任者重要 的角色。当前在i d s 中随着虚假和重复报警增多,检测到的误报率和漏检率也随之上 升,通过对报警属性进行相似度计算,可有效减少重复和虚假报警,使网络管理员 发现真实攻击。分类指在给定分类系统下,根据信息内容自动确定信息类别的过程。 其主要思想就是根据信息间的相似度把信息归到一个或多个类别中,因此相似度计 算是分类的基础,如g o o g l e 新闻分类。该分类通过新闻的相似度计算把相似的新闻 放到一个类中。聚类是在事先未知类的前提下把信息分成多个类,划分原则是通过 相似度计算把具有较高相似度的信息聚为一类。如在商务上,通过对消费者信息进 行相似度计算,把相近的消费者归为一类,从而发现不同的消费群体,以便用不同 的购买模式来描述不同消费群体的特征。电子商务的快速发展的同时安全问题也越 来越突出,网络钓鱼等非法网站对诚信造成了危机,严重威胁着电子商务的安全。 所以需要对不良信息进行过滤处理。通过对非法网页集中网页的学习,为每个非法 网页建立模板,然后对网页与某个模板进行相似度计算,根据相似度值来判断该网 页是否为非法网页。不良信息过滤为营造一个安全和健康的电子商务应用环境提供 了保证。 1 3 主要研究内容 本文的研究目标是:以o a i 协议中元数据为背景,通过对向量空间模型的深入 学习和研究,由此来实现元数据相似度计算。然后根据其相似性,为用户推荐相似 元数据,满足用户需求,提高信息服务质量。本文研究的内容主要包括: 1 深入研究目前常用的几种相似度计算方法,并对其性能进行分析,针对元数 据的结构特点,采用基于向量空间模型的文本相似度计算方法计算o a i 协议中元数据 间相似度。 2 分词是元数据相似度计算的第一步,它的好坏直接影响了相似度计算的精确 度,为此使用中国科学院计算技术研究所研究的i c t c l a s ,作为本文的分词工具。 通过研究当前常用的特征项选择方法,发现其准确率偏低,尚未达到人们期望的程 度,因此只使用过滤掉手段来选择特征项。考虑到元数据不同元素位置的特征项对 4 第一章绪论 相似度计算所产生的影响,采用位置权重系数改进的t f i d f 方法计算特征项权重, 构成与元数据文本对应的特征向量,然后运用夹角余弦的方法计算元数据文本特征 向量间的相似度。 3 在实现的服务提供者中集成了元数据相似度计算模块,并且详细描述了该模 块的设计与实现。然后通过元数据相似度计算实验验证了本文采用方法的可行性。 1 4 论文的组织结构 本文的组织结构如下: 第一章介绍了本文研究的背景,对相似度计算及其应用的研究现状进行综述, 最后指明了本文研究的主要内容和组织结构。 第二章主要叙述了元数据特点和结构,通过对元数据记录的分析,文本把文本 的相似度计算思想用于元数据的相似度计算。为了减小相似度的计算量,把t i t l e 、 d e s c r i p t i o n 和s u b j e c t 这三个元素的内容作为相似度计算的元数据文本。 第三章在深入研究相似度计算方法的基础上,本文采用基于向量空间模型的文 本相似度计算方法计算元数据间相似度。紧接着阐述了基于向量空间模型的文本相 似度计算方法的关键技术:中文分词、特征提取和特征项权重计算。在特征项权重 计算时,考虑到元数据x m l 文档中不同元素位置特征项对权重计算的影响,采用位 置权重系数改进的t f i d f 方法,并规定了元数据中t i t l e 、d e s c r i p t i o n 和s u b j e c t 这三个 元素的位置权重系数。 第四章详细论述了元数据相似度计算模块的设计与实现。通过实验结果分析, 采用基于向量空间模型的文本相似度计算方法对o a i 协议中元数据相似度计算是可 行的、有效的,并给出了相似元数据输出结果。 第五章对全文进行了总结并且指出了进一步的研究工作。 第二章o a i 协议 第二章o a i 协议 2 1o 趟协议简介 o 趟元数据获取协议( o a ip r o t o c o lf o rm e t a d a t ah a r v e s t i n g ,o a i p m h ) 是一个 以获取元数据信息的分布式协议【l4 1 。该协议定义了一个标准化的o a i 接1 2 1 ,通过该 接口,网络服务器能够将存储其中的元数据提供给需要这些数据的其它服务器。其 目的是解决w e b 平台上不同组织之间的互操作问题,形成一个与应用无关的互操作 框架,被广泛应用于资源整合、学科信息门户建立、个性化服务等领域【l5 1 。 o a i 协议的收集模型中包括两类角色:数据提供者( d a t ap r o v i d e r s ,d p ) 和服务 提供者( s e r v i c ep r o v i d e r s ,s p ) 1 6 - 1 9 】,其主体结构框架图如图2 1 所示。 o 图2 10 a i 技术框架 f i g 2 1o a it e c h n i c a lf r a m e w o r k d p :数据提供者是协议中元数据资源的提供方。它通过o a i 协议向外发布元数 据,同时提供o a i 接口。 s p :服务提供者是协议中元数据资源的收集方。它根据收集地址向数据提供者 发送元数据收集请求,数据提供者接受请求后以x m l 文档形式返回元数据。服务提 供者收集到元数据后,储存在本地元数据库中,然后向用户提供统一的查询界面, 为用户提供增值服务。 7 o a i p m h 中元数据相似度计算的研究与实现 2 2 元数据特点 目前,不同的专业领域通常有各自的元数据标准,命名方式等规则也千差万别。 o a i 协议要求所有数据提供方都必须支持一种核心的元数据格式,即d u b l i nc o r e 格 式,同时又允许多种元数据格式并存。这样既不会影响其原始的数据结构,又可以 为用户提供多种丰富的元数据信息,满足了不同领域的要求【2 0 - 2 2 1 。元数据的主要特 点是:交互性和跨平台性。 2 2 1 交互性 按照o a i 协议规定,数据提供者必须能够发布支持d c 格式的元数据【2 3 】,但其 它元数据格式也可以选择,本文只讨论d c 格式元数据。d c 中的1 5 个元素都具有 一个能够容易理解的语义,它对任何资源都可以进行描述,并非某一具体学科专用, 而且每个元素可以重复使用,元素的含义不因其是否嵌入所描述的资源而受到影响。 这样为元数据的交互性提供了可能。表2 1 给出了d c 元素。 表2 - 1d u bli nc o r e r , 素 t a b 2 - 1e l e m e n to f d u b l i nc o r e 元素定义说明 标题( t i t l e ) 资源名称为使资源对外公开而为其指定的一个规范名称。 关键词从资源内容中抽象出词语或者短语,这些词语或者短 资源关键词 ( s u b j e t 0 语是对资源内容的高度概括。 描述对资源内容的大致描述,其中可以包括:摘要、文本 对资源内容的简单总结 ( d e s c r i p t i o n ) 内容和目录等。 使用哪种语言来描述元数据。推荐采用r f c3 0 6 6 语种 【r f c 3 0 6 6 标准,它和i s o6 3 9 i s 0 6 3 9 - - 起定义了标 描述资源所用的语种 ( l a n g u a g e ) 识语种,该标识语种是由两个或三个英文字母组成的 主标签和可选的子标签来构成的。 来源 当前资源可以从什么地方获得。采用规范的字串或数 对当前资源出处的描述字组合来表明资源出处。如u r l 、u r n 、u r i 、d o i 、 ( s o u r c e ) i s s n 等。 关联 描述其它资源和该资源的关系,采用规范的字串或数 对相关资源的描述 字组合来表明资源出处。如u r l 、u r n 、u r i 、d o i 、 ( r e l a t i o n ) i s s n 等。 第二章o a f 协议 通过空间位置( 如:地名或地理坐标) 和时间区间( 如: 时间标识、日期或一个日期范围) 来描述覆盖范围。 覆盖范围对资源空间位置和时间 通常覆盖范围是从一个受控词表中获取的,并且要求 ( c o v e r a g e ) 区间的描述 使用由数字表示的地理坐标或日期范围来对地名与时 间段进行描述。 创建者描述资源是哪个创建着创建。创建着具体指:个人名 创建资源的主要负责者 ( c r e a t o r ) 称、组织名称或企业名称。 出版者描述资源是哪个出版着出版。出版着具体指:个人名 资源被出版的负责者 ( p u b l i s h ) 称、组织名称或企业名称。 其他责任者对资源做出贡献的其他描述资源的参与和贡献者。其他责任者具体指:个人 ( c o n t r i b u t o r )负责者 名称、组织名称或企业名称。 描述资源享有的或被赋 一般而言,权限元素应包括一个对资源的版权管理描 权限( r i g h t s )述信息,或者是对提供这一信息的服务的参照。通常 予的权限信息 包括知识产权( 妒r ) 、版权或其它各种各样的权限。 与资源创建、修改或删除 日期是指资源创建、修改或删除的时间。一般采用的 日期( d a t e )日期格式要符合i s o8 6 0 1 w 3 c d t f 规范要求,如使 有关的日期 用y 帆m m d d 的格式。 类型是资源性质的描述,一般包括种类、功能说明、 作品集或聚类层次等描述性术语。要求该值从受控词 类型( t y p e ) 描述资源的特性 表中取得( 如d c m i 类型词汇表 d c m i t y p e ) 。如果 资源是以物理或数字化形式描述的,那么使用f o r m a t 来表示。 采用字符串和数字组合来作为资源的标识符,但这些 资源标识 标识符字符串和数字组合要符合具体的要求。一个标识体应 ( i d e n t i f i e r ) 该包括统一资源标识符、统一资源定位符、数字对象 标识符和国际标准书号等。 描述资源以什么样的形式表现出来。通常而言,格式 格式包括资源的媒体类型或资源容量,用于指定表示或操 资源的表现形式。 ( f o r m a t ) 作资源的软硬件环境。格式的值要求使用受控词表中 的值。 2 2 2 跨平台性 服务提供者采用h t t p 协议的g e t 或p o s t 方法向数据提供者发送请求,数据 提供者接受到请求后,以x m l 格式编码的元数据响应给服务提供者。 9 o a i p m h 中元数据相似度计算的研究与实现 x m l 是e x t e n s i b l em a r k u pl a n g u a g e 的缩写,它是w 3 c 制定的用于描述数据文 档中数据的组织和安排的结构语言,是一种标识语言【2 4 1 。在这点上,它类似于h t m l , 但x m l 关注的不是数据在浏览器中如何布局和显示,而是关注于怎样描述数据内容 的组织和结构以便数据在网络上进行交流和处理。它最大特点在于它的独立于平台 地表示数据,实现了数据的平台无关性。x m l 能够轻而易举地交换数据,解决电子 数据交换复杂困难的缺点。 o a i 协议中元数据正是采用x m l 格式编码,因此具有与平台的无关性,实现了 元数据的跨平台。 2 3 元数据结构 o a i 协议中服务提供者收集的元数据是以记录的方式组织,每条记录都对应一条 完整的元数据信息,也就是说元数据结构是记录形式的。其中主要由两部分组成: 头部( h e a d e r ) 和元数据( m e t a d a t a ) 。 ( 1 ) 头部:主要由记录标识符( i d e n t i f i e r ) 和时间戳( d a t e s t a m p ) 组成。记录标 识符是该条记录的唯一标识,用来识别记录,与记录一一对应。时间戳是关于某条 记录创建、修改和删除的时间信息。 ( 2 ) 元数据:记录的核心部分,这部分给出了元数据的详细信息。元数据记录中 o a i d c :d c 表明所采用的元数据格式为d c 格式,t i t l e 、s u b j e c t 、d e s c r i p t i o n 等都是按照 d c 格式的元数据信息。 以下是一条元数据记录的实例及其分析: 记录开始 头部开始 o a i :o a i c a t o c l c o r g :2 0 0 2 o c m l1 9 9 2 1 6 0 2 0 0 8 - 0 3 - 3 1 t 0 8 :4 8 :2 9 z 头部结束 l 元数据开始 1 0 第二章o a f 协议 关于财政支农问题的若干理论思考 标题 邓子基 攥写者 福建论坛人文社会科学版编辑部 出版者 财政支农:三农问题;财政补贴 关键词 q 了文 所用语言 财政投资主要是公共产品领域,由于我国农业的特殊性,农业本 身在相当大程度上具有公共产品的性质。因此,我国财政应当对具有公共产品性 质的农业承担起保护和扶持责任。 摘要 2 0 0 4 0 4 0 1 i j 期 文章 类型 厦门大学 其他责任者 p d f 格式 元数据结束 记录结束 从元数据记录分析可以看出:构成元数据的1 5 个元素位于同一父节点m e t a d a t a 下,都是叶子节点,并且各元素彼此独立不存在元素嵌套结构,因此元数据相似度 计算不用考虑x m l 文档的结构问题,但目前的x m l 文档相似度计算方法大多都是 基于文档结构的相似度计算,而且时空开销大、缺乏可推广性和通用性,因而x m l 文档的相似度计算方法对于元数据相似度计算不适合;同时元数据中t i t l e 、s u b j e c t 等元素的内容又可以看成一个对元数据描述的文本,文本的相似度计算思想可以用 于元数据的相似度计算。所以本文采用文本的相似度计算方法来度量元数据间相似 度。 虽然本文把文本的相似度计算思想用于元数据的相似度计算,但是如果把元数 据所有元素的内容表示为一个文本,会使元数据文本冗长、相似度计算量大。因此, 需要选择一些能够代表元数据的元素。元数据符合d c 格式标准,从d c l 5 个元素的 定义和说明可以看出,t i t l e 、d e s c r i p t i o n 和s u b j e c t 这三个元素分别代表了元数据的标 题、描述和关键词,是元数据的主要内容和关键部分,能够代表一条元数据,可以 用它们描述的内容来表示一个元数据文本。 o a i p m h 中元数据相似度计算的研究与实现 2 4 本章小结 本章简要的介绍了o 灿协议,然后详细的论述了元数据特点和结构,并对元数据 记录进行了分析。经过分析后,把文本的相似度计算思想用于元数据的相似度计算。 但如果把元数据所有元素的内容表示为一个文本,会使元数据相似度计算量大、计 算复杂,因此选择了元数据q u t i t l e 、d e s c d p t i o n 年1 l s u b j e c t 这三个元素的内容来表示一条 元数据,作为相似度计算的元数据文本。 1 2 第三章相似度计算方法的研究 第三章相似度计算方法的研究 相似度计算作为信息处理中一项基础性技术,被广泛应用于信息检索、推荐和 挖掘等领域。通过它可以有效的组织信息,方便用户在海量的信息中获取所需的信 息内容,因此需要对相似度计算方法进行研究。当前存在很多相似度计算方法,但 并不存在最佳方法,每个方法都存在优缺点。下面介绍一些主要的相似度计算方法。 3 1 相似度计算的主要方法 3 1 1 基于向量空间模型的文本相似度计算方法 向量空间模型( v s m :v e c t o rs p a c em o d e l ) 是s a l t o n 等人于6 0 年代末首先提 出,是近年来使用较多且效果较好的一种信息处理模型。并在著名的s m a r t 系统 得到了成功的应用。 在向量空间模型中,文本可用它所含有的特征项来表示,即文本d 可以表示为 d = l ,f 2 ,r ,r 。) 。其中,t p ( 1 p 疗) 表示特征项,刀表示文本特征项的个数。对 于行个特征项的文本,t 。常常被赋予一个权重值w 。,用于表示该特征项在文本中的 重要程度。如果把t l ,t 2 ,f p ,t 。) 视为空间中的坐标系,那么l ,w 2 ,w ,w 。j 就 是其空间中相对应的坐标值,此时文本d 可以表示为( w 。,w :,w ,w 。) ,那么 d = 。,w :,w p ,w 。) 被认为是玎维空间中的一个向量,称作文本的向量表示。这 样就将文本信息的匹配问题转化为向量空间中矢量计算的问题,降低了文本相似度 计算的难度。向量空间模型常用的权重计算方法是t f i d f ,该方法综合考虑了不同 特征项在文本中的出现次数( t f 值) 和该特征项对不同文本的区分能力( i d f 值) , 被广泛的应用于文本相似度的计算。两文本用向量表示后,两者的相似程度可用向 量之间的夹角来度量,夹角越小,相似度越高:反之相似度越d x 2 5 1 。 计算相似度的方案有许多种,常用的有:内积、d i c e 系数、j a c c a r d 系数和余弦 系数等【2 6 1 。 设文本的向量表示:d 。= 。,w :,wp ,w 。) ,d :,叫,w :,w :) ,则d 。与 d ;之间的相似度用上述方法分别表示如下: ( 1 ) 内积 朋p ,d 舻d ,d j ( 3 1 ) o a f p m h 中元数据相似度计算的研究与实现 ( 2 ) d i c e 系数 2 x a 。幸d ; i 所p ,) = 百旦了一 ( 3 - 2 ) d 。2 + p i = 1i = l ( 3 ) j a c c a r d 系数 d ,橐形 & 聊p ,d j ) = i 哼l 了一 ( 3 - 3 ) 吐2 + p 一d ,毒 i = lt = li = l ( 4 ) 余弦系数 ( 3 - 4 ) 向量空间模型的最大优点是它对于文本表示有着巨大的优势,但向量空间模型 也有不足之处。向量空间模型认为特征项都是相互独立的,虽然由此带来了计算上 的方便,但却损失了大量的文本语义信息。 3 1 2 基于汉明距离的文本相似度计算方法 汉明距离是信息论中一个基本的概念,用来描述两个力长码字 m = m l ,m 2 ,m 。) ,力= o l ,刀2 ,拧。) 之间的距离: 、l a ( m ,刀) = m po 丹p ( 3 - 5 ) p = l 其中m p 0 ,1 ) ,玎, o ,1 ) 。d ( m ,”) 表示两码字在相同位置上不同码符号的数目 总和,反映了两码字之间的差异,为码字之间的相似程度计算提供了客观依据【2 7 1 。 对于文本来说,可首先根据文本中的关键词、文摘等信息排列成一个刀位序列的 码字,文本就可以用这些码字来表示,这样使得文本与码字建立了一一对应关系。 比如文本d ,它表示为d = ( 1 0 0 111 0 0 0 1 0 1 0 0 0 1 ) 。在这里0 和l 表示相对应的文本信 息的状态:1 表示文本在这分量位置上有信息,0 表示文本在这一分量位置上没有信 息,反之也可类似定义。对于文本集,把文本集的中文文本转化为与之对应的码字, 构成了一个码字集。因此,研究文本集中的文本相似关系,就用码字之间的汉明距 离来表征。具体地,设文本d ,的对应码字为m j ,文本d :的对应码字为m :,则m 。和m ; 这两个码字的汉明距离,可用公式3 5 计算,它较好的反映了文本间的相似关系。 1 4 第三章相似度计算方法的研究 基于汉明距离的文本相似度计算方法常常被用于句子的快速模糊匹配等领域, 但在该方法中,规定的编辑操作并不灵活,而且是以字作为相似度计算的基本单位, 单个的字在中文中往往是不具备意义的。 3 1 3 基于语义理解的文本相似度计算方法 与前面两种基于统计学的文本相似度计算方法相比,基于语义理解的文本相似 度计算方法所用训练时间短,语料库的支持需求少,而且相似度计算准确率较高。 较为典型的方法是金博、史彦军等提出的利用知网知识模型及其知识描述语言相似 度计算的方法。该方法全面可靠的分析了词语相似度;接着通过句子分词以及句子 结构分析计算出句子相似度,然后根据句子与段落间的关系计算段落间相似度,进 而推广到全文相似度【2 剐。但目前基于语义理解的文本相似度计算还处于完善阶段, 而且大多限于词语和句子范围,计算效率不高、计算方法复杂,实际应用不多。 本节中介绍了三种基于文本的相似度计算方法:基于向量空间模型的文本相似 度方法、基于汉明距离的文本相似度计算方法和基于语义理解的文本相似度计算方 法。其中前两种基于统计理论的方法采用较为简便的相似度计算机制,并且在处理 文本方面也取得过令人满意的效果。而基于语义理解的计算方法目前还处于探索完 善阶段,计算量大、计算方法复杂,实际应用较少。而在两种基于统计理论的方法 中,基于向量空间模型的方法是最为成熟而且效果较好的一种方法,应用非常广泛。 在此模型中,可以把文本表示成空间中的一个向量,这样文本相似度的计算处理就 简化为空间中向量夹角的运算,使问题的复杂程度大大降低,提高了文本分析处理 速度和效率;另外,文本以空间中向量的形式表示,使得其它领域中各种比较成熟 的计算方法得以应用,如:向量空间模型中针对不同的问题可以使用不同的权重评 价方法,这样极大提高了文本的操作性。 本文己在2 2 3 小节中给出:运用文本的相似度计算思想来解决元数据的相似度 计算,结合上述对三种文本相似度计算方法的总结,采用基于向量空间模型的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论